Pesquisas – C4AI

As atividades de pesquisa no C4AI estão organizadas em torno de cinco Grandes Desafios que combinam aspectos fundamentais da inteligência artificial com aplicações em áreas selecionadas como agronegócio, clima e saúde. Os desafios atuais são:

NLP2

Recursos para Levar o NLP em Português para o Estado-da-Arte

Produzindo e coletando dados e ferramentas que permitam um alto nível de desempenho no Processamento de Linguagem Natural em Português.

Líderes: Marcelo Finger, Sandra M. Aluísio and Thiago A. S. Pardo

Contato

Sobre

Nosso objetivo é produzir ferramentas computacionais de suporte ao Português do Brasil que possibilitem aplicativos de última geração. Estamos concentrados tanto na modalidade escrita quanto falada do Português, com foco em três tarefas principais:

com uma perspectiva sintática, pretendemos produzir um corpus multi-gênero com milhões de palavras de textos anotados para a construção de modelos robustos de análise;
com uma perspectiva de modelo de linguagem, pretendemos gerar um pipeline para a construção de modelos neurais baseados em contexto, com aplicações em inferência de linguagem natural; e,
para a linguagem falada, pretendemos construir corpora multi-tarefa para reconhecimento de fala, síntese multi-locutor, identificação de locutor, clonagem de voz e classificação de fala como biomarcador, produzindo uma base de português brasileiro falado gravado e transcrito.

Objetivos

Levar o Processamento de Língua Natural em Português ao estado da arte mundial, efetivamente tirando o Português da condição de língua de poucos recursos (“low-resource language”), provendo ferramentas essenciais e aplicações em algumas demandas críticas da sociedade.

Nosso objetivo é obter, na frente sintática:

Corpus anotado com Universal Dependencies (pelo menos 5 milhões de tokens);
Modelo de anotação linguística refinado (adaptado para a língua portuguesa e demandas multi-gênero);
Melhores modelos de análise para português.

Em modelos de distribuição e NLI (“Natural Language Inference”, ou, em Português, “Inferência Textual”), pretendemos obter:

Corpus de texto simples com um bilhão de tokens disponibilizados publicamente;
Pipeline de treinamento para modelos de distribuição;
Classificação NLI completa com relatório de distribuição e gaps;
Modelos distribucionais aplicados à classificação NLI treinada no SICK-BR (em uma abordagem evolutiva).

Para a linguagem falada, pretendemos executar:

Treinamento de dois modelos, um para identificação de locutor e outro para reconhecimento de fala, a partir dos conjuntos de dados compilados.

Equipe

Clique para ver a equipe NLP2

Sites de Projeto (Externos)

NLP2 – Web portal

POeTiSA – Portuguese processing: Towards Syntactic Analysis and parsing

TaRSila – Tarefa de Anotação para o Reconhecimento e Síntese de fala da Língua Portuguesa

Carolina – Corpus geral do Português Brasileiro contemporâneo

PROINDL

Tecnologias de Inteligência Artificial no Fortalecimento das Línguas Indígenas do Brasil

Usando a Inteligência Artificial em parceria com comunidades indígenas para o desenvolvimento de ferramentas que auxiliem a preservação, revitalização e disseminação de línguas indígenas do Brasil.

Líderes: Claudio Pinhanez, Luciana Storto

Contato

Sobre

A grande maioria das línguas indígenas do Brasil está sob a ameaça de desaparecer até o fim do século 21. Por um lado, os povos indígenas e seus territórios continuam sob ataque de indivíduos e organizações, com invasões, disseminação de doenças, e destruição dos ecossistemas dos quais dependem. Por outro lado, os violentos processos iniciados com a colonização e que persistem como a migração forçada, a catequese e a imposição de línguas europeias, têm afetado significativamente o número de falantes das línguas indígenas.

Este projeto conjunto da IBM Research e da USP explora a criação e uso de Inteligência Artificial para o desenvolvimento, em parceria com comunidades indígenas, de ferramentas que auxiliem a preservação, revitalização e disseminação das línguas indígenas do Brasil. Contudo, embora a IA tenha avançado a passos largos nos últimos 10 anos em línguas como o inglês e o chinês, seu uso em contextos de línguas indígenas ainda é incipiente e dificultado pela falta de dados e de programas de apoio à pesquisa e desenvolvimento. O PROINDL foca em explorar soluções inovadoras para esses desafios.

Este projeto está integrado aos objetivos e princípios da Década Internacional das Línguas Indígenas estabelecida em 2022 pela ONU e pela UNESCO, visando o fortalecimento e continuidade de línguas indígenas em todo o mundo, articulado na “Declaração de Los Pinos” (Chapoltepek). Dentro deste contexto, temos em andamento parcerias com comunidades indígenas na área da cidade de São Paulo que exploram, conjuntamente com seus membros, o desenvolvimento de soluções necessárias, desejadas e sustentáveis.

Objetivos

O projeto compreende as seguintes áreas de trabalho:

Adaptação de Tecnologias de IA para Línguas Indígenas: exploram-se e desenvolvem-se técnicas e algoritmos que utilizam poucos dados, com o auxílio de Grandes Modelos de Linguagem (LLMs), no desenvolvimento de tradutores automáticos, tanto para texto como fala; e no uso de IA no apoio à escrita e uso das línguas indígenas por suas comunidades na escola, no dia-a-dia e nas redes sociais.
Ferramentas de Apoio ao Trabalho Linguístico: estão sendo exploradas oportunidades do uso de IA na documentação e análise linguística, através do acompanhamento de atividades de registro, coleta de dados, pesquisa e análise, realizadas em e com diversas comunidades indígenas. A partir das observações e através de um processo de co-design com linguistas e falantes de línguas indígenas, serão desenvolvidas ferramentas de apoio ao trabalho linguístico.
Uso de Línguas Indígenas nas Redes Sociais: baseado em um mapeamento do uso de línguas indígenas nas redes sociais no Brasil, estão sendo investigadas ferramentas e tecnologias de apoio para a difusão e o uso de línguas indígenas nas redes sociais, sob o controle e gerência das lideranças e comunidades indígenas.
Robôs e Chatbots na Educação Indígena: em um esforço pioneiro, estão sendo exploradas tecnologias avançadas de uso de robôs sociais e chatbots em atividades de educação com crianças e jovens indígenas, em parceria com escolas indígenas.
Ensino de Informática, Programação e Linguística para Indígenas: o projeto contempla programas de ensino de informática, programação de computadores e documentação e análise linguística para membros e apoiadores de comunidades indígenas, visando garantir a continuidade sustentável das tecnologias desenvolvidas.

Equipe

Clique para ver a equipe PROINDL

Sites de Projeto (Externos)

Conexões Originárias

KEML

Aprendizado de Máquina Enriquecido por Conhecimento para Raciocínio sobre Dados Oceânicos

Combinando aprendizado baseado em dados e raciocínio baseado em conhecimento para responder consultas complexas sobre a Amazônia Azul.

Líderes: Fabio Cozman and Eduardo Tannuri

Contato

Sobre

Avanços recentes em IA têm dependido do processamento paralelo de imensos conjuntos de dados para obter, por meio de otimização, modelos de grande porte. Avanços adicionais serão possíveis ao se trazer representação do conhecimento e técnicas de planejamento de modo a tornar o aprendizado mais eficiente, menos frágil e livre de vieses.

Nesse contexto, investigamos agentes conversacionais que podem responder a perguntas de alta complexidade. Conversas com tais agentes devem incluir argumentos, causas, explicações e raciocínios; devem também ser possível conduzir uma conversa ao longo do tempo e com um objetivo definido, levando em consideração os desejos e as intenções do usuário. No geral, esses agentes conversacionais são um laboratório para estudar a conexão entre o aprendizado de máquina baseado em dados e o raciocínio e planejamento baseados no conhecimento.

Objetivos

O objetivo concreto deste projeto é desenvolver uma estrutura para agentes conversacionais que possam responder a consultas de alto nível ao longo do tempo em um domínio particular, incluindo questões, argumentos, causas, explicações, inferências e planos sobre tarefas específicas. Estamos construindo um especialista em conversação sobre a Amazônia Azul para testar esta tecnologia; esperamos desenvolver ferramentas gerais que não sejam excessivamente vinculadas a um domínio particular, de modo que possam ser especializadas para qualquer domínio de interesse. Um objetivo mais amplo é investigar como esses agentes conversacionais podem se beneficiar simultaneamente de técnicas baseadas em dados e em conhecimento.
O Blue Amazônia Brain (BLAB) pretende incorporar toda a informação existente sobre a Amazônia Azul, tanto capturando conhecimento técnico na forma de regras e fatos quanto processando fontes de dados disponíveis a partir de sensores e de informações textuais, incluindo artigos científicos e informações de jornais.

Equipe

Clique para ver a equipe KEML

GOML

Aprendizado de Máquina Orientado a Grafos para Diagnóstico e Reabilitação de AVCs

Avançando o diagnóstico, tratamento, e reabilitação de AVCs com aprendizado de máquina orientado a grafos com dados multimodais.

Líderes: José Krieger and Zhao Liang

Contato

Sobre

Os avanços recentes em aprendizado de máquina na medicina têm sido notáveis. No entanto, ainda existem tópicos importantes que precisam ser abordadas. Aqui lidamos com duas questões importantes:

1) Como integrar e selecionar atributos médicos relevantes (biomarcadores) de fontes heterogêneas e dinâmicas em grande escala?

Em aplicações de aprendizado de máquina na medicina frequentemente temos que lidar com conjuntos de dados heterogêneos e dinâmicos de grande escala. Por exemplo, no caso de aplicações e pesquisas científicas relacionadas a acidente vascular cerebral (AVC), vários tipos de dados acumulados por longo período de tempo, como por exemplo textos, imagens, biomarcadores genéticos, sinais elétricos, sintomas, estão disponíveis até mesmo para um único paciente. A integração de informações é essencial para tratar corretamente os problemas de saúde, uma vez que os profissionais de saúde raramente usam apenas um tipo de informação para resolver um problema médico. Outro aspecto importante ao lidar com uma grande quantidade de atributos é selecionar adequadamente os mais relevantes: entender quais atributos são mais relevantes para a classificação de um AVC fornece informações importantes para um diagnóstico e tratamento rápido e preciso.

2) Como interpretar decisões tomadas por algoritmos de aprendizado de máquina e como integrar inteligência humana e artificial?

Atualmente as técnicas de aprendizado de máquina bem-sucedidas não fornecem mecanismos explícitos para explicar de forma satisfatória como um determinado resultado é alcançado. Uma explicação lógica é necessária em muitas aplicações médicas, por exemplo, no diagnóstico de doenças. A falta de interpretabilidade impacta profundamente as oportunidades de integração entre inteligência humana e artificial na medicina. Na maioria dos casos, os profissionais de saúde ainda consideram os algoritmos de aprendizado de máquina como caixas-pretas. Isso é altamente influenciado pela falta de interpretabilidade das estratégias de aprendizado de máquina.

Nosso trabalho lida principalmente com o Acidente Cerebrovascular (AVC) como o domínio de aplicação. Segundo a OMS, mais de um bilhão de pessoas no mundo têm alguma deficiência; entre as doenças crônicas, o AVC se destaca por ser a principal causa de invalidez e a segunda causa de morte no mundo. Muito progresso tem sido feito no entendimento dos fatores de risco, mortalidade e reabilitação do AVC; no entanto, a incidência continua a aumentar como resultado do envelhecimento da população e de outros fatores de risco. A identificação de biomarcadores de AVC mais precisos e sensíveis pode ajudar a modificar esta situação preocupante. Além disso, o desenvolvimento de abordagens diagnósticas com alta precisão e previsão de resultados individualizados é uma das principais ambições e uma das estratégias do plano de ação global da OMS 2014-2021 (ODS – objetivo 3, melhor saúde para todos em todas as idades).

Objetivos

O objetivo aqui é duplo.

Contribuir para a área de aprendizado de máquina desenvolvendo novas técnicas para lidar com AVCs.
Aplicar novas técnicas de aprendizado de máquina orientadas a grafos (GOML), a serem desenvolvidas neste projeto, para obter um melhor entendimento do AVC (causas, impacto, formas de melhorar a decisão e reabilitação). Também é importante investigar formas de mitigar o impacto do AVC na população brasileira, o que trará uma importante contribuição social.

Para o estudo proposto, usaremos conjuntos de dados de AVC ATLAS (Traçados Anatômicos de Lesões Pós-AVC), InCor (Instituto do Coração da Faculdade de Medicina da USP).

Equipe

Clique para ver a equipe GOML

AgriBio

Tomada de Decisão Causal Multicritério em Redes de Produção Alimentar

Desenvolvendo modelos causais multicritério baseados em IA para tomada de decisão sob incerteza em redes de produção alimentar.

Líderes: Antonio Saraiva and Alexandre Delbem

Contato

Sobre

Os ciclos produtivos do agronegócio, a sustentabilidade ambiental e a segurança alimentar são demandas atuais que desafiam as autoridades mundiais. Neste contexto, são desafios significativos a modelagem adequada de informações heterogêneas em grande escala, a criação de sistemas de aprendizado com o dinamismo de ambientes reais, e métodos que encontram um equilíbrio entre muitas preocupações sobre custos e benefícios. O aprendizado de representações, o aumento de resiliência e a tomada de decisão multicritério são ferramentas importantes para lidar com esses desafios.

A construção de modelos causais confiáveis é um problema em aberto. Métodos avançados de geração de Redes Bayesianas Dinâmicas (DBNs) baseados na captura de conhecimento tácito podem levar a modelos causais que combinam variáveis contínuas e discretas (um nível de heterogeneidade) e que também sejam adaptativos.

A hibridização de modelos convencionais baseados em conhecimento e métodos de aprendizado, através de ensembles, é uma estratégia possível para produzir soluções para problemas reais complexos. Esses processos podem incrementar resiliência por meio da avaliação e melhora de conjuntos de dados e da seleção de parâmetros do sistema de aprendizado (como meta-atributos) em um cenário de configuração de ensemble, seleção de ensemble dinâmico e meta-aprendizado. A integração de modelos aprimorados com resiliência com as abordagens baseadas em DBN pode gerar um nível de resiliência preditiva mais alto.

A construção de novas abordagens para a tomada de decisão multicritério que combinem as soluções encontradas pelas técnicas convencionais baseadas no conhecimento e pelos métodos de aprendizado propostos parece ser uma estratégia promissora para gerar inovações de curto e longo prazo.

Um aspecto importante da segurança alimentar são as mudanças climáticas, envolvendo principalmente o abastecimento de água. Modelos hidrológicos devem ser investigados com o objetivo de desenvolver métodos preliminares para combinar abordagens baseadas em conhecimento e baseadas em dados. Modelos para condições hidrológicas críticas, como secas e inundações, também devem ser investigados a fim de beneficiar as previsões de escassez hídrica ou de perecibilidade das culturas.

Objetivos

Aprendizado de Representação: Novas abordagens para Informação Heterogênea podem emergir a partir de extensões de técnicas de representação voltadas a construir um espaço de recursos unificado. Neste tipo de abordagem, é gerado um embedding para incorporar os principais padrões e correlações existentes nos múltiplos tipos de informação. Sua integração com métodos de modelagem que capturam conhecimento tácito pode contribuir para o Aprendizado de Representação Dinâmica. O primeiro desafio é a aquisição automática dessas estruturas e sua integração com DBNs.
Aumento de Resiliência: A investigação de ensembles adaptativos (evolutivos) com grandes margens para o aumento da resiliência em aprendizado é promissora. A combinação multiobjetivo de medidas de separabilidade pode permitir encontrar padrões da distribuição da amostra marginal que, por sua vez, pode produzir aprendizado resiliente. A investigação de abordagens baseadas em DBN pode permitir a integração de resiliência preditiva e o aprendizado de representação, como dinamismo (lidando com variações de conceitos) e heterogeneidade. Além disso, a construção de DBNs em larga escala é um desafio no qual os algoritmos evolutivos multiobjetivos (MOEAs) com representação adequada podem ter sucesso.
Tomada de Decisão: As técnicas convencionais de AgriBio baseadas em conhecimento na tomada de decisão multicritério são relevantes para lidar com as demandas conflitantes no AgriBio. A robustez ou a estabilidade das frentes aproximadas pela técnica de Pareto são os fundamentos para a criação de novas abordagens dedicadas aos desafios do AgriBio frente à incerteza. Critérios de resiliência devem ser escolhidos ou formulados para lidar com as mudanças climáticas e de mercado. Devem também possibilitar a construção de procedimentos para tomada de decisão a partir das soluções encontradas pelas técnicas desenvolvidas neste projeto.

Equipe

Clique para ver a equipe AgriBio

Al Humanity

IA em Países Emergentes: Políticas Públicas e o Futuro do Trabalho

Mapeando, entendendo, e lidando com o impacto da IA em países emergentes.

Líderes: Glauco Arbix, João Paulo Veiga

Contato

Sobre

Sociedades estão cada vez mais delegando aos sistemas de IA decisões complexas e de alto risco, como diagnosticar pacientes, contratar trabalhadores, conceder liberdade condicional e gerenciar transações financeiras. Ao mesmo tempo, existe um consenso significativo de que, no campo da IA, países emergentes estão atrasados em relação aos países pioneiros, em particular os EUA e China.

Países como o Brasil precisam urgentemente se aproximar das melhores práticas em IA. Para tanto, devem desenvolver estratégias de qualificação de profissionais, avançar na construção de um ecossistema específico e no desenvolvimento de políticas públicas voltadas para a realização do potencial do país. Além disso, a IA, a automação e a digitalização rápida podem favorecer a redução do emprego e alterar o mercado de trabalho; o uso de técnicas biométricas pode acentuar preconceitos; o comportamento de empresas sem uma base de valores pode erodir princípios éticos e até democráticos adotados pela sociedade.

É necessário examinar questões relativas a responsabilidades, examinando os limites das estruturas regulatórias atuais para lidar com impactos díspares e inesperados e para prevenir danos algorítmicos à sociedade. Dado o amplo impacto da IA, essas questões urgentes só podem ser abordadas com sucesso a partir de uma perspectiva multidisciplinar.

Objetivos

Analisar os impactos da IA nas estratégias individuais de busca de emprego, nas políticas de recrutamento da empresa, na ética corporativa e na definição de qualificações profissionais.
Identificar as novas competências exigidas pela IA e definir diretrizes para a qualificação dos profissionais de forma a mitigar os impactos no emprego e o aumento da desigualdade.
Avaliar o progresso das técnicas biométricas e do quadro regulatório em formação no país, de forma a garantir a segurança e privacidade dos dados pessoais.
Avançar o debate sobre ética empresarial, regulação e autorregulação.
Classificar as empresas brasileiras com base em indicadores de ética corporativa e compará-las com indicadores internacionais.
Analisar a relação entre a qualidade da informação de interesse público e a qualidade da democracia.
Explorar as interações entre humanos e robôs sociais inteligentes, com especial atenção ao contexto social, cultural e econômico, a fim de formular diretrizes e protocolos para o desenvolvimento e aplicação de tecnologia que vise estabelecer relações éticas e seguras entre humanos e máquinas.

Equipe

Clique para ver a equipe AL HUMANITY

Pesquisas no C4AI

NLP2

Recursos para Levar o NLP em Português para o Estado-da-Arte

PROINDL

Tecnologias de Inteligência Artificial no Fortalecimento das Línguas Indígenas do Brasil

KEML

Aprendizado de Máquina Enriquecido por Conhecimento para Raciocínio sobre Dados Oceânicos

GOML

Aprendizado de Máquina Orientado a Grafos para Diagnóstico e Reabilitação de AVCs

AgriBio

Tomada de Decisão Causal Multicritério em Redes de Produção Alimentar

Al Humanity

IA em Países Emergentes: Políticas Públicas e o Futuro do Trabalho

Uma parceria de: