As atividades de pesquisa no C4AI estão organizadas em torno de cinco Grandes Desafios que combinam aspectos fundamentais da inteligência artificial com aplicações em áreas selecionadas como agronegócio, clima e saúde. Os desafios atuais são:
NLP2
Recursos para Levar o NLP em Português para o Estado-da-Arte
Produzindo e coletando dados e ferramentas que permitam um alto nível de desempenho no Processamento de Linguagem Natural em Português.
Líderes: Marcelo Finger, Sandra M. Aluísio and Thiago A. S. Pardo
Nosso objetivo é produzir ferramentas computacionais de suporte ao Português do Brasil que possibilitem aplicativos de última geração. Estamos concentrados tanto na modalidade escrita quanto falada do Português, com foco em três tarefas principais:
Levar o Processamento de Língua Natural em Português ao estado da arte mundial, efetivamente tirando o Português da condição de língua de poucos recursos (“low-resource language”), provendo ferramentas essenciais e aplicações em algumas demandas críticas da sociedade.
Nosso objetivo é obter, na frente sintática:
Em modelos de distribuição e NLI (“Natural Language Inference”, ou, em Português, “Inferência Textual”), pretendemos obter:
Para a linguagem falada, pretendemos executar:
PROINDL
Tecnologias de Inteligência Artificial no Fortalecimento das Línguas Indígenas do Brasil
Usando a Inteligência Artificial em parceria com comunidades indígenas para o desenvolvimento de ferramentas que auxiliem a preservação, revitalização e disseminação de línguas indígenas do Brasil.
Líderes: Claudio Pinhanez, Luciana Storto
A grande maioria das línguas indígenas do Brasil está sob a ameaça de desaparecer até o fim do século 21. Por um lado, os povos indígenas e seus territórios continuam sob ataque de indivíduos e organizações, com invasões, disseminação de doenças, e destruição dos ecossistemas dos quais dependem. Por outro lado, os violentos processos iniciados com a colonização e que persistem como a migração forçada, a catequese e a imposição de línguas europeias, têm afetado significativamente o número de falantes das línguas indígenas.
Este projeto conjunto da IBM Research e da USP explora a criação e uso de Inteligência Artificial para o desenvolvimento, em parceria com comunidades indígenas, de ferramentas que auxiliem a preservação, revitalização e disseminação das línguas indígenas do Brasil. Contudo, embora a IA tenha avançado a passos largos nos últimos 10 anos em línguas como o inglês e o chinês, seu uso em contextos de línguas indígenas ainda é incipiente e dificultado pela falta de dados e de programas de apoio à pesquisa e desenvolvimento. O PROINDL foca em explorar soluções inovadoras para esses desafios.
Este projeto está integrado aos objetivos e princípios da Década Internacional das Línguas Indígenas estabelecida em 2022 pela ONU e pela UNESCO, visando o fortalecimento e continuidade de línguas indígenas em todo o mundo, articulado na “Declaração de Los Pinos” (Chapoltepek). Dentro deste contexto, temos em andamento parcerias com comunidades indígenas na área da cidade de São Paulo que exploram, conjuntamente com seus membros, o desenvolvimento de soluções necessárias, desejadas e sustentáveis.
O projeto compreende as seguintes áreas de trabalho:
KEML
Aprendizado de Máquina Enriquecido por Conhecimento para Raciocínio sobre Dados Oceânicos
Combinando aprendizado baseado em dados e raciocínio baseado em conhecimento para responder consultas complexas sobre a Amazônia Azul.
Líderes: Fabio Cozman and Eduardo Tannuri
Avanços recentes em IA têm dependido do processamento paralelo de imensos conjuntos de dados para obter, por meio de otimização, modelos de grande porte. Avanços adicionais serão possíveis ao se trazer representação do conhecimento e técnicas de planejamento de modo a tornar o aprendizado mais eficiente, menos frágil e livre de vieses.
Nesse contexto, investigamos agentes conversacionais que podem responder a perguntas de alta complexidade. Conversas com tais agentes devem incluir argumentos, causas, explicações e raciocínios; devem também ser possível conduzir uma conversa ao longo do tempo e com um objetivo definido, levando em consideração os desejos e as intenções do usuário. No geral, esses agentes conversacionais são um laboratório para estudar a conexão entre o aprendizado de máquina baseado em dados e o raciocínio e planejamento baseados no conhecimento.
GOML
Aprendizado de Máquina Orientado a Grafos para Diagnóstico e Reabilitação de AVCs
Avançando o diagnóstico, tratamento, e reabilitação de AVCs com aprendizado de máquina orientado a grafos com dados multimodais.
Líderes: José Krieger and Zhao Liang
Os avanços recentes em aprendizado de máquina na medicina têm sido notáveis. No entanto, ainda existem tópicos importantes que precisam ser abordadas. Aqui lidamos com duas questões importantes:
1) Como integrar e selecionar atributos médicos relevantes (biomarcadores) de fontes heterogêneas e dinâmicas em grande escala?
Em aplicações de aprendizado de máquina na medicina frequentemente temos que lidar com conjuntos de dados heterogêneos e dinâmicos de grande escala. Por exemplo, no caso de aplicações e pesquisas científicas relacionadas a acidente vascular cerebral (AVC), vários tipos de dados acumulados por longo período de tempo, como por exemplo textos, imagens, biomarcadores genéticos, sinais elétricos, sintomas, estão disponíveis até mesmo para um único paciente. A integração de informações é essencial para tratar corretamente os problemas de saúde, uma vez que os profissionais de saúde raramente usam apenas um tipo de informação para resolver um problema médico. Outro aspecto importante ao lidar com uma grande quantidade de atributos é selecionar adequadamente os mais relevantes: entender quais atributos são mais relevantes para a classificação de um AVC fornece informações importantes para um diagnóstico e tratamento rápido e preciso.
2) Como interpretar decisões tomadas por algoritmos de aprendizado de máquina e como integrar inteligência humana e artificial?
Atualmente as técnicas de aprendizado de máquina bem-sucedidas não fornecem mecanismos explícitos para explicar de forma satisfatória como um determinado resultado é alcançado. Uma explicação lógica é necessária em muitas aplicações médicas, por exemplo, no diagnóstico de doenças. A falta de interpretabilidade impacta profundamente as oportunidades de integração entre inteligência humana e artificial na medicina. Na maioria dos casos, os profissionais de saúde ainda consideram os algoritmos de aprendizado de máquina como caixas-pretas. Isso é altamente influenciado pela falta de interpretabilidade das estratégias de aprendizado de máquina.
Nosso trabalho lida principalmente com o Acidente Cerebrovascular (AVC) como o domínio de aplicação. Segundo a OMS, mais de um bilhão de pessoas no mundo têm alguma deficiência; entre as doenças crônicas, o AVC se destaca por ser a principal causa de invalidez e a segunda causa de morte no mundo. Muito progresso tem sido feito no entendimento dos fatores de risco, mortalidade e reabilitação do AVC; no entanto, a incidência continua a aumentar como resultado do envelhecimento da população e de outros fatores de risco. A identificação de biomarcadores de AVC mais precisos e sensíveis pode ajudar a modificar esta situação preocupante. Além disso, o desenvolvimento de abordagens diagnósticas com alta precisão e previsão de resultados individualizados é uma das principais ambições e uma das estratégias do plano de ação global da OMS 2014-2021 (ODS – objetivo 3, melhor saúde para todos em todas as idades).
O objetivo aqui é duplo.
Para o estudo proposto, usaremos conjuntos de dados de AVC ATLAS (Traçados Anatômicos de Lesões Pós-AVC), InCor (Instituto do Coração da Faculdade de Medicina da USP).
AgriBio
Tomada de Decisão Causal Multicritério em Redes de Produção Alimentar
Desenvolvendo modelos causais multicritério baseados em IA para tomada de decisão sob incerteza em redes de produção alimentar.
Líderes: Antonio Saraiva and Alexandre Delbem
Os ciclos produtivos do agronegócio, a sustentabilidade ambiental e a segurança alimentar são demandas atuais que desafiam as autoridades mundiais. Neste contexto, são desafios significativos a modelagem adequada de informações heterogêneas em grande escala, a criação de sistemas de aprendizado com o dinamismo de ambientes reais, e métodos que encontram um equilíbrio entre muitas preocupações sobre custos e benefícios. O aprendizado de representações, o aumento de resiliência e a tomada de decisão multicritério são ferramentas importantes para lidar com esses desafios.
A construção de modelos causais confiáveis é um problema em aberto. Métodos avançados de geração de Redes Bayesianas Dinâmicas (DBNs) baseados na captura de conhecimento tácito podem levar a modelos causais que combinam variáveis contínuas e discretas (um nível de heterogeneidade) e que também sejam adaptativos.
A hibridização de modelos convencionais baseados em conhecimento e métodos de aprendizado, através de ensembles, é uma estratégia possível para produzir soluções para problemas reais complexos. Esses processos podem incrementar resiliência por meio da avaliação e melhora de conjuntos de dados e da seleção de parâmetros do sistema de aprendizado (como meta-atributos) em um cenário de configuração de ensemble, seleção de ensemble dinâmico e meta-aprendizado. A integração de modelos aprimorados com resiliência com as abordagens baseadas em DBN pode gerar um nível de resiliência preditiva mais alto.
A construção de novas abordagens para a tomada de decisão multicritério que combinem as soluções encontradas pelas técnicas convencionais baseadas no conhecimento e pelos métodos de aprendizado propostos parece ser uma estratégia promissora para gerar inovações de curto e longo prazo.
Um aspecto importante da segurança alimentar são as mudanças climáticas, envolvendo principalmente o abastecimento de água. Modelos hidrológicos devem ser investigados com o objetivo de desenvolver métodos preliminares para combinar abordagens baseadas em conhecimento e baseadas em dados. Modelos para condições hidrológicas críticas, como secas e inundações, também devem ser investigados a fim de beneficiar as previsões de escassez hídrica ou de perecibilidade das culturas.
Al Humanity
IA em Países Emergentes: Políticas Públicas e o Futuro do Trabalho
Mapeando, entendendo, e lidando com o impacto da IA em países emergentes.
Líderes: Glauco Arbix, João Paulo Veiga
Sociedades estão cada vez mais delegando aos sistemas de IA decisões complexas e de alto risco, como diagnosticar pacientes, contratar trabalhadores, conceder liberdade condicional e gerenciar transações financeiras. Ao mesmo tempo, existe um consenso significativo de que, no campo da IA, países emergentes estão atrasados em relação aos países pioneiros, em particular os EUA e China.
Países como o Brasil precisam urgentemente se aproximar das melhores práticas em IA. Para tanto, devem desenvolver estratégias de qualificação de profissionais, avançar na construção de um ecossistema específico e no desenvolvimento de políticas públicas voltadas para a realização do potencial do país. Além disso, a IA, a automação e a digitalização rápida podem favorecer a redução do emprego e alterar o mercado de trabalho; o uso de técnicas biométricas pode acentuar preconceitos; o comportamento de empresas sem uma base de valores pode erodir princípios éticos e até democráticos adotados pela sociedade.
É necessário examinar questões relativas a responsabilidades, examinando os limites das estruturas regulatórias atuais para lidar com impactos díspares e inesperados e para prevenir danos algorítmicos à sociedade. Dado o amplo impacto da IA, essas questões urgentes só podem ser abordadas com sucesso a partir de uma perspectiva multidisciplinar.