As atividades de pesquisa no C4AI estão organizadas em torno de cinco Grandes Desafios que combinam aspectos fundamentais da inteligência artificial com aplicações em áreas selecionadas como agronegócio, clima e saúde. Os desafios atuais são:

NLP2

Recursos para Levar o NLP em Português para o Estado-da-Arte

Produzindo e coletando dados e ferramentas que permitam um alto nível de desempenho no Processamento de Linguagem Natural em Português.

Líderes: Marcelo Finger, Sandra M. Aluísio and Thiago A. S. Pardo

Sobre

Nosso objetivo é produzir ferramentas computacionais de suporte ao Português do Brasil que possibilitem aplicativos de última geração. Estamos concentrados tanto na modalidade escrita quanto falada do Português, com foco em três tarefas principais:

  • com uma perspectiva sintática, pretendemos produzir um corpus multi-gênero com milhões de palavras de textos anotados para a construção de modelos robustos de análise;
  • com uma perspectiva de modelo de linguagem, pretendemos gerar um pipeline para a construção de modelos neurais baseados em contexto, com aplicações em inferência de linguagem natural; e,
  • para a linguagem falada, pretendemos construir corpora multi-tarefa para reconhecimento de fala, síntese multi-locutor, identificação de locutor, clonagem de voz e classificação de fala como biomarcador, produzindo uma base de português brasileiro falado gravado e transcrito.
Objetivos

Levar o Processamento de Língua Natural em Português ao estado da arte mundial, efetivamente tirando o Português da condição de língua de poucos recursos (“low-resource language”), provendo ferramentas essenciais e aplicações em algumas demandas críticas da sociedade.

Nosso objetivo é obter, na frente sintática:

Em modelos de distribuição e NLI (“Natural Language Inference”, ou, em Português, “Inferência Textual”), pretendemos obter:

Para a linguagem falada, pretendemos executar:

  • Treinamento de dois modelos, um para identificação de locutor e outro para reconhecimento de fala, a partir dos conjuntos de dados compilados.
Sites de Projeto (Externos)

NLP2 – Web portal

POeTiSA – Portuguese processing: Towards Syntactic Analysis and parsing

TaRSila – Tarefa de Anotação para o Reconhecimento e Síntese de fala da Língua Portuguesa

Carolina – Corpus geral do Português Brasileiro contemporâneo

PROINDL

Tecnologias de Inteligência Artificial no Fortalecimento das Línguas Indígenas do Brasil

Usando a Inteligência Artificial em parceria com comunidades indígenas para o desenvolvimento de ferramentas que auxiliem a preservação, revitalização e disseminação de línguas indígenas do Brasil.

Líderes: Claudio Pinhanez, Luciana Storto

Sobre

A grande maioria das línguas indígenas do Brasil está sob a ameaça de desaparecer até o fim do século 21. Por um lado, os povos indígenas e seus territórios continuam sob ataque de indivíduos e organizações, com invasões, disseminação de doenças, e destruição dos ecossistemas dos quais dependem. Por outro lado, os violentos processos iniciados com a colonização e que persistem como a migração forçada, a catequese e a imposição de línguas europeias, têm afetado significativamente o número de falantes das línguas indígenas.

Este projeto conjunto da IBM Research e da USP explora a criação e uso de Inteligência Artificial para o desenvolvimento, em parceria com comunidades indígenas, de ferramentas que auxiliem a preservação, revitalização e disseminação das línguas indígenas do Brasil. Contudo, embora a IA tenha avançado a passos largos nos últimos 10 anos em línguas como o inglês e o chinês, seu uso em contextos de línguas indígenas ainda é incipiente e dificultado pela falta de dados e de programas de apoio à pesquisa e desenvolvimento. O PROINDL foca em explorar soluções inovadoras para esses desafios.

Este projeto está integrado aos objetivos e princípios da Década Internacional das Línguas Indígenas estabelecida em 2022 pela ONU e pela UNESCO, visando o fortalecimento e continuidade de línguas indígenas em todo o mundo, articulado na “Declaração de Los Pinos” (Chapoltepek). Dentro deste contexto, temos em andamento parcerias com comunidades indígenas na área da cidade de São Paulo que exploram, conjuntamente com seus membros, o desenvolvimento de soluções necessárias, desejadas e sustentáveis.

Objetivos

O projeto compreende as seguintes áreas de trabalho:

KEML

Aprendizado de Máquina Enriquecido por Conhecimento para Raciocínio sobre Dados Oceânicos

Combinando aprendizado baseado em dados e raciocínio baseado em conhecimento para responder consultas complexas sobre a Amazônia Azul.

Líderes: Fabio Cozman and Eduardo Tannuri

Sobre

Avanços recentes em IA têm dependido do processamento paralelo de imensos conjuntos de dados para obter, por meio de otimização, modelos de grande porte. Avanços adicionais serão possíveis ao se trazer representação do conhecimento e técnicas de planejamento de modo a tornar o aprendizado mais eficiente, menos frágil e livre de vieses.

Nesse contexto, investigamos agentes conversacionais que podem responder a perguntas de alta complexidade. Conversas com tais agentes devem incluir argumentos, causas, explicações e raciocínios; devem também ser possível conduzir uma conversa ao longo do tempo e com um objetivo definido, levando em consideração os desejos e as intenções do usuário. No geral, esses agentes conversacionais são um laboratório para estudar a conexão entre o aprendizado de máquina baseado em dados e o raciocínio e planejamento baseados no conhecimento.

Objetivos
  • O objetivo concreto deste projeto é desenvolver uma estrutura para agentes conversacionais que possam responder a consultas de alto nível ao longo do tempo em um domínio particular, incluindo questões, argumentos, causas, explicações, inferências e planos sobre tarefas específicas. Estamos construindo um especialista em conversação sobre a Amazônia Azul para testar esta tecnologia; esperamos desenvolver ferramentas gerais que não sejam excessivamente vinculadas a um domínio particular, de modo que possam ser especializadas para qualquer domínio de interesse. Um objetivo mais amplo é investigar como esses agentes conversacionais podem se beneficiar simultaneamente de técnicas baseadas em dados e em conhecimento.
  • O Blue Amazônia Brain (BLAB) pretende incorporar toda a informação existente sobre a Amazônia Azul, tanto capturando conhecimento técnico na forma de regras e fatos quanto processando fontes de dados disponíveis a partir de sensores e de informações textuais, incluindo artigos científicos e informações de jornais.

GOML

Aprendizado de Máquina Orientado a Grafos para Diagnóstico e Reabilitação de AVCs

Avançando o diagnóstico, tratamento, e reabilitação de AVCs com aprendizado de máquina orientado a grafos com dados multimodais.

Líderes: José Krieger and Zhao Liang

Sobre

Os avanços recentes em aprendizado de máquina na medicina têm sido notáveis. No entanto, ainda existem tópicos importantes que precisam ser abordadas. Aqui lidamos com duas questões importantes:

1) Como integrar e selecionar atributos médicos relevantes (biomarcadores) de fontes heterogêneas e dinâmicas em grande escala?

Em aplicações de aprendizado de máquina na medicina frequentemente temos que lidar com conjuntos de dados heterogêneos e dinâmicos de grande escala. Por exemplo, no caso de aplicações e pesquisas científicas relacionadas a acidente vascular cerebral (AVC), vários tipos de dados acumulados por longo período de tempo, como por exemplo textos, imagens, biomarcadores genéticos, sinais elétricos, sintomas, estão disponíveis até mesmo para um único paciente. A integração de informações é essencial para tratar corretamente os problemas de saúde, uma vez que os profissionais de saúde raramente usam apenas um tipo de informação para resolver um problema médico. Outro aspecto importante ao lidar com uma grande quantidade de atributos é selecionar adequadamente os mais relevantes: entender quais atributos são mais relevantes para a classificação de um AVC fornece informações importantes para um diagnóstico e tratamento rápido e preciso.

2) Como interpretar decisões tomadas por algoritmos de aprendizado de máquina e como integrar inteligência humana e artificial?

Atualmente as técnicas de aprendizado de máquina bem-sucedidas não fornecem mecanismos explícitos para explicar de forma satisfatória como um determinado resultado é alcançado. Uma explicação lógica é necessária em muitas aplicações médicas, por exemplo, no diagnóstico de doenças. A falta de interpretabilidade impacta profundamente as oportunidades de integração entre inteligência humana e artificial na medicina. Na maioria dos casos, os profissionais de saúde ainda consideram os algoritmos de aprendizado de máquina como caixas-pretas. Isso é altamente influenciado pela falta de interpretabilidade das estratégias de aprendizado de máquina.

Nosso trabalho lida principalmente com o Acidente Cerebrovascular (AVC) como o domínio de aplicação. Segundo a OMS, mais de um bilhão de pessoas no mundo têm alguma deficiência; entre as doenças crônicas, o AVC se destaca por ser a principal causa de invalidez e a segunda causa de morte no mundo. Muito progresso tem sido feito no entendimento dos fatores de risco, mortalidade e reabilitação do AVC; no entanto, a incidência continua a aumentar como resultado do envelhecimento da população e de outros fatores de risco. A identificação de biomarcadores de AVC mais precisos e sensíveis pode ajudar a modificar esta situação preocupante. Além disso, o desenvolvimento de abordagens diagnósticas com alta precisão e previsão de resultados individualizados é uma das principais ambições e uma das estratégias do plano de ação global da OMS 2014-2021 (ODS – objetivo 3, melhor saúde para todos em todas as idades).

Objetivos

O objetivo aqui é duplo.

  • Contribuir para a área de aprendizado de máquina desenvolvendo novas técnicas para lidar com AVCs.
  • Aplicar novas técnicas de aprendizado de máquina orientadas a grafos (GOML), a serem desenvolvidas neste projeto, para obter um melhor entendimento do AVC (causas, impacto, formas de melhorar a decisão e reabilitação). Também é importante investigar formas de mitigar o impacto do AVC na população brasileira, o que trará uma importante contribuição social.

Para o estudo proposto, usaremos conjuntos de dados de AVC ATLAS (Traçados Anatômicos de Lesões Pós-AVC), InCor (Instituto do Coração da Faculdade de Medicina da USP).

AgriBio

Tomada de Decisão Causal Multicritério em Redes de Produção Alimentar

Desenvolvendo modelos causais multicritério baseados em IA para tomada de decisão sob incerteza em redes de produção alimentar.

Líderes: Antonio Saraiva and Alexandre Delbem

Sobre

Os ciclos produtivos do agronegócio, a sustentabilidade ambiental e a segurança alimentar são demandas atuais que desafiam as autoridades mundiais. Neste contexto, são desafios significativos a modelagem adequada de informações heterogêneas em grande escala, a criação de sistemas de aprendizado com o dinamismo de ambientes reais, e métodos que encontram um equilíbrio entre muitas preocupações sobre custos e benefícios. O aprendizado de representações, o aumento de resiliência e a tomada de decisão multicritério são ferramentas importantes para lidar com esses desafios.

A construção de modelos causais confiáveis ​​é um problema em aberto. Métodos avançados de geração de Redes Bayesianas Dinâmicas (DBNs) baseados na captura de conhecimento tácito podem levar a modelos causais que combinam variáveis ​​contínuas e discretas (um nível de heterogeneidade) e que também sejam adaptativos.

A hibridização de modelos convencionais baseados em conhecimento e métodos de aprendizado, através de ensembles, é uma estratégia possível para produzir soluções para problemas reais complexos. Esses processos podem incrementar resiliência por meio da avaliação e melhora de conjuntos de dados e da seleção de parâmetros do sistema de aprendizado (como meta-atributos) em um cenário de configuração de ensemble, seleção de ensemble dinâmico e meta-aprendizado. A integração de modelos aprimorados com resiliência com as abordagens baseadas em DBN pode gerar um nível de resiliência preditiva mais alto.

A construção de novas abordagens para a tomada de decisão multicritério que combinem as soluções encontradas pelas técnicas convencionais baseadas no conhecimento e pelos métodos de aprendizado propostos parece ser uma estratégia promissora para gerar inovações de curto e longo prazo.

Um aspecto importante da segurança alimentar são as mudanças climáticas, envolvendo principalmente o abastecimento de água. Modelos hidrológicos devem ser investigados com o objetivo de desenvolver métodos preliminares para combinar abordagens baseadas em conhecimento e baseadas em dados. Modelos para condições hidrológicas críticas, como secas e inundações, também devem ser investigados a fim de beneficiar as previsões de escassez hídrica ou de perecibilidade das culturas.

Objetivos
  • Aprendizado de Representação: Novas abordagens para Informação Heterogênea podem emergir a partir de extensões de técnicas de representação voltadas a construir um espaço de recursos unificado. Neste tipo de abordagem, é gerado um embedding para incorporar os principais padrões e correlações existentes nos múltiplos tipos de informação. Sua integração com métodos de modelagem que capturam conhecimento tácito pode contribuir para o Aprendizado de Representação Dinâmica. O primeiro desafio é a aquisição automática dessas estruturas e sua integração com DBNs.
  • Aumento de Resiliência: A investigação de ensembles adaptativos (evolutivos) com grandes margens para o aumento da resiliência em aprendizado é promissora. A combinação multiobjetivo de medidas de separabilidade pode permitir encontrar padrões da distribuição da amostra marginal que, por sua vez, pode produzir aprendizado resiliente. A investigação de abordagens baseadas em DBN pode permitir a integração de resiliência preditiva e o aprendizado de representação, como dinamismo (lidando com variações de conceitos) e heterogeneidade. Além disso, a construção de DBNs em larga escala é um desafio no qual os algoritmos evolutivos multiobjetivos (MOEAs) com representação adequada podem ter sucesso.
  • Tomada de Decisão: As técnicas convencionais de AgriBio baseadas em conhecimento na tomada de decisão multicritério são relevantes para lidar com as demandas conflitantes no AgriBio. A robustez ou a estabilidade das frentes aproximadas pela técnica de Pareto são os fundamentos para a criação de novas abordagens dedicadas aos desafios do AgriBio frente à incerteza. Critérios de resiliência devem ser escolhidos ou formulados para lidar com as mudanças climáticas e de mercado. Devem também possibilitar a construção de procedimentos para tomada de decisão a partir das soluções encontradas pelas técnicas desenvolvidas neste projeto.

Al Humanity

IA em Países Emergentes: Políticas Públicas e o Futuro do Trabalho

Mapeando, entendendo, e lidando com o impacto da IA em países emergentes.

Líderes: Glauco Arbix, João Paulo Veiga

Sobre

Sociedades estão cada vez mais delegando aos sistemas de IA decisões complexas e de alto risco, como diagnosticar pacientes, contratar trabalhadores, conceder liberdade condicional e gerenciar transações financeiras. Ao mesmo tempo, existe um consenso significativo de que, no campo da IA, países emergentes estão atrasados ​​em relação aos países pioneiros, em particular os EUA e China.

Países como o Brasil precisam urgentemente se aproximar das melhores práticas em IA. Para tanto, devem desenvolver estratégias de qualificação de profissionais, avançar na construção de um ecossistema específico e no desenvolvimento de políticas públicas voltadas para a realização do potencial do país. Além disso, a IA, a automação e a digitalização rápida podem favorecer a redução do emprego e alterar o mercado de trabalho; o uso de técnicas biométricas pode acentuar preconceitos; o comportamento de empresas sem uma base de valores pode erodir princípios éticos e até democráticos adotados pela sociedade.

É necessário examinar questões relativas a responsabilidades, examinando os limites das estruturas regulatórias atuais para lidar com impactos díspares e inesperados e para prevenir danos algorítmicos à sociedade. Dado o amplo impacto da IA, essas questões urgentes só podem ser abordadas com sucesso a partir de uma perspectiva multidisciplinar.

Objetivos
  • Analisar os impactos da IA ​​nas estratégias individuais de busca de emprego, nas políticas de recrutamento da empresa, na ética corporativa e na definição de qualificações profissionais.
  • Identificar as novas competências exigidas pela IA e definir diretrizes para a qualificação dos profissionais de forma a mitigar os impactos no emprego e o aumento da desigualdade.
  • Avaliar o progresso das técnicas biométricas e do quadro regulatório em formação no país, de forma a garantir a segurança e privacidade dos dados pessoais.
  • Avançar o debate sobre ética empresarial, regulação e autorregulação.
  • Classificar as empresas brasileiras com base em indicadores de ética corporativa e compará-las com indicadores internacionais.
  • Analisar a relação entre a qualidade da informação de interesse público e a qualidade da democracia.
  • Explorar as interações entre humanos e robôs sociais inteligentes, com especial atenção ao contexto social, cultural e econômico, a fim de formular diretrizes e protocolos para o desenvolvimento e aplicação de tecnologia que vise estabelecer relações éticas e seguras entre humanos e máquinas.