NLP2 Recursos para Levar o Processamento de Linguagem Natural em Português para o Estado-da-Arte

Produzindo e coletando dados e ferramentas que permitam um alto nível de desempenho no Processamento de Linguagem Natural em Português.

Líderes: Marcelo Finger and Thiago A. S. Pardo

Nosso objetivo é produzir ferramentas computacionais de suporte ao Português do Brasil que possibilitem aplicativos de última geração. Estamos concentrados tanto na modalidade escrita quanto falada do Português, com foco em três tarefas principais:

  1. com uma perspectiva sintática, pretendemos produzir um corpus multi-gênero com milhões de palavras de textos anotados para a construção de modelos robustos de análise;
  2. com uma perspectiva de modelo de linguagem, pretendemos gerar um pipeline para a construção de modelos neurais baseados em contexto, com aplicações em inferência de linguagem natural; e,
  3. para a linguagem falada, pretendemos construir corpora multi-tarefa para reconhecimento de fala, síntese multi-locutor, identificação de locutor, clonagem de voz e classificação de fala como biomarcador, produzindo uma base de português brasileiro falado gravado e transcrito.

Cada tarefa envolve trabalhos que cruzam com outras frentes. Por exemplo, a fala transcrita e os modelos neurais devem ser usados ​​pela iniciativa sintática para treinar modelos de análise baseados em neurônios; os modelos de análise podem fornecer mais dados para a inferência de linguagem natural e ferramentas baseadas na fala; os dados de fala serão usados ​​para desenvolver modelos neurais de fala como um biomarcador.

As aplicações iniciais serão no diagnóstico de doenças com base na fala, mineração de opinião e detecção de notícias falsas.

É dada ênfase à construção e utilização de recursos abertos e de código aberto, de forma a partilhar os recursos dentro e fora deste projecto.

Objetivos

Levar o Processamento de Língua Natural em Português ao estado da arte mundial, efetivamente tirando o Português da condição de língua de poucos recursos (“low-resource language”), provendo ferramentas essenciais e aplicações em algumas demandas críticas da sociedade.

Nosso objetivo é obter, na frente sintática:

  1. Corpus anotado com Universal Dependencies (pelo menos 5 milhões de tokens);
  2. Modelo de anotação linguística refinado (adaptado para a língua portuguesa e demandas multi-gênero);
  3. Melhores modelos de análise para português.

Em modelos de distribuição e NLI ("Natural Language Inference", ou, em Português, "Inferência Textual"), pretendemos obter:

  1. Corpus de texto simples com um bilhão de tokens disponibilizados publicamente;
  2. Pipeline de treinamento para modelos de distribuição;
  3. Classificação NLI completa com relatório de distribuição e gaps;
  4. Modelos distribucionais aplicados à classificação NLI treinada no SICK-BR (em uma abordagem evolutiva).

Para a linguagem falada, pretendemos executar:

  1. Treinamento de dois modelos, um para identificação de locutor e outro para reconhecimento de fala, a partir dos conjuntos de dados compilados.

Sites de Projeto (Externos)

POeTiSA - Portuguese processing: Towards Syntactic Analysis and parsing

TaRSila - Tarefa de Anotação para o Reconhecimento e Síntese de fala da Língua Portuguesa

Equipe

  • Nome

    Afiliação

  • Adriano S. R. Silva
    EACH-USP
  • Aleksander T. Souza
    FFCLRP-USP
  • Alessandra Alaniz Macedo
    FFCLRP-USP
  • Aline Silva Costa
    LAPELINC-UESB
  • Ariani Di Felippo
    UFSCar
  • Arnaldo Cândido Junior
    UTFPR
  • Bruno Angelo Papa Dias
    FFLCH-USP
  • Bruno O. R. Silva
    FFCLRP-USP
  • Bruno Baldissera Carlotto
    ICMC-USP
  • Carolina Postali
    UFSCar
  • Caroline Adriane Alves
    ICMC-USP
  • Clarissa Lenina Scandarolli
    ICMC-USP
  • Cristiane Namuiti
    LAPELINC-UESB
  • Daniel Martins Arrais
    ICMC-USP
  • Daniel Pinto da Silva
    UTFPR
  • Diogo Castanho Emidio
    ICMC-USP
  • Dionéia M. Monte-Serrat
    FFCLRP-USP
  • Edresson Casanova
    ICMC-USP
  • Emanuel Huber da Silva
    ICMC-USP
  • Evandro Eduardo Seron Ruiz
    FFCLRP-USP
  • Fabio D. Cunha
    ICMC-USP
  • Felipe Ribas Serras
    IME-USP
  • Fernando Gorgulho Fayet
    ICMC-USP
  • Fernando J. V. Silva
    EACH-USP
  • Flaviane R. Fernandes Svartman
    FFLCH-USP
  • Gabriel Ceregatto
    UFSCar
  • Gabriela Carolina Ferreira Gimenez
    ICMC-USP
  • Gilberto Nunes Neto
    ICMC-USP
  • Giovanna Costa e Silva
    ICMC-USP
  • Glauber de Bona
    EP-USP
  • Guilherme Lamartine de Mello
    IME-USP
  • Guilherme Martiniano de Oliveira
    FFCLRP-USP
  • Heliana Mello
    UFMG
  • Heloisa de Oliveira
    ICMC-USP
  • Ingrid da Mata
    ICMC-USP
  • Isabela Simões Vertoni
    ICMC-USP
  • Ivandré Paraboni
    EACH-USP
  • João Paulo C. F. Longo
    FFCLRP-USP
  • José Augusto Baranauskas
    FFCLRP-USP
  • Julia Trovó
    UFSCar
  • Ketlen V. M. Souza
    ICMC-USP
  • Laura Santos Gazana
    UFSCar
  • Livia Oushiro
    UNICAMP
  • Luana B. Belisário
    ICMC-USP
  • Lucas Gabriel Mendes Miranda
    ICMC-USP
  • Lucas Oliveira
    UTFPR
  • Lucelene Lopes
    ICMC-USP
  • Marcelo Finger
    IME-USP
  • Marcelo Gomes de Queiroz
    IME-USP
  • Marcio L. Inácio
    ICMC-USP
  • Marco A. Sobrevilla Cabezudo
    ICMC-USP
  • Magali S. Duran
    ICMC-USP
  • Maria Clara Paixão de Sousa
    FFLCH-USP
  • Maria Clara Ramos Morales Crespo
    FFLCH-USP
  • Maria das Graças V. Nunes
    ICMC-USP
  • Maria Lina de Souza Jeannine Rocha
    FFLCH-USP
  • Maria Luiza Azevedo Morais
    FFLCH-USP
  • Mariana Lourenço Sturzeneker
    FFLCH-USP
  • Mariana Marques da Silva
    FFLCH-USP
  • Marli Quadros Leite
    FFLCH-USP
  • Mateus Rossato Silva
    FFLCH-USP
  • Mateus T. Machado
    ICMC-USP
  • Matheus Jose Garcia Fagundes
    EACH-USP
  • Mayara Feliciano Palma
    FFLCH-USP
  • Miguel Arjona Ramirez
    EP-USP
  • Miguel Oliveira Jr
    UFAL
  • Moacir Ponti Jr
    ICMC-USP
  • Norton Trevisan Roman
    EACH-USP
  • Patrícia Brasil Silva
    FFLCH-USP
  • Paula Marin de Oliveira
    FFLCH-USP
  • Paulo Matheus Silva Oliveira
    FFLCH-USP
  • Priscila Starline Estrela Tuy Batista
    FFLCH-USP
  • Vanessa Martins do Monte
    FFLCH-USP
  • Rafael Sicoli Pacheco
    FFLCH-USP
  • Raquel de Paula Guets
    FFLCH-USP
  • Renan de Lima Izaias
    FFLCH-USP
  • Renata Morais Mesquita
    FFLCH-USP
  • Ricardo Corso Fernandes Jr
    UTFPR
  • Ricardo Marcondes Marcacini
    ICMC-USP
  • Roberto Hirata Junior
    IME-USP
  • Rogério F. Sousa
    ICMC-USP
  • Ronald Beline Mendes
    FFLCH-USP
  • Roney L. S. Santos
    ICMC-USP
  • Sandra Maria Aluísio
    ICMC-USP
  • Sebastião Carlos Leite Gonçalves
    UNESP Rio Preto
  • Solange Oliveira Rezende
    ICMC-USP
  • Sungwon Yoon
    EACH-USP
  • Thiago Alexandre Salgueiro Pardo
    ICMC-USP
  • Tommaso Raso
    UFMG
  • Vinícius Gonçalves dos Santos
    FFLCH-USP
  • Welton A. Gomes
    FFCLRP-USP
  • Wesley Ramos dos Santos
    EACH-USP
  • Oto Vale
    UFSCar
  • Gabriela Wick Pedro
    UFSCar
  • Marcella Monteiro Lemos Couto
    UFSCar
  • Ryan Marçal Saldanga Maganã Martinez
    UFSCar
  • Francimeire Leme Coelho
    UFSCar
  • Isaac Souza de Miranda
    UFSCar
  • Ester Gonçalves de Oliveira
    UFSCar