NLP2 Recursos para Levar o Processamento de Linguagem Natural em Português para o Estado-da-Arte

Produzindo e coletando dados e ferramentas que permitam um alto nível de desempenho no Processamento de Linguagem Natural em Português.

Líderes: Marcelo Finger and Thiago A. S. Pardo

Nosso objetivo é produzir ferramentas computacionais de suporte ao Português do Brasil que possibilitem aplicativos de última geração. Estamos concentrados tanto na modalidade escrita quanto falada do Português, com foco em três tarefas principais:

  1. com uma perspectiva sintática, pretendemos produzir um corpus multi-gênero com milhões de palavras de textos anotados para a construção de modelos robustos de análise;
  2. com uma perspectiva de modelo de linguagem, pretendemos gerar um pipeline para a construção de modelos neurais baseados em contexto, com aplicações em inferência de linguagem natural; e,
  3. para a linguagem falada, pretendemos construir corpora multi-tarefa para reconhecimento de fala, síntese multi-locutor, identificação de locutor, clonagem de voz e classificação de fala como biomarcador, produzindo uma base de português brasileiro falado gravado e transcrito.

Cada tarefa envolve trabalhos que cruzam com outras frentes. Por exemplo, a fala transcrita e os modelos neurais devem ser usados ​​pela iniciativa sintática para treinar modelos de análise baseados em neurônios; os modelos de análise podem fornecer mais dados para a inferência de linguagem natural e ferramentas baseadas na fala; os dados de fala serão usados ​​para desenvolver modelos neurais de fala como um biomarcador.

As aplicações iniciais serão no diagnóstico de doenças com base na fala, mineração de opinião e detecção de notícias falsas.

É dada ênfase à construção e utilização de recursos abertos e de código aberto, de forma a partilhar os recursos dentro e fora deste projecto.

Objetivos

Levar o Processamento de Língua Natural em Português ao estado da arte mundial, efetivamente tirando o Português da condição de língua de poucos recursos (“low-resource language”), provendo ferramentas essenciais e aplicações em algumas demandas críticas da sociedade.

Nosso objetivo é obter, na frente sintática:

  1. Corpus anotado com Universal Dependencies (pelo menos 5 milhões de tokens);
  2. Modelo de anotação linguística refinado (adaptado para a língua portuguesa e demandas multi-gênero);
  3. Melhores modelos de análise para português.

Em modelos de distribuição e NLI ("Natural Language Inference", ou, em Português, "Inferência Textual"), pretendemos obter:

  1. Corpus de texto simples com um bilhão de tokens disponibilizados publicamente;
  2. Pipeline de treinamento para modelos de distribuição;
  3. Classificação NLI completa com relatório de distribuição e gaps;
  4. Modelos distribucionais aplicados à classificação NLI treinada no SICK-BR (em uma abordagem evolutiva).

Para a linguagem falada, pretendemos executar:

  1. Treinamento de dois modelos, um para identificação de locutor e outro para reconhecimento de fala, a partir dos conjuntos de dados compilados.

Equipe

  • Nome

    Afiliação

  • Marcelo Finger
    IME-USP
  • Thiago Alexandre Salgueiro Pardo
    ICMC-USP
  • Sandra Maria Aluísio
    ICMC-USP
  • Ariani Di Felippo
    UFSCar
  • Evandro Eduardo Seron Ruiz
    FFCLRP-USP
  • Flaviane R. Fernandes Svartman
    FFLCH-USP
  • Arnaldo Cândido Junior
    UTFPR
  • Norton Trevisan Roman
    EACH-USP
  • Solange Oliveira Rezende
    ICMC-USP
  • Ricardo Marcondes Marcacini
    ICMC-USP
  • Maria Clara Paixão de Sousa
    FFLCH-USP
  • Roberto Hirata Junior
    IME-USP
  • Marli Quadros Leite
    FFLCH-USP
  • Ivandré Paraboni
    EACH-USP
  • Glauber de Bona
    POLI-USP
  • Marcelo Gomes de Queiroz
    IME-USP
  • Miguel Arjona Ramirez
    POLI-USP
  • Alessandra Alaniz Macedo
    FFCLRP-USP
  • José Augusto Baranauskas
    FFCLRP-USP
  • Miguel Oliveira
    UFAL