Caros colegas e caras colegas,

É com muita alegria que anunciamos o lançamento da segunda versão pública do Córpus Carolina.

O Carolina é um córpus aberto do português brasileiro, com informações de tipologia e proveniência dos textos e que se utiliza de um desenvolvimento versionado para oferecer um cuidado especial com as licenças de uso de cada texto.


O córpus possui cabeçalhos para cada texto, com vários metadados concebidos para serem úteis para diversas aplicações e investigações em processamento de linguagem natural e em linguística.

O Carolina é resultado de uma parceria entre o Laboratório Virtual de Humanidades Digitais (LaViHD) da Faculdade de Filosofia, Letras e Ciências Humanas da USP e o C4AI, Centro de Inteligência Artificial da USP, IBM e Fapesp.

Atualmente, o Córpus Carolina está sendo distribuído em duas plataformas:
o HuggingFace e o Portulin Clarin.

O artigo em que a metodologia de construção do Carolina é apresentada e um pré-print do artigo em que apresentamos sua primeira versão pública já estão disponíveis para leitura. No nosso site vocês também encontram a documentação e mais detalhes do projeto.

Sintam-se convidados e convidadas a acessar o Carolina e usá-lo em suas áreas de interesse, bem como encaminhar essa mensagem a outros pesquisadores interessados.

Obrigado pela sua atenção.

Atenciosamente,

Equipe do Carolina


 

Texto reproduzido pelo setor de Divulgação do C4AI
a partir de material de divulgação da Equipe do Carolina
C4AI – https://linktr.ee/c4aiusp

Categories:

Tags:

Comments are closed

Skip to content