Cookies
O website necessita de alguns cookies e outros recursos semelhantes para funcionar. Caso o permita, o INESC TEC irá utilizar cookies para recolher dados sobre as suas visitas, contribuindo, assim, para estatísticas agregadas que permitem melhorar o nosso serviço. Ver mais
Aceitar Rejeitar
  • Menu
Artigo

INESC TEC desenvolve recursos de processamento de linguagem natural para a língua portuguesa

Expandir e construir novos recursos de processamento de linguagem natural (em inglês, Natural Language Processing - NLP) para a língua portuguesa foi o grande objetivo do projeto PTicola. Os resultados deste projeto, que incluem, por exemplo, um tradutor de inglês-português europeu e um identificador de variantes PT-BR/PT-PT, permitem responder à lacuna nos recursos de NLP disponíveis para o PT-PT, comparativamente ao PT-BR.

14 fevereiro 2025

Com acesso a produtos da Google Cloud Platform, o projeto PTicola - Increasing Computationally Language Resources for Portuguese – criou duas ferramentas, consideradas essenciais, para a comunidade que usa português europeu: um identificador de variante capaz de distinguir o PT-PT do PT-BR e um modelo de tradução do inglês para a língua portuguesa europeia – ambas desenvolvidas em open-source.

“Estes dois resultados levaram à aceitação de duas publicações na Annual AAAI Conference on Artificial Intelligence (AAAI), uma conferência na área de inteligência artificial de alto nível (core A*), que este ano decorre em Filadélfia, no final de fevereiro”, conta Alípio Jorge. Além disso, explica o investigador do INESC TEC, “as ferramentas que desenvolvemos dão resposta a uma lacuna significativa nos recursos de NLP para o português de Portugal, que fica atrás do português do Brasil em relação às tecnologias linguísticas disponíveis”.

O PTicola contribuiu ainda com novos conjuntos de dados de tarefas de NLP para português – como por exemplo, extração de informação temporal, marcação de funções semânticas e extração de relacionamento - e desenvolveu ferramentas específicas de domínio, incluindo um sistema de recuperação e classificação de casos clínicos e um tradutor biomédico inglês-português. O sistema de recuperação e classificação foi igualmente aceite, na modalidade de demonstração, numa conferência. No caso, na European Conference on Information Retrieval (ECIR), que vai decorrer em abril, na cidade de Lucca, Itália.

Assim, o projeto melhorou o atual estado da arte da língua portuguesa em diferentes tarefas de NLP, através do desenvolvimento de novos recursos em tarefas, cuja eficácia é significativamente inferior quando comparada com as mesmas tarefas na língua inglesa. “O trabalho que desenvolvemos neste projeto expande, não só, o ecossistema de recursos para a língua portuguesa, como fornece uma base para futuras investigações em domínios especializados”, acrescenta Alípio Jorge.

Os resultados do PTicola, financiado pela Fundação para a Ciência e a Tecnologia (FCT), foram apresentados num workshop que teve lugar no INESC TEC, no dia 13 de fevereiro e que reuniu cerca de 40 participantes.

 

O investigador mencionado na notícia tem vínculo ao INESC TEC.