Cookies
O website necessita de alguns cookies e outros recursos semelhantes para funcionar. Caso o permita, o INESC TEC irá utilizar cookies para recolher dados sobre as suas visitas, contribuindo, assim, para estatísticas agregadas que permitem melhorar o nosso serviço. Ver mais
Aceitar Rejeitar
  • Menu
Artigo

Trabalho pioneiro para extração de eventos a partir de textos escritos em português vale prémio a investigação INESC TEC

O artigo “Event Extraction for Portuguese: A QA-driven Approach using ACE-2005” venceu o Best Student Paper Award na 22ª Conferência Portuguesa de Inteligência Artificial (EPIA’23). Trata-se de um trabalho de investigação que resultou no desenvolvimento de uma framework de extração de eventos para a língua portuguesa. A solução diferencia-se não só por visar textos portugueses, mas por permitir, além da identificação e classificação de event triggers, também a extração dos argumentos associados ao evento, nomeadamente participantes e atributos.

29 setembro 2023

“Atualmente existe uma vasta quantidade de dados gerados. No entanto, uma parte significativa desta informação encontra-se em texto, fazendo com que o seu processamento automático seja complexo. Neste contexto, a área de Information Extraction procura resolver este desafio desenvolvendo várias técnicas de extração de informação a partir de textos, de modo a gerar dados estruturados, sendo uma das tarefas fundamentais a extração de eventos, que tem como objetivo identificar e classificar eventos que ocorrem em textos”, começa por explicar Luís Filipe Cunha.

De acordo com o investigador do INESC TEC, trata-se de uma técnica com um grande potencial de aplicação em diferentes áreas de atividade, podendo beneficiar, por exemplo, a construção de Knowledge Base Graphs, Natural Language Understanding, sumarização ou sistemas de recomendação. Contudo, apesar de já existirem vários sistemas de extração de eventos em inglês, “estes revelam uma portabilidade limitada para outras línguas devido à sua dependência de recursos textuais anotados em inglês”. Desta forma, através deste trabalho de investigação procurou-se desenvolver uma solução para a extração de eventos no contexto da língua portuguesa.

“A extração de eventos para a língua portuguesa é uma área pouco explorada. A maior parte dos trabalhos encontrados que intercetam o nosso limitam-se à deteção de eventos, isto é, identificação e classificação de event triggers. No entanto, o nosso trabalho, não só foca a extração dos triggers, mas também dos argumentos associados ao evento: os participantes e os atributos”, avança Luís Filipe Cunha. Em concreto, o trabalho propõe um novo método, que envolve duas etapas: por um lado, a classificação e a identificação da palavra central de um evento, isto é, o trigger, e, por outro, a extração de argumentos de eventos utilizando um modelo de Q&A – Question Answering - extrativo.

“O método utilizado consiste no fine-tuning do modelo de linguagem BERTimbau que é um modelo BERT baseado na arquitetura de Transformers introduzida pela Google em 2017. Este modelo foi anteriormente pré-treinado com uma grande quantidade de textos portugueses, fazendo com que adquirisse conhecimento sobre o vocabulário e linguagem usada nesses textos. O nosso trabalho consistiu em aproveitar o conhecimento desse modelo, adaptando-o (fine-tuning) para a tarefa de extração de eventos na língua portuguesa. Na prática, ajustamos os parâmetros do modelo utilizando dados de anotações de eventos contidas no corpus ACE-2005 – a referência na área de extração de eventos - previamente anotado manualmente pelo Linguistic Data Consortium”.

De acordo com o investigador, uma vez que no âmbito deste trabalho foi produzida a primeira versão do corpus ACE-2005 para a língua portuguesa, a equipa foi a primeira a usar este dataset para treinar modelos de extração de eventos para o idioma. “Por outro lado, de acordo com o nosso conhecimento, este trabalho foi o primeiro a utilizar modelos de Q&A na extração de eventos na língua portuguesa”, acrescenta.

A solução integra o trabalho de doutoramento de Luís Filipe Cunha, aluno na Faculdade de Ciências da Universidade do Porto (FCUP), orientado por Alípio Jorge e Ricardo Campos, investigadores do INESC TEC e docentes na FCUP e na Universidade da Beira Interior, respetivamente, enquadrando-se ainda em dois projetos financiados pela Fundação para a Ciência e Tecnologia (FCT), o Text2Story e o StorySense. Na opinião do investigador, o reconhecimento do artigo premiado e que será publicado na Lecture Notes in Artificial Intelligence (LNAI) da Springer valida o trabalho que tem sido realizado no desenvolvimento de modelos de Processamento de Linguagem Natural focados na língua portuguesa, contribuindo para uma diminuição da dependência no que diz respeito à língua inglesa e para um aumento de recursos que poderão estar na base do desenvolvimento de outras aplicações no domínio da inteligência artificial e do processamento da linguagem natural.

Os modelos apresentados encontram-se disponíveis e podem ser acedidos através do repositório do Huggingface Hub. Para o futuro, Luís Filipe Cunha revela que a expetativa passa por explorar novos conjuntos de dados, para conseguir uma maior abrangência e diversidade de tipos de eventos, assim como melhorar os modelos através do uso de outras arquiteturas de redes neuronais, como as Graph Neural Networks.

O artigo foi premiado na EPIA’23, que decorreu entre os dias 5 e 8 de setembro, nos Açores, na ilha do Faial. A conferência é organizada pela Associação Portuguesa Para a Inteligência Artificial (APPIA).