Cookies
O website necessita de alguns cookies e outros recursos semelhantes para funcionar. Caso o permita, o INESC TEC irá utilizar cookies para recolher dados sobre as suas visitas, contribuindo, assim, para estatísticas agregadas que permitem melhorar o nosso serviço. Ver mais
Aceitar Rejeitar
  • Menu
Conteúdo

Tecnologia

O YAKE! é um método simples e não supervisionado de extração automática de palavras-chave, baseado em recursos estatísticos de texto, extraídos de documentos únicos. O seu principal objetivo é selecionar as palavras-chave mais importantes de determinados textos. Este sistema não necessita de nenhum tipo de instruções prévias sobre determinados conjuntos de documentos, e não está dependente de dicionários, corpus, tamanho do texto, idioma ou tema abordado. Para demonstrar as vantagens e a relevância desta solução, foi efetuada uma comparação com outras 10 abordagens não supervisionadas de última geração (TF.IDF, KP-Miner, RAKE, TextRank, SingleRank, ExpandRank, TopicRank, TopicalPageRank, PositionRank e MultipartiteRank), bem como com um método supervisionado (KEA). Os resultados, provenientes de testes realizados com 20 conjuntos de dados mostram que estes métodos superam significativamente os métodos de última geração, tendo em conta um conjunto de textos com diferentes tamanhos, idiomas ou temas. Além da solução python aqui descrita, o projeto conta também com uma demonstração, uma API e uma aplicação móvel.

Para mais informação sobre o YAKE!, por favor clique aqui

 

 

Principais Vantagens

  • Abordagem não supervisionada;

  • Independente de temas e idiomas;

  • Não requer corpus. 

 

Benefícios

  • Plug-and-play;
  • Reduz a carga de trabalho, mesmo perante um aumento significativo de informação, em complexidade e/ou em tamanho;

  • Suporta textos de diferentes tamanhos, idiomas e sobre temas distintos;

  • Adapta-se melhor a contextos onde o acesso a corpora é limitado ou restrito.

 

Licença

O código-fonte do YAKE! encontra-se disponível na página git do Laboratório de Inteligência Artificial e Apoio à Decisão – obedecendo aos termos da terceira versão da General Public License (GPLv3), publicada pela Free Software Foundation. Para obter uma licença comercial ou sem as limitações do contrato open source, por favor entre em contacto com o Serviço de Apoio ao Licenciamento do INESC TEC (info.sal@inesctec.pt).

  • Estado IPR

    Direitos reservados
  • Categorias industriais

    Digital
  • Tags

    Natural Language Processing, Extração de palavras-chave, Language-Independent, Unsupervised Method
Contactos