Um modelo híbrido para o Reconhecimento de Entidades Nomeadas em português

Autori

DOI:

https://doi.org/10.21165/el.v51i3.3271

Abstract

O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa computacional voltada para a classificação automática de termos chamados de Entidades Nomeadas em um texto, como os nomes de pessoas, lugares e organizações. Nesta pesquisa, propomos um modelo híbrido para o REN em português, que combina representações word embeddings e traços baseados em representações linguísticas explícitas (como regras morfossintáticas e pronomes de tratamento) aplicados a uma rede neural BiLSTM-CRF. O modelo foi treinado no corpus Harem (SANTOS; CARDOSO, 2007), obtendo 81,06% de medida-F, o que representa uma melhora estatisticamente significativa em relação ao modelo treinado somente com representações word embeddings. A BiLSTM-CRF também superou os resultados obtidos pelo módulo spaCy (HONNIBAL; MONTANI, 2017) e ficou um pouco acima do modelo BERTimbau (SOUZA; NOGUEIRA; LOTUFO, 2020). Esses resultados sugerem que a incorporação de traços linguísticos pode melhorar o desempenho de modelos de redes neurais no reconhecimento de entidades nomeadas em textos.

Downloads

I dati di download non sono ancora disponibili.

Pubblicato

2023-08-02

Come citare

Silva, A. V. e, & Lopes, M. (2023). Um modelo híbrido para o Reconhecimento de Entidades Nomeadas em português. Estudos Linguísticos (São Paulo. 1978), 51(3), 1317–1335. https://doi.org/10.21165/el.v51i3.3271

Fascicolo

Sezione

Artigos