Transcrição automática de entrevistas e anotação Universal Dependencies no Corpus Roda Viva

Autori

  • Cláudia Dias de Barros Instituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP) https://orcid.org/0009-0003-9388-4297
  • Oto Araújo Vale Universidade Federal de São Carlos (UFSCar), São Carlos, São Paulo, Brasil
  • Gabriela Wick-Pedro Universidade Federal de São Carlos (UFSCar), São Carlos, São Paulo, Brasil https://orcid.org/0000-0002-7332-4482

DOI:

https://doi.org/10.21165/el.v54i1.3851

Abstract

Neste artigo é apresentada a pesquisa sobre a transcrição automática de quatro entrevistas extraídas do Corpus Roda Viva, que é formado por 713 entrevistas do Programa Roda Viva, da TV Cultura. As entrevistas originais foram transcritas por jornalistas, adquirindo, assim, um status de texto escrito, possuindo, ainda, intervenções, como informações enciclopédicas sobre fatos e pessoas citadas. A fim de trabalhar com texto oral, a presente pesquisa realizou um trabalho piloto de transcrição automática de quatro dessas entrevistas, usando a ferramenta Whisper e, posteriormente, as entrevistas foram anotadas automaticamente com a formalização da Universal Dependencies e revisadas manualmente pela ferramenta Arborator Grew ElizIA. Por meio desse trabalho, pôde-se notar as diferenças sintáticas presentes no corpus original e nas entrevistas transcritas automaticamente.
Palavras-chave: Universal Dependencies; Sintaxe; Linguística de corpus; reconhecimento automático de fala.

Downloads

I dati di download non sono ancora disponibili.

Pubblicato

2025-12-17

Come citare

Barros, C. D. de, Araújo Vale, O., & Wick-Pedro, G. (2025). Transcrição automática de entrevistas e anotação Universal Dependencies no Corpus Roda Viva. Estudos Linguísticos (São Paulo. 1978), 54(1), 29–45. https://doi.org/10.21165/el.v54i1.3851

Fascicolo

Sezione

Artigos