Transcrição automática de entrevistas e anotação Universal Dependencies no Corpus Roda Viva

Autores

  • Cláudia Dias de Barros Instituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP) https://orcid.org/0009-0003-9388-4297
  • Oto Araújo Vale Universidade Federal de São Carlos (UFSCar), São Carlos, São Paulo, Brasil
  • Gabriela Wick Universidade Federal de São Carlos (UFSCar), São Carlos, São Paulo, Brasil https://orcid.org/0000-0002-7332-4482

DOI:

https://doi.org/10.21165/el.v54i1.3851

Resumo

Neste artigo é apresentada a pesquisa sobre a transcrição automática de quatro entrevistas extraídas do Corpus Roda Viva, que é formado por 713 entrevistas do Programa Roda Viva, da TV Cultura. As entrevistas originais foram transcritas por jornalistas, adquirindo, assim, um status de texto escrito, possuindo, ainda, intervenções, como informações enciclopédicas sobre fatos e pessoas citadas. A fim de trabalhar com texto oral, a presente pesquisa realizou um trabalho piloto de transcrição automática de quatro dessas entrevistas, usando a ferramenta Whisper e, posteriormente, as entrevistas foram anotadas automaticamente com a formalização da Universal Dependencies e revisadas manualmente pela ferramenta Arborator Grew ElizIA. Por meio desse trabalho, pôde-se notar as diferenças sintáticas presentes no corpus original e nas entrevistas transcritas automaticamente.
Palavras-chave: Universal Dependencies; Sintaxe; Linguística de corpus; reconhecimento automático de fala.

Downloads

Não há dados estatísticos.

Downloads

Publicado

17-12-2025

Como Citar

Barros, C. D. de, Araújo Vale, O., & Wick-Pedro, G. (2025). Transcrição automática de entrevistas e anotação Universal Dependencies no Corpus Roda Viva. Estudos Linguísticos (São Paulo. 1978), 54(1), 29–45. https://doi.org/10.21165/el.v54i1.3851

Edição

Seção

Artigos