Transcrição automática de entrevistas e anotação Universal Dependencies no Corpus Roda Viva
DOI:
https://doi.org/10.21165/el.v54i1.3851Resumo
Neste artigo é apresentada a pesquisa sobre a transcrição automática de quatro entrevistas extraídas do Corpus Roda Viva, que é formado por 713 entrevistas do Programa Roda Viva, da TV Cultura. As entrevistas originais foram transcritas por jornalistas, adquirindo, assim, um status de texto escrito, possuindo, ainda, intervenções, como informações enciclopédicas sobre fatos e pessoas citadas. A fim de trabalhar com texto oral, a presente pesquisa realizou um trabalho piloto de transcrição automática de quatro dessas entrevistas, usando a ferramenta Whisper e, posteriormente, as entrevistas foram anotadas automaticamente com a formalização da Universal Dependencies e revisadas manualmente pela ferramenta Arborator Grew ElizIA. Por meio desse trabalho, pôde-se notar as diferenças sintáticas presentes no corpus original e nas entrevistas transcritas automaticamente.
Palavras-chave: Universal Dependencies; Sintaxe; Linguística de corpus; reconhecimento automático de fala.
Downloads
Downloads
Publicado
Como Citar
Edição
Secção
Licença
Direitos de Autor (c) 2025 Estudos Linguísticos (São Paulo. 1978)

Este trabalho encontra-se publicado com a Creative Commons Atribuição-NãoComercial 4.0.
A aprovação dos artigos para publicação implica na cessão imediata e sem ônus dos direitos de publicação nesta revista. O(s) autor(es) autoriza(m) o Grupo de Estudos Lingüísticos do Estado de São Paulo (GEL) a reproduzi-lo e publicá-lo na revista Estudos Linguísticos (São Paulo. 1978), entendendo-se os termos "reprodução" e "publicação" conforme definição respectivamente dos incisos VI e I do artigo 5° da Lei 9610/98. O(s) autor(es) continuará(rão) a ter os direitos autorais para publicações posteriores. O artigo poderá ser acessado pela rede mundial de computadores (www.gel.org.br/estudoslinguisticos), sendo permitidas, a título gratuito, a consulta e a reprodução de exemplar do artigo para uso próprio de quem o consulta. Essa autorização de publicação não tem limitação de tempo, ficando o GEL responsável pela manutenção da identificação do autor do artigo. Casos de plágio ou quaisquer ilegalidades nos textos apresentados são de inteira responsabilidade de seus autores.
