JSON uma alternativa para corpus linguístico anotado em padrão XML

  • Aline Silva Costa Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA) - Brasil
  • Bruno Silvério Costa Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA) - Brasil
  • Romenito Pereira Damaceno Instituto Federal da Bahia (IFBA) - Brasil
  • Cristiane Namiuti Universidade Estadual do Sudoeste da Bahia - UESB - Brasil
  • Jorge Viana Santos Universidade Estadual do Sudoeste da Bahia - UESB - Brasil

Resumo

Resumo


Para as investigações em Linguística nas Humanidades Digitais, sobretudo para a formulação de hipóteses sobre gramáticas nos estudos de Linguística Histórica, necessita-se de um grande volume de dados, fato que intensificou a construção e implementação de corpora anotados que crescem em tamanho exigindo maior grau de escalabilidade. Neste artigo discute-se a viabilidade técnica de uma solução computacional alternativa à linguagem XML (eXtensible Markup Language) para corpora linguísticos anotados. A linguagem XML tem sido utilizada em vários corpora que se baseiam no Corpus anotado do português histórico Tycho Brahe (CTB), como o Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) e o Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). A linguagem XML pode apresentar problemas de performance para grande volume de dados, além de alto custo de memória. O crescimento de bancos de dados não relacionais, com características de alta flexibilidade e performance, associado aos potenciais problemas de desempenho da anotação XML, motivou uma pesquisa de viabilidade técnica de uma solução computacional alternativa para representação e armazenamento atual dos textos do corpus DOViC em um banco de dados NoSQL no formato JSON (JavaScript Object Notation) (MONGODB, 2008). A pesquisa aqui apresentada verifica a viabilidade da representação,compara a performance obtida em buscas morfossintáticas feitas na anotação proposta (Banco de dados NoSQL e formato JSON) com a anotação e armazenamento atual do corpus DOViC (Sistema de arquivos e formato XML), e faz uma análise de outros aspectos da proposta. Os resultados obtidos no tocante à performance da proposta JSON indicam viabilidade técnica dessa vertente computacional.. Não obstante, para além da performance, o XML apresenta maiores vantagens de interoperabilidade por ser amplamente aceita como padrão para anotação de corpora.


Palavras-chave: Corpus anotado. JSON. XML.


 


Resumen


Para las investigaciones en Lingüística en Humanidades Digitales, especialmente para la formulación de hipótesis sobre las gramáticas en los estudios de Lingüística Histórica, se requiere un gran volumen de datos, un hecho que intensificó la construcción e implementación de los corpora anotados que crecen en tamaño y requieren mayor escalabilidad. Este documento analiza la viabilidad técnica de una solución computacional alternativa al XML (eXtensible Markup Language) para corpora lingüísticos anotados. El lenguaje XML se ha utilizado en muchos corpora que se basan en el corpus anotado del portugués histórico Tycho Brahe (CTB), como el Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) y el Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). El lenguaje XML puede presentar problemas de rendimiento para grandes datos, así como un alto costo de memoria. El crecimiento de las bases de datos no relacionales, con alta flexibilidad y características de rendimiento, asociadas con posibles problemas de rendimiento de la anotación XML, motivó un estudio de viabilidad técnica de una solución computacional alternativa para la representación y el almacenamiento actual de textos de corpus DOViC. Base de datos NoSQL en formato JSON (JavaScript Object Notation) (MONGODB, 2008). La investigación presentada aquí verifica la viabilidad de la representación, compara el rendimiento obtenido en las búsquedas morfosintácticas realizadas en la propuesta (base de datos NoSQL y formato JSON) con la actual anotación y almacenamiento del corpus DOViC (sistema de archivos y formato XML), y hace un análisis de otros aspectos de la propuesta. Los resultados obtenidos con respecto al rendimiento de la propuesta JSON indican la viabilidad técnica de este aspecto computacional. Además del rendimiento, XML tiene importantes ventajas de interoperabilidad, ya que es ampliamente aceptado como el estándar para la anotación de corpus.


Palabras clave: Corpus anotado. JSON. XML.

DOWNLOADS

Não há dados estatísticos.

Biografias do Autor

##submission.authorWithAffiliation##

Aline Silva Costa é professora efetiva do Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA), mestre em Linguística (2015) pela Universidade Estadual do Sudoeste da Bahia (UESB), atualmente é doutoranda do Programa de Pós-graduação em Linguística da mesma instituição, sob a orientação da professora Dra Cristiane Namiuti. Possui graduação em Ciência da Computação pela UESB (2004), especialização em Administração de Sistemas de Informação pela Universidade Federal de Lavras (2005). Tem experiência na área de Ciência da Computação, com ênfase em Linguagem de Programação e Engenharia de Software.

##submission.authorWithAffiliation##

Bruno Silvério Costa é professor efetivo do Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA), mestre em Desenvolvimento Regional e Meio Ambiente pela Universidade Estadual Santa Cruz - UESC (2015), atualmente é doutorando do Programa de Pós-graduação em Linguística da Universidade Estadual do Sudoeste da Bahia (UESB), sob a orientação do professor Dr. Jorge Viana Santos. Possui graduação em Ciência da Computação pela UESB (2004), especialização em Administração de Sistemas de Informação pela Universidade Federal de Lavras (2005). Tem experiência na área de Ciência da Computação, com ênfase em Redes de Computadores, Programação e Sistemas de Alto Desempenho.

##submission.authorWithAffiliation##

Romenito Pereira Damaceno é Bacharel em Sistemas de Informação pelo Instituto Federal da Bahia – IFBA (2018). Atualmente é Analista de Suporte da Linet Serviços de Comunicação LTDA. Tem experiência na área de Ciência da Computação, com ênfase em Sistemas de Computação. 

##submission.authorWithAffiliation##

Estadual do Sudoeste da Bahia (UESB), atuando no quadro permanente do Programa de Pós-graduação em Linguística (PPGLin). Possui doutorado em Linguística pela Universidade Estadual de Campinas (UNICAMP). Tem experiência na área de Linguística, com ênfase em Linguística Histórica e metodologias automáticas de busca de dados em textos escritos, atuando principalmente, nos seguintes temas: interpolação, clítico, mudança linguística, história do português e linguística de corpus. Possui Bacharelado em Linguística pela UNICAMP (2001), Doutorado (2008) e Pós-Doutorado (2010), em Lingüística, pela mesma instituição.

##submission.authorWithAffiliation##

Jorge Viana Santos é professor titular da Universidade Estadual do Sudoeste da Bahia (UESB), atuando no quadro permanente do Programa de Pós-graduação em Linguística (PPGLin) e docente colaborador do Programa de Pós-Graduação em Memória: Linguagem e Sociedade (PPGMLS/UESB). Possui doutorado em Linguística pela Universidade Estadual de Campinas (UNICAMP), e mestrado em Comunicação e Semiótica pela Pontifícia Universidade Católica de São Paulo. Tem experiência na área de Linguística e Semiótica, atuando nos seguintes temas: sentido, argumentação, lugares de enunciação, processos de designação, reescritura, subjetivação, textos, Linguística de Corpus, fotografia, imagem e memória.

Publicado
2019-07-31
Como Citar
COSTA, Aline Silva et al. JSON uma alternativa para corpus linguístico anotado em padrão XML. Revista Binacional Brasil-Argentina: Diálogo entre as ciências, [S.l.], v. 8, n. 1, p. 223-247, jul. 2019. ISSN 2316-1205. Disponível em: <http://periodicos2.uesb.br/index.php/rbba/article/view/5590>. Acesso em: 13 nov. 2019. doi: https://doi.org/10.22481/rbba.v8i1.5590.
Seção
Dossiê Temático