JSON uma alternativa para corpus linguístico anotado em padrão XML
DOI:
https://doi.org/10.22481/rbba.v8i1.5590Palabras clave:
Corpus anotado. JSON. XMLResumen
Resumo
Para as investigações em Linguística nas Humanidades Digitais, sobretudo para a formulação de hipóteses sobre gramáticas nos estudos de Linguística Histórica, necessita-se de um grande volume de dados, fato que intensificou a construção e implementação de corpora anotados que crescem em tamanho exigindo maior grau de escalabilidade. Neste artigo discute-se a viabilidade técnica de uma solução computacional alternativa à linguagem XML (eXtensible Markup Language) para corpora linguísticos anotados. A linguagem XML tem sido utilizada em vários corpora que se baseiam no Corpus anotado do português histórico Tycho Brahe (CTB), como o Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) e o Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). A linguagem XML pode apresentar problemas de performance para grande volume de dados, além de alto custo de memória. O crescimento de bancos de dados não relacionais, com características de alta flexibilidade e performance, associado aos potenciais problemas de desempenho da anotação XML, motivou uma pesquisa de viabilidade técnica de uma solução computacional alternativa para representação e armazenamento atual dos textos do corpus DOViC em um banco de dados NoSQL no formato JSON (JavaScript Object Notation) (MONGODB, 2008). A pesquisa aqui apresentada verifica a viabilidade da representação,compara a performance obtida em buscas morfossintáticas feitas na anotação proposta (Banco de dados NoSQL e formato JSON) com a anotação e armazenamento atual do corpus DOViC (Sistema de arquivos e formato XML), e faz uma análise de outros aspectos da proposta. Os resultados obtidos no tocante à performance da proposta JSON indicam viabilidade técnica dessa vertente computacional.. Não obstante, para além da performance, o XML apresenta maiores vantagens de interoperabilidade por ser amplamente aceita como padrão para anotação de corpora.
Palavras-chave: Corpus anotado. JSON. XML.
Resumen
Para las investigaciones en Lingüística en Humanidades Digitales, especialmente para la formulación de hipótesis sobre las gramáticas en los estudios de Lingüística Histórica, se requiere un gran volumen de datos, un hecho que intensificó la construcción e implementación de los corpora anotados que crecen en tamaño y requieren mayor escalabilidad. Este documento analiza la viabilidad técnica de una solución computacional alternativa al XML (eXtensible Markup Language) para corpora lingüísticos anotados. El lenguaje XML se ha utilizado en muchos corpora que se basan en el corpus anotado del portugués histórico Tycho Brahe (CTB), como el Corpus de Documentos Oitocentistas de Vitória da Conquista (DOViC) y el Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). El lenguaje XML puede presentar problemas de rendimiento para grandes datos, así como un alto costo de memoria. El crecimiento de las bases de datos no relacionales, con alta flexibilidad y características de rendimiento, asociadas con posibles problemas de rendimiento de la anotación XML, motivó un estudio de viabilidad técnica de una solución computacional alternativa para la representación y el almacenamiento actual de textos de corpus DOViC. Base de datos NoSQL en formato JSON (JavaScript Object Notation) (MONGODB, 2008). La investigación presentada aquí verifica la viabilidad de la representación, compara el rendimiento obtenido en las búsquedas morfosintácticas realizadas en la propuesta (base de datos NoSQL y formato JSON) con la actual anotación y almacenamiento del corpus DOViC (sistema de archivos y formato XML), y hace un análisis de otros aspectos de la propuesta. Los resultados obtenidos con respecto al rendimiento de la propuesta JSON indican la viabilidad técnica de este aspecto computacional. Además del rendimiento, XML tiene importantes ventajas de interoperabilidad, ya que es ampliamente aceptado como el estándar para la anotación de corpus.
Palabras clave: Corpus anotado. JSON. XML.
Descargas
Citas
ABINADER, Jorge Abílio. Web services em Java. Brasport:Rio de Janeiro, 2006.
BRITO, Ricardo W. Banco de dados No SQL x SGBDs relacionais: análise comparativa. Faculdade Farias Brito e Universidade de Fortaleza 2010. Disponível em: <http://shorturl.at/dGU27>. Acesso em 17 fev. 2019.
COSTA, Aline Silva. WebSinC: Uma Ferramenta Web para buscas sintáticas e morfossintáticas em corpora anotados - Estudo de Caso do Corpus DOViC-Bahia. Dissertação (Programa de Pós-graduação em Linguística). Universidade Estadual do Sudoeste da Bahia (UESB), Vitória da Conquista, 2015. Orientadora: Cristiane Namiuti; Coorientador: Jorge Viana Santos.
DAMACENO, Romenito Pereira. REPRESENTAÇÃO DE UM CORPUS LINGUÍSTICO EM UM BANCO DE DADOS NoSQL: Estudo de caso do corpus DOViC. Monografia (Curso de Bacharelado em Sistemas de Informação). Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA). Vitória da Conquista, 2018. Orientadora: Aline Silva Costa.
DATE, C. J. Uma Introdução a Sistemas de Banco de Dados. São Paulo: Editora Edgard Blücher, 2004.
DEITEL, H. M.; DEITEL, P. J.; NIETO, T.M.; LIN, T.M.; SHADU, P. V. XML: Como programar. Porto Alegre: Bookman, 2005. DEITEL, H.M; DEITEL, P.J. Java: como programar. 6.ed. São Paulo: Pearson Prentice Hall, 2005.
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 6. ed. São Paulo: Addison Wesley, 2011.
FONSECA, Rúben; SIMOES, Alberto. Alternativas ao XML: YAML e JSON. 2007. Disponível em: <https://goo.gl/9aJgm7>. Acesso em: 12 maio 2017.
GALVES, Charlotte; ANDRADE, Aroldo Leal de.; FARIA, Pablo. Tycho Brahe parsed corpusof historical portuguese. 2017. Disponível em: <http://www.tycho.iel.unicamp.br/~tycho/corpus/en/index.html>. Acesso em: 13mar. 2019.
GOMES. Bruna C. Kalles.; BASSO, Carla de Almeida M. Desempenho de Banco de Dados Não Relacionais com Big Data.12th International Conference on Information Systems & Technology Management - Contecsi. 2015. Disponível em:<http://www.contecsi.tecsi.org/index.php/contecsi/12CONTECSI/paper/view/3040/2348>. Acesso em: 02 set. 2017.
GONÇALVES, Eduardo Corrêa. Introdução ao Formato JSON. Devmedia. 2012. Disponível em:<https://www.devmedia.com.br/json-tutorial/25275>. Acesso em 06 jul. 2017.
HIRSCHMAN, Lynette.; MANI, Inderjeet. Evaluation. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
LÓSCIO, Bernadette Farias.; OLIVEIRA, Hélio Rodrigues de; PONTES, Jonas César de S. NoSQL no desenvolvimento de aplicações Web colaborativas. Anais do VIII Simpósio Brasileiro de Sistemas Colaborativos, v. 10, p. 11, 2011. Disponível em: <https://www.addlabs.uff.br/sbsc_site/SBSC2011_NoSQL.pdf>. Acesso em 20 mar. 2019.
MARTINS FILHO, Marcos André P. SQL X NOSQL: Análise de desempenho do uso do MongoDB em relação ao uso do PostgreSQL. Trabalho de Graduação (Graduação em Ciência da Computação). Universidade Federal de Pernambuco. Recife, 2015.Orientador: Fernando da Fonseca de Souza. Disponível em:< https://www.cin.ufpe.br/~tg/2014-2/mapmf.pdf>. Acesso em 20 mar. 2019.
MEGERDOOMIAN, Karine. Text mining, Corpus building, and testing. In: FARGHALY, Ali Ahmed Sabry (Ed.). Handbook for language engineers. Standford: CSLI, 2003. p.14.
MELLO, Heliana Ribeiro de; SOUZA, Renato Rocha. A linguagem da ciência: Prospecção de dados baseados em corpora. Anais – Seminários Teóricos Interdisciplinares do SEMIOTEC – I STIS. UFMG. 2012. Disponível em: <http://www.periodicos.letras.ufmg.br/index.php/stis/issue/view/177>. Acesso em 13 mai. 2017.
MICROSOFT. Performance Testing Guidance for Web Applications: Microsoft Developer Network. 2007. Disponível em: <https://msdn.microsoft.com/en-us/library/bb924375.aspx>. Acesso em: 18 mar. 2018.
MONGODB. The MongoDB 3.6 Manual. 2008. Disponível em: <https://docs.mongodb.com/manual>. Acesso em: 13 de jun. 2017.
MONGODB. What is MongoDB?.2019. Disponível em: <https://www.mongodb.com/what-is-mongodb>. Acesso em 16 jun. 2019.
NAMIUTI-TEMPONI, Cristiane; SANTOS, Jorge Viana (coords.). Memória conquistense: implementação de um corpus digital (CNPq N485098/2013-0). Vitória da Conquista: UESB, 2013.
PAIXÃO DE SOUSA, Maria Clara. O Corpus Tycho Brahe: contribuições para as humanidades digitais no Brasil. São Paulo, v. 16, n. esp., p. 53-93, dez. 2014. Disponível em: <http://dx.doi.org/10.11606/issn.2176-9419.v16ispep53-93>. Acesso em 16 ago. 2017.
ROSA, Adriano Guzzo. Análise da Estrutura do Banco de Dados Mongodb: Testes de Desempenho Mongodb X Mysql. Clube de Autores, 2009.
SANTOS, Jorge Viana; NAMIUTI, Cristiane. DOViC - Documentos Oitocentistas de Vitória da Conquista. Memória Conquistense. Vitória da Conquista: UESB/LAPELINC, 2016. Disponível em: <http://memoriaconquistense.uesb.br/websinc>. Acesso em 19 nov 2017.
SANTOS, Jorge Viana; NAMIUTI, Cristiane (coord.). Corpora digitais para a história do português brasileiro - documentos históricos da região sudoeste da Bahia: aliança PHPB-Tycho Brahe (FAPESB PET0034/2010). Vitória da Conquista: UESB, 2010.
SANTOS, Jorge Viana; NAMIUTI, Cristiane (coord.). Corpora digitais de documentos históricos da imperial Vila da Victoria, atual Vitória da Conquista-Bahia: resgate e preservação do patrimônio linguístico e da memória da escravidão na Bahia (FAPESB APP0014/2016). Vitória da Conquista: UESB, 2016.
SILVA FILHO, Antônio Mendes da. Programando com XML. Rio de Janeiro: Elsevier, 2004.
SILBERSCHATZ, Abraham.; KORTH, Henry. F.; SUDARSHAN, S. Sistemas de Banco de Dados. 3. ed. São Paulo: Makron Books, 1999.
SOARES, Jhonathan. O que é MongoDB e porque usá-lo?2016. Disponível em: <https://codigosimples.net/2016/03/01/o-que-e-mongodb-e-porque-usa-lo/>. Acesso em 16 jul. 2017.
W3C. XML Technology. 2010. Disponível em: < http://www.w3.org/standards/xml/> Acesso em: 20 jul. 2017.W3C.JavaScript. 2011. Disponível em:<https://www.w3.org/wiki/Javascript>. Acesso em: 28 ago. 2017.
W3SCHOOLS. JSON VS XML. 2017. Disponível em: <https://www.w3schools.com/js/js_json_xml.asp>. Acesso em: 17 nov. 2017.