Implementación de Data Lake y Visualización de Datos para auditoría pública en la Controladoria-Geral do Estado de Mato Grosso

Autores/as

DOI:

https://doi.org/10.22481/recic.v8i1.19165

Palabras clave:

data lake, auditoría pública, análisis de datos

Resumen

Este estudio tuvo como objetivo presentar la implementación y evaluación de un Data Lake en la Controladoria-Geral do Estado de Mato Grosso (CGE-MT), con el fin de optimizar los procesos de auditoría y análisis de datos. En primer lugar, se presentó el conjunto de sistemas de código abierto que componen el entorno (como Apache HDFS, Spark y Trino) y, posteriormente, se emplearon dos criterios de evaluación: técnico y operativo. Los resultados demostraron que la infraestructura implementada demostró ser eficiente para las actividades de análisis de datos, proporcionando un entorno seguro para el almacenamiento y procesamiento de la información y garantizando la integridad de los datos. Además, a partir del Data Lake, la CGE desarrolló el sistema "CGE Alerta", que permitió una reducción del 51% en las irregularidades relacionadas con la inasistencia en las Secretarías del Estado de Mato Grosso y automatizó los procesos de monitoreo. También se demostró la viabilidad de la solución a largo plazo, ya que la capacidad de almacenamiento disponible permite conservar aproximadamente 15 años de datos sin necesidad de inversiones inmediatas.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Eduardo William Alves Osti, Universidade Federal de Mato Grosso

Especialista em Banco de Dados com mais de 5 anos de experiência profissional na administração de bancos de dados Oracle e tecnologias de Big Data. É graduado em Ciência da Computação pela Faculdade Invest de Ciências e Tecnologia (2017), com especializações em Banco de Dados (2019) e em Gestão e Ciência de Dados (2025) pela Universidade Federal de Mato Grosso (UFMT), onde também atua como mestrando em Computação Aplicada (com previsão de conclusão em 2026). Possui a certificação Oracle Autonomous Database Cloud Certified Professional, com domínio em Oracle Cloud Infrastructure (OCI), Oracle Enterprise Manager, Dataguard, ASM e RAC. Atua na Controladoria-Geral do Estado de Mato Grosso (CGE-MT) como Administrador de Banco de Dados Sênior, sendo responsável pela implantação e gerenciamento de ambientes de Data Lake utilizados no sistema "CGE Alerta", referência nacional em cruzamento de dados para auditoria governamental. Tem experiência em ecossistemas como Apache Hadoop, Spark, Iceberg, Ranger e Project Nessie, além da administração de SGBDs como PostgreSQL, MariaDB e SQL Server. Possui ampla vivência em análise de desempenho (tuning), migração de bases de dados e desenvolvimento em PL/SQL. É proficiente em sistemas Linux e outras tecnologias de infraestrutura, com um histórico sólido de entregas de alta qualidade em projetos que demandam inovação, eficiência e segurança na gestão de dados.

Roberto Benedito de Oliveira Pereira, Universidade Federal de Mato Grosso

Professor no Instituto de Computação da Universidade Federal de Mato Grosso desde 2010. Graduado em Ciência da Computação. Em meu doutorado, finalizado em 2013, desenvolvi um sistema embarcado para coleta de dados microclimáticos georreferenciado para estudo de microclima pelo programa de pós-graduação em Física Ambiental da UFMT. Tenho experiência na área de Ciência da Computação, com ênfase em Banco de dados, Redes de Computadores e Hardware, atuando principalmente nos seguintes temas: Banco de dados e redes de computadores. Minhas aptidões são: Capacidade de síntese , Criatividade, Flexibilidade, Liderança e Oratório. Meus últimos trabalhos científicos são: - Análise de Desempenho do banco de dados SQL Server em Infraestruturas On Premise e Cloud publicado na Revista Eletrônica da Faculdade Invest de Ciências e Tecnologia., v.5, p.14, 2021. - Análise de desempenho de banco de dados: postgresql padrão e um cluster utilizando o postgres-bdr publicado na revista profiscientia (cuiabá), v.1, p.88-108, 2020. - Monitoramento proativo e gerenciamento de rede da UFMT, usando a ferramenta Zabbix / Proactive monitoring and network management at UFMT, using the Zabbix tool publicado em Brazilian Journal of Development. , v.6, p.38139-38146, 2020. Livros publicados são: - Monitoramento de um ambiente computacional utilizando zabbix em contêineres docker. Editora Novas Edições Acadêmicas, 2021. - Alta Disponibilidade em Containers Docker por meio do Docker Swarm. Editora Novas Edições Acadêmicas, 2019. - Proposta de práticas criptográficas para internet das coisas. Latvia, European Union: Novas Edições Acadêmicas, 2019. - Um Sistema De Coleta E Armazenamento De Dados Com Arduino. Latvia, European Union: Novas Edições Acadêmicas, 2018.

Jonathas Eide Fujii, Universidade Federal de Mato Grosso

Graduado em Ciência da Computação e especialista em Auditoria Pública, Licitações, Gerenciamento de Projetos e Gestão de TI. Auditor do Estado na CGE-MT, atua na integração de dados, trilhas de auditoria e desenvolvimento de sistemas de monitoramento contínuo como o SARA Lakehouse e o CGE Alerta. Seu interesse de pesquisa envolve análise de dados, inteligência artificial aplicada à auditoria contínua, prevenção de fraudes e governança pública orientada por dados.

Josiel Maimone de Figueiredo, Universidade Federal de Mato Grosso

Professor Titular do Instituto de Computação da Universidade Federal de Mato Grosso (IC-UFMT), onde atua no Programa de Pós-graduação em Computação Aplicada (PPGComp) e também no Programa de Pós-Graduação em Propriedade Intelectual e Transferência de Tecnologia para a Inovação (PROFNIT). Na graduação ministra aulas principalmente para os Cursos de Ciência da Computação e Sistemas de Informação. Desenvolve pesquisas na área de Ciência da Computação, com ênfase em banco de dados,blockchain, tratamento de dados ambientais, dados semi-estruturados, dados textuais, big data e software livre. Possui graduação em Engenharia de Computação pela Universidade Federal de São Carlos - UFSCar (1998); mestrado em Ciência da Computação, com ênfase em Banco de Dados, pela Universidade Federal de São Carlos (2000); doutorado em Ciências da Computação e Matemática Computacional, com ênfase em Banco de Dados, pela Universidade de São Paulo - USP (2005); e Pós-doutorado no Departamento de Ciência da Computação da Universidade de Sheffield, Inglaterra(2018) e também no Departamento de Computação da Imperial College (Londres).

Citas

Apache Airflow, “What is Airflow?,” Apache Airflow Documentation, 2024. [Online]. Available: https://airflow.apache.org/docs/apache-airflow/stable/. Accessed: Nov. 6, 2024.

K. Shvachko, H. Kuang, S. Radia and R. Chansler, "The Hadoop Distributed File System," 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), Incline Village, NV, USA, 2010, pp. 1-10.

J. Schneider, C. Gröger, A. Lutsch, et al., “The Lakehouse: State of the Art on Concepts and Technologies,” SN Computer Science, vol. 5, p. 449, 2024.

M. Zaharia et al., “Resilient distributed datasets: A Fault-Tolerant abstraction for In-Memory cluster computing,” in 9th USENIX Symposium on Networked Systems Design and Implementation (NSDI 12), San Jose, CA, USA, 2012, pp. 15-28.

C. Avci, B. Tekinerdogan, and I. N. Athanasiadis, “Software architectures for big data: a systematic literature review,” Big Data Analytics, vol. 5, no. 1, p. 5, 2020.

A. R. E. Da Silva et al., “Análise da relevância da arquitetura de implementação de Delta Lake para banco de dados empresariais,” 2024.

D. Borges, “CGE Alerta transforma gestão pública em 2024 e reduz pendências em até 51%,” 2025. [Online]. Available: https://www.cge.mt.gov.br/w/cge-alerta-transforma-gest%C3%A3o-p%C3%BAblica-em-2024-e-reduz-pend%C3%AAncias-em-at%C3%A9-51-/. Accessed: Mar. 3, 2025.

Dremio, “Project Nessie,” 2024. [Online]. Available: https://www.dremio.com/open-source/nessie/. Accessed: Nov. 6, 2024.

S. Fanelli et al., “Big data analysis for decision-making processes: challenges and opportunities for the management of health-care organizations,” Management Research Review, vol. 46, no. 3, pp. 369–389, 2023.

G. Boscov, “Mato Grosso é destaque no SECOP 2023: Excelência em Governo Digital,” Secretaria de Estado de Meio Ambiente, Desenvolvimento Sustentável e Turismo (MTI), Cuiabá, MT, 4 set. 2023. Online. Available: https://www.mti.mt.gov.br/-/mato-grosso-é-destaque-no-secop-2023-excelência-em-governo-digital. Accessed: Apr. 14, 2026.

T. Kluyver et al., “Jupyter Notebooks-a publishing format for reproducible computational workflows,” in Positioning and Power in Academic Publishing: Players, Agents and Agendas, 20th International Conference on Electronic Publishing, IOS Press, 2016, pp. 87-90.

T. Kafel, A. Wodecka-Hyjek, and R. Kusa, “Multidimensional public sector organizations' digital maturity model,” Administration & Public Management Review, vol. 37, pp. 64-82, 2021.

D. D. H. Ameen, S. W. Kareem, and S. B. Hasan, “A Big Data, Bigger Impact: A Comprehensive Review of Machine Learning Advancements,” in 2024 International Conference on Electrical Engineering and Computer Science (ICECOS), IEEE, 2024, pp. 1-6.

O. M. Ribeiro and J. M. R. Coelho, Auditoria fácil, 2. ed. São Paulo: Saraiva, 2013.

M. Santos, “O impacto das novas tecnologias na profissão do auditor,” KPMG Business Magazine, vol. 46, pp. 16-21, 2019.

L. Silveira, “CGE lança sistema que permite monitoramento e correção proativa de questões administrativas,” 2024. [Online]. Available: https://www.mti.mt.gov.br/-/cge-lan%C3%A7a-sistema-que-permite-monitoramento-e-corre%C3%A7%C3%A3o-proativa-de-quest%C3%B5es-administrativas/. Accessed: Mar. 3, 2025.

D. Appelbaum et al., “Impact of business analytics and enterprise systems on managerial accounting,” International Journal of Accounting Information Systems, vol. 25, pp. 29-44, 2017.

Trino, “Trino 464 Documentation.” [Online]. Available: https://trino.io/docs/current/overview/use-cases.html/. Accessed: Nov. 6, 2024.

R. Sethi et al., “Presto: SQL on everything,” in 2019 IEEE 35th International Conference on Data Engineering (ICDE), IEEE, 2019, pp. 1802-1813.

Publicado

2026-06-03

Cómo citar

ALVES OSTI, Eduardo William; BENEDITO DE OLIVEIRA PEREIRA, Roberto; FUJII, Jonathas Eide; MAIMONE DE FIGUEIREDO, Josiel. Implementación de Data Lake y Visualización de Datos para auditoría pública en la Controladoria-Geral do Estado de Mato Grosso. Revista de Ciência da Computação, [S. l.], v. 8, n. 1, p. e19165, 2026. DOI: 10.22481/recic.v8i1.19165. Disponível em: https://periodicos2.uesb.br/recic/article/view/19165. Acesso em: 10 jun. 2026.