INTERMATHS, VOL. 4, NO. 2 (2023), 54–74

https://doi.org/10.22481/intermaths.v4i2.13422

Artigos Gerais

cb licença creative commons

Elementos Básicos de Aprendizagem de Máquina

Basic Elements of Machine Learning

João Socorro Pinheiro Ferreira

Universidade Federal do Amapá, Macapa - AP, Brasil

* Autor Correspondente: joaoferreira@unifap.br

Resumo: Neste trabalho realizamos a revisão de seis artigos cientíﬁcos sobre a evasão escolar

que utilizaram Aprendizagem de Máquina como metodologia para detectar as possíveis causas.

A metodologia utilizada por esta pesquisa é a bibliográﬁca, pois-se investigou quais são os temas

e elementos técnicos de cada um dos artigos, principalmente em relação à aprendizagem de

máquina. Os resultados obtidos são sobre os principais elementos que estruturam os algoritmos

de aprendizagem de máquina a partir dos seis artigos cientíﬁcos estudados. O tema é muito

abrangente e envolve diversas áreas e subáreas do conhecimento cientíﬁco, como, por exemplo

Álgebra Linear, Matrizes, Teoria da Computação, Computabilidade, Modelos de Computação,

Linguagem Formais e Autômatos, Análise de Algoritmos e Complexidade Computacional. As

Técnicas de Mineração de Dados (EDM) são as ações utilizadas para encontrar padrões em um

grande volume de dados. Estes padrões podem ser explicativos, de modo a descrever as relações

entre segmentos de dados, ou preditivos, os quais podem prever valores futuros baseados em

dados anteriores. Ao ﬁnal, o leitor terá uma visão ampla de como ocorre todo o processo

metodológico de produção e construção de aprendizagem de máquina.

Palavras-chave: Aprendizagem de Máquina (ML); Inteligência Artiﬁcial (IA); Mineração de

Dados Educacionais (EDM); Previsão de Abandono Escolar; Redes Neurais (RN).

Abstract: In this work, we reviewed six scientiﬁc articles on school dropouts that used machine

learning as a methodology to point out the possible causes. The methodology used by this

research is bibliographical because it investigated the themes and technical elements of each

of the articles, especially in relation to machine learning. The results obtained are about the

main elements that structure the machine learning algorithms from the six scientiﬁc articles

studied. The theme is very comprehensive and involves several areas and subareas of scientiﬁc

knowledge, such as linear algebra, matrices, theory of computation, computability, models

of computation, formal language and automata, analysis of algorithms, and computational

complexity. Data mining techniques (EDM) are the actions used to ﬁnd patterns in a large

volume of data. These patterns can be explanatory, to describe the relationships between

data segments, or predictive, to predict future values based on previous data. At the end, the

reader will have a broad view of how the entire methodological process of the production and

construction of machine learning occurs.

keywords: Machine Learning (ML); Artiﬁcial Intelligence (AI); Educational Data Mining

(EDM); School Dropout Prediction; Neural Networks (RN).

Submetido em: 14 de Agosto de 2023 Aprovado em: 22 de Dezembro de 2023 Publicado em: 30 de Dezembro de 2023

1 Introdução

O objetivo deste texto é apresentar como se dá o processo de construção de um

algoritmo de Aprendizagem de Máquina a partir da leitura de seis artigos cientíﬁcos

sobre o tema Evasão ou Abandono Escolar, em que os títulos estão identiﬁcados no

próprio texto. Os artigos abordam o seguinte questionamento: Como é possível prever

o abandono escolar a partir de dados levantados em um estabelecimento de ensino?

A resposta que são apresentadas é sobre a utilização de Machine Learn (ML) ou

Aprendizagem de Máquina.

Na AM há dois tipos de sistemas de aprendizado de máquina (ML): o primeiro,

que trabalha com Aprendizagem Supervisionada e Não Supervisionada e o segundo,

com Aprendizagem em Batch (lote) e On-line. Estes são os sistemas de se treinar e

testar os algoritmos. A aprendizagem supervisionada e não supervisionada, podem

ser subdivididas em quatro categorias: Aprendizagem Supervisionada, Aprendizagem

Não Supervisionada, Aprendizagem Semisupervisionada e Aprendizagem por Reforço –

aqui há alguma semelhança com Skinner, para treinar programas ou algoritmos robôs,

pois há recompensa pelo desempenhoo. A Aprendizagem em Batch (Lote) e a On-line,

são organizadas ou classiﬁcadas em três tipos conforme a seguir: Aprendizagem em

Lote, Aprendizagem On-line e Aprendizado Baseada em Instância versus Aprendizado

Baseada em Modelo.

Os principais desaﬁos do aprendizado de máquina são: quantidade insuﬁciente de dados

de treinamento, dados de treinamento não representativos, dados de baixa qualidade,

recursos irrelevantes, sobreajustando os dados de treinamento e subajustando os dados

de treinamento.

Este texto está organizado em quatro Seções. Na Seção 2, organizamos a descrição

dos artigos à Tabela 1, com o título e as palavras-chave, com a ﬁnalidade de aprofundar

sobre os fundamentos teóricos existentes em cada um dos artigos e veriﬁcar aquelas

palavras-chave que são homônimas ou análogas, na busca de similaridade de métodos. Na

Tabela 2, reunimos todos os elementos textuais de cada artigo, também para identiﬁcar

semelhanças. Na Seção 3, organizamos na Tabela 3 os principais métodos, modelos e

algoritmos utilizados para minerar dados de banco de dados para analisar evasão ou

abandono escolar. Na Tabela 4, mostramos um exemplo de características utilizadas

como variáveis para a mineração de dados (EDM) sobre evasão escolar, pesquisado no

artigo [

]. Na Subseção 3.1 relatamos as principais métricas utilizadas nos seis artigos

cientíﬁcos, que tiveram a ﬁnalidade de classiﬁcar os diversos objetos de pesquisa que

abordaram. As que se destacam são acurácia (ou precisão), especiﬁcidade, sensibilidade

e a Área Sob a Curva (AUC). A Receiver Operating Characteristics (ROC) signiﬁca a

curva de Características Operacionais do Receptor (ROC). Essas medidas são calculadas

por meio dos valores da Matriz de Confusão

∗

, de dimensão 2

2. Na Subseção 3.2,

incluímos uma aplicação analítica do método Linear Discriminant Analysis (LDA)

(Análise Discriminante Linear (LDA)), um dos métodos utilizados no artigo cientíﬁco [

Na Seção 4, estão as Considerações Finais a respeito da compreensão dos seis artigos

estudados e as possibilidades de produção de pesquisas futuras e publicação de textos

cientíﬁcos como forma de construir Aprendizagem de Máquina.

∗

No campo do Aprendizado de Máquina uma matriz de confusão é uma tabela que permite a visualização do desempenho de um algoritmo de classiﬁcação. Essa tabela de

contingência 2 × 2 especial é também chamada de matriz de erro.

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 55

2 Revisão dos Artigos

Na Tabela 1, organizamos os seis artigos cientíﬁcos que nos foi indicados para os estudos

preliminares sobre Machine Learning (ML) (Aprendizagem de Máquina), apontando

o título e as palavras-chave em língua portuguesa, para melhorar a compreensão dos

mesmos, porém nas Referências, os títulos estão em Inglês. Vale ressaltar, que o sexto

artigo não contém palavras-chave.

Tabela 1 – Relação de artigos cientíﬁcos revisados e respectivas palavras-chave.

Artígo Título Palavras-Chave

Cientíﬁco

[1] Previsão de Abandono do Aluno Aprendizado de Máquina.

Mineração de Dados

Educacionais (EDM).

Ferramentas de Suporte à Decisão

[2] Os modelos de previsão de evasão Previsão de abandono

universitária devem incluir Análise preditiva

atributos protegidos? Ensino superior

Aprendizagem on-line

Justiça algorítmica (Algoritmia)

[3] Aplicação de regressão logística para EDM.

prever a falha de alunos em disciplinas Regressão logística

de um curso de graduação em Análise de dados

Matemática

[4] Previsão de evasão precoce usando Predição de evasão

EDM: um estudo de caso Classiﬁcação,

com alunos do ensino médio EDM,

Programação genética baseada

em gramática

[5] Um estudo de inferência causal sobre Abandono universitário

os efeitos da Carga de Trabalho do Aprendizado de máquina

Primeiro Ano sobre a Taxa de Inferência causal

Evasão dos Graduandos Efeito médio do tratamento

[6] Prevenindo a evasão de alunos no

ensino a distância usando técnicas

de aprendizado de máquina

Fonte: elaborado pelo autor.

São dezenove palavras-chave, sendo que a frequência modal é sobre Mineração de

Dados Educacionais (Educational Data Mining (EDM)), seguida por Aprendizado de

Máquina (Machine Learning (ML)).

Considerando-se que estamos realizando um trabalho exploratório para compreender os

termos e métodos de Ciências de Dados, organizamos na Tabela 2, os elementos presentes

nos seis artigos cientíﬁcos e percebemos que aqueles exigidos pela NBR 6028/2018, que

normatiza Artigo em publicação periódica técnica e/ou cientíﬁca, estão presentes em

todos e surgem novos denominações, inerentes a ciência de dados.

Na Tabela 2, o 1 indica que o termo está presente e 0 ausente nos artigos cientíﬁcos.

Observamos que há uma variedade de novos termos, sendo que alguns estão presentes

em apenas um e outros são comuns a todos, como é o caso de Conjunto de Dados

(Dataset).

No [

], encontra-se um estudo que dentre muitos problemas em aberto no processo

56 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

Tabela 2 – Elementos presentes nos artigos cientíﬁcos

Elementos

Artigos

1 2 3 4 5 6

Introdução 1 1 1 1 1 1

Antecedentes 0 0 0 1 0 0

Metodologia de Ensino à Distância HOU e Descrição dos Dados 0 0 0 0 0 1

Trabalho Relatado (Descrição do Caso) 1 1 1 0 1 0

Previsão de abandono da faculdade 0 1 0 0 0 0

Imparcialidade algorítmica na educação 0 1 0 0 0 0

Metodologia 1 1 1 1 1 0

Algoritmos 0 0 0 1 0 0

Modelos 0 0 1 0 0 0

Conjunto de Dados 1 1 1 1 1 1

Meta de previsão e engenharia de recursos 0 1 0 0 0 0

Previsão de abandono 0 1 0 0 0 0

Avaliação de desempenho 0 1 0 0 0 0

Pré-processamento de Dados 1 0 1 0 0 0

Seleção de recursos e métricas de avaliação 1 0 1 0 0 0

Desenvolvimento e avaliação de modelos 0 0 1 0 0 0

Razão de probabilidade 0 0 1 0 0 0

Métricas de desempenho 0 0 1 0 0 0

Fluxograma de desenvolvimento de modelo 0 0 1 0 0 0

Experimento 1 0 0 0 1 0 0

Experimento 2 0 0 0 1 0 0

Experimento 3 0 0 0 1 0 0

Técnicas de aprendizado de máquina 0 0 0 0 0 1

Resultado Experimental 1 1 1 1 1 1

Seleção de Parâmetros e Escalonamento de Dados 1 0 1 0 0 0

Parâmetros do modelo e seleção de variáveis 1 0 1 0 0 0

Análise das Características. 1 0 0 0 0 0

Análise do Abandono por Escola Acadêmica 1 0 0 0 0 0

Desempenho Geral da Previsão 0 1 1 0 0 0

Desempenho do modelo 0 1 1 0 0 0

Imparcialidade de previsão 0 1 0 0 0 0

Modelos Descobertos 0 0 0 1 0 0

Trabalho e Discussão Relacionados 0 0 0 1 1 0

Experimentos e Resultados 0 0 0 0 0 1

Conclusão e Trabalho Futuro 1 1 1 1 1 1

Referências 1 1 1 1 1 1

Fonte: elaborado pelo autor.

0: Ausente; 1: Presente.

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 57

de ensino e aprendizagem, está à evasão escolar (abandono), pois é difícil de prever,

tanto para o aluno quanto para as instituições, e predizer poderá ajudar a diminuir seus

custos sociais e econômicos.

No [

], procura apresentar ferramentas à identiﬁcação precoce de evasão universitária

pode fornecer um valor enorme para melhorar o sucesso do aluno e a eﬁcácia institucional

e a análise preditiva é cada vez mais usada para esse ﬁm. No entanto, surgiram

preocupações éticas sobre se a inclusão de atributos protegidos nesses modelos de

previsão discrimina grupos de estudantes subrepresentados e exacerba as desigualdades

existentes.

Em [

], os grandes índices de reprovação dos alunos é um problema muito frequente

nos cursos de graduação, sendo ainda mais evidente nas ciências exatas. Apontar as

razões desse problema é um tema primordial de pesquisa, embora não seja uma tarefa

fácil.

Em [

], a previsão precoce da evasão escolar é um problema sério na educação, mas não

é uma questão fácil de resolver. Por um lado, há muitos fatores que podem inﬂuenciar a

retenção do aluno. Por outro lado, a abordagem de classiﬁcação tradicional usada para

resolver esse problema normalmente deve ser implementada no ﬁnal do curso para coletar

o máximo de informações a ﬁm de obter a maior precisão. Neste artigo, os autores

propõem uma metodologia e um algoritmo de classiﬁcação especíﬁco para descobrir

modelos de previsão compreensíveis da evasão escolar o mais rápido possível.

No artigo cientíﬁco [

], os autores avaliaram o risco de abandono precoce na graduação

usando métodos de inferência causal e focaram em grupos de alunos que têm um risco

de abandono relativamente maior. Usamos um grande conjunto de dados composto por

alunos de graduação admitidos em vários programas de estudo em oito faculdades/escolas

de nossa universidade.

No artigo [

], a evasão estudantil ocorre com bastante frequência em universidades

que oferecem Educação a Distância. O escopo desta pesquisa é estudar se o uso de

técnicas de aprendizado de máquina pode ser útil para lidar com esse problema.

3 Metodologias e Métodos

Aqui estão alguns dos algoritmos de aprendizado supervisionado mais importantes:

• k-Nearest Neighbors (k-vizinhos mais próximos)

• Linear Regression (Regressão linear)

• Logistic Regression (Regressão Logística)

• Support Vectors Machine (Máquinas de Vetores de Suporte (SVMs))

• Decision Trees (Árvores de Decisão) e Random Foresta (Florestas Aleatórias)

• Neural Networks (Redes neurais)

Aqui estão alguns dos algoritmos de aprendizado não supervisionados mais importan-

tes:

58 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

• Agrupamento

– k-Means

– Análise Hierárquica de Cluster (HCA)

– Maximização da Expectativa

• Visualização e redução de dimensionalidade

– Análise de Componentes Principais (PCA)

– Núcleo PCA

– Incorporação Localmente Linear (LLE)

– Incorporação de vizinhos estocásticos distribuídos em t (t-SNE)

• Aprendizagem de regra de associação

– A priori

– Eclat

Na Tabela 3 estão relacionadas as algoritmos de aprendizado supervisionado e apren-

dizado não supervisionados utilizados em cada um dos seis artigos estudados.

As Metodologias utilizadas por cada um dos artigos cientíﬁcos da Tabela 1 são

diferenciadas, conforme sintetisamos na Tabela 2, por isso, faremos aqui um breve relato

por artigo cientíﬁco.

No artigo cientíﬁco [

], em particular, os autores consideraram três métodos: Análise

Discriminante Linear (LDA), Support Vector Machine (SVM) - [

] e Random Forest

(RF), por serem os mais comumente modelos usados na literatura para resolver problemas

semelhantes.

A LDA atua como um algoritmo de redução dimensional, tentando reduzir os dados

complexidade, ou seja, projetando o espaço de recursos real em um espaço de dimensão

inferior, ao tentar reter informações relevantes; além disso, não envolve conﬁgurações de

parâmetros. O SVM é uma técnica bem estabelecida para classiﬁcação e regressão de

dados. Ele encontra o melhor hiperplano de separação maximizando a margem no espaço

de recursos. Os dados de treinamento que participam do processo de maximização

são chamados de vetores de suporte. A RF constrói uma coleção de classiﬁcadores

estruturados em árvore combinando-os aleatoriamente. Tem sido adotado na literatura

para uma grande variedade de tarefas de regressão e predição [8].

A Tabela 4 mostra uma descrição detalhada das informações disponíveis no conjunto

de dados do Artigo [

]. A primeira coluna lista o nome dos recursos, enquanto a segunda

coluna descreve os possíveis valores ou intervalos. As duas primeiras funcionalidades

representam dados pessoais dos alunos enquanto a terceira e a quarta são informações

relacionadas ao ensino médio frequentado pelo aluno.

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 59

Tabela 3 – Algoritmos de aprendizado supervisionado mais importantes (abordados neste livro)

Artigo Título Algoritmo de

Cientíﬁco Aprendizagem

[1] Previsão de Abandono do Aluno Linear Discriminant Analysis (LDA)

Support Vector Machine (SVM)

Random Forest (RF)

[2] Os modelos de previsão de evasão Gradient Boosted Trees (GBT)

universitária devem incluir Logistic Regression (LR)

atributos protegidos?

[3] Aplicação de regressão logística Odds Ratio (OR)

para prever a falha de alunos Ten-Fold Cross Validation Method

em disciplinas de um curso

de graduação em matemática

[4] Previsão de evasão precoce usando Genetic Programming (GP)

mineração de dados (EDM): um estudo

de caso com alunos do

ensino médio

[5] Um estudo de inferência causal sobre Logistic Regression (LR)

os efeitos da Carga de Trabalho do Multi-Layer Perceptron (MLP)

Primeiro Ano sobre a Taxa de

Evasão dos Graduandos

[6] Prevenindo a evasão de alunos no Decision Trees (DT)

ensino a distância usando técnicas Neural Networks (NN)

de aprendizado de máquina Naive Bayes algorithm (NBA)

Instance-Based Learning Algorithms

Logistic Regression (LR)

Support Vector Machines (SVM)

Fonte: elaborado pelo autor.

Para LDA, RF e SVM, apenas mantevemos a escolha dos melhores parâmetros e

monitoramos seu desempenho nos diferentes conjuntos de dados.

Considerando o conjunto básico de recursos, LDA e SVM obtêm o melhor desempenho

com uma variação um pouco maior para os resultados do SVM. A introdução do

recurso Additional Learning Requirements (ALR) melhora principalmente a precisão

e a especiﬁcidade para LDA e SVM, mas diminui a sensibilidade. Pelo contrário, a

introdução da funcionalidade ALR no RF ajuda a melhorar o desempenho ﬁnal em

todas as medidas, obtendo um desempenho superior face aos resultados de LDA e SVM

em o conjunto básico de recursos.

No artigo [2], o método Gradient Boosted Trees (Árvores reforçadas com gradiente):

Gradient Boosted Trees (também conhecido como GBT) é um algoritmo de ML baseado

em árvore comumente usado que funciona tanto para regressão quanto para classiﬁcação

de problemas de mineração de dados (EDM).

Para interpretação e avaliação dos modelos em [

], foram utilizados Odds Ratio (OR),

Método dez-fold Cross Validation e as métricas: acurácia (Equação (1)), especiﬁcidade

(Equação (2)), sensibilidade (Equação (4)) e área sob a curva ROC (AUC) (Equação

(5)). A curva ROC é obtida representando a taxa de verdadeiros positivos (sensibilidade)

no eixo

versus a taxa de falso positivo (especiﬁcidade) no eixo

para

variando

entre 0 e 1.

A AUC é a medida de desempenho frequentemente usada para modelos de ML

60 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

Tabela 4 – Recursos disponíveis para cada aluno no conjunto de dados original, juntamente com

o intervalo de valores possíveis

Característica Faixa de valor

Sexo do aluno 1, 2

Faixa etária do aluno 1 a 3

ID do ensino médio 1 a 10

Nota ﬁnal do ensino médio 60 a 100

Requisitos Adicionais de Aprendizagem (ALR) 1, 2, 3

ID da escola acadêmica 1 a 11

Créditos do Curso (CC) 0 a 60

Desistência 0 , 1

Fonte: [1]

de classiﬁcação, onde a curva representa a curva Receiver Operating Characteristics

(ROC) que pode incluir a totalidade do desempenho de previsão de um método de

classiﬁcação para todos os limites de classiﬁcação ([

], 2020). A curva permite visualizar

o comportamento dos modelos de classiﬁcação e denota o trade-oﬀ do classiﬁcador entre

o número de previsões positivas corretas e incorretas ([

], 2020). Para ser mais especíﬁco,

a curva ROC representa um gráﬁco bidimensional no qual a Taxa Positiva Verdadeira

(TPR) denota o eixo y, enquanto a Taxa Positiva Falsa (FPR) representa o eixo x ([

] ,

2019). Os valores de AUC variam entre 0,5 e 1,0. Quando o valor de AUC está próximo

de 1, mostra que o modelo tem melhor desempenho, enquanto um valor menor que 0,5

indica desempenho ruim e a inclinação do ROC deve ser alta, pois representa alto TPR

enquanto menos FPR ([10], 2019) .

No artigo [

], o estudo se concentra na modelagem de riscos de abandono e baixo

desempenho usando dados disponíveis no momento em que os alunos se matriculam.

O conjunto de recursos para nossos dois modelos consiste dados demográﬁcos (sexo,

idade e nacionalidade), tipo de acesso ao estudo, programa de estudo, número de

créditos do primeiro ano e nota média de admissão. ML diferente algoritmos: regressão

logística (LR), multi-layer perceptron (MLP) e decisão árvores são usadas para prever

os riscos. Ambos os modelos de ML são treinados com alunos matriculados entre 2009 e

2015 (16.273 casos) e testados com alunos matriculados em 2016, 2017 e 2018 (6.823

casos). Devido a considerações de espaço e devido a a gravidade do abandono, focamos

principalmente neste risco. Utilizando um método de seleção de recursos baseado em

árvores de decisão (CART), veriﬁcamos que dentre os recursos disponíveis no momento

da matrícula, os mais importantes na previsão do abandono risco são o número de

créditos no primeiro ano (carga horária), série de ingresso, idade e tipo de acesso ao

estudo.

No artigo [

], a ﬁm de examinar o uso das técnicas de aprendizado no tema proposto,

são aplicadas seis técnicas de aprendizado de máquina, a saber: Árvores de Decisão

(Decision Trees (DT)) [

], Redes Neurais (Neural Networks (RN) ) [

], Algoritmo Naive

Bayes (ANB) [

] , Algoritmos de Aprendizagem Baseados em Instâncias (Instance-

Based Learning Algorithms (IBLA)) [

], Regressão logística (Logistic Regression (LR))

[

] e Máquinas de vetores de suporte (Support Vector Machines (SVM)) [

] foram

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 61

usados para minerar dados educacionais. Posteriormente, foram realizadas a classiﬁcação

e comparação entre as estas técnicas ou métodos de mineração de dados (EDM) para

veriﬁcar a acurácia entre as mesmas.

3.1 Métricas de desempenho

Para avaliar os resultados nas métricas de classiﬁcação deste estudo, a matriz de

confusão (ver Figura 1) e suas métricas de desempenho relacionadas, como exatidão

(ACC) - Equação (1), precisão (PR) - Equação (3), recuperação (Rec) - Equação (4),

área sob a curva de características operacionais do receptor (AUC) - Equação (5) e F1

Score (F1) - Equação (6), foram empregados ([17], 2020).

Diversas métricas de avaliação podem ser utilizadas para avaliar a qualidade dos classi-

ﬁcadores tanto no processo de seleção da melhor conﬁguração de hiperparâmetro quanto

na classiﬁcando os diferentes modelos. A classiﬁcação produz valores de Verdadeiro

Positivo (TP), Verdadeiro Negativo (TN), Falso Positivo (FP) e Falso Negativo (FN); no

nosso caso, interpretamos um PF como a previsão de uma evasão que não ocorre, e um

NF como um aluno que segundo a previsão do modelo continuará os estudos enquanto o

fenômeno da evasão efetivamente ocorrer.

No caso de classiﬁcação binária, a precisão ou acurácia (ACC), a especiﬁcidade (SPEC)

e a sensibilidade (SENS) são usados em vez de valores simples de TP, TN, FP e FN

para melhorar a interpretabilidade dos resultados experimentais [18].

ACC é a razão entre a previsão correta sobre o número total de instâncias, medida

pela Equação (1).

ACC =

T P + T N

T P + T N + F P + F N

. (1)

A SPEC ou True Negative Rate (TNR), é a proporção de TN para o número total

de instâncias que possuem classe negativa real (Equação (2)). A “especiﬁcidade” é a

razão entre os verdadeiros negativos (TN) e o total de negativos (TN + FP), ou seja, a

especiﬁcidade mede a capacidade do modelo de classiﬁcar um input como negativo dado

que ele realmente é negativo.

SP EC =

T N

T N + F P

. (2)

P R =

T P

T N + F P

. (3)

A SENS, também conhecida como recall ou True Positive Rate (TPR), é a proporção

de TP para o número total de instâncias que possuem classe positiva real (Equação (4)).

SENS =

T P

T P + F P

= REC. (4)

De acordo com [

], a AUC mostra o trade-oﬀ entre a taxa de TP e a taxa de FP e é

calculada como [19]

AUC =

1 + T P − F P

. (5)

62 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

F1 SCORE =

2 · REC · P R

REC + P R

. (6)

O diagrama a seguir é conhecido como “Matriz de Confusão” e representa um resumo

do desempenho de um modelo (Ver Figura 1).

Figura 1 – diagrama Matriz de Confusão : TP - Verdadeiro Positivo, FN - Falso Negativo, FP - Falso Positivo

e TN - Verdadeiro Negativo

Fonte: [3]

Finalmente, uma forma de avaliar o desempenho de um modelo de regressão logística

é por meio da curva Receiver Operating Characteristic (ROC). [20], [21]

A curva ROC é obtida representando a taxa de verdadeiros positivos (sensibilidade)

no eixo

versus a taxa de falso positivo (1-especiﬁcidade) no eixo

para

variando

entre 0 e 1.

A área sob a curva ROC (AUC) varia entre 0 e 1, essa métrica indica a capacidade

do modelo de diferenciar corretamente entre casos de sucesso e fracasso [

]. Valores

próximos a 1 indicam que o modelo apresenta bom desempenho (Tabela 5).

Tabela 5 – Níveis de poder de discriminação do modelo em função da AUC [22]

AUC = 0.5 Isso sugere nenhuma discriminação.

0.7 ≤ AUC < 0.8 Isso é considerado discriminação aceitável.

0.8 ≤ AUC < 0.9 Isso é considerado discriminação excelente.

AUC ≥ 0.9 Isso é considerado discriminação excepcional.

Fonte: [3].

(

: β

= 0

: β

̸= 0

, i = 0, 1, ··· , n,

onde n é o número de variáveis independentes do modelo.

Portanto, quando o p-valor associado a uma variável é menor que o nível de signiﬁcância

, rejeitamos a hipótese nula e concluímos que existe, de fato, uma associação entre

a variável e a probabilidade de falha, ou seja, a variável independente é considerados

signiﬁcativos para o modelo.

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 63

3.1.1 Odds Ratio (OR): razão de probabilidade

Seja

um evento arbitrário e

(

) sua respectiva probabilidade, as probabilidades

de E são dadas por

Odds(E) =

p(E)

1 − p(E)

No modelo logístico, a chance de

, onde

é o evento de sucesso, depende do vetor

de variáveis independentes

= (

, x

, ··· , x

), portanto, a chance de

dado

(probabilidades (S/X)) são:

Odds(S/X) =

p(S/X)

1 − p(S/X)

i=1

1 + e

i=1

1 −

i=1

1 + e

i=1

1 + e

−(β

)

−(β

)

1 + e

−(β

)

= e

(β

)

onde

é uma notação suprimida para

i=1

Considerando dois vetores de variáveis independentes

, o Odds Ratio (OR) é

dado por

OR(x

, x

) =

odds(S/X

)

odds(S/X

)

(β

)

(β

)

= e

−x

)

é a razão entre as chances de um determinado resultado ocorrer, considerando

dois conjuntos possíveis de variáveis independentes

. Quando a diferença entre

ocorre em uma única variável, o OR indica o quanto e como essa variável

inﬂuencia na probabilidade de ocorrência do desfecho.

No escopo deste trabalho, o

indica quanto cada variável preditora inﬂuencia a

probabilidade de reprovação dos alunos.

No artigo [

], a propensão ao tratamento é estimada em cada cenário usando modelos

de aprendizado de máquina (ML) e recursos de entrada, incluindo dados demográﬁcos

(sexo e nacionalidade), programas de estudo e nota média de admissão. Nos cenários 1 e

2, o tipo de acesso ao estudo também é adicionado como recurso e, no cenário 3, a idade

é adicionada como recurso. Calculamos o efeito médio do tratamento (ATE) de cada

tratamento na probabilidade de abandono usando vários métodos de inferência causal:

–

O método de correspondência de pontuação de propensão [

], no qual os dados

são classiﬁcados por pontuação de propensão e depois estratiﬁcados em listas

(baldes) (cinco em nosso caso). Em nosso trabalho, obtemos o ATE subtraindo

o abandono médio dos casos não tratados (controle) dos casos tratados em cada

lista (balde).

–

Ponderação de pontuação de propensão inversa (IPW) [

]: A ideia básica deste

método está ponderando as medidas de resultado pelo inverso da probabilidade

do indivíduo com um determinado conjunto de características sendo atribuído ao

64 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

tratamento de modo que sejam obtidas características basais semelhantes. Neste

método, o tratamento efeito para o indivíduo

é obtido usando a seguinte equação:

T E

−

(1 − W

1 − p

, (7)

mostra tratamento (1 para casos tratados e 0 para casos de controle),

repre-

senta a probabilidade de receber tratamento (escore de propensão ao tratamento)

e Y

mostra abandono (1 se abandono e 0 se não abandono) para o indivíduo i.

–

Augmented Inverse-Propensity Weighted (AIPW) [

]: Este método combina as

propriedades do estimador baseado em regressão e do estimador IPW. Possui uma

parte de aumento (

− p

)

para o método IPW, em que

é a probabilidade

estimada de abandono usando todas as características aplicadas ao modelo de

escore de propensão mais a variável de tratamento. Assim, este estimador pode

levam a estimativas duplamente robustas que requerem apenas a propensão ou

o modelo de resultado para serem especiﬁcados corretamente, mas não ambos.

Podemos calcular o efeito do tratamento no indivíduo i como:

T E

− (W

− p

)

−

(1 − W

− (W

− p

)

1 − p

, (8)

–

Florestas causais do pacote EconML: Este método usa o Doublely Robust Florestas

Ortogonais (DROrthoForest) que são uma combinação de ﬂorestas causais e

aprendizado de máquina duplo para estimar não parametricamente o efeito do

tratamento para cada indivíduo.

Em IPW, AIPW e DROrthoForest, obtemos o tratamento individual efeito

T E

, que

é a diferença entre os resultados se a pessoa for tratada (tratamento) e não tratado

(controle). Em outras palavras, esse efeito é a diferença de probabilidade de evasão

quando o aluno é tratado e não tratado; um valor negativo indica um risco de abandono

reduzido e um valor positivo indica um risco de abandono aumentado. O ATE resultante

é a média sobre os efeitos individuais do tratamento.

3.2 Linear Discriminant Analysis (LDA)

Nesta Seção, iremos introduzir uma ideia sobre o método de análise LDA, com os

fundamentos de Classiﬁcação, extraídos de [

], associada as ideias de [

] e [

], citados

em [1].

O autor [

], aborda um exemplo de LDA para duas classes de populações pesquisadas,

em que a função discriminante de Fisher é deﬁnida por

Y = ℓ

· X,

onde ℓ

= (ℓ

, ℓ

, ··· , ℓ

) e X = (X

, X

, ··· , X

) são vetores constantes.

O objetivo da LDA é escolher o melhor vetor

ℓ ∈ R

de forma que as funções

’s da

população 1 (π

) e Y ’s da população 2 (π

), sejam o mais separados possíveis

†

Para um problema linearmente separável, o problema consiste em rotacionar os dados de maneira a maximizar a distância entre as classes e minimizar a distância intra-classe.

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 65

A metodologia utilizada para otimizar

ℓ

é utilizar-se da Projeção Ortogonal

ℓ

conforme mostrado na Figura 2.

Figura 2 – Projeção ortogonal de X em ℓ.

Fonte: elaborada pelo autor.

Neste caso, a projeção ortogonal é deﬁnida por

ℓ

∥ℓ∥

· ℓ =



· ℓ



· ℓ,

com ∥ℓ∥ = 1, ou seja, ℓ seja ortonormal e



· ℓ



é o tamanho das projeções.

Suponha que

∥ℓ∥

= 1, estamos buscando direção

ℓ

em que

ℓ

dos dois grupos

sejam maximalmente separados.

Deﬁnimos a projeção

ℓ

de dois vetores

: um de pop1 (

) e outro de pop2

(π

Qual a melhor direção de

ℓ

? Para encontrar a solução Fisher raciocinou assim

inicialmente:

• Projete cada ponto X ao longo de ℓ gerando o escalar Y = ℓ

• Calcule a média de: pop1 = y

e a média de pop2 = y

Procure a direção ℓ em que ∥y

− y

∥ seja máxima.

Mas isso tem um problema:

∥y

− y

∥

pode ser grande mas as projeções não estão

bem separadas.

Conclusão fundamental:

•

A projeção dos dados aleatórios

em uma direção ﬁxa

ℓ

produz a variável aleatória

Y = ℓ

X, uni-dimensional.

•

Para medir a separação entre as populações projetadas não devemos simplesmente

olhar ∥y

− y

∥.

•

A razão é que a projeção impacta não apenas as médias

mas impacta

também a variabilidade dos dados.

•

Assim, devemos considerar

∥y

−y

∥

relativamente ao desvio padrão

‡

dos dados

‡

O Desvio Padrão consiste em uma medida do nível de dispersão, isto é, ele indica quão uniforme está um conjunto de dados. É a raiz quadrada da variância.

66 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

projetados

k=1

− y)

n − 1

• Isto é, vamos procurar ℓ para maximizar

∥y

− y

∥

Formulação do problema: Vamos supor que temos dados de duas populações

ou duas classes:

. Os dados são vetores aleatórios

de dimensão

p ×

1 com

densidades

(

) e

(

). Dados não precisam ser gaussianos. As classes possuem médias

diferentes mas a mesma matriz de covariância (Equação (14)):

E (X| ∈ π

) = µ

, p × 1

E (X| ∈ π

) = µ

, p × 1

V (X| ∈ π

) = V (X| ∈ π

) = Σ, p × p

3.3 Função Discriminante Linear de Fisher

A função objetivo, deduzida por [

], tem as seguintes características: com um

vetor

ℓ ∈ R

, reduzimos o vetor

p − dimensional X

a um escalar unidimensional:

ℓ

. Para

, o valor esperado de

será

E (Y | ∈ π

)

ℓ

e para

temos

E (Y | ∈ π

)

ℓ

, isto é, a média das projeções é a projeção da média.

A Variância

da projeção

em torno de suas duas médias é a mesma:

V (Y | ∈ π

)

V (Y | ∈ π

) = ℓ

Σℓ, 1 × 1. Veja que a variância de Y muda com ℓ.

Queremos encontrar

ℓ

que maximize a separação das duas populações. Como medir a

separação?

Como discutimos, não queremos apenas maximizar

∥m

− m

∥

. Devemos considerar

também a dispersão (variância, desvio-padrão) de

em torno de suas duas médias

e m

Queremos ℓ que maximize

U =

∥m

− m

∥

V(Y )

∥E (Y | ∈ π

) − E (Y | ∈ π

) ∥

V(Y )

∥ℓ

− ℓ

∥

ℓ

Σℓ

∥ℓ

(µ

− µ

) ∥

ℓ

Σℓ

ℓ

(µ

− µ

) (µ

− µ

)

ℓ

Σℓ

Precisamos da última representação para usar um teorema de álgebra linear:

Teorema. Seja

um vetor

p ×

1 e Σ uma matriz

p × p

positiva deﬁnida e

simétrica. Seja

um vetor

p ×

1 não-nulo. Vamos considerar o comprimento

Variância é uma medida unidimensional. É calculada de maneira independente pois não leva em consideração as outras dimensões.

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 67

(ao quadrado) de

usando a distância estatística (baseada em Σ) até a

origem 0 e deﬁnida por

. Assim,

√

Σx

é um vetor de

comprimento 1 ( ou norma-Σ igual a 1). Seja B o conjunto de vetores de

norma-Σ igual a 1. O conjunto B é um

p−

dim elipsóide com eixos nas

direções dos autovetores de Σ. Dentre todos os vetores

com norma

−

igual a 1, isto é, dentre todos os vetores

= B, aquele vetor

que maximiza

max

w∈B

= max

x̸=0

∥x

v∥

Σx

é igual a

w = cΣ

−1

Aplicar o Teorema no LDA:

No problema do LDA precisamos encontrar um vetor ‘ que maximize

U =

∥ℓ

(µ

− µ

) ∥

ℓ

Σℓ

Isto recai perfeitamente no caso do teorema anterior e a solução é

ℓ = Σ

−1

(µ

− µ

Na prática, temos de estimar os parâmetros das duas distribuições com os dados da

amostra. Por exemplo, µ

vira o vetor de médias aritméticas dos dados da amostra.

Queremos maximizar a separação =

∥y

− y

∥

é o desvio padrão (DP) amostral

com as observações no eixo da projeção

+ m

− 2





j=1

− y

)

j=1

− y

)





A combinação linear Y = ℓ

X que maximiza a separação

∥y

− y

∥

é dada por

ℓ

= (x

− x

)



agrupado



−1

onde

agrupado

pop1

pop2

a matriz de variância e covariância

amostral

da pop1 (um exemplo é a matriz (16) da população (π

) da Tabela 6).

De acordo com [

], a LDA tenta encontrar uma transformação linear através da

maximização da distância entre-classes e minimização da distância intra-classe. O

método tenta encontrar a melhor direção de maneira que quando os dados são projetados

em um plano, as classes possam ser separadas. A Figura 3 mostra duas situações em

que o método LDA classiﬁca duas classes com otimizações ruim e boa.

Covariância por sua vez, é uma medida bi-dimensional. Veriﬁca a dispersão, mas levando em consideração duas variáveis aleatórias.

68 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

Figura 3 – Classiﬁcação de dois conjuntos de dados.

Fonte: [28].

A função discriminante linear de Fisher é uma combinação linear de características

originais a qual se caracteriza por produzir separação máxima entre duas populações.

Considerando que

são parâmetros conhecidos e respectivamente, os vetores de

médias aritméticas e a matriz de covariâncias comum das populações

i = 1, ··· , p

Demonstra-se que a função linear do vetor aleatório

X = (X

, X

, ··· , X

)

que produz

separação máxima entre duas populações é dada por:

Y = ℓ

· X

= [µ

− µ

]

· Σ

−1

· X,

(9)

onde

ℓ

= (

, L

, ··· , ··· , L

) é um vetor discriminante de constantes,

é vetor

aleatório de características das populações,

é o vetor de médias

p − variado

e Σ é a

matriz de covariâncias comum as populações π

e π

O valor da função discriminante de Fisher para uma dada observação X

é:

Y (x

) = [µ

− µ

]

· Σ

−1

· x

. (10)

O ponto médio entre as duas médias populacionais univariadas µ

e µ

é:

m =

[µ

− µ

]

· Σ

−1

· [µ

+ µ

]

[D(µ

) + D(µ

)].

(11)

A regra de classiﬁcação baseada na função discriminante de Fisher é:

(i) Alocar x

em π

se D(x

) = [µ

− µ

]

· Σ

−1

· x

≥ m;

(ii) alocar x

em π

se D(x

) = [µ

− µ

]

· Σ

−1

· x

< m.

Assumindo-se que as populações

têm a mesma matriz de covariâncias Σ

podemos então estimar uma matriz comum de covariâncias S

− 1

− 1) + (n

− 1)

· S

− 1

− 1) + (n

− 1)

· S

. (12)

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 69

3.3.1 Função discriminante amostral

A função discriminante linear amostral de Fisher é obtida substituindo-se os parâmetros

, µ

e Σ pelas respectivas quantidades amostrais x

, x

e S

na Equação (9):

Y (x) =

ℓ

· x

= [x

− x

]

· S

−1

· x,

(13)

3.3.2 Aplicação

Como exemplo ilustrativo para obtenção da função discriminante linear amostral de

Fisher, vamos considerar os dados de duas raças de insetos (Tabela 6), apresentados por

HOEL (1966) e citado por REGAZZI (2000).

Tabela 6 – Número médio de cerdas primordiais (

) e número médio de cerdas distais (

) em

duas raças de insetos

Raça A(π

) Raça B (π

)

1 6.36 5.24 6.00 4.88

2 5.92 5,12 5.60 4.64

3 5.92 5,36 5.64 4.96

4 6.44 5,64 5.76 4.80

5 6.40 5,16 5.96 5.08

6 6.56 5,56 5.72 5.04

7 6.64 5,36 5.64 4.96

8 6.68 4,96 5.44 4.88

9 6.72 5,48 5.04 4.44

10 6.76 5,60 4.56 4.04

11 6.72 5,08 5.48 4.20

12 − − 5.76 4.80

Somatório 71.12 58.56 66.60 56.72

3.3.3 Covariância

cov(X

, X

) =

k=1

− µ

) (X

− µ

)

− 1

, i = 1, 2.

3.3.4 Matriz de Covariância 2 × 2

cov(X

, X

) cov(X

, X

)

cov(X

, X

) cov(X

, X

)

, i = 1, 2. (14)

Estimativa das médias das raças A e B

Para um dado conjunto de dados da Tabela 6, calcule os vetores médios de cada classe

e µ

(centróides) e o vetor médio geral, µ.

Com base nos dados apresentados na Tabela 6, temos:

70 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

As médias da classe Raça A são:

=11

k=1

71.12

= 6.46545

=11

k=1

58.56

= 5.32364

O vetor das médias da Raça A é:

6.46545

5.32364

(15)

A matriz covariância da Raça A é:

0.09129 0.01126

0.01126 0.05263

. (16)

As médias da classe Raça B são:

=12

k=1

66.60

= 5.55000

=12

k=1

56.72

= 4.72667

O vetor das médias da Raça B é:

5.5500

4.72667

(17)

A matriz covariância da Raça B é:

0.160327 0, 107418

0, 107418 0.111661

. (18)

Substituir n

= 11, n

= 12, as matrizes (16) e (18) na Equação (12):





0.09129 0.01126

0.01126 0.05263





0.160327 0, 107418

0, 107418 0.111661

0.12745 0.06163

0.06163 0.08355

. (19)

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 71

E a sua inversa é:

−1

12.1960015 −8.995964

−8.995964 18.604583

. (20)

Obtenção da função discriminante linear amostral de Fisher

Substituir os vetores (15) e (17) e a matriz inversa (20) na Equação (13):

Y (x

, x

) =

6.46545

5.32364

−

5.5500

4.72667

12.1960015 −8.995964

−8.995964 18.604583

· x

0.91545

0, 59697

12.1960015 −8.995964

−8.995964 18.604583

· x

0.91545 0, 59697

12.1960015 −8.995964

−8.995964 18.604583

5.794819 2, 871023

(21)

Segue que:

Y (x

, x

) = 5.794819x

+ 2.871023x

4 Considerações Finais

No processo de leitura dos artigos cientíﬁcos, tivemos a oportunidade de aprender

novas deﬁnições inerentes a aprendizagem de máquina (Machine Learning (ML)) e a

sua importância para detectar pontos relevantes, ou padrões, em um banco de dados

sobre educação, através de uma técnica denominada de mineração de dados educacionais

(Educational Data Mining (EDM)). Esta técnica ou método é estruturada por algoritmos

para realizar a tarefa de lê e interpretar abundante dados numéricos inseridos na memória

de computadores, o qual são os bancos de dados.

Existem na internet diversas plataformas que nos auxiliam, como é o caso do Oracle

e da Weka - que são uma coleção de algoritmos de aprendizado de máquina para tarefas

de mineração de dados (EDM). Eles contêm ferramentas para preparação de dados,

classiﬁcação, regressão, agrupamento, mineração de regras de associação e visualização.

Até agora você já sabe muito sobre Machine Learning. No entanto, passamos por

tantos conceitos que você pode estar se sentindo um pouco perdido, então daremos um

passo para trás e olhar para o quadro geral:

•

Aprendizado de máquina é fazer com que as máquinas melhorem em alguma tarefa

aprendendo com os dados, em vez de ter que codiﬁcar regras explicitamente.

•

Existem muitos tipos diferentes de sistemas de ML: supervisionados ou não, em

lote ou online, baseados em instâncias ou modelos, e assim por diante.

•

Em um projeto de ML, você coleta dados em um conjunto de treinamento e

alimenta o conjunto de treinamento para um algoritmo de aprendizado. Se o

algoritmo for baseado em modelo, ele ajusta alguns parâmetros para ajustar o

modelo ao conjunto de treinamento (ou seja, para fazer boas previsões no próprio

conjunto de treinamento) e, com sorte, também será capaz de fazer boas previsões

72 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira

em novos casos. Se o algoritmo for baseado em instâncias, ele apenas memoriza os

exemplos e usa uma medida de similaridade para generalizar para novas instâncias.

•

O sistema não funcionará bem se o seu conjunto de treinamento for muito pequeno

ou se os dados não forem representativos, ruidosos ou poluídos com recursos

irrelevantes (entrada de lixo, saída de lixo). Por ﬁm, seu modelo não precisa ser

nem muito simples (caso em que será subajustado) nem muito complexo (nesse

caso, será superajustado).

Há apenas um último tópico importante a ser abordado: após treinar um modelo,

você não quer apenas “esperar” que ele generalize para novos casos. Você deseja avaliá-lo

e ajustá-lo, se necessário.

ORCID

João Socorro Pinheiro Ferreira https://orcid.org/0000-0002-3711-3602

Fontes de Financiamento

Não há.

Referências

DEL BONIFRO, Francesca et al. Student dropout prediction. In: Artiﬁcial Intelligence

in Education: 21st International Conference, AIED 2020, Ifrane, Morocco, July

6–10, 2020, Proceedings, Part I 21. Springer International Publishing, 2020. p. 129-140.

https://doi.org/10.1007/978-3-030-52237-7_11

YU, Renzhe; LEE, Hansol; KIZILCEC, René F. Should college dropout prediction models

include protected attributes?. In: Proceedings of the eighth ACM conference on

learning@ scale. 2021. p. 91-100. https://doi.org/10.1145/3430895.3460139

COSTA, Stella F.; DINIZ, Michael M. Application of logistic regression to predict the failure

of students in subjects of a mathematics undergraduate course. Education and Informa-

tion Technologies, v. 27, n. 9, p. 12381-12397, 2022. https://doi.org/10.1007/s10639-022-

11117-1

MÁRQUEZ-VERA, Carlos et al. Early dropout prediction using data mining: a case

study with high school students. Expert Systems, v. 33, n. 1, p. 107-124, 2016.

https://doi.org/10.1111/exsy.12135

KARIMI-HAGHIGHI, Marzieh; CASTILLO, Carlos; HERNÁNDEZ-LEO, Davinia. A

causal inference study on the eﬀects of ﬁrst year workload on the dropout rate of under-

graduates. In: International Conference on Artiﬁcial Intelligence in Education.

Cham: Springer International Publishing, 2022. p. 15-27. https://doi.org/10.1007/978-3-

031-11644-5_2

KOTSIANTIS, Sotiris B.; PIERRAKEAS, C. J.; PINTELAS, Panayiotis E. Preventing

student dropout in distance learning using machine learning techniques. In: Knowledge-

Based Intelligent Information and Engineering Systems: 7th International

Conference, KES 2003, Oxford, UK, September 2003. Proceedings, Part II 7.

Springer Berlin Heidelberg, 2003. p. 267-274.

CHANG, Chih-Chung; LIN, Chih-Jen. LIBSVM: a library for support vector machines.

ACM transactions on intelligent systems and technology (TIST), v. 2, n. 3, p.

1-27, 2011.

J. S. P. Ferreira INTERMATHS, 4(2), 54–74, Dezembro 2023 | 73

8. BREIMAN, Leo. Bagging predictors. Machine learning, v. 24, p. 123-140, 1996.

MUSCHELLI III, John. ROC and AUC with a binary predictor: a potentially

misleading metric. Journal of classiﬁcation, v. 37, n. 3, p. 696-708, 2020.

https://doi.org/10.1007/s00357-019-09345-1

10.

KOIZUMI, Yuma et al. SNIPER: Few-shot learning for anomaly detection to minimize

false-negative rate with ensured true-positive rate. In: ICASSP 2019-2019 IEEE

International Conference on Acoustics, Speech and Signal Processing (ICASSP).

IEEE, 2019. p. 915-919.

11.

MURTHY, Sreerama K. Automatic construction of decision trees from data: A multi-

disciplinary survey. Data mining and knowledge discovery, v. 2, p. 345-389, 1998.

12. MITCHELL, Tom M. Machine learning. 1997.

13.

DOMINGOS, Pedro; PAZZANI, Michael. On the optimality of the simple Bayesian classiﬁer

under zero-one loss. Machine learning, v. 29, p. 103-130, 1997.

14. AHA, D. Lazy Learning. Kluwer Academic Publishers. 1997.

15. SCOTT LONG, John. Regression models for categorical and limited dependent variables.

Advanced quantitative techniques in the social sciences, v. 7, 1997.

16.

BURGES, Christopher J C. A tutorial on support vector machines for pattern recognition.

Data mining and knowledge discovery, v. 2, n. 2, p. 121-167, 1998.

17.

POWERS, David MW. Evaluation: from precision, recall and F-measure to ROC, infor-

medness, markedness and correlation. arXiv preprint arXiv:2010.16061, 2020.

18.

FREEMAN, Elizabeth A.; MOISEN, Gretchen G. A comparison of the performance of

threshold criteria for binary classiﬁcation in terms of predicted prevalence and kappa.

Ecological modelling, v. 217, n. 1-2, p. 48-58, 2008.

19.

LÓPEZ, Victoria et al. An insight into classiﬁcation with imbalanced data: Empirical

results and current trends on using data intrinsic characteristics. Information sciences,

v. 250, p. 113-141, 2013.

20.

BRADLEY, Andrew P. The use of the area under the ROC curve in the evaluation of

machine learning algorithms. Pattern recognition, v. 30, n. 7, p. 1145-1159, 1997.

21.

SPACKMAN, Kent A. Signal detection theory: Valuable tools for evaluating inductive

learning. In: Proceedings of the sixth international workshop on Machine learning.

Morgan Kaufmann, 1989. p. 160-163.

22. HOSMER, D. W.; LEMESHOW, Stanley. John Wiley & Sons. New York, 2000.

23.

ROSENBAUM, Paul R.; RUBIN, Donald B. The central role of the propensity score in

observational studies for causal eﬀects. Biometrika, v. 70, n. 1, p. 41-55, 1983.

24.

BRAY, Bethany C. et al. Inverse propensity score weighting with a latent class exposure:

Estimating the causal eﬀect of reported reasons for alcohol use on problem alcohol use 16

years later. Prevention Science, v. 20, p. 394-406, 2019.

25.

GLYNN, Adam N.; QUINN, Kevin M. An introduction to the augmented inverse propensity

weighted estimator. Political analysis, v. 18, n. 1, p. 36-56, 2010.

26.

VARELLA, Carlos Alberto Alves. Análise multivariada aplicada as ciencias agrárias.

Seropédica: Universidade Federal Rural do Rio de Janeiro, 2008.

27. ASSUNÇÃO, R. Linear Discriminant Analysis. Minas Gerais: DCC-UFMG, 2020.

28.

MENOTTI, D. Classiﬁcação. Universidade Federal do Paraná (UFPR). Especialização em

Engenharia Industrial 4.0. Paraná.

CC BY 4.0

74 | https://doi.org/10.22481/intermaths.v4i2.13422 J. S. P. Ferreira