Metodologia de Construção e Avaliação de Modelos Preditivos
Mineração de Dados - 2019
Danilo S. Carvalho
Índice
Construindo um modelo preditivo
Amostragem de dados
Treinamento (fit) do modelo
Condição de parada
Validação do modelo
Avaliação
Construindo um modelo preditivo
O que é um modelo preditivo?
Um modelo preditivo é um artefato matemático que nos permite prever o comportamento de uma ou mais variáveis,
condicionado à observação de um conjunto de dados pertinente ao problema em análise.
Construindo um modelo preditivo
O que é um modelo preditivo?
Geralmente obtido a partir do ajuste de
A) Probabilidade condicional das variáveis dependentes,
dadas as variáveis explicativas: $P(Y | X = x)$. (modelo discriminativo)
B) Probabilidade condicional das variáveis explicativas,
dadas as variáveis dependentes: $P(X | Y = y)$, ou a probabilidade conjunta
$P(X, Y)$. (modelo gerador)
Construindo um modelo preditivo
Construindo um modelo preditivo
Para construir um bom modelo, precisamos então
Selecionar um conjunto de dados que represente bem o domínio do problema sendo analisado.
Amostragem
Ajustar o modelo o suficiente para que possa generalizar seu comportamento para dados não conhecidos,
sem "decorar" os dados.
Treinamento
Verificar se o modelo está corretamente ajustado e estimar o seu desempenho.
Validação
Testar e avaliar o desempenho do modelo.
Teste ou Avaliação
Amostragem de dados
Amostragem de dados
Os exemplos conhecidos para um problema no mundo real apresenta uma distribuição D para suas variáveis,
determinada pelo domínio do problema.
D é desconhecida.
Ao selecionar exemplos, obtemos uma distribuição D', a qual gostariamos que fosse similar a D.
Amostragem de dados
Estratégias de amostragem
As estratégias de amostragem determinam como serão feitos os próximos passos da construção
do modelo: treinamento, validação, e avaliação.
Cada estratégia possui vantagens e desvantagens, sendo usadas em diferentes situações.
Resubstituição
Todo o conjunto de exemplos conhecido é utilizado para treinar e avaliar o modelo.
Estimativa otimista do desempenho.
Aumenta tendência a "decorar" os dados.
Útil no caso de falta de exemplos úteis.
Holdout
Uma fração $q \lt 1.0$ do conjunto de exemplos é separada para treinamento e $(1 - q)$ para teste/validação.
Dados de teste não fazem parte do treinamento.
Menos otimista.
Problemático em conjuntos muito pequenos pois parte dos exemplos são ignorados.