Regressão Linear e Não-Linear

Mineração de Dados - 2019


Danilo S. Carvalho

Índice

  • Introdução
    • Ideia básica
    • Observando uma variável aleatória
    • Estimando um valor desconhecido
    • Analisando o erro

Ideia básica

  • Regressão: estimar uma relação desconhecida entre variáveis aleatórias, baseado em valores que já conhecemos.
    • Usar o passado para estabelecer um modelo no presente.

  • Útil quando precisamos prever valores em eventos recorrentes.
    • Ex: Tempo gasto indo de casa ao trabalho.
  • Também útil quando precisamos explicar um fenômeno de interesse e queremos saber o quanto regular, ou previsível este é.

Observando uma variável aleatória

  • Definimos uma variável aleatória para a qual o valor queremos estimar (e.g., o tempo gasto) e observamos os valores conhecidos.

Estimando um valor desconhecido

  • Procuramos um valor que mais se aproxima das observações conhecidas.
    • Nesse caso, a média aritmética dos tempos gastos na semana.

Analisando o erro

  • A diferença entre o valor estimado e os valores conhecidos é chamada de erro ou residual.

Analisando o erro

  • A diferença entre o valor estimado e os valores conhecidos é chamada de erro ou residual.
  • A melhor aproximação é aquela que apresenta os menores erros.
  • Nesse caso, o uso da média aritmética garante que os erros foram minimizados.
  • Quantificamos o erro total através da soma dos seus quadrados: $\sum_i{(x_i - \varepsilon)^2}$, onde $\varepsilon$ é o erro da estimativa com relação a $x_i$

Regressão Linear

Índice

    • Variáveis dependentes e explicativas
    • Equação da regressão
    • Estimando os parâmetros da regressão
    • Regressão múltipla
    • Regressão Polinomial
    • Exercícios

Variáveis dependentes e explicativas

  • Quando consideramos uma função $y = f(x)$, podemos estimar o valor de y, através de pares $(x, y)$ conhecidos.
  • Nesse caso, $y$ é chamado de variável dependente, pois é determinada por $x$.
  • $x$ é chamada de variável explicativa ou independente.

Equação da regressão

  • A equação da regressão simples é dada por:
    $$y_i = \alpha + \beta x_i + \varepsilon_i$$
    onde
    • $y_i$ é o valor da estimativa.
    • $\alpha$ é o coeficiente de interceptação da reta de regressão.
    • $\beta$ é o coeficiente de inclinação da reta de regressão.
    • $\varepsilon_i$ é o erro de estimativa.

  • $\alpha$ e $\beta$ são chamados parâmetros do modelo de regressão.

Estimando os parâmetros da regressão

  • A estimativa dos parâmetros é feita de forma a minimizar o erro total do modelo.
  • Usualmente feita através do método dos mínimos quadrados:
    • $y_i = \hat{\alpha} + \hat{\beta} x_i + \varepsilon_i$, onde $\hat{\alpha}, \hat{\beta}$ são os estimadores dos parâmetros.
    • $S(\hat{\alpha}, \hat{\beta}) = \sum_{i=1}^{n}{(y_i - \hat{\alpha} + \hat{\beta} x_i + \varepsilon_i)^2}$, é a soma dos quadrados dos erros.
    • A minimização é feita derivando $S(\hat{\alpha}, \hat{\beta})$ em relação a $\hat{\alpha}$ e a $\hat{\beta}$ e igualando a zero.

Estimando os parâmetros da regressão

  • $\frac{\partial S}{\partial \hat{\alpha}} = \frac{\partial S}{\partial x} * \frac{\partial x}{\partial \hat{\alpha}}$
  • $\frac{\partial S}{\partial x} = 2\sum_{i=1}^{n}{(y_i - \hat{\alpha} + \hat{\beta} x_i + \varepsilon_i)}$
  • $\frac{\partial x}{\partial \hat{\alpha}} = -1$
  • $\frac{\partial S}{\partial \hat{\alpha}} = -2\sum_{i=1}^{n}{(y_i - \hat{\alpha} + \hat{\beta} x_i + \varepsilon_i)} = 0$
  • $\frac{\partial S}{\partial \hat{\beta}} = -2\sum_{i=1}^{n}{x_i (y_i - \hat{\alpha} + \hat{\beta} x_i + \varepsilon_i)} = 0$

Estimando os parâmetros da regressão

  • Desenvolvendo as duas equações, obtem-se:

  • $\hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}$

  • $\hat{\beta} = \frac{\sum_{i=1}^{n}{(x_i - \bar{x}) (y_i - \bar{y})}}{\sum_{i=1}^{n}{(x_i - \bar{x})^2}} = \frac{Cov[x, y]}{Var[x]}$

Estimando os parâmetros da regressão

  • Iterativamente

Regressão múltipla

  • A regressão também pode ser feita com mais de uma variável explicativa (e.g., $z = f(x, y)$).
  • Nesse caso é chamada de regressão múltipla.
  • Estimativa dos parâmetros segue o mesmo princípio, adaptando-se as equações

Regressão Polinomial

  • Até o momento, estamos fazendo estimativas usando uma reta para aproximar os dados conhecidos.
  • Mas e se os valores estiverem dispostos dessa maneira:

Regressão Polinomial

  • Basta trocar a função de regressão para uma polinomial! ☺

Regressão Polinomial

  • A Estimativa dos parâmetros segue o mesmo princípio, adaptando-se as equações

  • A regressão continua linear, pois a combinação dos parâmetros é feita linearmente.

Exercício 1

  • A partir de uma lista de totais de produção de barris de petróleo desde 1880 até 1988, determine:
    • a) A estimativa da produção de petróleo para os anos 1914 e 2000.
    • b) A equação da regressão.
    • c) Como a regressão pode ser aperfeiçoada?

  • A lista pode ser encontrada aqui

Regressão Não-Linear

Índice

    • Problema: Categorização binária
    • Função Não-Linear dos parâmetros da regressão
    • Exemplo: Regressão Logística

Problema: Categorização binária

  • Desta vez, $y = f(x)$ expressa uma função binária.
    • $\mathbb{R} \Rightarrow {0, 1}$

Função Não-Linear dos parâmetros da regressão

  • Estimadores dos parâmetros não podem ser calculados linearmente.

  • Entretanto, a função precisa ser diferenciável.

Exemplo: Regressão Logística

  • Função logística.
    • $\frac{1}{1 + e^{-f(x)}}$

Regressão em Python

Índice

    • Material necessário
    • Exercício 2: Temperaturas
    • Exercício 3: Fumantes

Material necessário

  • Interpretador Python (versão 3).
  • Numpy: biblioteca para computação científica.
    • Instalar com "pip install numpy".

Exercício 2: Temperaturas

  • A partir de medições feitas por estações meteorológicas durante a Segunda Guerra Mundial, determine:
    • a) A estimativa de temperatura máxima em Fernando de Noronha para os anos de 1950 e 2018, a partir das temperaturas mínimas e máximas.
    • b) A equação da regressão.
    • c) Se o erro de estimativa sofre mudança entre 1950 e 2018 e qual.

  • Os dados podem ser encontrados em aqui
    • O campo "STA" do arquivo "Summary of Weather.csv" conecta-se ao campo "WBAN" do arquivo "Weather Station Locations.csv".

Exercício 3: Fumantes

  • A partir dos dados obtidos em uma pesquisa sobre hábitos de consumo de tabaco nos EUA,
    • a) Estime o consumo ou não de fumo a partir da faixa etária.
    • b) Estime a mortalidade a partir do consumo de fumo e da faixa etária.

  • Os dados podem ser encontrados em aqui
  • A descrição dos dados pode ser lida aqui.