Missing data e outliers

Missing data e outliers

17:19 23 maio in MQ 2015

Professora: Jeronimo O. Muniz (UFMG)

Analistas de dados secundários frequentemente ignoram dados faltantes e pontos influentes sem de fato se atentarem ao impacto que estas decisões podem ter sobre suas conclusões. A variável renda, por exemplo, geralmente possui muitos valores iguais a zero e portanto seu logaritmo não pode ser extraído para melhorar a linearidade entre a variável resposta e covariáveis relevantes. A prática comum é ignorar tais valores sem se ater os pressupostos e consequências de tal medida. Tal decisão, entretanto, é arbitrária e pode ter consequências para as conclusões analíticas extraídas. Neste curso estudaremos estas consequências e formas de contorná-las. Para isso responderemos às seguintes perguntas: Quando é razoável ignorarmos as informações faltantes presentes em nossos bancos de dados? Subamostras de amostras aleatórias são representativas do universo inicial? O que fazer para contornarmos tais situações? Quando os dados devem ser imputados e como conduzir tal procedimento? Como diferenciar um ponto discrepante de um ponto influente? Que tipos de modelos estatísticos devem ser utilizados quando os pressupostos de mínimos quadrados (ex. distribuição normal da variável resposta, ausência de pontos influentes e homocedasticidade) são violados? Como estas escolhas impactam os resultados analíticos obtidos? Neste curso aprenderemos a lidar com estas situações para conduzirmos análises rigorosas dos dados secundários disponíveis utilizando técnicas de imputação e modelagem a partir do Stata. Dados da PNAD serão utilizados com exemplo em sala de aula.
Público alvo: Analistas que ignoram dados faltantes e outliers sem se aterem às consequências desta decisão sobre seus resultados. Pessoas que querem aprender como realizar imputação de dados e como utilizar modelos robustos às violações de pressupostos de mínimos quadrados ordinários sem terem muito trabalho. O curso pressupõe familiaridade mínima com o Stata, estatística introdutória e análise de regressão linear.
Tópicos abordados nas aulas:
1. Teoria sobre dados faltantes e pontos discrepantes
2. Tipos de dados faltantes (MCAR, MAR, MNAR)
3. Ignorar dados faltantes (listwise/ pairwise deletion) é uma decisão segura?
4. Métodos de identificação de pontos influentes
5. Métodos de imputação e controle (ajuste por dummies; imputação tradicional; imputação aleatória múltipla)
6. Introdução à modelos alternativos para contornar a violação de pressupostos de MQO: regressão quantílica; Modelos lineares generalizados; regressão robusta; modelo de Heckman pra viés de seleção.

 

Tags: