Captura, sistematização e análise de dados da web com R

Captura, sistematização e análise de dados da web com R

17:12 23 maio in MQ 2014, MQ 2015, MQ 2016, MQ 2017
Professores: Leonardo Barone (FGV/ Cebrap) e/ou Rogério Barbosa (USP/ Cebrap) e Lucas Gelape
(15 horas/ sem crédito)
Crescentemente temos acesso a maiores quantidades e variedades de informações por meio da internet. Este curso trata justamente da coleta, estruturação e uso, na pesquisa social, daquilo que convencionalmente tem sido chamado de big data. Nosso objetivo será automatizar e acelerar a coleta e a “limpeza” de grandes volumes de dados – livrando-nos de intermináveis e repetitivas tarefas de copiar-colar-formatar. Chamamos esses procedimentos de webscraping. Mas de que tipo de dados estamos falando? De qualquer tipo! Materiais textuais, tabelas, bancos de dados, imagens, vídeos, arquivos de áudio – enfim, tudo o que puder ser visualizado e baixado. Faremos isso principalmente através do uso de um ambiente/linguagem de programação, a plataforma R. Existem alguns softwares especializados para realizar alguns tipos de coleta, mas neste curso, nosso propósito é também capacitar os alunos na leitura e compreensão básica de códigos computacionais. Quanto mais se avança no aprendizado de técnicas de análise de dados, fugir de linguagens de programação se torna mais difícil. Deste modo, esta será também uma oportunidade de familiarizar-se com programação.
Pré-requisitos: O requisito fundamental para participação no curso é o conhecimento básico de estruturas de dados. É importante que o participante esteja habituado com algum software de estatística e seja capaz de construir e manipular variáveis e bases de dados. Um dos propósitos do curso é coletar informações para a produção de análises. Por isso é necessário que o participante tenha compreensão clara de onde quer chegar antes de iniciar a captura de informações na internet. Não é necessário que o participante saiba programar em HTML e demais linguagens utilizadas na construção de websites. Entretanto, é preciso ter alguma noção sobre como websites são construídos e como textos ou outros formatos de dados podem ser transformados e organizados. Mas ressaltamos: é um curso para cientstas sociais e não especialistas em exatas! Uma vez que a grande maioria dos materiais e tutoriais estão em inglês, a capacidade de ler em inglês é esencial.
Público alvo: Você ja precisou clicar, copiar e colar centenas de vezes para coletar informações disponíveis na internet para sua pesquisa? Se este é um problema que você enfrenta, ou quer enfrentar, este é um curso no qual você deveria se matricular. Ele é voltado para pesquisadores em Ciências Humanas e outras que têm curiosidade e gosto por análise de dados (e um pouquinho de programação). Participantes poderão aplicar diretamente as técnicas do curso na sua vida acadêmica e pro fssional.
Tópicos abordados nas aulas:
1. Panorama sobre big data e webscraping
2. Introdução ao R
3. Estrutura de dados
4. Pacotes do R para webscraping
5. Noções da estrutura de dados em HTML
6. Download automático de arquivos
7. Coleta de materiais textuais
8. Coleta de tabela
9. Preenchimento automático de formulários
10. Utilizando APIs
11. Obtenção de dados geográficos
12. Geocodi cação de endereços e construção de mapas
Tags: