Ementa Texto como Dado txt4ps

Ementa Texto como Dado txt4ps

20:55 28 junho in MQ 2023

Texto como Dado txt4ps

MQ-UFMG-2023

15h

  

Professor: Davi Moreira

Universidade Federal de Pernambuco E-mail: davi.moreira@ufpe.br

 

Introdução

Revertendo as limitações da análise manual de conteúdo, modelos computacionais potencializaram o alcance da atividade de pesquisa e permitiram às ciências sociais a análise de acervos em escala inimagináveis. Visando acompanhar a fronteira desse processo, nesse curso veremos as principais metodologias da abordagem text as data. A cada aula teremos uma atividade prática e veremos exemplos de aplicações.

Objetivo

Através de atividades práticas promover a autonomia necessária para aplicação crítica das principais ferramentas, métodos e técnicas de análise automatizada de conteúdo.

 

Resultados de Aprendizagem Esperados

Os estudantes devem ser capazes de aplicar os principais métodos de análise automatizada de conteúdo, interpretar seus resultados e validá-los.

 

Pré-requisitos

Conhecimentos básicos de estatística, modelos multivariados e programação são suficientes.

 

Software

O R e o RStudio serão utilizados no curso1.

 

Dinâmica das aulas

No formato remoto, cada encontro terá exposição e prática de forma integradas. Os alunos serão convidados a trabalhar em grupo, compartilhar sua tela para apresentar o código desenvolvido e comentar os resultados alcançados. O tempo inicial da primeira aula será utilizado para apresentação do conteúdo desse programa. A partir da segunda aula, o tempo inicial poderá ser usado para resolução do exercício entregue, questões e dúvidas. Mesmo de caráter expositivo a participação dos estudantes é essencial, sendo permitida a interrupção do professor a qualquer momento.

 

1 Para detalhes, ver: https://cran.r-project.org/ e https://www.rstudio.com/. Acessado em 20 de junho de 2023.

Avaliação

Além dos 75% de presença exigidos pelo MQ-UFMG, todas as aulas terão exercícios práticos para entrega. Os quatro primeiros serão avaliados, representando cada um 20% da nota final. A entrega do quinto exercício será feita através de proposta de aplicação piloto apresentada no último encontro em grupos de até 3 alunos, valendo 20% dos pontos totais. O conceito final será definido conforme quadro abaixo:

 

Pontos Conceito Resultado
:2 85% A Aprovado
:2 70% e < 85% B Aprovado
:2 60% e < 70% C Aprovado
< 60% D Reprovado

 

Instruções para entrega dos exercícios

Os exercícios feitos individualmente em arquivo .Rmd deverão ser entregues por e- mail até duas horas antes do início da aula subsequente. Na ausência de sistema específico, a entrega deve ser por e-mail: davi.moreira@ufpe.br. O campo assunto deverá conter o seguinte texto: “[MQ-UFMG-2023] Nome-Sobrenome”. Exemplo: “[MQ-UFMG-2023] Davi-Moreira”.

 

Colaboração

A colaboração é incentivada, mas cada aluno terá de fazer seu próprio trabalho.

 

Dúvida anônima

Dúvidas anônimas podem ser tiradas através do seguinte formulário: https://forms.gle/vXW43uyGTwxCF37V8. Elas serão respondidas no início das aulas.

 

Atendimento individual

Estarei disponível para atendimento individual de acordo com os horários em: https://www.wejoinin.com/sheets/mowai. Faça sua reserva!

 

Perfil dos alunos

Formulário: https://forms.gle/5RAo8614LQq7dkyQ8

 

Material do curso

Todo material utilizado no curso ficará disponível na plataforma disponibilizada ou através de link a ser divulgado.

 

Livros texto:

Grimmer, Justin, Margaret E. Roberts, and Brandon M. Stewart. 2022. Text as Data: A New Framework for Machine Learning and the Social Sciences. Princeton University Press.

 

Moreira, D. 2019. Texto como Dado para Ciências Sociais: guia prático com aplicações: https://bookdown.org/davi_moreira/txt4cs/

 

Organização do curso

Em cada aula será abordado o seguinte conteúdo:

 

1.      Panorama da área e Obtenção de dados

IZUMI, M. Y.; MOREIRA, D. C. O texto como dado: desafios e oportunidades para as ciências sociais. REVISTA BRASILEIRA DE INFORMAÇÃO BIBLIOGRÁFICA EM CIÊNCIAS SOCIAIS – BIB, v. 2, n. 86, p. 138–174, 2018.

Moreira, Davi, Antonio Pires, and Marcelo de Almeida Medeiros. 2022. “Do ‘texto como texto’ ao ‘texto como dado’: o potencial das pesquisas em Relações Internacionais.” Revista de Sociologia e Política. 2022.

GRIMMER, J.; STEWART, B. M. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 2013.

GRIMMER, J. We Are All Social Scientists Now: How Big Data, Machine Learning, and Causal Inference Work Together. PS: Political Science & Politics, v. 48, n. 01, p. 80–83, jan. 2015.

 

2.      Pré-processamento dos dados, mineração e estatísticas básicas

 

Moreira, Davi. 2020. “Com a Palavra Os Nobres Deputados: Ênfase Temática Dos Discursos Dos Parlamentares Brasileiros.” Dados 63(1). 2020.

 

WILKERSON, J.; CASAS, A. Large-Scale Computerized Text Analysis in Political Science: Opportunities and Challenges. Annual Review of Political Science, v. 20, n. 1, p. 529–544, 2017.

 

3.      Escalonamento (supervisionado e não supervisionado)

 

LAVER, M.; BENOIT, K.; GARRY, J. Extracting Policy Positions from Political Texts Using Words as Data. American Political Science Review, v. 97, n. 2, p. 311–331, maio 2003.

SLAPIN, J. B.; PROKSCH, S.-O. A Scaling Model for Estimating Time-Series Party Positions from Texts. American Journal of Political Science, v. 52, n. 3, p. 705–722, 2008.

 

LAUDERDALE, B. E.; HERZOG, A. Measuring Political Positions from Legislative Speech. Political Analysis, v. 24, n. 3, p. 374–394, ed 2016.

 

4.      Classificação (supervisionada e não supervisionada)

BLEI, D. M. Topic Modeling and Digital Humanities. Disponível em:

<http://journalofdigitalhumanities.org/2-1/topic-modeling-and-digital- humanities-by-david-m-blei/>. Acesso em: 24 jan. 2016.

 

BLEI, D.; JORDAN, M. Latent Dirichlet Allocation. Journal of Machine Learning Research, v. 3, p. 993–1022, 2003.

 

ROBERTS, M. E. et al. The structural topic model and applied social science. Advances in neural information processing systems workshop on topic models: computation, application, and evaluation. Cambridge, MA: HarvardUniversity, 2013.

 

 . Topic models for open-ended survey responses with applications to experiments. American Journal of Political Science, Washington, DC, v. 58, n. 4, p. 1064-1082, 2014

 

5.      Apresentações de propostas piloto e fronteiras

 

Apresentação de proposta de aplicação piloto – grupos de até 3 alunos. Itens obrigatórios:

 

  • Indicação da tarefa de pesquisa em Ciências Sociais
  • Apresentação da pergunta de pesquisa em formato interrogativo
  • Apresentação de estratégia de coleta de dados com, pelo menos, pseudocódigo.
  • Apresentação de estratégia de análise dos

 

O tempo de apresentação e discussão será definido de acordo com o número de alunos.

 

Observação geral

De acordo com a demanda e dinâmica do curso, ajustes podem ser feitos no programa. Ademais, outras referências serão passadas no material do curso e durante as aulas.

 

Bibliografia complementar

BARBERÁ, P. Birds of the same feather tweet together: Bayesian ideal point estimation using twitter data. Political Analysis, Cambridge, UK, v. 23, n. 1, p. 76-91, 2015

BARRON, A. et al. Individuals, institutions, and innovation in the debates of the French Revolution. Proceedings of the National Academy of Sciences, Washington, DC, v. 115, n. 18, p. 4607-4612, 2018.

BISHOP, C. Neural networks for pattern recognition. Gloucestershire: Clarendon Press, 1995 BLEI, D. M. Probabilistic Topic Models. Commun. ACM, v. 55, n. 4, p. 77–84, abr. 2012.

BLEI, D. M.; LAFFERTY, J. D. Dynamic Topic Models. Proceedings of the 23rd International Conference on Machine Learning. Anais…: ICML ’06.New York, NY, USA: ACM, 2006Disponível em:

<http://doi.acm.org/10.1145/1143844.1143859>. Acesso em: 14 maio. 2016

BERINSKY, A.; HUBER, G.; LENZ, G. Evaluating online labor markets for experimental research: Amazon. com’s Mechanical Turk. Political Analysis, Cambridge, UK, v. 20, n. 3, p. 351-368, 2012.

BREIMAN, L. Random forests. Journal of Machine Learning Research, Cambridge, MA, v. 45, n. 1, p. 5- 32, 2001.

BUDGE, I. et al. Mapping policy preferences: estimates for parties, electors, and governments, 1945- 1998. Oxford, UK: Oxford University Press, 2001.

CARRUBBA, C. et al. Off the record: unrecorded legislative votes, selection bias and roll-call vote analysis. British Journal of Political Science, Cambridge, UK, v. 36, n. 4, p. 691-704, 2006

CLINTON, J.; JACKMAN, S.; RIVERS, D. The Statistical Analysis of Roll Call Data. American Political Science Review, v. 98, n. 02, p. 355–370, 2004.

FONG, C.; GRIMMER, J. Discovery of treatments from text corpora. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 54., 2016, Berlin. Proceedings… Berlin:

Association for Computational Linguistics, 2016. p. 1-10.

GARRETT, K.; JANSA, J. Interest group influence in policy diffusion networks. State Politics & Policy Quarterly, Thousand Oaks, v. 15, n. 3, p. 387-417, 2015.

GRIMMER, J. A Bayesian Hierarchical Topic Model for Political Texts: Measuring Expressed Agendas in Senate Press Releases. Political Analysis, v. 18, n. 1, p. 1–35, 21 dez. 2010.

GRIMMER, J.; KING, G. General purpose computer-assisted clustering and conceptualization. Proceedings of the National Academy of Sciences, v. 108, n. 7, p. 2643–2650, fev. 2011.

HAND, D. Classifier technology and the illusion of progress. Statistical Science, Bethesda, v. 21, n. 1, p. 1-14, 2006.

HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The elements of statistical learning. New York: Springer, 2001.

HOPKINS, D. KING, G. A method of automated nonparametric content analysis for social science. American Journal of Political Science, Washington, DC, v. 54, n. 1, p. 229-247, 2010.

HOPKINS, D. et al. ReadMe: software for automated content analysis. Gari King, Cambridge, MA, 2017. Disponível em: <https://bit.ly/2Mq7HRl>. Acesso em> 21 jul. 2018.

ITTI, L.; BALDI, P. Bayesian surprise attracts human attention. In: JORDAN, M. I.; LECUN, Y.; SOLLA, S.

  1. (Eds.). Advances in neural information processing systems: proceedings of the first 12 conferences. Cambridge, MA: The MIT Press, 2006.

IZUMI, M. Y. Velhas questões, novos métodos: posições, agenda, ideologia e dinheiro na política brasileira. text—[s.l.] Universidade de São Paulo, 27 out. 2017.

JURAFSKY, D.; MARTIN, J. Speech and natural language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River: Prentice Hall, 2009.

KROEGER, M. Plagiarizing policy: model legislation in state legislatures. Working paper. 2015. Disponível em: <https://bit.ly/2o0lpf5>. Acesso em: 21 jul. 2018.

LAVER, M.; BENOIT, K. Locating TDs in Policy Spaces: The Computational Text Analysis of Dáil Speeches. Irish Political Studies, v. 17, n. 1, p. 59–73, 1 jun. 2002.

LI, W.; LAROCHELLE, D.; LO, A. Estimating policy trajectories during the financial crisis. Working paper. 2014. Disponível em: <https://bit.ly/2MtZfjN>. Acesso em: 21 jul. 2018.

LIU, B. Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies, London, v. 5, n. 1, p. 1-167, 2012.

LUCAS, C. et al. Computer-assisted text analysis for comparative politics. Political Analysis, Cambridge, UK, v. 23,n. 2, p. 254-277, 2015.

MARON, M.; KUHNS, J. On relevance, probabilistic indexing and information retrieval. Journal of the ACM (JACM), New York, v. 7, n. 3, p. 216-244, 1960.

MONROE, B. L.; SCHRODT, P. A. Introduction to the Special Issue: The Statistical Analysis of Political Text. Political Analysis, v. 16, n. 4, p. 351–355, 21 set. 2008.

MONROE, B. et al. No! Formal theory, causal inference, and big data are not contradictory trends in political science. PS: Political Science & Politics, Cambridge, UK, v. 48, n. 1, p. 71-74, 2015.

PATTY, J. W.; PENN, E. M. Analyzing Big Data: Social Choice and Measurement. PS: Political Science & Politics, v. 48, n. 1, p. 95–101, jan. 2015.

PENNEBAKER, J. W.; MEHL, M. R.; NIEDERHOFFER, K. G. Psychological aspects of natural language use: our words, ourselves. Annual Review of Psychology, Palo Alto, v. 54, n. 1, p. 547-577, 2003.

POOLE, K.; ROSENTHAL, H. Ideology and congress. New Brunswick: Transaction Publishers, 2007.

PORTER, M. F. An algorithm for suffix stripping. Program: electronic library and information systems,

  1. 14, n. 3, p. 130–137, 1980.

PROKSCH, S.-O.; SLAPIN, J. B. Position Taking in European Parliament Speeches. British Journal of Political Science, v. 40, n. 3, p. 587–611, jul. 2010.

PROKSCH, S.-O.; SLAPIN, J. B. Institutional Foundations of Legislative Speech. American Journal of Political Science, v. 56, n. 3, p. 520–537, 2012.

QUINN, K. M. et al. How to Analyze Political Attention with Minimal Assumptions and Costs. American Journal of Political Science, v. 54, n. 1, p. 209–228, 1 jan. 2010.

ROBERTS, M. E. Introduction to the Virtual Issue: Recent Innovations in Text Analysis for Social Science. Political Analysis. Disponível em: <http://oxfordjournals.org/our_journals/polana/text-as- data.pdf>. Acesso em: 14 maio. 2016.

ROBERTS, M. E. Introduction to the Virtual Issue: recent innovations in text analysis for social science. Political Analysis, Cambridge, UK, v. 24, n. 10, p. 1-5, 2016.

ROBERTS, M.; STEWART, B.; TINGLEY, D. stm: R Package for Structural Topic Models. R package, [s.l.], 2018. Disponível em: <https://bit.ly/2wc0rOT>. Acesso em: 3 jul. 2018.

ROBERTS, M. E. et al. The structural topic model and applied social science. Advances in neural information processing systems workshop on topic models: computation, application, and evaluation. Cambridge, MA: HarvardUniversity, 2013.

  . Topic models for open-ended survey responses with applications to experiments. American Journal of Political Science, Washington, DC, v. 58, n. 4, p. 1064-1082, 2014

SOUZA, M.; VIEIRA, R. Sentiment analysis on Twitter data for Portuguese language. In: INTERNATIONAL CONFERENCE COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE,

10., 2012, Coimbra. Proceedings… Coimbra: University of Coimbra, 2012. p. 241-247.

SOUZA, M. et al. Construction of a Portuguese opinion lexicon from multiple resources. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY, 8., 2011, Uberlândia.

Proceedings. Uberlândia: Federal University of Uberlândia, 2011. pp. 59-66.

SPIRLING, A. Democratization and linguistic complexity: the effect of franchise extension on parliamentary discourse, 1832-1915. The Journal of Politics, Chicago, v. 78, n. 1, p. 120-136, 2015.

TABOADA, M. et al. Lexicon-based methods for sentiment analysis. Computational Linguistics, Cambridge, MA, v. 37, n. 2, p. 267-307, 2011 VENABLES, W. N.; RIPLEY, B. D. Modern applied statistics with S. 4. ed. New York: Springer, 2002

WICKHAM, H. httr: Tools for Working with URLs and HTTP. R package, [s.l.], 2016. Disponível em:

<https://bit.ly/2PwgzT0>. Acesso em: 20 jul. 2018.

   .  rvest:  Easily  Harvest  (Scrape)  Web  Pages.  R  package,  [s.l.],  2018.  Disponível  em:

<https://bit.ly/2wee0fI>. Acesso em: 21 jul. 2018.

WICKHAM, H.; HESTER, J.; OOMS, J. xml2: Parse XML. R package, [s.l.], 2018. Disponível em:

<https://bit.ly/2MrMzdi>. Acesso em: 20 jul. 2018.

WICKHAM, H.; GROLEMUND, G. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 1 edition ed. Sebastopol, CA: O’Reilly Media, 2017.

WILKERSON, J.; CASAS, A. Large-scale computerized text analysis in political science: Opportunities and challenges. Annual Review of Political Science, Palo Alto, v. 20, p. 529-544, 2017.

WILKERSON, J.; SMITH, D.; STRAMP, N. Tracing the flow of policy ideas in legislatures: a text reuse approach. American Journal of Political Science, Washington, DC, v. 59, n. 4, p. 943-956, 2015.