Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)Жучкова С. В., Ротмистров А. Н.Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук

Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)

Жучкова С. В., Ротмистров А. Н.

Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук


Жучкова Светлана Васильевна
Национальный исследовательский университет «Высшая школа экономики»
Младший научный сотрудник, Национальный исследовательский университет «Высшая школа экономики», Москва
Ротмистров Алексей Николаевич
Национальный исследовательский университет «Высшая школа экономики»
Кандидат социологических наук, старший научный сотрудник, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия

Полный текст

Открыть текст

Ссылка при цитировании:

Жучкова С. В., Ротмистров А. Н. Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук // Социология: методология, методы, математическое моделирование (Социология:4М). 2020. № 50-51. С. 141-183.

Рубрика:

ОНЛАЙН-ИССЛЕДОВАНИЯ

Аннотация:

Статья посвящена процедуре автоматического извлечения данных с веб-страниц, т.е. скрапингу веб-данных. Рассмотрены виды веб-данных (цифровые следы и прочие веб-данные числовой, текстовой и других модальностей), возможности их использования (скорость сбора данных и, как следствие, сплошной охват, оперативность и др.) и ограничения (ограниченная репрезентативность, трудности организации хранения большого объема данных, отклонения от традиционной последовательности постановки исследования и др.) по сравнению с традиционными методами сбора информации. Описаны пути извлечения веб-данных со статических и динамических веб-страниц посредством интерфейса API, пакета requests, фреймворка selenium. Разобраны минимально необходимые для извлечения веб-данных компетенции, в том числе в программировании на языке Python и ориентировании в коде веб-страниц. Также дана подробная иллюстрация на основе фрагмента сбора данных исследования конкурсов для фрилансеров.

Литература:

  • 1. Computational Social Science / D. Lazer, A. Pentland, L. Adamic [et al.] // Science. 2009. Vol. 323. No. 5915. P. 721–723. DOI: 10.1016/j.jocs.2010.12.007
  • 2. Bainbridge W.S. The Scientific Research Potential of Virtual Worlds // Science. 2007. Vol. 317. No. 5837. P. 472–476. DOI: 10.1126/science.1146930
  • 3. Watts D.J. A Twenty-first Century Science // Nature. 2007. Vol. 445. No. 7127. P. 489. DOI: 10.1038/445489a
  • 4. More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior / J. DiGrazia, K. McKelvey, J. Bollen, F. Rojas // PLoS ONE. 2013. Vol. 8. No. 11. Art. no. e79449. DOI: 10.1371/journal.pone.0079449
  • 5. Gayo-Avello D. A Meta-Analysis of State-of-the-Art Electoral Prediction From Twitter Data // Social Science Computer Review. 2013. Vol. 31. No. 6. P. 649–679. DOI: 10.1177/0894439313493979
  • 6. Jungherr A. Tweets and Votes, a Special Relationship: the 2009 Federal Elec¬tion in Germany // Proceedings of the 2nd Workshop on Politics, Elections and Data – PLEAD’13. New York, 2013. P. 5–14. DOI: 10.1145/2508436.2508437
  • 7. Beyond Binary Labels: Political Ideology Prediction of Twitter Users / D. Preot?iuc-Pietro, Y. Liu, D. Hopkins, L. Ungar // Proceedings of the 55th Annual Meet¬ing of the Association for Computational Linguistics. 2017. No. 1. P. 729–740. DOI: 10.18653/v1/P17-1068
  • 8. Cross-platform and Cross-interaction Study of User Personality Based on Images on Twitter and Flickr / Z.R. Samani, S.C. Guntuku, M.E. Moghaddam [et al.] // PLoS ONE. 2018. Vol. 13. No. 7. Art. no. e0198660. DOI: 10.1371/journal. pone.0198660
  • 9. Chittaranjan G. Who’s Who with Big-Five: Analyzing and Classifying Personality Traits with Smartphones / G. Chittaranjan, J. Blom, D. Gatica-Perez // 2011 15th Annual International Symposium on Wearable Computers. 2011. P. 29–36. DOI: 10.1109/iswc.2011.29
  • 10. Kosinski M. Private Traits and Attributes are Predictable from Digital Records of Human Behavior / M. Kosinski, D. Stillwell, T. Graepel // Proceedings of the National Academy of Sciences. 2013. Vol. 110. No. 15. P. 5802–5805. DOI: 10.1073/pnas.1218772110
  • 11. Automatic Ppersonality Aassessment through Social Media Language / G. Park, H. Schwartz, J. Eichstaedt [et al.] // Journal of Personality and Social Psychology. 2015. Vol. 108. No. 6. P. 934–952. DOI: 10.1037/pspp0000020
  • 12. Smirnov I. Schools are Segregated by Educational Outcomes in the Digital Space // PLoS ONE. 2019. Vol. 14. No. 5. P. 1–9. DOI: 10.1371/journal.pone.0217142
  • 13. Смирнов В. Новые компетенции социолога в эпоху больших данных // Мониторинг общественного мнения: экономические и социальные перемены. 2015. № 2. С. 44–54. DOI: 10.14515/monitoring.2015.2.04
  • 14. Социальные факторы выбора контрагентов на бирже удаленнои?работы: исследование конкурсов с помощью «больших данных» / Д.О. Стребков, А.В. Шевчук, А.А. Лукина [и др.] // Экономическая социология. 2019. Т. 20. № 3. С. 25–65. DOI: 10.17323/1726-3247-2019-3-25-65
  • 15. Golder S.A. Digital Footprints: Opportunities and Challenges for Online Social Research / S.A. Golder, M.W. Macy // Annual Review of Sociology. 2014. Vol. 40. No. 1. P. 129–152. DOI: 10.1146/annurev-soc-071913-043145
  • 16. Distilling Digital Traces: Computational Social Science Approaches to Studying the Internet / H. Wesler, M. Smith, D. Fisher, E. Gleave // The Sage Handbook of Online Research Methods. London: SAGE, 2008. P. 116–40.
  • 17. Hampton K.N. Studying the Digital: Directions and Challenges for Digital Methods // Annual Review of Sociology. 2017. Vol. 43. No. 1. P. 167–188. DOI: 10.1146/annurev-soc-060116-053505
  • 18. Grimmer J. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts / J. Grimmer, B.M. Stewart // Political Analysis. 2013. Vol. 21. No. 3. P. 267–297. DOI: 10.1093/pan/mps028
  • 19. Social Media Analyses for Social Measurement / M.F. Schober, J. Pasek, L. Guggenheim [et al.] // Public Opinion Quarterly. 2016. Vol. 80. No. 1. P. 180–211. DOI: 10.1093/poq/nfv048
  • 20. Social Networking Sites and Our Lives: How People’s Trust, Personal Rela¬tionships, and Civic and Political Involvement are Connected to Their Use of Social Networking Sites and Other Technologies / K.N. Hampton, L.S. Goulet, L. Rainie, K. Purcell. Washington, DC: Pew Research Cent, 2011.
  • 21. A Path to Understanding the Effects of Algorithm Awareness / K. Hamilton, K. Karahalios, C. Sandvig, M. Eslami // Proceedings of the Extended Abstracts of the 32nd Annual ACM Conference on Human Factors in Computing Systems – CHI EA’14. April 26 – May 1, 2014. Toronto, Ontario, Canada. 2014. P. 631–642. DOI: 10.1145/2559206.2578883
  • 22. Rader E. Examining User Surprise as a Symptom of Algorithmic Filtering // International Journal of Human-Computer Studies. 2017. No. 98. P. 72–88. DOI: 10.1016/j.ijhcs.2016.10.005
  • 23. Tourangeau R. The Psychology of Survey Response / R. Tourangeau, L.J. Rips, K. Rasinski. Cambridge: Cambridge Univ. Press, 2000.
  • 24. Lin M. Research Commentary – Too Big to Fail: Large Samples and the p-Value Problem / M. Lin, H.C. Lucas, G. Shmueli // Information Systems Research. 2013. Vol. 24. No. 4. P. 906–917. DOI: 10.1287/isre.2013.0480
  • 25. Tukey J. Exploratory Data Analysis. London: Pearson, 1977.

Содержание выпуска

>> Содержание выпуска 2020. № 50-51.
>> Архив журнала