Журнал: Интеракция. Интервью. ИнтерпретацияАлександрова М. Ю.Методы классификации текстовых данных: можно ли потенциал количественного анализа использовать в качественном исследовании?

Журнал: Интеракция. Интервью. Интерпретация

Александрова М. Ю.

Методы классификации текстовых данных: можно ли потенциал количественного анализа использовать в качественном исследовании?

DOI: https://doi.org/10.19181/inter.2021.13.2.5
Александрова Марина Юрьевна
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
стажер-исследователь Международной лаборатории исследований социальной интеграции, преподаватель кафедры методов сбора и анализа социологической информации

Полный текст

Открыть текст

Ссылка при цитировании:

Александрова М. Ю. Методы классификации текстовых данных: можно ли потенциал количественного анализа использовать в качественном исследовании? // Интеракция. Интервью. Интерпретация. 2021. Том. 13. № 2. С. 81-96.
DOI: https://doi.org/10.19181/inter.2021.13.2.5

Рубрика:

Исследовательская рефлексия

Аннотация:

Интеллектуальный анализ текстовых данных, или текст-майнинг, продемонстрировал активное развитие в последние годы. В статье в качестве примера сравниваются методы классификации, пригодные для решения задач по прогнозированию частичных неответов, и на этом материале автор строит рассуждения о том, как может быть реализован анализ текстовых данных в более широком исследовательском поле. Автор рассматривает ряд метрик, адаптированных для текстового анализа в социальных науках: правильность (accuracy), точность (precision), полноту (recall), F-меру (F1-score), приводит примеры, которые могут помочь исследователю-социологу разобраться, на какую из них стоит обращать внимание в зависимости от поставленной задачи (классифицировать свои текстовые данные с равной точностью или же более полно описать один из интересующих классов). В статье предложена интерпретация результатов, полученных с помощью анализа текстов на материалах Европейского социального исследования (European Social Survey, ESS).

Литература:

  • Александрова М.Ю. Методы машинного обучения в социологическом исследовании: предсказание частичного неответа с использованием наивного байесовского классификатора // Мониторинг общественного мнения: экономические и социальные перемены. 2021. № 1. С. 329—350. DOI: https://doi.org/10.14515/monitoring.2021.1.1756
  • Baayen R.H. Word Frequency Distributions. Dordrecht: Springer, 2001. DOI: https://doi.org/10.1007/978-94-010-0844-0
  • Bird S., Klein E., Loper E. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. Sebastopol: O'Reilly Media, 2009.
  • Brown T.B. et al. Language Models Are Few-Shot Learner. 2020. URL: https://arxiv.org/pdf/2005.14165.pdf (дата обращения: 22.05.2021).
  • Devlin J. et al. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. 2018. URL: https://arxiv.org/pdf/1810.04805.pdf (дата обращения: 22.05.2021).
  • Evans J.A., Aceves P. Machine Translation: Mining Text for Social Theory // Annual Review of Sociology. 2016. № 42. P. 21—50. DOI: https://doi.org/10.1146/annurev-soc-081715-074206
  • G?ron A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. Sebastopol: O'Reilly Media, 2019.
  • Hirschberg J., Manning C.D. Advances in Natural Language Processing // Science. 2015. Vol. 349. № 6245. P. 261—266. DOI: https://doi.org/10.1126/science.aaa8685
  • Jurafsky D., Martin J.H. Speech and Language Processing (3rd ed. draft). 2020. URL: https://web.stanford.edu/~jurafsky/slp3/ (дата обращения: 20.05.2021).
  • Kelleher J.D., Mac Namee B., D'arcy A. Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies. Cambridge: MIT Press, 2020.
  • LeCun Y., Bengio Y., Hinton G. Deep Learning // Nature. 2015. Vol. 521. № 7553. P. 436—444. DOI: https://doi.org/10.1038/nature14539
  • Lee W.M. Python Machine Learning. Indianapolis: John Wiley & Sons, 2019. DOI: https://doi.org/10.1002/9781119557500
  • Marsland S. Machine Learning: An Algorithmic Perspective. Boca Raton: CRC Press, 2015. DOI: https://doi.org/10.1201/b17476
  • Mikolov T. et al. Advances in Pre-Training Distributed Word Representations. 2017. URL: https://arxiv.org/pdf/1712.09405.pdf (дата обращения: 22.05.2021).
  • M?ller A.C., Guido S. Introduction to Machine Learning with Python: A Guide for Data Scientists. Sebastopol: O'Reilly Media, 2016.
  • Powers D.M.W. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation. 2020. URL: https://arxiv.org/pdf/2010.16061.pdf (дата обращения: 22.05.2021).
  • Radford A. et al. Language Models Are Unsupervised Multitask Learners // OpenAI blog. 2019. Vol. 1. № 8. URL: http://www.persagen.com/files/misc/radford2019language.pdf (дата обращения: 22.05.2021).
  • Stehman S.V. Selecting and Interpreting Measures of Thematic Classification Accuracy // Remote Sensing of Environment. 1997. Vol. 62. № 1. P. 77—89. DOI: https://doi.org/10.1016/s0034-4257(97)00083-7
  • Witten I., Frank E., Hall M. Data Mining: Practical Machine Learning Tools and Techniques. Burlington: Morgan Kaufmann, 2011. DOI: https://doi.org/10.1016/C2009-0-19715-5
  • Zhang Y., Jin R., Zhou Z.H. Understanding Bag-of-Words Model: A Statistical Framework // International Journal of Machine Learning and Cybernetics. 2010. № 1. P. 43—52. DOI: https://doi.org/10.1007/s13042-010-0001-0

Содержание выпуска

>> Содержание выпуска 2021. Том. 13. № 2.
>> Архив журнала