Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)Кольцова О. Ю., Маслинский К. А.Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов

Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)

Кольцова О. Ю., Маслинский К. А.

Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов


Кольцова Олеся Юрьевна
Национальный исследовательский университет «Высшая школа экономики» (Санкт-Петербург)
кандидат социологических наук, руководитель лаборатории интернет-исследований
Маслинский Кирилл Александрович
Национальный исследовательский университет «Высшая школа экономики» (Санкт-Петербург)
научный сотрудник лаборатории социологии образования и науки

Полный текст

Открыть текст

Ссылка при цитировании:

Кольцова О. Ю., Маслинский К. А. Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов // Социология: методология, методы, математическое моделирование (Социология:4М). 2013. № 36. С. 113-139.

Рубрика:

ОНЛАЙН-ИССЛЕДОВАНИЯ

Выражение признательности

разработчику ПО сбора данных для данного исследования

Аннотация:

В статье изложены методологические результаты исследования русскоязычных блогов. Произведена адаптация и апробация автоматизированных методов анализа текстов и соответствующего программного обеспечения для решения содержательных задач (выявление тематической структуры блогосферы, описание ее изменений во времени, выявление процесса образования дискуссионных сообществ). Выделяются и описываются два класса методов деления больших массивов текстов на группы – кластерный анализ и тематическое моделирование; из каждой группы выбирается и апробируется программное обеспечение (ПО). Эксперименты проводятся на двух массивах данных в 104 постов каждый. Обосновывается выбор в пользу тематического моделирования, представлено описание полной технологической цепочки от сбора до социологического анализа данных.

Литература:

  • Яндекс-блоги. URL: http://blogs.yandex.ru (дата обращения 05.04.2012)
  • Biro I. Document Classification with Latent Dirichlet Allocation. PhD thesis. Budapest: E?tv?s Lor?nd University, 2009.
  • Zha, Y., Karypis G. Evaluation of Hierarchical Clustering Algorithms for Document Datasets//CIKM ‘02 Proceedings of the Eleventh International Conference on Information and Knowledge Management. ACM New York, 2002.
  • Blei D.M., Ng A.Y., Jordan M.I., Lafferty J. Latent Dirichlet Allocation//Journal of Machine Learning Research. 2003. No. 3. P. 993-1022.
  • Этлинг Б., Алексанян К., Келли Дж., Палфри Дж., Гассер У. Публичный дискурс в российской блогосфере: анализ публичной политики и мобилизации//Исследования центра Беркмана No 2010-11, 19 октября 2010 г. URL: http://cyber.law. harvard.edu/sites/cyber.law.harvard.edu/files/Public_Discourse_in_the_Russian_Blogosphere-RUSSIAN.pdf (дата обращения 17.04.2012).
  • Alexanyan K., Koltsova O. Blogging in Russia is not Russian blogging//International Blogging: Identity, Politics and Networked Publics/Ed. A. Russel, N. Echchaibi. N.Y.: Peter Lang, 2009.
  • Gorny E. Russian LiveJournal: National Specifics in the Development of a Virtual Community. Version 1.0 of 13 May 2004//Russian-cyberspace.org. URL: http://www. ruhr-uni-bochum.de/russ-cyb/library/texts/en/gorny_rlj.pdf (дата обращения 05.04.2012).
  • Koltsova O. Coverage of Social Problems in St.Petersburg Press//Use and Views of Media in Sweden & Russia/Ed. C. von Feilitzen, P. Petrov Stockholm: Sodertorn University, 2011.
  • Wu S., Hofman J.M., Mason W., Watts D.J. Who Says What to Whom on Twitter//International WWW Conference 2011, March 28-April 1, 2011, Hyderabad, India.
  • Sugar C., James G. Finding the Number of Clusters in a Data Set: An Information Theoretic Approach//Journal of the American Statistical Association. 2003. No. 98. P. 750-763.
  • Carpineto C., Osi?ski S., Romano G., Weiss D. A Survey of Web Clustering Engines//ACM Computing Surveys (CSUR). 2009. Vol. 41. Iss. 3. No. 17.
  • Andrews N.O, Fox E.A. Recent Developments in Document Clustering. October 16, 2007. URL:http://eprints.cs.vt.edu/archive/00001000/01/docclust.pdf (дата обращения 17.04.2012).
  • Kummamuru K., Dhawale A., Krishnapuram R. Fuzzy Co-clustering of Documents and Keywords//FUZZ ‘03: 12th IEEE International Conference on Fuzzy Systems, 2003. P. 772-777.
  • gCLUTO -Graphical Clustering Toolkit. URL: http://glaros.dtc.umn.edu/gkhome/cluto/gcluto/overview(дата обращения 19.04.2012).
  • Rasmussen M., Karypis G. gCLUTO: An Interactive Clustering, Visualization, and Analysis System//UMN-CS TR-04-021, 2004.
  • Zhao Y., Karypis G. Emperical and Theoretical Comparisons of Selected Criterion Functions for Document Clustering//Machine Learning. 2004. Vol. 55. P. 311-331.
  • Zhao Y., Karypis G. Hierarchical Clustering Algorithms for Document Clustering//Data Mining and Knowledge Discovery. 2005. Vol. 10. No. 2. P. 141-168.
  • Landauer T.K., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis//Discourse Processes.1998. Vol. 25. P. 259-284.
  • Hoffman T. Probabilistic Latent Semantic Analysis//Uncertainty in Artificial Intelligence, UAI’99. Stockholm, 1999.
  • Обзор по вероятностным тематическим моделям/Пер. с англ. К.В. Воронцова, А.В. Темлянцева и др. URL: http://www.machinelearning.ru/wiki/images/9/90/Daud2009survey-rus.pdf (дата обращения 19.02.2012).
  • Stanford Topic Modeling Toolbox//The Stanford Natural Language Processing Group. URL:http://nlp.stanford.edu/software/tmt/tmt-0.4/(дата обращения 19.04.2012).
  • Ramage D., Rosen E., Chuang J., Manning C.D., McFarland D.A. Topic Modeling for the Social Sciences//NIPS 2009 Workshop on Applications for Topic Models. URL:http://vis.stanford.edu/papers/topic-modeling-social-sciences (дата обращения 19.04.2012).
  • Ramage D., Dumais S., Liebling D. Characterising Microblogs with Topic Models//ICWSM. 2010. URL:http://www.stanford.edu/~dramage/papers/twitter-icwsm10.pdf (дата обращения 19.04.2012)
  • Wallach H., Murray I., Salakhutdinov R. & Mimno D. Evaluation Methods for Topic Models//Proceedings of the 26th International Conference on Machine Learning. Montreal, 2009.
  • Bellman R.E. Dynamic Programming. Princeton, NJ: Princeton University Press, 1957.
  • Manning C., Schutze H. Foundations of Natural Language Processing. Cambridge: The MIT Press, 1999.
  • Chang J., Boyd-Graber J., Wang C., Gerrish S., Blei D.M. Reading Tea Leaves: How Humans Interpret Topic Models//Neural Information Processing Systems, 2009. Vol. 22. P. 288-296.
  • Li F., Huang M., Zhu X. Sentiment Analysis with Global Topics and Local Dependency//Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10). 2010. Atlanta, USA, July 11-15, 2010. P. 1371-1376.

Содержание выпуска

>> Содержание выпуска 2013. № 36.
>> Архив журнала



© 1998-2024. Институт социологии РАН (http://www.isras.ru)