Системная социология: Opinion Mining А.А.Давыдов Системная социология: Opinion Mining Ключевые слова: системная социология, Opinion Mining, индустриальный анализ данных, текстовая информация Введение Opinion Mining [1] - компьютерные системы для интеллектуального автоматического извлечения так называемой «субъективной»» информации (мнений, оценочных суждений, аттитюдов, эмоций, чувств, верований и т.д.) из текстовой информации. Opinion Mining - раздел Text Mining [2]. Opinion Mining Systems широко используются для автоматической оценки (позитивной, негативной, нейтральной) новостных событий, продуктов, персоналий, организаций, стран мира и т.д., поступающих в режиме реального времени из сообщений e-СМИ (электронных средств массовой информации), сообщений блоггеров, дискуссионных форумов и т.д. в Интернете, т.е. всего того, что обозначается общим термином Social Media [3] и, в частности, Social Media Monitoring. Интерес автора к Opinion Mining обусловлен следующими причинами. Во-первых, Opinion Mining давно, широко и успешно используется в системной социологии [4], поскольку оценки, субъективные мнения и т.д. являются социально-психологическими системами. В частности, автором [5] разработана новая алгебра оценочных суждений, которая включает амбивалентные оценки. В Институте социологии РАН А.Н.Чураковым при участии автора, была разработана компьютерная система Контент-анализ ПРО [6], предназначенная для контент-анализа текстов, в которой заложена возможность использования семантического анализа Opinion Mining. Автором проводились эмпирические исследования Online Reputation Monitoring - мониторинговое исследование репутации крупной российской компании в сообщениях е-СМИ [7]. Поэтому необходимо следить за новинками в данном, быстро развивающемся, направлении исследований и разработок. Во-вторых, по наблюдениям автора, в российской социологии недостаточно используются системы Opinion Mining, несмотря на то, что данные компьютерные системы имеют очевидные научные и практические преимущества, подтвержденные многолетней международной практикой. Поэтому целью данной статьи является привлечение внимания российских социологов к полезным возможностям компьютерных систем Opinion Mining. Скажем сразу, что Opinion Mining - это широкое направление исследований, разработок и практических приложений, в частности, по Opinion Mining издаются монографии, например [1], проводятся международные конференции, например International CIKM Workshop on Topic-Sentiment Analysis for Mass Opinion Measurement (Hong Kong Nov. 6, 2009) ( http://sites.google.com/site/tsa2009workshop ), International Conference AAAI on Weblogs and Social Media ( http://www.icwsm.org/2008/tutorials.shtml ), поэтому обзор неизбежно будет конспективным. Opinion Mining Задачи. Основные содержательные задачи Opinion Mining следующие: Automated Opinion Text Analysis; Automatically recognizing and interpretating expressions of opinions and sentiments in text; Automatic text classification and clustering, в частности, Polarity classification (positive or negative), Collective classification, Emotional tagging и т.д.; Segmenting texts into different opinions; Prediction of sentiments and opinions from given text documents; Aggregation and statistics of sentiments; Evaluating the quality of aggregated sentiments, в частности, Opinion-Oriented Summarization; Identifying subjective word senses; Automatically process customer feedback, в частности, Structural correspondence learning. Теории. Opinion Mining базируется на множестве теорий из различных научных дисциплин. Social Media [3]; Subjectivity [8]; Cognitive Theory of Cultural Meaning [9]; Theory of Emotions and Social Life [10]; психологических теориях эмоций [11]; Natural Language Processing (NLP) [12], в частности, лингвистической интерпретации эмоций и т.д.; Computational Linguistics («вычислительной» лингвистики) [13], в частности, Appraisal theory, Lexical Semantic Language Theory (LSLT), Intelligent Text Processing ( http://www.cicling.org ) и т.д.; Affective Computing (эмоциональные «вычисления») [14]; Affective Information Processing [15]; Automatic Text Analysis [16]; Artificial Intelligence (искусственного интеллекта) [17], в частности, Text Understanding (понимание текстов), машинного обучения, извлечения эмоционального смысла из информации и т.д. Методы. Один из основных методов анализа, который широко используется в Opinion Mining для практических приложений - Sentiment Analysis [1], который предназначен для выявления эмоциональных, оценочных суждений, субъективного отношения к какому-либо объекту, явлению и т.д. в текстовой информации. Одна из основных содержательных задач Sentiment Analysis - автоматическое оценивание какого-либо объекта (персона, сообщение СМИ, событие, организация и т.д.) в текстовых сообщениях, например, с помощью позитивных, негативных, нейтральных оценок, благоприятных и неблагоприятных мнений, количественных индексов и т.д., в частности, с помощью лексического ресурса SentiWordNet ( http://sentiwordnet.isti.cnr.it ). Выделяют различные классы Sentiment Analysis, а именно, Dynamics Sentiment Analysis, Visual Sentiment Analysis, Large-Scale Sentiment Analysis, Deeper Sentiment Analysis, Online Sentiment Analysis, Multilingual Sentiment Analysis (оценочный анализ текстов, написанных на разных языках) и т.д. Для реализации Sentiment Analysis в системах Opinion Mining используется, множество методов. Методы Natural Language Processing (NLP) - Latent Semantic Analysis (LSA), в частности, Probabilistic Latent Semantic Analysis (PLSA), Deep language analysis, Semantic Orientation Method, Semantic Structure Networks, «bag of words» и т.д. Методы Computational Linguistics («вычислительной» лингвистики) - частности, Pointwise Mutual Information method, Morphological analysis, Lexical relations analysis, системы автоматического машинного перевода для Multilingual Sentiment Analysis и т.д. Методы Text Mining - анализ соответствий, ассоциаций и т.д. Методы Automatic Text Analysis - Automatic Semiotic Analysis, Semantic Spaces Analysis и т.д. Методы математической статистики - Pattern analysis в Сorpus-based approaches и Dictionary-based approaches (словари синонимов и антонимов), Hidden Markov Models, Bootstrapping Method, Gloss Classification method и т.д. Методы Artificial Intelligence - Text Understanding, Soft Computing («мягкие» вычисления), Affective Computing (эмоциональные «вычисления»), Meaning Based Computing (MBC), «нейронные» сети класса Support Vector Machines (SVM), Heuristic Rule-Based Reasoning и т.д. С математическими формулами некоторых приведенных методов Language Technology в Opinion Mining, заинтересованный читатель может ознакомиться в работе Feiyu Xu, Xiwen Cheng «Opinion Mining» ( http://www.coli.uni-saarland.de/courses/LT1/2007/slides/Opinion-mining.pdf ). Отметим, что методы Opinion Mining разрабатываются как отдельными исследователями, так и аналитическими компаниями, кафедрами Университетов и т.д., а затем, как правило, патентуются ( http://www.faqs.org/patents/app/20090048823 ). Компьютерные системы. Перечисленные выше методы реализованы в многочисленных компьютерных Opinion Mining Systems, например, Text Mining for Clementine 12.0 SPSS ( http://www.spss.com ), IO Opinion Mining ( http://www.interone.de/en/company/io-opinion-mining.html ), Sentiment ( http://www.infonic.com/product_sentiment.php ), RapidMiner ( http://rapid-i.com/content/blogcategory/38/69 ), Lexalytics ( http://www.lexalytics.com ), Umbria ( http://www.jdpowerwebintelligence.com ) и т.д., которые работают как автономно, так и в интеграции с компьютерными системами Text Mining, Web Mining и, в целом, с системами Knowledge Discovery and Data Mining (KDD) [18]. Например, компьютерная автоматическая система Real-time Sentiment News Analytics, компании RavenPack ( http://www.ravenpack.com ) - одного из мировых лидеров в области разработки данных систем, интегрирована в компьютерную систему Dow Jones News Analytics ( http://www.djnewsanalytics.com ), которая используется трейдерами - людьми и торговыми роботами на крупнейшей бирже мира NYSE. Для системной реализации Opinion Mining используются аналитические платформы, включающие в себя Meaning Analytics Warehouse, Sentiment Analysis и другие взаимосвязанные аналитические модули. Примерами таких аналитических платформ являются IDOL ( http://www.autonomy.com ), Rosette Linguistics Platform ( http://www.basistech.com/products ), предназначенная для Multilingual Text Analytics и т.д. С перечнем и описанием множества компьютерных систем для Sentiment Analysis and Language Processing, заинтересованный читатель может ознакомиться на сайте ( http://lordpimpington.com/codespeaks/drupal-5.1/?q=node/5 ). Yahoo! Research ( http://sandbox.yahoo.net/isearch/index.html ) разработала сервис Ideological Search (идеологический поиск) информации в Интернете, исходя из заданных пользователем своих политических предпочтений (демократ или республиканец). Примеры использования Opinion Mining. В качестве иллюстрации на рис. 1 представлен результат проведенного автором онлайн автоматического оценивания (позитивно, нейтрально, негативно) сообщений о Социологии, реализованного в системе Twittratr ( http://twitrratr.com ). Напомним, что система Twittratr основана на семантическом анализе, семантической Базе позитивных, негативных и нейтральных слов, в качестве Базы тестовых сообщений используется сервис Twitter ( http://twitter.com ) - социальная сеть, представляющая собой систему микроблогов, позволяющая пользователям создавать короткие текстовые заметки. На май 2008 г. в Twitter было зарегистрировано 1 млн. пользователей ( http://ru.wikipedia.org/wiki/Twitter ). Рис.1 Результат автоматического оценивания термина «Социология» в системе Twittratr ( http://twitrratr.com ) В этой связи напомним, что Twitter имеет собственную интегрированную систему Realtime Sentiment Analysis слов и фраз, результаты работы которой, в качестве иллюстрации, представлены на рис. 2. Рис.2 Realtime Sentiment Analysis Twitter ( http://twitter.com ) В качестве иллюстрации на рис. 3 представлены результаты International Visual Sentiment Analysis сообщений СМИ различных стран мира о В.Путине, а на рис. 4 динамика оценки В.Путина в международных СМИ, выполненных автором с помощью онлайн-компьютерной системы Textmap ( http://www.textmap.com ). Рис.3 International Visual Sentiment Analysis сообщений СМИ о В.Путине ( http://www.textmap.com ) Рис.4 Dynamics Sentiment Analysis сообщений мировых СМИ о В.Путине ( http://www.textmap.com ) Компании. Существует множество Интернет-компаний, которые специализируются на разработке и коммерческом использовании Opinion Mining, в частности, Online Sentiment Analysis оценочных трендов персон, новостей, продуктов, организаций и т.д., которые имеют собственные онлайн - аналитические порталы для проведения анализа пользователями. Например, Nielsen Online BuzzMetrics (http://www.nielsen-online.com ), Scout Labs ( http://www.scoutlabs.com ), iStrategyLabs ( http://www.istrategylabs.com ), Trackur ( http://www.trackur.com ) и т.д. Заключение Opinion Mining - это широкое направление исследований и разработок, которое активно используется в практических приложениях. Российский социолог должен знать и уметь пользоваться компьютерными системами Opinion Mining, уметь разрабатывать новые, более совершенные компьютационные теории, модели, методы Opinion Mining, уметь разрабатывать и программировать данные компьютерные системы. В этом случае, российские социологи будут безусловно востребованы на рынке труда и конкурентоспособны в информационном обществе, например, могут создать собственный Интернет-бизнес в области Online Opinion Mining. Приглашаем обсудить статью на форуме. СПИСОК ЛИТЕРАТУРЫ Pang B., Lee L. Opinion Mining and Sentiment Analysis. N.Y.:Now Publishers Inc., www Feldman R., Sanger J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge.: Cambridge University Press, 2006. Hay D. A Survival Guide to Social Media and Web 2.0 Optimization: Strategies, Tactics and Tools for Succeeding in the Social Web. N.Y.: Synergy Books, 2009. Давыдов А.А. Конкурентные преимущества системной социологии. (Электронное издание) М.: ИСАН, www (https://www.isras.ru/publ.html?id=855 ) , ( http://www.ecsocman.edu.ru/db/msg/324618.html ) Давыдов А.А. Системный подход в социологии: законы социальных систем. М.: Эдиториал УРСС, 2004. Чураков А.Н. Компьютерный контент-анализ М.: Институт социологии РАН, 1996. Давыдов А.А. Системная социология. М.: Эдиториал УРСС, 2006. Stein D., Wright S. Subjectivity and Subjectivisation: Linguistic Perspectives. Cambridge.: Cambridge University Press, 2005. Strauss C., Quinn N. A Cognitive Theory of Cultural Meaning. Cambridge.: Cambridge University Press, www TenHouten W. A General Theory of Emotions and Social Life. N.Y.: Routledge, www Niedenthal P., Krauth-Gruber S., Ric F. Psychology of Emotions: Interpersonal, Experiential and Cognitive Approaches. N.Y.: Psychology Press, 2006. Jackson P., Moulinier I. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. Amsterdam.: John Benjamins Pub. 2007. Delmonte R. Computational Linguistic Text Processing: Logical Form, Semantic Interpretation, Discourse Relations and Question Answering. N.Y.: Nova Science Publishers Inc., 2007. Hudlicka Е. Affective Computing: Theory, Methods and Applications. N.Y.: Chapman & Hall/CRC, 2009. Tao J., Tan T. Affective Information Processing. Berlin.: Springer, www Mehler A., Kohler R. Aspects of Automatic Text Analysis. Berlin.: Springer, 2006. Jones T. Artificial Intelligence: A Systems Approach. Hingham.: Jones & Bartlett Publishers, 2007. Давыдов А.А. Knowledge Discovery and Data Mining в системной социологии. М.: ИС РАН, 2009. ( https://www.isras.ru/Davydov_Knowledge.html ) КОММЕНТАРИИ К ЭТОЙ СТРАНИЦЕ подписаться на RSS ленту комментариев к этой странице ОСТАВИТЬ КОММЕНТАРИЙ Ваше имя, псевдоним: * E-mail(не публикуется): Введите текст комментария (комментарий будет опубликован после одобрения модератором): * Защита от спама. Пожалуйста, введите сумму двух чисел: 60+9= * Комментарии. Всего [0]: Показаны все записи. Оставить последние 10