Knowledge Discovery and Data Mining в системной социологии

Институт социологии
ФНИСЦ РАН

версия для печати

Knowledge Discovery and Data Mining в системной социологии

А.А.Давыдов

Knowledge Discovery and Data Mining в системной социологии

Ключевые слова: системная социология, анализ данных

Введение

Компьютерные системы Knowledge Discovery and Data Mining (KDD) предназначены для выявления полезных знаний из данных ( http://domino.research.ibm.com/comm/research.nsf/pages/r.kdd.html ) с помощью KDD технологий, методологий и методов, которые включают в себя, в частности, автоматическое интеллектуальное извлечение неочевидных знаний из больших объемов информации за минимальное время. Системы KDD - это «передний край» исследований и разработок в области анализа, моделирования и практического использования информации и знаний, которые получили широкое распространение в науке и практике, в частности, в бизнесе, маркетинге, менеджменте, образовании, анализе мультимедийной информации в Интернете и т.д. Благодаря усилиям заведующей кафедрой методов сбора и анализа социологической информации факультета социологии ГУ-ВШЭ, д.социол.н., профессора Ю.Н.Толстовой, на кафедре читается спецкурс по Data Mining, в частности, изучаются методы, реализованные в данных системах ( http://www.hse.ru/org/hse/soc/47497/index.html ).

В 2005 г. автор уже делал обзор зарубежной литературы, посвященный компьютерным системам Data Mining («добыча» знаний из данных) [1], в 2007 г. - Intelligent Data Analysis (интеллектуальный анализ данных) [2], что является основой систем KDD. Необходимость повторного рассмотрения систем KDD диктуется следующими причинами. Во-первых, разработка систем KDD развивается столь стремительными темпами, что за четыре прошедших года некоторые из рассмотренных ранее автором [1] результатов уже устарели. Во-вторых, выступление автора на Конференции по методам сбора и анализа социологической информации, посвященной памяти Александра Крыштановского на факультете социологии в ГУ-ВШЭ 17 февраля 2009 г. ( http://www.hse.ru/org/hse/soc/47497/konf ), показало, что некоторые российские социологи не читали множества монографий, которые ежегодно издаются за рубежом, научных статей из десятков международных журналов, материалов многочисленных ежегодных международных конференций, посвященных системами KDD, не знакомы с практикой применения данных систем, никогда не работали даже с демо-версиями систем KDD, что нельзя признать нормальным, поскольку «отбрасывает» российскую социологию на 20-30 лет назад, когда эмпирический анализ социологических данных осуществлялся, преимущественно, только с помощью статистических пакетов, например, SPSS ( http://www.spss.com/statistics ), SAS ( http://www.sas.com/technologies/analytics/statistics/index.html ), Statistica ( http://www.statsoft.com ), R ( http://www.r-project.org ) и т.д. Сегодня, работа в пакетном режиме - это «вчерашний день» анализа данных, что следует из успешной, обширной и длительной международной практики анализа данных, а также стратегии крупных корпораций, которые занимаются разработкой методов анализа данных. В частности, та же компания SPSS ( http://www.spss.com ), продает систему KDD SPSS Clementine 9.0, компания SAS ( http://www.sas.com ) - SAS Enterprise Miner 5.1, Statsoft ( http://www.statsoft.com ) - STATISTICA Data Mining, IBM ( http://www-01.ibm.com/software/data/iminer ) - IBM Data Mining DB2 Intelligent Miner, Oracle ( http://www.oracle.com/products/product_list.html ) - Oracle Data Mining, Microsoft ( http://www.microsoft.com/sqlserver/2008/en/us/data-mining.aspx ) - Microsoft SQL Server 2008 Data Mining и т.д. С информацией о некоторых системах KDD можно ознакомиться на портале KDnuggets ( http://www.kdnuggets.com/index.html )

Переход от пакетного режима статистического анализа данных к использованию систем KDD происходит потому, что стратегия пакетного режима статистического анализа данных не вполне соответствует актуальным содержательным задачам и условиям сегодняшнего дня. Напомним, что пакетный режим анализа информации предполагал глубокую математическую подготовку специалиста по содержательной дисциплине, в нашем случае - социолога, «смыкаясь» с самостоятельно существующей специальностью «Анализ данных». Отсутствие соответствующей подготовки в области анализа данных приводила к тому, что социологи поверхностно анализировали собранные эмпирические данные, в то время как важные и полезные неочевидные закономерности в данных «ускользали» от их внимания. Возможность длительно осуществлять анализ собранной эмпирической информации, в частности часами «вручную» перебирать различные варианты значений множества коэффициентов, которые нужно знать из объемных монографий, например, по факторному анализу, регрессионному анализу, кластерному анализу, дисперсионному анализу, дискриминантному анализу, многомерному шкалированию, анализу временных рядов и т.д. В этой связи отметим, что некоторые классические методы анализа, реализованные в стандартных статистических пакетах, например кластерный анализ - это метод выдвижения гипотез, а не метод выявления объективно существующих классов [3]. К сожалению, об этом часто забывают некоторые социологи, когда используют кластерный анализ. Относительно небольшие «одномоментные» объемы анализируемой информации в стандартных национальных опросах общественного мнения или текстовых записей фокус-групп, глубинных интервью и т.д. Например, в настоящее время анализ данных стандартного опроса общественного мнения на уровне России - это фактически, «свет давно потухшей звезды», поскольку за время сбора и анализа собранной информации, подготовки отчета, мнения респондентов могли измениться. Это хорошо показал Б.З.Докторов (США), выступая на семинаре Центра теоретических и историко-социологических исследований в Институте социологии РАН (рук. семинара д.филос.н., профессор В.А.Ядов), когда рассказывал о результатах ежедневных национальных опросов на уровне США, посвященных Президентским выборам 2008 г. в США ( https://www.isras.ru/index.php?page_id=120&id=792&p=2 ). В целом, можно образно сказать, что при стандартном пакетном режиме статистического анализа данных «социолог - раб Пакета».

В настоящий момент времени запросы науки и практики требуют решения других задач, а именно, быстрый анализ больших объемов разнородной информации, поступающей в режиме реального времени (потоковый анализ информации), от содержательного специалиста требуется умение быстро принимать правильные конкретные управленческие решения по результатам проведенных социологических исследований, в частности, в условиях неопределенности, дефицита времени и т.д., осуществлять точное прогнозирование и т.д. При этом разработка методов анализа данных осуществляется стремительными темпами множеством разработчиков и организаций, например, к настоящему моменту времени существует более 1000 алгоритмов кластерного анализа [3], что делает проблематичным изучение и использование многих разработанных методов. Изменилась и общая тенденция в подходе к анализу данных, а именно, не содержательный специалист должен приспосабливаться к компьютерам и программному обеспечению по анализу данных, а наоборот, архитектура компьютеров и программное обеспечение должны приспосабливаться к содержательным задачам пользователя. В этом суть инициативы Adaptive Supercomputing [4], которую разрабатывает и внедряет корпорация Cray - мировой лидер в производстве суперкомпьютеров.

В целом, можно образно сказать, что при использовании систем KDD «социолог - это Властелин данных», поскольку KDD - это новая культура анализа данных, принципиально новые и эффективные возможности извлечения знаний из данных. Например, в Microsoft SQL Server 2008 ( http://www.microsoft.com/sqlserver/2008/en/us/data-mining.aspx ) встроена система Data Mining, которая позволяет осуществлять следующие виды анализа: Market Basket Analysis, Churn Analysis, Market Analysis, Forecasting, Data Exploration, Unsupervised Learning, Web Site Analysis, Campaign Analysis, Information Quality, Text Analysis. С помощью встроенного Мастера и Конструктора интеллектуального анализа данных, можно создавать свои методы Data Mining в Microsoft SQL Server 2008 на базе интеллектуальной платформы Analysis Services (SSAS) в среде Business Intelligence Development Studio.

У читателя может сложиться ошибочное мнение, что системы KDD используются, преимущественно, в прикладных исследованиях, направленных на управленческие задачи, требующие немедленного решения и прогноза, а в фундаментальной науке, где ученый может годами анализировать собранные эмпирические данные, в надежде выявить адекватную модель, открыть закон и т.д. системы KDD не нужны, поскольку здесь все решает талант ученого, длительные мысленные рассуждения и творческий инсайт («озарение»). Однако это не так. В фундаментальной науке с успехом используются системы KDD, например в биоинформатике [5] для расшифровки генома человека. Дело здесь не в том, что исследование носит прикладной или фундаментальный характер, а в выборе содержательных задач исследователем, которые различаются по уровню сложности. В этой связи отметим, что некоторые российские социологи часто выбирают содержательные задачи по принципу «искать не там, где потеряли, а там где светло», т.е. ставить только такие содержательные исследовательские задачи, для решения которых уже существуют стандартные методы сбора и анализа информации, уже имеется опыт решения аналогичных задач и т.д. Заказные исследования автор рассматривать не будет, поскольку в них содержательную задачу ставит заказчик. В системной социологии [6] постановка содержательных задач определяется, прежде всего, отсутствием научно обоснованных знаний о социальном явлении, процессе, функционировании социальной системы. Для решения поставленной содержательной задачи могут быть разработаны соответствующие методы сбора и анализа информации, использована или разработана система KDD для эффективного и научно обоснованного решения поставленной задачи. В системной социологии является нормой, что новое научное знание может стоить очень дорого, поскольку требует применения сложных и дорогостоящих научно-технических средств, например, High-performance Knowledge Discovery systems, основанных на использовании суперкомпьютеров, технологии Grid Intelligence, визуальных лабораторий 3D для визуальной аналитики [2,4,6-7] и т.д., в частности, при анализе мультимедийной информации в Интернете [8]. Важно то, что данную норму стоимости нового знания в системной социологии принимают потребители полученных научных результатов. В этой связи отметим, что стоимость некоторых исследований в системной социологии уже приближается к стоимости некоторых исследований в области ядерной физики и космического пространства.

Особо подчеркнем, что поскольку многие российские социологи не читали монографий по KDD, научных статей из международных журналов, материалов многочисленных ежегодных международных конференций, не знакомы с практикой применения данных систем, никогда не работали даже с демо-версиями систем KDD, которые имеются в открытом доступе в Интернете, то у ряда отечественных социологов сложилось ошибочное мнение, согласно которому системы KDD - это «черный ящик», в котором используются неизвестные и недоступные пользователю алгоритмы или, используются методы, которые неприменимы к социологическим задачам. Это ошибочное мнение. Современные системы KDD, которые разрабатывают и продают такие известные компании, как SPSS, SAS, Statsoft, IBM, Microsoft и т.д. имеют объемное детальное текстовое «Руководство пользователя», в котором приводится описание формул, алгоритмов, методов, эвристических стратегий и т.д., запрограммированных в данной системе KDD. Также имеются контрольные обучающие примеры, на которых разъясняется работа данной системы KDD. Кроме того, в демо-версиях многих систем KDD, которые имеются в свободном доступе в Интернете, «зашита» достаточно подробная справочная система. Во многих системах KDD предусмотрена работа в двух режимах, а именно, «ручном» и автоматическом. Более того, современные системы KDD - это системы с «открытой» архитектурой (Model Free Data Mining), что позволяет пользователю самостоятельно запрограммировать формулу, алгоритм, метод анализа, модель, критерии обучения и т.д. в базовой системе KDD, исходя из своей специфической содержательной задачи. При этом, используется облегченный для пользователя язык программирования, например, визуальное программирование. Поэтому, если социолог высказывает явно ошибочные мнения о KDD - это свидетельствует только о том, что данный социолог не знаком с Knowledge Discovery and Data Mining.

В данной статье автор кратко напомнит специфику систем KDD и практику использования и разработок KDD в системной социологии [6].

Knowledge Discovery and Data Mining

Системы KDD - это междисциплинарная область исследований и разработок, включающая науку и практику. Здесь используются Computer Science (компьютерная наука), Systems Science (наука о системах), Artificial Intelligence (искусственный интеллект), математика, когнитивная психология и другие научные дисциплины. Поэтому при разработке систем KDD используются теории из различных областей научного знания. Например, в разработке KDD используются теории анализа данных, прогнозирования и моделирования, в частности, теория концептуального моделирования, uncertainty modelling, probabilistic modelling; теории знаний, принятия решений, обучения, информации, теория нечеткой информационной грануляции, информационных систем; иерархических систем; гетерогенных (разнородных) распределенных систем; нелинейных динамических систем, в частности, детерминированных систем с хаотическим поведением; теории сложности, оптимизации, графов, алгоритмов, в частности, комбинаторных алгоритмов, языков программирования, Databases Theory (теория баз данных), теорий Social Computing (социальных «вычислений») [9], Granular Computing (гранулярных вычислений) [10], Soft Computing («мягких» вычислений), Context Computing (контекстуальных вычислений), NeuroСomputing (вычислений с помощью искусственных «нейронных» сетей), High Performance Computing (высокопроизводительных вычислений), в частности, Parallel and Distributed Computing (параллельных и распределенных вычислений) и т.д. Интеграция частных теорий, некоторые из которых были перечислены выше, осуществляется в общей теории KDD. В рамках общей теории KDD ставятся и решаются различные вопросы. В частности, что такое релевантные знания, какие виды декларативных (онтологических, предметных), процедурных (аналитических) и концептуальных (контекстуальных, метатеоретических и т.д.) знаний представляют интерес для пользователей и разработчиков систем KDD, как эффективно извлекать знания из информации, в частности, из результатов проведенного анализа, например Pattern Analysis, снижения размерности (факторный анализ, многомерное шкалирование); в каком виде представлять выявленные знания и т.д. Например, один из известных российских исследователей искусственного интеллекта, член-корр. РАН, сотрудник Института системного анализа РАН В. Л. Арлазаров, в одном из интервью ( http://www.computerra.ru/offline/2004/568/36764 ) привел следующий пример извлечения знаний из данных. Прочитав «Евгения Онегина», определить отчество Татьяны Лариной. Оно там содержится в неявном виде «смиренный грешник Дмитрий Ларин, Господний раб и бригадир, под камнем сим вкушает мир». В. Л. Арлазаров отмечает, что нужно создать такую систему извлечения смысла, которая бы не была специально настроена именно на этот вопрос, но давала бы правильный ответ.

В зависимости от специфики данных, используются следующие классы систем KDD: Data Mining [11], Text Mining [12], Image Mining [13], Video Mining [14], Audio Mining [15], Web Mining [16], Multimedia Mining [17], Spatial Mining [18], Temporal Mining [19], Streams Mining [20], Social Networks Mining ( http://www.asonam.org ) и т.д. С некоторыми методами анализа данных, реализованными в перечисленных классах систем KDD, заинтересованный читатель может ознакомиться в обзорной статье автора [8]. Особо подчеркнем, что в выше перечисленных классах систем KDD, используется множество частных теорий анализа данной специфической информации, в которых обосновываются специфика данного вида информации, важность конкретных ключевых аспектов информации для анализа, оптимальные методы анализа, адекватные правила интерпретации полученных результатов и т.д. В этой связи отметим, что система KDD может работать как автономно, так и в интегрированных аналитических комплексах, включающих несколько систем KDD, а также может быть интегрирована в различные приложения пользователя, например, Microsoft Excel, корпоративные базы данных и т.д., что предоставляет пользователю широкие возможности в анализе данных.

Также особо подчеркнем, что в системах KDD не существует характерной для социологии схоластической псевдопроблемы противопоставления количественных и качественных методов [21], поскольку в любой информации одновременно присутствуют количественные и качественные свойства и отношения, обеспечивая системную целостность информации. Поэтому для целостного анализа информации и извлечения знаний в системах KDD осуществляется многократная комбинация, в разной последовательности, количественных и качественных методов анализа, трансформация данных («оцифровка», построение логических индексов, логических правил и т.д.), осуществляется одновременный параллельный качественный и количественный анализ данных и т.д., с учетом специфики анализируемой информации.

Рис.1

Процесс постановки и решения содержательных проблем с помощью

Knowledge Discovery and Data Mining

( http://download.oracle.com/docs/cd/B28359_01/datamine.111/b28129/process.htm#CHDCDFBH )

Особо отметим, что процесс постановки, решения содержательных проблем, использования полученных результатов в практических приложениях, с помощью KDD, представленный на рис. 1, - это системный процесс, поскольку он является итеративным (циклическим).

Рис.2

Процесс Knowledge Discovery and Data Mining

( http://liris.cnrs.fr/abstract/fayyad1996.png )

Процесс Knowledge Discovery and Data Mining, представленный на рис. 2, - это стандартная и обязательная последовательность аналитических процедур в анализе данных, которая является итеративной системой и в KDD осуществляется с помощью автоматизации анализа данных, использованием новых методов анализа данных; методов Artificial Intelligence (AI) - искусственного интеллекта, в частности, использованием «нейронных» сетей и генетических алгоритмов обучения, как компьютерных моделей искусственного интеллекта.

Автоматизация анализа данных. Многие рутинные процедуры на различных этапах анализа данных, которые имеют обоснованные алгоритмы решения, доказаны соответствующие математические теоремы, проведены успешные тестовые эксперименты и т.д., однако, требуют много времени, поскольку анализ данных - это итеративный процесс, и предъявляют повышенные требования к специальной подготовке аналитика данных, автоматизируются. В частности, на этапах Data cleaning («чистка» данных) - анализ резко выделяющихся наблюдений, удаление логических ошибок, заполнение пропусков в данных и т.д. Data pre-processing (подготовка данных) - объединение, редактирование, преобразование (оцифровка, трансформация и т.д.), фильтрация, осуществление выборки (подвыборок), перевзвешивание выборки и т.д. Data modeling - спецификация, селекция и оценка моделей, в частности, «зашумление» данных (добавление случайных ошибок, распределенных по различным законам) для робастного (устойчивого) оценивания параметров моделей и т.д. Post-processing, в частности скоринг - проверка устойчивости построенных моделей на новых данных, визуализация и т.д.

Использование новых методов анализа. В системах KDD используются новые робастные (устойчивые к предпосылкам и ошибкам измерения), быстродействующие, адаптивные алгоритмы выявления взаимосвязей (ассоциаций), регрессионного анализа, снижения размерности (факторный анализ, многомерное шкалирование), кластеризации, выявления паттернов в данных, логических правил, структурных моделей, анализа временных рядов и т.д. Используются новые методы анализа, например Transformative Pattern Learning (AFRL), (http://www.cyberspirits.net/2008/09/4-major-areas-of-research-in-knowledge-discovery-data-mining ), Multi-way clustering, Semi-supervised Clustering [3], Algorithms for segmentation of time series, динамического тензорного анализа, методов регуляризации, вейвлет-анализа, топологии и т.д., практически из всех разделов современной математики. В этой связи отметим, что за рубежом исследовательские Центры крупных корпораций, лаборатории и факультеты Университетов, разрабатывают новые методы анализа, которые проходят тщательное тестирование. В частности, доказываются соответствующие математические теоремы существования оптимального алгоритма, сходимости работы алгоритма, аппроксимации сложных нелинейных функций и т.д. На специально созданных тестовых примерах производится многократная экспериментальная проверка разработанного метода, происходит практическая апробация метода в реальной практической работе, а затем разработанный метод патентуется при соблюдении жестких патентных требований. После этого, компании, занимающиеся разработкой систем KDD, покупают и используют запатентованные алгоритмы в своих компьютерных системах KDD. Например, в SAS Enterprise Miner ( http://www.businessdecision.ru/2728-sas-enterprise-miner.htm ) , используются запатентованные современные алгоритмы анализа данных, в частности, классификации, прогнозирования, выявления правил и т.д.

Использование методов Artificial Intelligence (AI). В современных системах KDD используют Knowledge and Ontology Engineering (инженерия знаний), в частности, Knowledge Management (управление знаниями), Knowledge Learning (обучение знаниям) и т.д., которые включают Heuristic search (эвристический поиск), машинное принятие решений, методы индуктивного логического программирования, использование «нечеткой» логики и вероятностных умозаключений, приобретения и фильтрации знаний, автоматическое порождение гипотез и моделей, рассуждения на примерах, эвристические методы анализа, основанные на когнитивных закономерностях переработки информации человеком и т.д. Методы Artificial Intelligence (AI) разделяются на два класса. Первый класс - имитация принятия решений человеком-аналитиком данных. Здесь разрабатываются интеллектуальные системы DSS (Decision Support Systems) - системы поддержки принятия решения, которые автоматически тестируют данные и предлагает пользователю оптимальное решение, которое пользователь может игнорировать. Система DSS - это компьютерная экспертная система, состоящая из базы знаний специалистов по анализу данных и выступающая в качестве Recommender Systems (рекомендующей системы). В качестве экспертов выступают признанные специалисты в данном виде анализа, которые занимаются данным видом анализа много лет, имеют соответствующие публикации в ведущих международных журналах, детально знают все содержательные, математические, компьютационные и иные нюансы данного метода и имеют большой практический опыт работы с этим методом на реальных данных. Поэтому запрограммированный опыт экспертов всегда более обоснован, чем опыт рядового социолога, особенно многих российских социологов, которые даже классические методы анализа данных, реализованные в стандартном пакете SPSS, знают недостаточно, не говоря уже о суперсовременных методах анализа информации. Второй класс - использование различных формальных машинных логик для вывода нового знания и алгоритмов машинного обучения [15].

Использование «нейронных» сетей и генетических алгоритмов обучения, как компьютерных моделей искусственного интеллекта. В системах KDD используют автоматические интеллектуальные конструкторы «нейронных» сетей, в частности, для оптимального выбора архитектуры сети, алгоритма обучения, сравнения результатов, полученных с помощью различных «нейронных» сетей, скоринга и прогнозирования. В этой связи отметим, что в практике анализа данных, хорошо себя зарекомендовали «нейронные» сети классов CANFIS (Co-Active Neuro-Fuzzy Inference System); Self-organizing feature maps (SOFMs), Support Vector Machine (SVM), генетические алгоритмы обучения «нейронных» сетей, реализованные, например, в нейросистеме «NeuroSolutions» ( http://www.neurosolutions.com ). С методологией и стратегиями использования «нейронных сетей» для прогнозирования социальных явлений заинтересованный читатель может ознакомиться в статье автора [22].

На рис.3 представлены некоторые стандартные теории, методы и модели Knowledge Discovery and Data Mining.

Рис.3

Некоторые стандартные теории, методы и модели Knowledge Discovery and Data Mining

( http://scianta.com/technology/datamining.htm )

В этой связи отметим, что в каждой системе KDD используется множество методов, что позволяет целостно осуществлять анализ данных, выявляя неочевидные и полезные знания из данных. Очевидно, что теории, модели и методы анализа данных, которые реализованы в системах KDD, в частности, представленные на рис.3, надо знать. Вопрос в том, в какой мере знать? Исходя из опыта автора, достаточно внимательно прочитать «Руководство пользователя» к системе KDD, в котором указаны формулы, алгоритмы, способы применения к конкретным содержательным задачам и т.д., поэкспериментировать с демо-версией конкретной KDD на хорошо известных социологу эмпирических данных. Например, изучить и протестировать систему CART (Classification and Regression Trees) компании Salford Systems ( http://www.salford-systems.com ), в которой при построении иерархических деревьев решений используются многократные автоматические процедуры проверки валидности решений, адаптивные множественные штрафы, интеллектуальные методы заполнения пропущенных значений, восемь методов выбора наилучшего дерева решения, используются методы многократных деревьев, «комитета» экспертов, будстрап - агрегации и т.д., которая получила награду Стэнфордского Университета за точность прогнозирования. Систему AI Insight ( http://stat.ucf.edu/admission/admission.asp?id=1 ) в которой реализованы Tree-based boosting algorithms, Rule-finding algorithms, Logistic Regression, Neural Networks, Support Vector Machines, MITCH (Multiple Intelligent Tasking Computer Heuristics) и т.д. и которая стала победителем в ежегодном международном конкурсе систем KDD за 2004 г. ( http://www.sigkdd.org/kddcup/index.php ). Напомним, что на ежегодных международных конференциях по KDD ( http://www.sigkdd.org/kddcup/index.php ) проводится конкурс систем KDD на тестовых контрольных примерах (множество сложных временных рядов из различных научных дисциплин, неочевидно структурированных данных, специально сгенерированных тестовых примерах и т.д.) где качество работы (точность, адекватность и т.д.) систем KDD оценивают как по тестовым примерам, так и признанные специалисты в данной содержательной области. Систему IBM Data Mining DB2 Intelligent Miner ( http://www-01.ibm.com/software/data/iminer ), которая также выигрывала конкурсы систем KDD, Систему SAS Enterprise Miner ( http://www.sas.com/technologies/analytics/datamining/miner ), где используются запатентованные алгоритмы классификации, прогнозирования и поиска правил на основе методологии Sampling, Exploration, Modification, Modeling and Assessment (SEMMA). Систему SPSS Clementine 9.0 ( http://www.spss.com/clementine ) и т.д. В этой связи отметим, что со своим контрольным примером можно придти в компанию, занимающуюся продажей системы KDD, и менеджер-консультант может продемонстрировать работу системы KDD на вашем контрольном примере, ознакомить со справочной литературой по данной системе KDD, дать консультацию. Кроме того, многие компании, занимающиеся разработкой и продажей систем KDD, проводят регулярные учебные семинары.

Если проанализировать материалы ежегодных международных конференций по KDD за период 2006-2009 гг. ( http://www.sigkdd.org/kdd2009 ), некоторые последние монографии [13,16-17,19-20], научные статьи в международном журнале по KDD ( http://www.springerlink.com/content/100254 ), запланированные научно-исследовательские проекты по разработке KDD в крупных зарубежных исследовательских Центрах, лабораториях, компаниях, поддержанные научные гранты Национального научного фонда США, Японии и ряда европейских стран, то тогда можно заметить следующие тенденции развития систем KDD. Повышение скорости производительности анализа, повышение уровня автоматизации аналитических процедур, повышение интеллектуальности аналитических процедур на основе Artificial Intelligence (AI) – искусственного интеллекта и экспертных мнений. Разработка специализированных систем KDD, в которых учитывается содержательная специфика эмпирических данных в конкретных областях знания, например в бизнесе, индустрии, образовании, экологии, здравоохранении, при анализе преступности, терроризма, социального поведения, в частности, в социальных сетях и т.д. Разработка систем KDD, которые понимают естественный язык (Natural Language Processing), понимают содержательную задачу пользователя и анализируемую информацию (Information Understanding, в частности, Text, Image, Video Understanding и Scene Understanding - понимание и интерпретация текстов, визуальных образов и сцен). Использование Cognitive Computing (когнитивные «вычисления» - переработка информации) включающая в себя данные Neuroscience (исследование функционирования мозга человека), Supercomputing (супервычисления) [6] и т.д.

Практика использования и разработки Knowledge Discovery and Data Mining в системной социологии

В системной социологии [1-2,6,23] системы KDD используются давно, широко и успешно. В этой связи напомним, что в рамках компьютационной методологической парадигмы системной социологии, одной из стандартных задач является разработка систем KDD. Использование и разработка систем KDD в системной социологии обусловлена следующими двумя причинами, имеющими солидное теоретическое и эмпирическое обоснование. Первая причина - любые эмпирические данные - это всегда система. Даже множество случайных чисел, сгенерированных с помощью датчика случайных чисел - это стохастическая система, имеющая вероятностные закономерности (закон распределения). Данные опросов общественного мнения [24], данные национальной и международной официальной статистики [2], тексты, фото, видео, речь [6,8,21] - очевидные системы. Вторая причина, анализ данных - это всегда система аналитических процедур, что наглядно продемонстрировано на рис. 1-2, и потому требует использования системного стиля мышления [6].

В Институте социологии РАН в 1993 г. автор совместно с А.Игнатовым разработал компьютерную систему Data Mining КСЕНИЯ для автоматического прогнозирования символьной динамики (дискретных качественных временных рядов). В 1995 г. автор совместно с Д.В.Дубренским и А.Н.Чураковым разработал систему Data Mining ALEX (версия 2.0) для автоматического выявления закономерностей и прогнозирования. Система ALEX была интегрирована в разработанную автором совместно с А.Н.Чураковым компьютерную систему Контент-анализ ПРО [25], предназначенную для анализа текстов. Система ALEX также была интегрирована в разработанную автором совместно с А.Н.Чураковым компьютерную экспертно-диагностическую систему МАКС (версия 3.0) [23], предназначенную для модульного анализа, моделирования, диагностики и прогнозирования социальных систем, как в «ручном», так и автоматическом режимах. С помощью одной из версий системы МАКС, где была реализована методология «Model Free Data Mining», было выявлено множество аддитивных и мультипликативных закономерностей в данных мониторинга общественного мнения ВЦИОМ [24].

В настоящий момент времени, в системной социологии, наряду с системами KDD, которые работают на стандартных персональных компьютерах, используют High-performance Knowledge Discovery and Data Mining systems (высокопроизводительные KDD), в частности, Distributed Knowledge Discovery and Data Mining (распределенные в географическом пространстве KDD), основанные на технологии Knowledge Grid and Grid Intelligence (KGGI) [2,4], суперкомпьютинге [7], в частности, Adaptive Supercomputing [4]. Данные вычислительные и аналитические мощности необходимы, в частности, для анализа мультимедийной информации в Интернете в режиме реального времени [8]. В High-performance Knowledge Discovery and Data Mining systems используются параллельные вычисления, Cognitive Computing (когнитивные «вычисления») [6], Agent-Based Computing (агент-ориентированные «вычисления»), ( http://www.cyberspirits.net/2008/09/4-major-areas-of-research-in-knowledge-discovery-data-mining ), в частности, automated discovery agents, методологии Computational Intelligence, Synthesis of Analytic Knowledge и множество других суперсовременных аналитических технологий, методологий, моделей и методов анализа данных.

Заключение

Уважаемые российские социологи! Давно пора широко осуществлять анализ данных с помощью современных технологий, методологий и методов Knowledge Discovery and Data Mining, которые уже давно в науке и практике продемонстрировали свою эффективность.

Приглашаем обсудить статью на форуме.

СПИСОК ЛИТЕРАТУРЫ

Давыдов А.А. Системный подход в социологии: новые направления, теории и методы анализа социальных систем. М.: Эдиториал УРСС, 2005.
Давыдов А.А. Системная социология: введение в анализ динамики социума. М.: ЛКИ, 2007.
Jain A. Data Clustering: 50 Years Beyond K-means. www ( http://videolectures.net/ecmlpkdd08_jain_dcyb )
Давыдов А.А. Adaptive Supercomputing в системной социологии. М.: ИСАН, 2009. ( https://www.isras.ru/index.php?page_id=978 )
Wang J., Zaki M., Toivonen H., Shasha D. Data Mining in Bioinformatics. Berlin.: Springer, 2004.
Давыдов А.А. Конкурентные преимущества системной социологии. (Электронное издание) М.: ИСАН, www (https://www.isras.ru/publ.html?id=855 , http://www.ecsocman.edu.ru/db/msg/324618.html)
Давыдов А.А. Системная социология: визуальный суперкомпьютинг взаимодействий пользователей Интернета. Доклад. М.: ИС РАН, www ( https://www.isras.ru/index.php?page_id=120&id=372)
Давыдов А.А. Системная социология: анализ мультимедийной информации в Интернете. М.: ИСАН, 2009. ( https://www.isras.ru/index.php?page_id=988 )
Liu H., Zhang J., Sen A. Social Computing: A Data Mining Perspective. N.Y.: Chapman & Hall/CRC, 2009.
Stepaniuk J. Rough Granular Computing in Knowledge Discovery and Data Mining. Berlin.: Springer, www
Tan P., Steinbach M., Kumar V. Introduction to Data Mining. N.Y.: Addison Wesley, 2005.
Feldman R., Sanger J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge.: Cambridge University Press, 2006.
Simoff S., Böhlen M., Mazeika A. Visual Data Mining: Theory, Techniques and Tools for Visual Analytics. Berlin.: Springer, www
Rosenfeld A., Doermann D., DeMenthon D. Video Mining. Berlin.: Springer, 2003.
Camastra F., Vinciarelli A. Machine Learning for Audio, Image and Video Analysis: Theory and Applications. Berlin.: Springer, 2007.
Liu B. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data. Berlin.: Springer, www
Zhang Z., Zhang R. Multimedia Data Mining: A Systematic Introduction to Concepts and Theory. N.Y.: Chapman & Hall/CRC, www
Miller H., Han J. Geographic Data Mining and Knowledge Discovery. N.Y.: CRC, 2009.
Hsu W., Lee M., Wang J. Temporal and Spatio-temporal Data Mining. N.Y.: IGI Publishing, 2007.
Aggarwal С. Data Streams: Models and Algorithms. Berlin.: Springer, 2006.
Давыдов А.А. Качественные исследования: перспективы развития. М.: ИСАН, www ( https://www.isras.ru/index.php?page_id=922 )
Давыдов А.А. Прогнозирование социальных явлений с помощью «нейронных» сетей//Социологические методы в современной социологической практике. Сборник материалов Всероссийской научной конференции памяти А.О.Крыштановского. Москва.: ИД ГУ-ВШЭ, 2007.
Давыдов А.А., Чураков А.Н. Модульный анализ и моделирование социума. М.: Институт социологии РАН, 2000.
Давыдов А.А., Чураков А.Н. Системный подход к анализу данных мониторинга общественного мнения//Социолог. исслед. 2002, № 7, С. 131-137. ( http://www.ecsocman.edu.ru/socis/msg/280161.html )
Чураков А.Н. Компьютерный контент-анализ М.: Институт социологии РАН, 2006.