Системная социология: изучение и использование Collaborative Tagging Systems

Институт социологии
ФНИСЦ РАН

Системная социология: изучение и использование Collaborative Tagging Systems

А.А.Давыдов

СИСТЕМНАЯ СОЦИОЛОГИЯ: ИЗУЧЕНИЕ И ИСПОЛЬЗОВАНИЕ COLLABORATIVE TAGGING SYSTEMS

Введение

Данная научно-популярная лекция посвящена изучению и использованию Collaborative Tagging Systems, одному из объектов E-Social Science, части системной социологии. Цель данной лекции - максимально широкое и наглядное ознакомление российских социологов и интересующихся социологией с современными разработками в области Collaborative Tagging Systems для последующей быстрой ориентации в данной перспективной области исследований и практических приложений. Заинтересованный читатель может подробно ознакомиться с материалами, посвященными Collaborative Tagging Systems, по приведенным в лекции ссылкам.

Collaborative Tagging Systems

Collaborative Tagging Systems - объект E-Social Science (электронной социальной науки) [1] одного из разделов системной социологии [2], который находится на «пересечении» Computer Science (компьютерной науки), когнитивной социологии [3], визуальной социологии [2], качественных исследований [4], когнитивной психологии, психолингвистики, социолингвистики, Network Mathematics, Web Mathematics, Artificial intelligence, Semiotic Analysis, Semantic Web Analysis, Intelligent Data Analysis (интеллектуальный анализ данных), Information Visualization, в частности Visual Analytics [2] и т.д.

В целом, Collaborative Tagging Systems [5-6] - это информационная социо-техническая система (технология), которая относится к классу Complex Systems и описывается теорией сложных систем [7]. Напомним, что Complex Systems отличаются следующими особенностями. Большое количество взаимодействующих гетерогенных (разнородных) компонентов (частей, элементов), наличие процессов самоорганизации и эмерджентности (внезапное возникновение новых свойств и отношений в системе), ограниченные возможности управления целостной системой и т.д.

На рис. 1 схематически представлена структура Collaborative Tagging System (CTS), которую называют также Social Tagging System (STS) [6,8-9] или фольксономией [8-12].

Рис. 1

Структура Collaborative Tagging System

(http://myunderstanding.wordpress.com/2006/08/11/the-collaborative-tagging-system-abstractions )

Collaborative Tagging Systems включает в себя пользователей Интернета, тэги (tags) - ключевые слова (категории), которые приписываются пользователями к текстовым, аудио, визуальным объектам. Множество тэгов образуют «облако» тэгов (tag cloud) - неиерархическое визуальное представление тэгов, часто в алфавитном порядке, где размер изображения тэга тем больше, чем чаще использовался данный тэг. Совместный тэггинг (collaborative tagging) или фольксономия - процесс совместного создания и использования тэгов пользователями для субъективной категоризации и поиска информации в Интернете. На рис. 2 представлена общая схема тэггинга [9].

Рис.2

Общая схема тэггинга

(http://www.flickr.com/photos/cambodia4kidsorg/148744333/in/set-72157594145307446 )

Рис. 3

Общая схема фольксономии

( http://www.vanderwal.net/random/category.php?cat=132 )

В этой связи отметим, что ключевые слова давно используются в научных статьях для автоматической категоризации в базах данных научных публикаций, например, в международном библиографическом указателе Sociological Abstracts. Однако, ключевые слова в научных публикациях соответствуют принятой таксономии в данной научной дисциплине. Напомним, что таксономия [8-9] - это иерархическая система классификации, обозначающая соподчиненные группы объектов, категорий, таксонов и т.д., образующих иерархический граф - дерево. В этой связи отметим, что с точки зрения теории иерархических систем [13], одной из частных теорий системной социологии [2], иерархический граф - дерево является системой. В отличие от таксономии, в Интернет - технологиях тэги используются для фолксономии [8-12]. Напомним, что слово фолксономия произошло от термина «таксономия» и английского слова «folks» (народ). Фолксономией принято называть способ «народной» классификации объектов, основанный на приписывании объектам одного или нескольких тэгов. Одним из классов фолксономии является таскономия - task (задача) и таксономия [14] - классификация по назначению объектов.

Фолксономия - это Metadata for the Masses - метаданные (данные о данных) [10], созданные пользователями для пользователей, или этноклассификация [11], социальная классификация [12], социальное индексирование, субъективная категоризация и т.д. Поскольку фолксономия относится к спонтанному сотрудничеству группы людей, например в социальных сетях блоггеров, с целью организации информации, которое интересно тем, что оно отличается от традиционных формальных методов иерархической таксономии. Так как организаторы информации обычно являются её же основными пользователями, фолксономия часто производит результаты, более точно отражающие совокупную концептуальную категориальную модель информации всей группы, по сравнению с таксономией.

Известно [15], что фольксономия имеет достоинства и недостатки. К достоинствам фольксономии относят низкую когнитивную стоимость и «проницаемость» семантических, когнитивных и иных барьеров, наличие непосредственной обратной связи и коммуникации, быструю адаптацию к изменениям в лексике, организации информации, индивидуальным потребностям пользователей. К недостаткам фольксономии относят неоднозначность тэгов, множественность семантики, синонимию, акронимы, наличие сокращений слов, смешение сингулярности (множественности) слов (например, блог и блоги), написание слов с ошибками и т.д. В целом, недостатки фольксономии вытекают из возможности пользователей не стандартизировано (произвольно, так, как это им удобно и привычно), осуществлять субъективную категоризацию объектов с помощью тэгов.

Для некоторых задач категоризации сложных (неочевидно структурированных, многозначных и т.д.) объектов, достоинства фольксономии «перевешивают» ее недостатки, поэтому Collaborative Tagging Systems практически используются для поиска визуальной информации (фотографий) в поисковой системе Flickr (www.flickr.com), для поиска текстовой информации в поисковой системе Quintura (http://www.quintura.com), в электронном он-лайн музее изобразительного искусства Steve museum (http://www.steve.museum), в блогосфере.

Тэги

На рис. 4 представлен пример практической реализации тэгов, поставленных пользователями в соответствие картине в электронном он-лайн музее изобразительного искусства Steve museum (http://www.steve.museum), где в поисковой системе произведений искусства реализована Social Tagging System.

Рис.4

Тэги, поставленные в соответствие произведению живописи

[Цит. по 16]

На рис. 5 представлен когнитивный процесс субъективного выбора тэга.

Рис. 5

Когнитивный процесс субъективного выбора тэга

( http://www.uzanto.com/2005/10/15/a-cognitive-analysis-of-tagging )

На рис. 6 схематически представлено социальное (коллективное) создание тэгов.

Рис. 6

Социальное создание тэгов

( http://media-files.gather.com/images/d273/d121/d744/d224/d96/f3/full.jpg )

В целом, когнитивный алгоритм создания и приписывания тэга (тэгов) объекту включает следующие этапы [цит. по 17].

1. Identifying What (or Who) it is About. Overwhelmingly, tags identify the topics of bookmarked items. These items include common nouns of many levels of specificity, as well as many proper nouns, in the case of content discussing people or organizations.

2. Identifying What it Is. Tags can identify what kind of thing a bookmarked item is, in addition to what it is about.

3. Identifying Who Owns It. Some bookmarks are tagged according to who owns or created the bookmarked content. Given the apparent popularity of weblogs among Delicious users, identifying content ownership can be particularly important.

4. Refining Categories. Some tags do not seem to stand alone and, rather than establish categories themselves, refine or qualify existing categories.

5. Identifying Qualities or Characteristics. Adjectives such as scary, funny, stupid, inspirational tag bookmarks according to the tagger’s opinion of the content.

6. Self Reference. Tags beginning with «my», like mystuff and mycomments identify content in terms of its relation to the tagger.

7. Task Organizing. When collecting information related to performing a task, that information might be tagged according to that task, in order to group that information together. Grouping task-related information can be an important part of organizing while performing a task.

В разных Интернет-сервисах пользователи по разному категоризуют информацию. На рис. 7 представлена классификация тэгов в зависимости от Интернет-сервисов, где они используются.

Рис. 7

Классификация тэгов по Интернет-сервису использования

( http://surrealmedia.wordpress.com/2008/09 )

На рис. 8 представлено распределение количества тэгов на одно сообщение.

Рис.8

Распределение количества тэгов на одно сообщение (по del.icio.us stats)

( http://deli.ckoma.net/stats#tags_overall )

Из рис. 8 следует, что пользователи наиболее часто выбирают один тэг для субъективной категоризации информации, что является общим правилом для текстовых и визуальных объектов (см. рис. 4). Из рис. 8 и рис. 4 также следует, что количество выбранных тэгов образует убывающую числовую последовательность, которая детально изучена в системной социологии [18] , в частности, известны общесистемные законы убывающих числовых последовательностей, разработана соответствующая системная теория.

Поскольку компании Technoraty (http://technorati.com/tag), Яндекс (http://blogs.yandex.ru/rating/tags) и другие Интернет-сервисы ведут посуточную статистику частоты выбора тэгов, то динамика тэгов представлена длинными временными рядами. В качестве иллюстрации на рис. 9 представлена динамика частоты выборов тэгов «Russia» и «Sociology» за период 8 ноября - 13 декабря 2008 г. по данным компании Technoraty (http://technorati.com/tag ).

Рис.9

Динамика частоты выборов тэгов «Russia» и «Sociology» (8 ноября - 13 декабря 2008 г.)

(http://technorati.com/tag )

Динамика частоты использования тэгов может осуществляться в системной социологии с помощью более 200-х методов [19], например, методов системной динамики, многомерного статистического анализа временных рядов, фрактального анализа, вейвлет-анализа, «нейронных» сетей и т.д., реализованных в многочисленных интеллектуальных компьютерных системах Data Mining («извлечения знаний»), в частности, High-performance distributed Data Mining and Knowledge Discovery systems. В целом, динамика частоты использования тэгов хорошо описывается теорией динамических систем системной социологии [2,19].

Облако тэгов

«Облако» тэгов используется для поиска визуальной информации (фотографий) в поисковой системе Flicker (www.flickr.com), для поиска текстовой информации в поисковой системе Quintura (http://www.quintura.com), для сравнения категориальных предпочтений (интересов) блог-сообществ и отдельных пользователей Интернета в разные моменты времени. Например, на рис. 10 представлено «облако» 100 наиболее популярных (наиболее часто встречающихся) тэгов в Интернете по данным компании Technoraty (http://technorati.com/tag)

Рис. 10

100 наиболее популярных тэгов в Интернете

( http://technorati.com/tag )

Для сравнения, по данным Яндекса (http://blogs.yandex.ru/rating/tags) 13 декабря 2008 г. русскоязычные блоггеры наиболее часто выбирали следующие тэги: 1) музыка, 2) новости, 3) фото, 4) жизнь. На рис. 11 представлена выявленная автором общесистемная степенная закономерность «ранг-размер» (закон Ципфа) [18] для убывающей числовой последовательности частоты выбора тэгов русскоязычными блоггерами 13 декабря 2008 г. по данным компании Яндекс (http://blogs.yandex.ru/rating/tags).

Общесистемная закономерность "ранг-размер"

(степенной закон Ципфа)

Рис.11

В этой связи особо отметим, что убывающая числовая последовательность частоты выбора тэгов соответствует теоретическому понятию «модуль» в модульной теории социума (МТС) [20-21], разработанной автором. МТС реализована А.Н.Чураковым и автором в компьютерной экспертно-диагностической системе МАКС [21], с помощью которой можно в автоматическом режиме осуществлять анализ, диагностику, моделирование и прогнозирование модулей более чем по 60-ти характеристикам, например, соответствии закону Ауэрбаха, средней пропорции и т.д.

На рис. 12 представлены «облака» тэгов «State Of The Union» за 2008-2007 гг.

Рис. 12

«Облака» тэгов «State Of The Union» в 2008 и 2007 гг.

( http://mikeg.typepad.com/perceptions/2008/02/tag-clouds-patt.html )

На рис. 13 представлены «облака» тэгов для четырех пользователей.

Рис. 13

«Облака» тэгов для четырех пользователей

( http://bhc3.wordpress.com/2008/08/25/tag-clouds-for-our-lifestreams )

В этой связи отметим, что в практике используются различные варианты визуального представления «облака» тэгов [22]. В качестве иллюстрации на рис. 14-17 представлены некоторые оригинальные варианты визуализации «облака» тэгов.

Рис. 14

Вариант визуализации «облака» тэгов

( http://blogtipz.com/images/2008/08/tag-cloud-from-wordle.jpg )

Рис.15

Вариант визуализации «облака» тэгов

( www.bcps.org/offices/lis/web2.0 )

Рис. 16

Вариант визуализации «облака» тэгов

(http://socialmedia.typepad.com/.a/6a00e550300155883400e553766c468833-pi )

Рис.17

Вариант визуализации «облака» тэгов

( http://vidyarth.wdfiles.com/local--files/week-9/tagCloud.png )

В последние годы стали использовать интерактивные «облака» тэгов, которые позволяют пользователю удобно анализировать структуру «облака» тэгов в интерактивном режиме. В качестве иллюстрации на рис. 18-19 представлены варианты интерактивных «облаков» тэгов.

Рис.18

Вариант интерактивного «облака» тэгов

( http://well-formed-data.net/experiments/tag_maps_v5 )

Рис.19

Вариант интерактивного «облака» тэгов

( http://www.ivy.fr/revealicious/demo/spacenav.html )

В последние годы также стали использовать 3D «облака» тэгов (трехмерное изображение «облака» тэгов) с возможностью их вращения. В качестве иллюстрации на рис. 20-21 представлено 3D «облако» тэгов для поиска фотографий в сервисе Tag Galaxy (http://taggalaxy.de) по тэгу «Russia». В этой связи отметим, что сервис Tag Galaxy позволяет визуализировать динамику образования 3D «облака» тэгов в зависимости от количества поступивших фотографий в разные моменты времени.

Рис.20

3D «облако» тэгов для тэга «Russia»

(http://taggalaxy.de)

На рис. 21 представлены фотографии, которым поставлен в соответствие тэг «Russia». Данные фотографии можно рассматривать, с точки зрения визуальной социологии [2], как визуальные образы России.

Рис.21

Фотографии, которым поставлен в соответствие тэг «Russia»

(http://taggalaxy.de)

Сети тэгов

Для построения сетей тэгов используют различные метрики (правила определения «расстояний» между тэгами) и индексы, например, Dice, Jaccard, Overlap, дивергенция Кульбака-Лейблера [23] и т.д., реализованные в методах многомерного статистического анализа, например, кластерного анализа, нелинейного снижения размерности по алгоритму Semidefinite Embedding [23] и т.д. В качестве примера, на рис. 23, представлена Tagcloud Overlap Metrics [24].

Рис.23

[Цит. по 24]

Автор совместно с А.Н.Чураковым [25], разработал индекс идентичности, с помощью которого можно удобно и обоснованно сравнивать, по «похожести», множество убывающих числовых последовательностей частоты выбора тэгов. Индекс идентичности реализован в компьютерной системе Контент-анализ ПРО [26], для сравнения идентичности различных текстов.

В качестве иллюстрации использования многомерных статистических методов, на рис. 24 представлена сеть тэгов, полученная с помощью кластерного анализа.

Рис.24

Кластерный анализ сети тэгов

( http://www.pui.ch/phred/automated_tag_clustering )

В последние годы для построения сетей тэгов стали использовать Machine Learning Algorithms (MLA) «нейронных» сетей. На рис. 25 представлена семантическая сеть тэгов, полученная с помощью MLA.

Рис. 25

Семантическая сеть тэгов, полученная с помощью MLA

( http://www.metablake.com/2006/01/visualizing-folksonomies-using-machine.html )

На сайте [27] представлено множество вариантов визуализации сетей тэгов. На рис. 26-31 представлено несколько примеров визуализации сетей тэгов.

Рис. 26