Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)Жучкова С. В., Ротмистров А. Н.Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента

Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)

Жучкова С. В., Ротмистров А. Н.

Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента


Жучкова Светлана Васильевна
Национальный исследовательский университет «Высшая школа экономики», Москва
Студентка магистратуры факультета компьютерных наук, Национальный исследовательский университет «Высшая школа экономики», Москва
Ротмистров Алексей Николаевич
Национальный исследовательский университет «Высшая школа экономики», Москва
Кандидат социологических наук, доцент кафедры методов сбора и анализа социологической информации, департамент социологии, факультет социальных наук, Национальный исследовательский университет «Высшая школа экономики», Москва

Полный текст

Открыть текст

Ссылка при цитировании:

Жучкова С. В., Ротмистров А. Н. Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента // Социология: методология, методы, математическое моделирование (Социология:4М). 2018. № 46. С. 85-122.

Рубрика:

МЕТОДИЧЕСКИЕ ЭКСПЕРИМЕНТЫ

Аннотация:

Рассматривается вариант работы с пропущенными данными («пропусками») «как есть», т.е. предполагающий придание пропускам статуса самостоятельной категории изучаемой переменной. Этот вариант кардинально отличается от других вариантов работы с пропусками: удалять те наблюдения, которые содержат пропуски, или заполнять пропуски. Один из известных нам методов, позволяющий реализовать вариант работы с пропусками «как есть» – CHAID. Модели деревьев с пропусками нередко встречаются в эмпирических исследованиях, однако в литературе отсутствует систематическое рассмотрение вопроса, какие конкретно преимущества и ограничения имеет реализованный в CHAID вариант работы с пропусками «как есть» по сравнению с обозначенными альтернативными вариантами. С целью начать дискуссию по этому поводу, мы провели несколько серий статистических экспериментов на модельных данных, организованных в три переменные категориального и интервального типа. Было эмпирически установлено, что в целом метод корректно распределяет пропуски по узлам, однако в большинстве случаев включение пропусков в анализ сопровождается изменениями в структуре дерева, а следовательно, существует риск получения неверных, ложных, ошибочных выводов. Также представлены рекомендации о том, какие факторы следует учитывать при принятии решения о включении пропусков в модель «как есть»

Литература:

  • Rubin D.B. Inference and Missing Data // Biometrika. 1976. Vol. 63. P. 581–592.
  • Ratner B. Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data. Boca Raton: CRC Press, 2012.
  • Doove L.L., van Buuren S., Dusseldorp E. Recursive Partitioning for Missing Data Imputation in the Presence of Interaction Effects // Computational Statistics and Data Analysis. 2014. Vol. 72. P. 92–104.
  • Von Hipple P.T. How to Impute Interactions, Squares, and Other Transformed Variables // Sociological Methodology. 2009. Vol. 39. No. 1. P. 265–291.
  • Dempster A.P., Rubin D.B. Incomplete Data in Sample Surveys. Vol. 2: Theory and Annotated Bibliography. New York: Academic Press, 1983.
  • Allison P.D. Missing Data. Thousand Oaks, CA: Sage, 2002.
  • Rokach L., Maimon O. Decision Trees // Data Mining and Knowledge Dis¬covery Handbook. Boston: Springer, 2010. P. 165–192.
  • Kenett R., Salini S. Modern Analysis of Customer Surveys: with Applications using R. Chichester: Wiley, 2012.
  • Kass G.V. An Exploratory Technique for Investigating Large Quantities of Categorical Data // Applied Statistics. 1980. Vol. 29. No. 2. P. 119–127.
  • Quinlan J.R. Unknown Attribute Values in Induction. Proceedings of the Sixth International Machine Learning Workshop. New York: Morgan Kaufmann Publishers Inc., 1989. P. 164–168.
  • Gentle J.E., H?rdle W.K., Mori Y. Handbook of Computational Statistics: Concepts and Methods. Berlin: Springer, 2012.
  • Gesser-Edelsburg A., Zemach M., Lotan T., Elias W., Grimberg E. Perceptions, Intentions and Behavioral Norms that Affect Pre-license Driving among Arab Youth in Israel // Accident Analysis & Prevention. 2018. Vol. 111. P. 1–11.
  • Ritschard G. CHAID and Earlier Supervised Tree Methods. Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences / Ed. J. McArdle, G. Ritschard. London: Routledge. 2013. P. 48–74.
  • Breiman L. Random Forest. Machine Learning. 2001. Vol. 45. P. 5–32.

Содержание выпуска

>> Содержание выпуска 2018. № 46.
>> Архив журнала