Институт социологии
Российской академии наук

Журнал: Социология: методология, методы, математическое моделирование (4М)

Жучкова С. В., Ротмистров А. Н.
Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента


Жучкова Светлана Васильевна – Студентка магистратуры факультета компьютерных наук, Национальный исследовательский университет «Высшая школа экономики», Москва
Ротмистров Алексей Николаевич – Кандидат социологических наук, доцент кафедры методов сбора и анализа социологической информации, департамент социологии, факультет социальных наук, Национальный исследовательский университет «Высшая школа экономики», Москва

Моя книжная полка

        > отложить
      >> посмотреть свою книжную полку
 

Полный текст

Открыть текст

Ссылка при цитировании:

Жучкова С. В., Ротмистров А. Н. Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента // Социология: методология, методы, математическое моделирование (4М). 2018. Том. 0. № 46. С. 85-122.

Рубрика:

МЕТОДИЧЕСКИЕ ЭКСПЕРИМЕНТЫ

Аннотация:

Рассматривается вариант работы с пропущенными данными («пропусками») «как есть», т.е. предполагающий придание пропускам статуса самостоятельной категории изучаемой переменной. Этот вариант кардинально отличается от других вариантов работы с пропусками: удалять те наблюдения, которые содержат пропуски, или заполнять пропуски. Один из известных нам методов, позволяющий реализовать вариант работы с пропусками «как есть» – CHAID. Модели деревьев с пропусками нередко встречаются в эмпирических исследованиях, однако в литературе отсутствует систематическое рассмотрение вопроса, какие конкретно преимущества и ограничения имеет реализованный в CHAID вариант работы с пропусками «как есть» по сравнению с обозначенными альтернативными вариантами. С целью начать дискуссию по этому поводу, мы провели несколько серий статистических экспериментов на модельных данных, организованных в три переменные категориального и интервального типа. Было эмпирически установлено, что в целом метод корректно распределяет пропуски по узлам, однако в большинстве случаев включение пропусков в анализ сопровождается изменениями в структуре дерева, а следовательно, существует риск получения неверных, ложных, ошибочных выводов. Также представлены рекомендации о том, какие факторы следует учитывать при принятии решения о включении пропусков в модель «как есть»

Ключевые слова:

деревья решений; деревья классификации; катего¬риальные переменные; поиск взаимодействий; пропущенные данные; пропущенные значения; статистический эксперимент; CHAID

Литература:

  1. Rubin D.B. Inference and Missing Data // Biometrika. 1976. Vol. 63. P. 581–592.
  2. Ratner B. Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data. Boca Raton: CRC Press, 2012.
  3. Doove L.L., van Buuren S., Dusseldorp E. Recursive Partitioning for Missing Data Imputation in the Presence of Interaction Effects // Computational Statistics and Data Analysis. 2014. Vol. 72. P. 92–104.
  4. Von Hipple P.T. How to Impute Interactions, Squares, and Other Transformed Variables // Sociological Methodology. 2009. Vol. 39. No. 1. P. 265–291.
  5. Dempster A.P., Rubin D.B. Incomplete Data in Sample Surveys. Vol. 2: Theory and Annotated Bibliography. New York: Academic Press, 1983.
  6. Allison P.D. Missing Data. Thousand Oaks, CA: Sage, 2002.
  7. Rokach L., Maimon O. Decision Trees // Data Mining and Knowledge Dis¬covery Handbook. Boston: Springer, 2010. P. 165–192.
  8. Kenett R., Salini S. Modern Analysis of Customer Surveys: with Applications using R. Chichester: Wiley, 2012.
  9. Kass G.V. An Exploratory Technique for Investigating Large Quantities of Categorical Data // Applied Statistics. 1980. Vol. 29. No. 2. P. 119–127.
  10. Quinlan J.R. Unknown Attribute Values in Induction. Proceedings of the Sixth International Machine Learning Workshop. New York: Morgan Kaufmann Publishers Inc., 1989. P. 164–168.
  11. Gentle J.E., H?rdle W.K., Mori Y. Handbook of Computational Statistics: Concepts and Methods. Berlin: Springer, 2012.
  12. Gesser-Edelsburg A., Zemach M., Lotan T., Elias W., Grimberg E. Perceptions, Intentions and Behavioral Norms that Affect Pre-license Driving among Arab Youth in Israel // Accident Analysis & Prevention. 2018. Vol. 111. P. 1–11.
  13. Ritschard G. CHAID and Earlier Supervised Tree Methods. Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences / Ed. J. McArdle, G. Ritschard. London: Routledge. 2013. P. 48–74.
  14. Breiman L. Random Forest. Machine Learning. 2001. Vol. 45. P. 5–32.

Содержание выпуска

>> Содержание выпуска 2018. Том. 0. № 46.
>> Архив журнала



КОММЕНТАРИИ К ЭТОЙ СТРАНИЦЕ



rss подписаться на RSS ленту комментариев к этой странице
ОСТАВИТЬ КОММЕНТАРИЙ
Комментарии. Всего [0]: