«Кластеры на факторах» - об одном распространенном заблуждении (А.О. Крыштановский)

Задача построения классификации единиц исследования является весьма распространенной как в социологических, так и в маркетинговых исследованиях. Получение однородных групп объектов (респондентов), т.е. таких групп, которые приблизительно одинаково ведут себя в одинаковых ситуациях (одинаково отвечают на вопросы анкеты) - типичная задача сегментирования.

Определенной проблемой при этом является то, что количество параметров, по которым требуется достижение однородности, во многих случаях весьма велико (нередко - несколько десятков). В этой ситуации непосредственная классификация объектов (как правило, с использованием методов кластерного анализа) приводит к плохо интерпретируемым результатам. Действительно, кластерный анализ методом k-средних (без задания содержательно осмысленных центров кластеров) в качестве исходных точек выбирает максимально далеко отстоящие друг от друга точки, которые на практике часто действительно трудно интерпретируемы. Далее, весь массив разделяется на однородные группы с точки зрения близости к этим «непонятным» объектам. Нет ничего удивительного, что результат становится мало вразумительным.

Полный текст статьи ...