Кластеры на факторах: как избежать распространенных ошибок? (Е.Г. Галицкая, Е.Б. Галицкий)

Кластерный анализ на практике нередко применяют в пространстве не многочисленных, как правило, исходных переменных, а нескольких обобщенных показателей. Когда среди исходных показателей есть неметрические (номинальные или порядковые), пока не сформированы метрические обобщенные показатели, применение метода k-means, а при большинстве мер связи - и методов иерархической классификации, просто невозможно. Но и когда все исходные переменные - метрические, то переход к пространству обобщенных переменных - факторов - нередко оказывается плодотворным: за счет концентрации внимания на главных, наиболее типичных различиях в исследуемом материале, он позволяет получить наглядные, хорошо интерпретируемые результаты.

Опыт, однако, показывает, что бездумно применять такой подход нельзя. Иногда кластерный анализ в факторном пространстве дает внешне правдоподобные, но абсолютно бессмысленные результаты. Такой эффект, в частности, был блестяще продемонстрирован А.О. Крыштановским. Очень важно разобраться, что именно в построенном им тестовом примере привело к такому итогу, и как на практике избежать получения ошибочных результатов классификации. Ведь пока мы не понимаем, в чем внутренняя причина бессмыслицы, мы рискуем получать ее вновь и вновь! В данной статье обсуждаются такого рода вопросы применительно к случаю метрических исходных переменных, когда обобщенные переменные формируются с помощью классического метода главных компонент.

Полный текст статьи ...