В психологических исследованиях применяется огромное количество инструментов. Одним из тех, что заслуживает особого внимания, носит название кластерного анализа. Разберемся, что же из себя представляет данное явление.
Кластерный анализ в обозначенной области представляется методом многомерной статистики для различных данных. Основное его назначение – распознавание в имеющихся данных кластеров или естественных групп. Распределение в группы осуществляется на основании степени схожести объектов. Выделенные группы носят название кластеров.
СОДЕРЖАНИЕ
Для чего нужен кластерный анализ?
Метод кластерного анализа широко применяется для того, чтобы на основании совокупной информации эффективно распределять участников эксперимента по группам, устанавливать психологические типы, поведенческие модели и иные скрытые формы.
Задача, возложенная на кластерный анализ – заключается в выстраивании классификации, то есть распределения по группам (кластерам) первоначальную совокупность объектов. Особенностью процесса можно назвать отсутствие у исследователя каких-либо предположений, разъясняющих положение дел с составом классов или с базовыми отличиями.

Для проведения кластерного анализа исследователю необходимо обладать информацией о признаках, которые выводят на предположение о сходствах/различиях объектов. Еще один вариант допустимой изначальной информации связывается с критериями сходства/различия в парах.
Кластерный анализ обладает несколькими синонимичными названиями. Так в научной литературе можно встретить такие названия как: автоматическая классификация, анализ образов или таксономический анализ.
Первоначальные сведения о данном виде анализа появились в первой половине XX века. Изначально они не пользовались популярностью, в отличие от иных методов многомерного исследования. Возвращение к кластерному анализу, как методу исследования, произошло в начале 70-х годов прошлого века. Несмотря на достаточный практический опыт использования кластерного анализа в психологических исследованиях, утверждается, что удачных примеров его применения очень мало. Хоть и утверждается, что метод характеризуется максимальной простотой и наглядностью. Отмечается и наличие очевидного преимущества, выражаемого в отсутствии каких-либо потерь исходных данных, в которых рассматриваются различия между объектами или соотнесение между признаками.
Версии кластерного анализа представлены многообразием несложных вычислительных операций, применяемых для группировки объектов по признаку большей схожести.
Если быть в определении максимально точным, тогда под кластерным анализом понимается процесс распределения объектов в примерно похожие классы исходя из сравнения объектов в парах по критериям, которые были установлены и измерены ранее.
Плюсы и минусы кластерного анализа
Кластеризации в психологических исследованиях подвергаются не только участники эксперимента. Группироваться могут признаки, взаимосвязи, итоги выяснения статуса человека в группе и т.п. Если говорить о возможностях практической реализации кластерного анализа взаимосвязей, то этот подход вполне может заменить факторный анализ.
Напомним, что под факторным анализом понимается многомерный метод, ориентированный на проработку взаимосвязей между показателями переменных.

Положительные стороны кластерного анализа
В сравнении с обозначенным методом, кластерный анализ демонстрирует следующие привлекательный аспекты:
- Полная сохранность исходных данных. В ходе факторного анализа возможные потери данных могут доходить до половины всего объема исходной информации. В рамках кластерного анализа показатели остаются на нуле.
- Убедительная ясность результатов. Данные, получаемые по завершению кластерного анализа, используются для построения диаграммы, имеющей форму дерева. Результаты анализа отображаются в виде ветвей.
- Кластерный анализ позволяет обнаруживать не только степень взаимосвязи. Ему доступны приемы выявления структуры подчиненности групп.
Обозначив положительные стороны кластерного анализа, стоит уточнить наличие и качество слабых сторон.
Несовершенство кластерного анализа
Опять же возьмём для сравнения достаточно популярный факторный анализ.
- Факторный анализ может интегрировать одну шкалу в несколько факторов. Кластерный анализ для каждого фактора включает свою шакалу и только одну. В данной связи безусловным признается факт максимальной полноты и информативности результатов факторного анализа. Кластерный анализ в этом случае проигрывает.
- Рекомендуется, в ходе проведения самых разных исследований, но базирующихся на использовании многомерных методов работы с информацией, применять как факторный, так и кластерный анализы. А затем проводить сравнение полученных данных. Подобный подход может продемонстрировать фактическую идентичность итогов обоих анализов.
Современные технологии и программное обеспечение дают возможность ускорить проведение кластерного анализа. И если MicroSoft Excel совершенно не подходит для подсчета результатов кластерного анализа, то со всеми нюансами метода справляется компьютерное приложение SPSS.
Еще раз хочется отметить, что кластерный анализ ориентирован на осуществление группировки психологических признаков. Для этого проводится выделение из разнородного по составу набора изучаемых компонентов однородных групп или кластеров.
Основная задача кластеризации
Основной задачей кластеризации становится процесс разделения определенной совокупности элементов на некоторое число кластеров. При этом каждый элемент должен относиться только к одной группе, у которой приоритетным является определенное свойство. В каждой группе элементы должны обладать схожестью, но обладать отличиями от другой.

Остановимся на примере применения кластерного анализа для группировки психологических признаков. В ходе группировки типов личности на основании психологических признаков, кластерный анализ позволил выявить три кластера, разделивших участников на стабильных, социально активных; чувствительных интровертов; открытых и гибких.
На основании полученных результатов удалось сделать выводы о том, где могут применяться результаты данного типа анализа. Так, исследователи пришли к выводу, что группировка по психологическим признакам может использоваться в сфере психотерапии (разработка индивидуальных подходов к каждой группе), профориентации (принадлежность к той или иной группе помогает определиться с будущей профессией) и образовании (выявление оптимальных и максимально эффективных методов обучения).
Методы кластерного анализа
В рамках текущего момента в самых разных сферах используется огромное количество методов кластерного анализа. Ниже предлагается краткий перечень популярных методов:
- полных связей, предполагающий наличие у пары объектов в рамках одного кластера какого-то параметра схожести, с характерными показатели, которые ниже пороговой величины;
- максимального локального расстояния, для данного метода характерно понимание того, что каждый исследуемый элемент принимает на себя роль одноточечного кластера; группировка объектов подчиняется правилу, в соответствии с которым объединение допустимо на основании расстояния между точками кластера: в одном случае – максимальное, в другом – минимальное;
- Ворда – метод, допускающий объединение групп кластеров, чье расположение максимально близкое; используется прием суммирования квадратов отклонений, выясняется среднее значение по кластеру для конкретного объекта;
- центроидный (метод взвешенных групп), ориентированный на учет дистанции между кластерами, выступающей в формате расстояния между средними значениями.
Стоит помнить, что под кластерным анализом понимается определённый алгоритм решения задачи, базирующийся на принципах комбинаторики. Результат реализации комбинаторной процедуры всегда прост и нагляден.
Классифицирование – процесс, под которым понимаются действия по распределению изначального количества объектов на вариативные группы. Именно с классифицирования начинается любая умственная деятельность, ориентированная на выяснение оснований выявленных различий.
Существуют задачи, в которых использование кластерного анализа демонстрирует максимальную эффективность. И это, если производить сравнение с иными многоуровневыми подходами.
- Деление всех участников на кластеры по определенным признакам для того, чтобы выяснить причин несоответствия между группами, с опорой на внешние критерии.
- Использование кластерного анализа, простого и наглядного, в сравнении с факторным анализом, в рамках решения задачи по группировке показателей по корреляционному аспекту.
- Группировка участников исходя из прямых показателей различий.
В основу реализации кластерного анализа могут закладываться различные цели. Однако легко вычленяется совокупность последовательных, но самостоятельных этапов практического исследования.

Первый этап связан с отбором элементов кластеризации. Цели определяют элементы, выбираемые для исследования. Это могут быть как участники эксперимента, так и элементы, которые рассматриваются участниками. Кроме того, элементом кластеризации могут выступать параметры, которые были установлены на этапе отбора участников.
Второй этап. Этот шаг связывают с выяснением разнообразия переменных, которые закладываются в основу группировки. Если говорить об участника, то для них параметрами будет выступать комплекс установленных признаков. Для объектов оценки группировочными параметрами будут считаться субъекты, производящие оценочные действия. Для признаков критерии группировки определяются участниками.
Третий этап базируется на процессе выяснения степени различия, имеющегося у элементов группирования.
Четвертый этап предполагает процесс отбора и реализации метода классификации, что становится основанием для формирования групп сопоставимых объектов.
Пятый этап связан с подтверждением правильности процесса распределения по группам.
Стоит отметить, что пятый пункт не считается обязательным. Но использование кластерного анализ всегда сопровождается деление объектов на классы, даже если они там не предполагались. Поэтому достоверность – это не существенный признак. Более существенным будет признан критерий устойчивости кластера, который обязательно требует контроля. Важность деления на группы может быть проконтролирована посредством внешних критериев, под которыми понимаются признаки, чьи параметры в анализе не учитываются.
Кластерный анализ в психологических исследованиях
Автоматическая классификация относится к методам многомерной статистики. Она применяется там, где необходимо определить группы объектов с похожими параметрами. Если говорить о психологических исследованиях, то благодаря кластерному анализу достаточно легко могут быть установлены группы участников или психологические особенности (структуры поведения, связи, темперамент и т.п.). А базируется подобный анализ на перечне признаков. Причем структура групп предварительно не оговаривается.
Базовые алгоритмы
Достаточно просто понять, что целью анализа образов является процесс деления набора объектов на группы. Причем внутри группы они должны обладать максимальной схожестью. Между группами должно прослеживаться максимальное различие.
Иерархическая кластеризация — это метод анализа данных, который используется для группировки объектов в кластеры на основе их сходства.
Рассмотрим основные схемы кластерного анализа.
Иерархический
В этот алгоритм вписывается несколько видов:
- Агломеративный метод
- Дивизионный метод.
Также в иерархическую разновидность анализа образов выделяются метрики расстояний:
- Евклидово расстояние.
- Манхэттенское расстояние (расстояние городских кварталов, сити-блок, хэмминговое).
- Косинусная мера.
- И т.п.
Выделяются и методы объединения, определяемые по:
- Минимальному расстоянию.
- Максимальному расстоянию.
- Среднему расстоянию.
- Минимизации внутригрупповой дисперсии
Агломеративный метод иерархической кластеризации обозначает каждый изучаемый объект отдельным кластером. Группировка проводится последовательно, процесс базируется на выявлении сходных признаков. Итогом группировки объектов становится один кластер.
Алгоритм агломеративной иерархической кластеризации
- Подготовка. Шаг, в рамках которого объекты определяются отдельной группой.
- Определение дистанции. Расстояние требуется измерить между имеющимися парами кластеров. Для этого привлекаются различные метрики расстояния (обозначены выше).
- Объединение групп. Начинается процесс с объединения ближайших групп. Кластеры объединяются пока не создается один кластер.
- Пересчет расстояний. Эта процедура предполагает выяснение параметров между только образованными кластерами и теми, что остались. Данный шаг принимает во внимание трансформацию информационной структуры, происходящую в ходе объединения групп.
- Повторение. Данный шаг обусловлен необходимостью воспроизведение пунктов 3 и 4 для того, чтобы добиться соединения всех объектов в одну группу. Процесс можно визуализировать, чему способствует дендрограмма. Она может продемонстрировать пошаговый процесс объединения кластеров.

Плюсы
Положительная сторона иерархического кластерного анализа заключается в возможности визуализировать результат, что способствует лучшему пониманию внутренне структуры и обнаружению неявных закономерностей. Для этого отлично подходит дендрограмма. Анализ и его визуализация проводится без опоры на знание числа кластеров, что обуславливает гибкость и удобство использования рассмотренной разновидности анализа. Эффективность метода проявляется в рамках незначительного количества данных и ограничения доступа к вычислительной инфраструктуре.
Минусы
Отрицательной стороной кластерного иерархического анализа признается высокая вычислительная сложность в том случае, если анализ требуется большому объему данных. Чувствительность к выбросам (точки данных, отличающихся от таких же в наборе и не входящих в имеющиеся кластеры). Такое явление как выбросы – критерий, серьезно отражающийся на итогах группировки. Выбросы способны изменять информационную систему и становиться основанием ошибочного понимания результатов.
Еще один недостаток данного типа анализа заключается в неочевидности предпочтительной метрики расстояния. Использование разных метрик ведут к получению неоднородных результатов. Данный факт не облегчает работу по выбору оптимального варианта метрики, способного решить определенную задачу. Процесс отбора метрики предполагает осуществление детального анализа информации для выяснения их сущности.
Дивизионная иерархическая кластеризация
Данный вид группировки проводится от единственного, но значительного размера кластера, в который включены все объекты исследования. Последующие действия требуют подразделения большой группы на более мелкие. Цель подобной группировки – добиться расположение каждого объекта в отдельном кластере.
Чтобы осуществить подобную кластеризацию, стоит следовать за шагами предлагаемого алгоритма:
- Подготовка. Данный этап определяет расположение всех объектов исследования в одной большой группе.
- Членение кластеров. Единый кластер разделяется на подкластеры, что приводит возникновению двух групп. Длительность процесса разделения определяется численностью объектов, которые должны обрести своей персональный кластер.
- Дублирование. Шаг 2 применяется к каждому подкластеру столько. Сколько потребуется для отнесения каждого объекта к собственному кластеру. Метод дивизионной иерархической кластеризации признается более гибким. Сего помощью исследователи получают точное представление об информационной структуре параметров в рамках непростой многоуровневой структуры.
Стоит рассмотреть еще несколько популярных схем кластерного анализа.
Метод k-средних
Обозначенный в подзаголовке метод представляется алгоритмом кластеризации, который с успехом используется в психологических исследованиях. Цель его применения заключается в необходимости группировки информации с опорой на показатели схожести. Алгоритм ориентирован на деление набора объектов на кластеры, численность которых определена заранее. Подобный подход снижает объем суммарного квадратичного отклонения точек от групповых центров.
Ознакомимся с алгоритмом функционирования рассматриваемого метода.
- Определение с численностью кластеров (k). Это необходимо для того, чтобы обладать точной информацией о том, сколько должно появиться информационных групп.
- Подготовка k центров. В имеющейся совокупности данных произвольно определяются k точки. Последние должны стать начальными центроидами, то есть отправными точками для реализации алгоритма отбора и деления информации на группы.
- Установление объектов близлежащего центра. Возле центроида выявляются ближайшие к нему точки информации и объединяются вокруг него.
- Пересчет k центров. В каждом образованном кластере должен появиться новый центроид. Для его нахождения необходимо высчитать среднее значение точек в рассматриваемом кластере.
- Дублирование. Повторение предыдущих шагов (3,4) должно привести к состоянию, когда центроиды больше не изменяются. Еще один вариант прекращения повторений связывается с достижением максимально возможного их количества.
Алгоритм метода k средних представляется цикличным процессом. В ходе последнего происходит улучшение процесса членения информации на группы. Шаги алгоритма сопровождаются подсчетом центроидов и перераспределением информационных точек к центроидам, располагающимся ближе всего. Процесс прекращается при достижении практически фиксированных показателях изменений центроидов. Прекращение процесса обуславливает максимальное число повторений.
У метода k-средних, как и любого метода, который может быть использован в психологических исследованиях, существуют преимущества и недостатки.

Плюсы
Привлекательность рассматриваемого метода обуславливается простой и быстротой реализации. Допускается применение метода для обработки значительного объема информации. Доступность пониманию – аспект, благодаря которому не возникает трудностей с пониманием принципа разделения информации. Это существенно, когда требуется определиться с решением именно на основе обработанных данных. Несложной представляется и процесс визуализации. В числе положительных аспектов стоит обозначить и гибкость метода, благодаря чему его легко использовать в исследовании разнообразной информации и задач.
Минусы
Метод k-средних характеризует зависимость от исходных параметров центроидов. Данный факт может обусловить различие в получаемых показателях в рамках перезапуска алгоритма. Вне зависимости от численности попыток. Решением данной ситуации находится в перезапуске алгоритма со сменой начальных условий. Сравнение результатов помогает выбрать самый оптимальный результат.
Еще один минус обусловлен фактом отсутствия точного числа кластеров. Обязательным признается принцип предварительного определения численности кластеров. Данный момент достаточно не определен. Требуется использование вспомогательных инструментов для выявления наилучшего показателя k. Показатель чувствительности к выбросам может быть изменен к меньшему. Для этого рекомендуется заранее прорабатывать исследуемую информацию.
Метод k-медиоидов
Обозначенный метод кластеризации относится к категории надежных. Базируется на принципе разделения информации на группы. В основе деления закладывается аспект схожести информационных точек. Под медиоидом понимается точка в группе с набором признаков, которые минимально отличаются от иных точек кластера. Смысл медиоидов практически аналогичен центроидам. Однако различия проявляются в том, что медиоиды – объекты изучаемой группы. Алгоритм группировки методом k-медиоидов заключается в поиске, на каждом повторяющемся этапе, центра кластера как медиоида точек, то есть точки, принадлежащей группе. Это отличает обозначенный метод от метода k-средних, где центр кластеров высчитывается как среднее точек.
Алгоритм k-медиоидов можно представить следующими шагами.
- Их всего информационного объема выбирается k случайных точек, которым присваивается статус начального медиоида.
- Определяются информационные точки к ближайшему медиоиду. Для этого используются метрики расстояний.
- Внутри обозначенного кластера выбирается точка. Выбор определяют минимальные параметры суммы расстояний к другим точкам в рассматриваемой группе. Выбранная точка назначается новым медиоидом.
- Повторное выполнение 2 и 3 пунктов продолжается, пока доступна трансформация медиоидов.
Если подводить небольшой итог данному методу, то стоит обозначить его положительные аспекты. Они проявляются в том, что расчеты, хоть и более медленные, чем при использовании k-средних, но демонстрирует точность если присутствует информационный шум. Метод k-медиоидов демонстрирует хорошие показатели устойчивости к выбросам.
Метод DBSCAN
Максимально привлекательный для психологических исследований алгоритм группировки данных, в котором отсутствует критерий структурированности, присутствует информационный шум и не наблюдается четких границ между кластерами.
Метод DBSCAN предполагает работу над поиском групп близко расположенных объектов, которые изолируются от участков, где плотность объектов низкая. Низкая плотность объектов исследования называется шумом. Для реализации метода нет необходимости предварительном указании численности групп.
Алгоритм DBSCAN предлагает следующую последовательность действий:
- Определяются два критерия:
- ε (эпсилон) – радиус окрестности;
- MinPts – наименьшая численность точек в окрестности, необходимая для создания «ядра» группы.
- Процедура предполагает выявление зон с высокими показателями кучности данных:
- Точка, в радиусе ε которой выявляется достаточное число соседей. Этой точке присваивается статус ядра кластера.
- Рядом располагаемые точки входят в группу.
- Оставшиеся за границами кластеров точки носят название шума.
- Алгоритм DBSCAN обнаруживает группы вне зависимости от их формы. Тогда как алгоритм k-средних выявляет только сферические кластеры.
Метод DBSCAN работает без предварительного определения численности кластеров. Алгоритм позволяет определять группы самых разных конфигураций. Метод признается устойчивым к выбросам и информационному шуму. Является отличным исследовательским инструментом.
Возникли сложности?
Нужна помощь преподавателя?
Мы всегда рады Вам помочь!

Кластерный анализ: осмысление и понимание результатов
Интерпретация результатов кластерного анализа – шаг, следующий за процессом кластеризации. Не менее важен, чем сам процесс. Этап связывается с мероприятиями по осмыслению, проверке и применению образованных кластеров к задачам исследовательского и практического характера.
Чтобы «понять образованный кластер» необходимо выявить аспекты, влияющие на связи элементов в группе, то есть требуется обнаружить у них общие черты. Затем требуется определиться с факторами, определяющими различия от других кластеров. И еще один аспект затрагивает процесс выяснения того, насколько обозначенные особенностей соответствуют целям исследования.
Чтобы осмыслить итоги проведенного исследования необходимо пройти несколько последовательных шагов:
- Охарактеризовать кластеры, где в каждом требуется:
— рассчитать средние параметры переменных (количественные);
— выявить закономерности распределения категориальных переменных;
— «нарисовать портрет» группы, то есть определиться с характерными признаками представителя кластера.
- Сравнить группы, для чего необходимо:
— выстроить графики, помогающие зрительно сопоставить кластеры;
— применить статистические тесты для проверки важности признаков, по которым различаются группы.
- Осмысление результатов в рамках исследования помогает понять:
— степень соотнесения образованных групп с теоретическими выкладками;
— наличие новых гипотез, в основу которых могут быть заложены кластеры.
- Контроль кластерной фундаментальности проводится с помощью:
— корректировки показателей с фиксацией (наличие, отсутствие) изменений в базовых формах;
— кластеризации на другой выборке;
— метрики качества группировки.
- Применение на практике позволяет подтвердить возможность использования кластеризации в психологии (группировка пациентов, детализация рекомендаций и т.п.), в образовании (классификация по способам обучения), в управлении персоналом (профиль сотрудников).
Кластерный анализ в психологических исследованиях весьма эффективен в процессе определения скрытых подгрупп в выборке со схожими психологическими характеристиками. Умение пользоваться алгоритмами образного анализа ускоряет процесс решения насущных задач и поставленных исследовательских целей.
Трудности с учебой?
Требуется поддержка?
Помощь в написании студенческих и
аспирантских работ!