Category archives: Алгоритм k-means

ML - Алгоритм кластеризации K-means Ноябрь 20, Алгоритм кластеризации K-means вычисляет центроиды и выполняет итерации до тех пор, пока не будет найден оптимальный центроид. Предполагается, что количество кластеров уже известно. Этот алгоритм также называют плоским алгоритмом кластеризации. Количество кластеров, определенных этим алгоритмом, обозначается буквой "K" в K-means.

В этом алгоритме точки данных распределяются по кластерам таким образом, чтобы сумма квадратов расстояний между точками данных и центроидом была минимальной. Вы должны знать, что меньшая вариативность кластеров приведет к тому, что в одном кластере будет больше похожих точек данных.

В этом алгоритме кластеры кластеризуются таким образом, чтобы сумма квадратов расстояний между точками данных и центроидом была минимальной.

Работа алгоритма K-Means Мы можем понять работу алгоритма кластеризации K-Means с помощью следующих шагов: Шаг 1 - Сначала необходимо задать количество кластеров, K, которые будут сгенерированы этим алгоритмом. Шаг 2 - Затем случайным образом выбираем K точек данных и относим каждую точку данных к кластеру. Проще говоря, классифицировать данные на основе количества точек данных. Шаг 3 - Теперь вычисляются центроиды кластеров. Шаг 4 - Далее повторяйте следующие действия, пока не найдем оптимальный центроид, то есть такое распределение точек данных по кластерам, которое больше не меняется 4.

К-средние следуют подходу ожидания-максимизации для решения проблемы. Шаг ожидания используется для назначения точек данных в ближайший кластер, а шаг максимизации используется для вычисления центроида каждого кластера.

При работе с алгоритмом K-means следует обратить внимание на следующие моменты: При работе с алгоритмами кластеризации, включая K-Means, рекомендуется стандартизировать данные, поскольку такие алгоритмы используют измерения на основе расстояния для определения сходства между точками данных. Из-за итерационной природы K-Means и случайной инициализации центроидов K-Means может придерживаться локального оптимума и не сходиться к глобальному оптимуму.

Поэтому мы рекомендуем использовать различные инициализации центроидов. При работе с алгоритмами кластеризации, включая K-Means, рекомендуется стандартизировать данные, поскольку такие алгоритмы используют измерения на основе расстояния для определения сходства между точками данных.

Реализация в Python Следующие два примера реализации алгоритма кластеризации K-Means помогут нам лучше понять его: Пример 1 Это простой пример, позволяющий понять, как работает k-means. В этом примере мы сначала создадим двумерный набор данных, содержащий 4 различных крупных объекта, а затем применим алгоритм k-means, чтобы увидеть результат.

K-means будет кластеризовать данные в соответствии с алгоритмом k-means.

K-means попытается определить похожие числа без использования исходной информации о метках. Мы также можем найти количество строк и столбцов в этом наборе данных следующим образом: из sklearn. Следующие строки кода сопоставят выученные метки кластеров с истинными метками, найденными в них: from scipy. Преимущества и недостатки Ниже перечислены некоторые преимущества алгоритмов кластеризации K-Means: Он очень прост для понимания и реализации.

Если у нас большое количество переменных, то K-means будет быстрее, чем иерархическая кластеризация. Экземпляр может изменить кластер, если центроиды будут пересчитаны. Более плотные кластеры образуются при использовании K-means по сравнению с иерархической кластеризацией.

Это очень легко понять и реализовать. Недостатки Ниже перечислены некоторые недостатки алгоритмов кластеризации K-Means: Трудно предсказать количество кластеров, то есть значение k. На результат сильно влияют входные данные, например, количество кластеров k. Порядок данных будет сильно влиять на конечный результат. Это очень чувствительно к масштабированию.

Если мы масштабируем наши данные с помощью нормализации или стандартизации, результат полностью изменится. В кластеризации плохо работает, если кластеры имеют сложную геометрическую форму. Предсказать количество кластеров, то есть значение k, довольно сложно. Применение алгоритма кластеризации K-means Основными целями кластерного анализа являются - Получение осмысленной интуиции из данных, с которыми мы работаем.

Кластер-тогда-прогнозирование, где для разных подгрупп будут построены разные модели. Получить осмысленную интуицию из данных, с которыми мы работаем. Кластеризация K-means достаточно эффективна для достижения вышеупомянутых целей. Ее можно использовать в следующих приложениях - Поделиться:.


Навигация

thoughts on “Алгоритм k-means

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *