ПРИМЕНЕНИЕ ДВУХЭТАПНОГО МЕТОДА КЛАСТЕРИЗАЦИИ НА ОСНОВЕ САМООРГАНИЗУЮЩЕЙСЯ КАРТЫ КОХОНЕНА ДЛЯ ОБНАРУЖЕНИЯ АНОМАЛИЙ В СИНТЕТИЧЕСКИХ НАБОРАХ ДАННЫХ
##plugins.themes.bootstrap3.article.main##
Аннотация
В статье представлен двухэтапный метод кластеризации, основанный на применении самоорганизующейся карты Кохонена с целью выявления аномалий в синтетических наборах данных. Этот подход позволяет более точно идентифицировать аномальные объекты по сравнению с одноэтапными методами кластеризации. Представлены результаты экспериментов, проведенных на синтетических наборах данных, которые подтверждают эффективность предложенного метода. На первом этапе исследования формируется синтетический набор данных, содержащий два или три признака. Далее данные подвергаются обработке с использованием самоорганизующейся карты Кохонена, что позволяет выделить основные кластеры и определить границы между ними. На втором этапе обнаружения аномалий применяются алгоритмы кластериза ции, основанные на анализе пространства признаков и сравнении расстояний между объектами. Аномальные объекты, находящиеся в значительном удалении от основных кластеров, классифицируются как аномалии. Проведенный анализ работы алгоритмов кластеризации на данном этапе позволил выявить, что алгоритмы DBSCAN и Isolation Forest проявили себя наиболее эффективными в обнаружении выбросов по The paper presents a two-stage clustering method based on the application of a self-orga
nizing Kohonen map to identify anomalies in synthetic datasets. This approach allows for more
accurate identification of anomalous objects compared to one-stage clustering methods. Ex
perimental results on synthetic datasets are presented, confirming the effectiveness of the pro
posed method.
In the first stage of the study, a synthetic dataset containing two or three features is gener
ated. The data is then processed using a self-organizing Kohonen map to identify the main clus
ters and determine the boundaries between them.
In the second stage of anomaly detection, clustering algorithms based on feature space
analysis and distance comparison between objects are applied. Anomalous objects that are far
from the main clusters are classified as anomalies. Analysis of the performance of the clustering
algorithms at this stage showed that the DBSCAN and Isolation Forest algorithms were the
most effective in detecting outliers compared to the OPTICS algorithm.сравнению с алгоритмом OPTICS.