АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``МЕДИЦИНА И ВЫСОКИЕ ТЕХНОЛОГИИ`` №4, 2021)
Пятницкий А.М., Гукасов В.М., Федорова Д.А.

Кластеризация выборок

Резюме: Новый статистически мотивированный метод поиска кластеров, ранее примененный авторами для анализа точечных и частотных данных в эпидемиологии, используется для решения задачи кластеризации выборок. Данные выборки извлекаются из некоторой генеральной совокупности объектов без возвращения и с учетом рейтинга популярности объектов (разной вероятности их извлечения). Задача состоит в том, чтобы обнаружить выборки слишком похожие друг на друга (кластеры выборок), чтобы приписать это случайности. Метод состоит из двух этапов. На первом – близкие выборки объединяются в группы (потенциальные кластеры), а на втором — эти группы исследуются на статистическую значимость с учетом их размера и плотности (интенсивности выраженности). Критическая область строится на основе аналитических выражений, поэтому метод не требует проведения числовых симуляций и пригоден для анализа больших данных. Конкретная функция, измеряющая расстояние между выборками может быть любой, однако наиболее естественной является мера близости, основанная на вероятности того, что сходство между выборками вызвано случайным совпадением. В статье приводится выражение, позволяющее вычислить эту вероятность. Предлагаемый алгоритм кластеризации и способ измерения расстояния могут найти применения в нозологии, биоинформатике, эпидемиологии, наукометрии и т.д.

Ключевые слова: статистически мотивированная кластеризация, основанная на вероятности мера близости, множественные сравнения, случайные совпадения, ветвящиеся процессы.

A.M. Pyatnitskiy, V.M. Gukasov, D.A. Fedorova

Samples clustering

Summary: A new, statistically based method of clustering, which was previously used by authors for analysis of frequency and point data in epidemiology, is now used in the context of clustering of samples. Sampling from a population is carried out without replacement given the object’s selection probability. The goal is to find samples similar enough to consider this similarity to be non-random (detection of clusters of samples). The method comprises two stages. The first one involves combining similar samples to form potential clusters, and at the second stage, these groups are investigated for statistical significance, taking into account their size and density (i.e. the potential cluster intensity level). The critical region is built based on analytical expressions therefore there is no need to carry out numerical simulations, which means the method can be used for big data analysis. Different functions can be used to determine the distance between the samples, but the most reasoned one is a proximity measure based on the probability that the similarity between the samples is caused by a random coincidence. This article provides an expression to calculate this probability. The authors assume that this method can be used universally since the need for clustering of samples arises in various fields such as nosology, bioinformatics, epidemiology, scientometrics, and many others.

Keywords: statistically motivated clustering, probability based similarity measure, multiple comparisons, random coincidences, branching processes.

DOI : 10.34219/2306-3645-2021-11-4-54-63

ИНФОРМАЦИЯ ОБ АВТОРАХ
Пятницкий Алексей Михайлович – доцент кафедры высшей математики МБФ РНИМУ, кандидат физико- математических наук, Москва, e-mail: alpyat@bk.ru

Pyatnitskiy, Alexey M. – Associate Professor at the Department of Higher Mathematics, PRNRMU, Ph.D., Moscow, e-mail: alpyat@bk.ru

Гукасов Вадим Михайлович – доктор биологических наук, главный научный сотрудник Государственного центра экспертизы в сфере науки и инноваций, ФГБНУ НИИ Республиканский исследовательский научно-консультационный центр экспертизы (ФГБНУ НИИ РИНКЦЭ) Министерства науки и высшего образования России, e-mail: v_m_gukasov@mail.ru

Gukasov v.M. – Doctor of Biological Sciences, Chief Re- searcher of the National Centre of expertise in the field of science and innovation, Research Institute Republican Re- search Scientific-Consulting Center Expertise (FRCEC), Ministry of Science and Higher Education of Russia, e-mail: v_m_gukasov@mail.ru

Федорова Дарья Александровна – студентка 2 курса направления «Биомедицина» Международный факультет РНИМУ, Москва, e-mail: fed.daria.bio@gmail.com

Fedorova Daria A. – second year student of International Medical School, Biology (profile Biomedicine), PRN- RMU, Moscow, e-mail: fed.daria.bio@gmail.com