АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``МЕДИЦИНА И ВЫСОКИЕ ТЕХНОЛОГИИ`` №3, 2021)
Пятницкий А.М., Гукасов В.М., Смирнов А.С.

Поиск кластеров в популяционных данных

Резюме: Статья продолжает серию публикаций, посвященных новому статистически мотивированному методу кластеризации данных. Метод применяется к поиску расположенных рядом участков плоскости, в которых частоты событий значимо увеличились или уменьшились. Данные участки соответствуют некоторому произвольному разбиению плоскости, например, административным регионам. Случай, когда участки совпадают с прямоугольными ячейками двумерной гистограммы, был рассмотрен ранее. Экспериментально наблюдаемое распределение частот может сравниваться с ожидаемым, например, равномерным, или с контрольным распределением частот, относящимся к предшествующему моменту времени. Группы соседних ячеек с одинаковым направлением динамики объединяются в потенциально значимые кластеры, причем каждая группа характеризуется двумя параметрами – размером (числом ячеек) и выраженностью изменения. Группа объявляется статистически значимым кластером, если размер группы слишком велик или (и) изменения в ней слишком выражены. При этом не делается никаких априорных предположений о числе, размерах и форме потенциально существующих в таблице значимых кластеров. Метод может быть использован в любой ситуации, когда согласно нулевой гипотезе в каждой ячейке многомерного массива имеются независимые и равномерно распределенные значения p-value, а альтернативой является наличие соприкасающихся множеств ячеек, в которых p-value близки к 0 или 1.

Ключевые слова: популяционные данные, таблица частот, статистически мотивированная кластеризация, кластеризация пространственного массива p-value, множественные сравнения, экологический мониторинг, эпидеми- ологический контроль.

A.M. Pyatnitskiy, V.M. Gukasov, A.S. Smirnov

Searching for clusters in population data

Summary: The article continues the series of publications developing new statistically motivated approach to data clustering. Proposed method is applied for searching clusters of increased or decreased frequencies of some events in sets of neighboring cells in two dimensional tessellations of plane. Such cells may correspond to administrative regions, counties etc. The case of simple frequency tables (histograms) with rectangular cells was considered earlier. The observed distribution of event frequencies in cells can be compared either with expected one (for instance uniform) or with distribution corresponding to the previous moment of time. The groups of neighboring cells with the same direction of changes are unified in clusters which are checked to be statistically significant with account on multiple comparisons. Each group of cells is characterized with two parameters – its size (the number of cells) and the intensity of changing. If the size of group or (and) its intensity are too pronounced then such group is considered to be statistically significant cluster. There are no a priori suggestions concerning the number, size or shape of potentially existing clusters. Method can be used for clustering any multidimensional arrays of p-values which are independent and uniformly distributed according null hypothesis, while alternative is that there are sets of neighboring cells where p-values are close to 0 or to 1.

Keywords: population-based data, frequency table, statistically motivated clustering, clustering of spatial array of p-values, multiple comparisons, ecological monitoring, epidemiological control.

DOI : 10.34219/2306-3645-2021-11-3-63-71

ИНФОРМАЦИЯ ОБ АВТОРАХ
Пятницкий Алексей Михайлович – доцент кафедры высшей математики МБФ РНИМУ, кандидат физико- математических наук, Москва, e-mail: alpyat@bk.ru

Pyatnitskiy, Alexey M. – Associate Professor at the Department of Higher Mathematics, PRNRMU, Ph.D., Moscow, e-mail: alpyat@bk.ru

Гукасов Вадим Михайлович – доктор биологических наук, главный научный сотрудник Государственного центра экспертизы в сфере науки и инноваций, ФГБНУ НИИ Республиканский исследовательский научно-консультационный центр экспертизы (ФГБНУ НИИ РИНКЦЭ) Министерства науки и высшего образования России, e-mail: v_m_gukasov@mail.ru

Gukasov V.M. – Doctor of Biological Sciences, Chief Re- searcher of the National Centre of expertise in the field of science and innovation, Research Institute Republican Re- search Scientific-Consulting Center Expertise (FRCEC), Ministry of Science and Higher Education of Russia, e-mail: v_m_gukasov@mail.ru

Смирнов Антон Сергеевич – студент 5 курса направления «Медицинская кибернетика» МБФ РНИМУ, Москва, e-mail: anton.smirnov.9910@gmail.com

Smirnov, Anton S. fivth year student at the department of medical cybernetic and computer science, PRNRMU, Moscow, e-mail: anton.smirnov.9910@gmail.com