АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``МЕДИЦИНА И ВЫСОКИЕ ТЕХНОЛОГИИ`` №4, 2025)
Пятницкий А.М., Гукасов В.М.
ПОИСК ЗНАЧИМЫХ ВСПЫШЕК СОБЫТИЙ В МОДЕЛИ С ДИСКРЕТНЫМ ВРЕМЕНЕМ
Резюме: В работе обсуждаются методы обнаружения значимых сгущений (вспышек событий или кластеров) в последовательности событий. Подобные задачи встречаются в эпидемиологии, экологическом мониторинге, биоинформатике. Общие проблемы поиска кластеров, возникающие при разработке статистически обоснованных методов их обнаружения среди объектов разной природы (события, выборки, последовательности, графы), можно проиллюстрировать на этом простейшем, одномерном примере. Это – качественная или количественная формулировка альтернативной гипотезы (использование подходов Фишера или Неймана-Пирсона при проверке гипотез), способы введения понятия близости между объектами, описания компактности исследуемых групп, использования разных методов контроля ложноположительных обнаружений (FWER или FDR) и т.д. В предлагаемом алгоритме моменты времени (дни), в которые происходили события, отстоящие друг от друга на некоторое пороговое расстояние, объединяются в группы, после чего каждая такая группа исследуется на свою значимость. Группа характеризуется числом образовавших ее дней с событиями, и компактностью. Компактность задается двумя величинами – количеством дней без событий внутри группы и избыточным числом событий по сравнению с числом дней с событиями. В методе FWER критическая область располагается в трехмерном пространстве. Трехмерный критерий можно свести к одномерному с тем, чтобы получить p-значения и использовать FDR. Для этого используется предложенный нами ранее подход с введением “разделяющих поверхностей Фишера”. Данное название мотивировано аналогией с разделяющими поверхностями Неймана-Пирсона. В отличие от последних введение разделяющих поверхностей Фишера требует только качественной, а не количественной формулировки альтернативной гипотезы. Предлагаемый алгоритм не требует симуляций Монте-Карло, способен обнаруживать заранее неопределенное число кластеров произвольных размеров и не предполагает того, что в один день может произойти только одно событие. Эти особенности выгодно отличают его от сканирующей статистики, например, от ее варианта, реализованного в алгоритме Nagarwalla.
Ключевые слова: статистически мотивированный поиск кластеров, вспышки событий, многомерная критическая область, разделяющие поверхности Фишера, условные p-значения, контроль ложноположительных обнаружений при скрининговых исследованиях, метод FDR, EUROCAT.
A.M. Pyatnitskiy, V .M. Gukasov
SEARCH FOR SIGNIFICANT OUTBREAKS OF EVENTS IN A DISCRETE-TIME MODEL
Summary: This paper discusses methods for detecting significant clusters (outbreaks of events) in a sequence of events. Similar problems are encountered in epidemiology, environmental monitoring, and bioinformatics. General problems of cluster search that arise during the development of statistically valid methods for their detection among objects of different nature (events, samples, sequences, graphs) can be illustrated by this simple, one-dimensional example. This is a qualitative or quantitative formulation of the alternative hypothesis (using the Fisher or Neyman-Pearson approaches in testing hypotheses), methods for introducing the concept of proximity between objects, describing the compactness of the study groups, using different methods of controlling false positive detections (FWER or FDR), etc. In the proposed algorithm, moments in time (days) at which events occurred, separated from each other by a certain threshold distance, are combined into groups, after which each such group is examined for its significance. A group is characterized by the number of event-containing days within it and its compactness. Compactness is determined by two quantities: the number of days without events within the group and the excess number of events compared to the number of days with events. In the FWER method, the critical region is located in three-dimensional space. The three-dimensional criterion can be reduced to a one-dimensional one to obtain p-values and use the FDR. To do this, we use our previously proposed approach, introducing «Fisher separating surfaces». This name is motivated by an analogy with Neyman-Pearson separating surfaces. In contrast to the latter, the introduction of Fisher separating surfaces requires only a qualitative, rather than a quantitative, formulation of the alternative hypothesis. The proposed algorithm does not require Monte Carlo simulations, is capable of detecting an unspecified number of clusters of arbitrary sizes, and does not assume that only one event can occur on a given day. These features distinguish it from scanning statistics, such as the version implemented in the Nagarwalla algorithm.
Keywords statistically motivated search for clusters, outbreak of events, multidimensional critical region, Fisher separating surfaces, conditional p-values, control of false positive detections in screening tests, false discovery rate, EUROCAT.
DOI: 10.34219/2306-3645-2025-15-4-7-14
ИНФОРМАЦИЯ ОБ АВТОРАХ
Пятницкий Алексей Михайлович – кандидат физико-математических наук, доцент; ФГАОУ ВО РНИМУ «Российский национальный исследовательский медицинский университет имени Н.И. Пирогова»
Минздрава России. e-mail: alpyat@bk.ru
Гукасов Вадим Михайлович – доктор биологических наук, главный научный сотрудник; ФГБНУ НИИ «Научно-исследовательский институт – республиканский исследовательский научно-консультационный центр экспертизы». e-mail: v_m_gukasov@mail.ru
Pyatnitskiy, Alexey Michailovich – Ph.D., Associate Professor; Pirogov Russian National Research Medical University.
e-mail: alpyat@bk.ru
Gukasov Vadim Michailovich – Doctor of Biological Sciences, Chief Researcher; Scientific Research Institute –
Federal Research Centre for Projects Evaluation and Consulting Services. e-mail: v_m_gukasov@mail.ru