АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``МЕДИЦИНА И ВЫСОКИЕ ТЕХНОЛОГИИ`` №1, 2024)
Задача сегментации частотных гистограмм при анализе медико-биологических данных
Резюме: Сегментация гистограмм – это задача выявления на гистограмме статистически значимых пиков, которые соответствуют объектам разных типов. Речь может идти о выявлении разных типов клеток в цитометрии (гейтирование), поиске объектов в изображениях, выявлении разных типов пациентов в данных по экспрессии генов, анализе гистограммы p-значений в задаче множественных сравнений. Статистически мотивированный поиск значимых пиков требует введения нулевой гипотезы, описывающей гистограмму, в которой значимые пики отсутствуют. Если в качестве нулевой гипотезы принимается равномерное распределение, то поиск пиков и впадин для частотных данных, а также кластеров и разряжений в первичных данных рассматривался нами ранее. На практике часто возникает более сложная ситуация, когда в качестве нулевой гипотезы рассматривается унимодальное распределение без задания его функционального вида. В работе предлагается подход к задаче сегментации гистограмм, когда бесструктурные данные описываются унимодальным распределением, согласующимся с исходным наилучшим образом. Кроме этого рассматривается сравнение двух гистограмм, позволяющее выявить локальные зоны расхождения, дополняя тем самым глобальный хи-квадрат тест. Метод может быть использован в биоинформатике, цитометрии, компьютерном анализе изображений. В качестве примера задачи сегментации гистограммы рассматриваются классические данные Катца по доказательству дискретности выброса медиатора в синаптическую щель.
Ключевые слова: статистически мотивированный поиск кластеров, сегментация одномерных частотных гистограмм, сравнительный анализ гистограмм, унимодальная регрессия, поиск кластеров в массиве p-значений.
A.M. Pyatnitskiy, V.M. Gukasov
The problem of segmenting frequency histograms in the analysis of medical and biological data
Summary: Histogram segmentation is the task of identifying statistically significant peaks in a histogram corresponding to different types of objects. This could be identifying different cell types in cytometry (gating), finding objects in images, identifying different types of patients in gene expression data, analyzing a histogram of p-values in a multiple comparisons problem. A statistically motivated search for significant peaks requires the introduction of a null hypothesis describing a histogram in which there are no significant peaks. If a uniform distribution is accepted as the null hypothesis, then we considered the search for peaks and pits for frequency data, as well as clusters and voids in the primary data in previous publications. In practice, a more complex situation often arises when a unimodal distribution is considered as the null hypothesis without specifying its functional form. The paper proposes an approach to the problem of histogram segmentation, when structureless data is described by a unimodal distribution that best matches the original one. In addition, a comparison of two histograms is considered, which allows identifying local regions of divergence, thereby complementing the global chi-square test. The method can be used in bioinformatics, cytometry, and computer image analysis. As an example of a histogram segmentation problem, we consider Katz’s classical data on proving the discreteness of transmitter release into the synaptic gap.
Keywords: statistically motivated clustering, segmentation of one-dimensional frequency histograms, local comparative analysis of histograms, unimodal regression, searching for clusters in an array of p-values.
DOI: 10.34219/2306-3645-2024-14-1-26-34
ИНФОРМАЦИЯ ОБ АВТОРАХ
e-mail: alpyat@bk.ru
Pyatnitskiy, Alexey M., Ph.D., Associate Professor; Pirogov Russian National Research Medical University,
e-mail: alpyat@bk.ru
Гукасов Вадим Михайлович – доктор биологических наук, главный научный сотрудник; ФГБНУ НИИ РИНКЦЭ,
e-mail: v_m_gukasov@mail.ru
Gukasov Vadim Mikhailovich – Doctor of Biological Sciences, Chief Researcher; SRI FRCEC, e-mail: v_m_gukasov@mail.ru