АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``МЕДИЦИНА И ВЫСОКИЕ ТЕХНОЛОГИИ`` №4, 2024)
ПОИСК СУЩЕСТВЕННЫХ РАЗЛИЧИЙ В РЕЗУЛЬТАТАХ ШИРОКОМАСШТАБНЫХ СКРИНИНГОВЫХ ИССЛЕДОВАНИЙ
Резюме: Современные высокопроизводительные технологии позволяют проводить широкомасштабные скрининговые исследования для выявления признаков, с помощью которых разные нозологические формы можно отличить друг от друга. Этими признаками могут быть изменения относительной активности генов, SNP маркеры и т.д. В таких исследованиях одновременно проверяются тысячи гипотез об отсутствии различий по каждому из изучаемых признаков. Технически это сводится к поиску в массиве так называемых p-значений величин экстремально близких к 0 или 1. В идеальном случае, когда различия отсутствуют, p-значения равномерно распределены от 0 до 1. Наличие неучтенных ковариатов, корреляций между признаками или образцами приводит к тому, что, даже при отсутствии различий, гистограмма p-значений может существенно отличаться от равномерной. Исправить это можно путем введения эмпирической нулевой гипотезы: p-значения пересчитываются таким образом, чтобы гистограмма была близка к равномерной в центральной своей части. Для этого предлагается аппроксимировать центральную часть гистограммы с помощью цензурированного бета распределения. В заново полученном массиве p-значений производится поиск возможно существующих величин экстремально близких к 0 или 1. Сравнивается эффективность трех подходов: классического метода FDR, поиска кластеров на фоне равномерного шума и поиска точек разладки.
Ключевые слова: статистически мотивированный поиск кластеров, эмпирическая нулевая гипотеза, униформизация гистограммы, поиск кластеров в массиве p-значений, цензурированное бета распределение, сканирующая статистика, обнаружение точки разладки.
A.M. Pyatnitskiy , V.M. Gukasov
SEARCH FOR SIGNIFICANT DIFFERENCES IN THE RESULTS OF LARGE-SCALE SCREENING STUDIES
Summary: Modern high-throughput technologies make it possible to conduct large-scale screening studies to identify signs that can help to distinguish different nosological forms from each other. These signs may be changes in the relative activity of genes, SNP markers, etc. In such studies, thousands of hypotheses about the absence of differences in each of the studied characteristics are tested simultaneously. Technically, this comes down to searching an array of so-called p-values for values that are extremely close to 0 or 1. In the ideal case, when there are no differences, the p-values are uniformly distributed from 0 to 1. The presence of unaccounted covariates, correlations between traits or samples leads to the fact that, even in the absence of differences, the histogram of p-values can differ significantly from the uniform one. This can be corrected by introducing an empirical null hypothesis: p-values are recalculated so that the histogram is close to uniform in its central part. To do this, it is proposed to approximate the central part of the histogram using a censored beta distribution. In the newly obtained array of p-values, a search is made for possibly existing values extremely close to 0 or 1. The effectiveness of three approaches is compared: the classical FDR method, searching for clusters against a background of uniform noise, and change points detection.
Keywords: statistically motivated clustering, empirical null hypothesis, histogram uniformization, searching for clusters in an array of p-values, censored beta distribution, scan statistics, change point detection.
DOI: 10.34219/2306-3645-2024-14-4-11-18
ИНФОРМАЦИЯ ОБ АВТОРАХ
e-mail: alpyat@bk.ru
Гукасов Вадим Михайлович – доктор биологических наук, главный научный сотрудник; ФГБНУ НИИ
«Научно-исследовательский институт – республиканский исследовательский научно-консультационный центр экспертизы», e-mail: v_m_gukasov@mail.ru
Authors’ Information
Pyatnitsky Alexey Mikhailovich – Ph.D., Associate Professor; Pirogov Russian National Research Medical University, Associate Professor, Department of Higher Mathematics, PRNRMU, Moscow, e-mail: alpyat@bk.ru
Gukasov Vadim Mikhailovich – Doctor of Biological Sciences, Chief Researcher; Scientific Research Institute – Federal Research Centre for Projects Evaluation and Consulting Services, e-mail: v_m_gukasov@mail.ru