АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``МЕДИЦИНА И ВЫСОКИЕ ТЕХНОЛОГИИ`` №4, 2023)
Поиск кластеров среди совместно встречающихся объектов и обнаружение белковых комплексов
Резюме: Статья продолжает серию работ, в которых развивается метод статистически обоснованного поиска структур в данных разной природы. Рассматривается поиск кластеров среди объектов совместно встречающихся в некоторых множествах. В биоинформатике подобная задача возникает при выявлении белковых комплексов. Предлагается способ обнаружения значимых связей между белками, основанный на использовании статистической модели, в рамках которой считаются соответствующие p-значения (p-values). Алгоритм поиска кластеров в одномерных данных позволяет выявить кластер малых p-значений, расположенных в окрестности нуля. Далее рассматриваются комплексы белков, образующихся лишь с учетом этих значимых связей. Среди полученных комплексов, как правило, возникает гигантский компонент, который в свою очередь может быть подвергнут кластеризации. Предложенный метод выявления значимых отклонений от нулевой гипотезы, основанный на поиске кластеров p-значений в окрестности нуля является общим.
Ключевые слова: статистически мотивированный поиск кластеров, кластер экстремально малых p-значений, белковые комплексы, AP-MS данные, оценка значимости белок-белковых взаимодействий.
A.M. Pyatnitskiy, V.M. Gukasov
Search for clusters among co-occurring objects and detection of protein complexes
Summary: The method of statistically based search for structures in data of different natures, previously proposed by the authors, is applied to the problem of searching for clusters of objects in sets of co-occurring objects. In bioinformatics, a similar problem arises when identifying protein complexes. A method for identifying significant interactions between proteins is proposed, based on the use of a statistical model in which the corresponding p-values are calculated. The algorithm for searching for clusters in one-dimensional data allows us to identify a cluster of small p-values located in the vicinity of zero. Next, we consider protein complexes that are formed only taking into account these significant interactions. Among the resulting complexes, as a rule, a giant component appears which in turn can be clustered. The proposed method for identifying significant deviations from the null hypothesis, based on searching for clusters of p-values in the vicinity of zero, is general.
Keywords: statistically motivated clustering, cluster of extremely small p-values, protein complexes, AP-MS data, scoring protein-protein interactions.
DOI: 10.34219/2306-3645-2023-13-4-10-19
ИНФОРМАЦИЯ ОБ АВТОРАХ
e-mail: alpyat@bk.ru
Pyatnitskiy, Alexey M., Ph.D., Associate Professor, Pirogov Russian National Research Medical University,
e-mail: alpyat@bk.ru;
Гукасов Вадим Михайлович – доктор биологических наук, главный научный сотрудник, ФГБНУ НИИ
«Научно-исследовательский институт — республиканский исследовательский научно-консультационный центр экспертизы», e-mail: v_m_gukasov@mail.ru
Gukasov V.M., Doctor of Biological Sciences, Chief Researcher, Scientific Research Institute – Federal Research Centre for Projects Evaluation and Consulting Services, e-mail: v_m_gukasov@mail.ru