АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``МЕДИЦИНА И ВЫСОКИЕ ТЕХНОЛОГИИ`` №4, 2022)
Пятницкий А.М., Гукасов В.М., Пятницкий М.A.

Поиск значимых кластеров в данных высокопроизводительного секвенирования

Резюме: Новый метод статистически мотивированного поиска кластеров, ранее применённый авторами для анализа точечных и частотных данных, кластеризации выборок и сетей (графов), использован для поиска кластеров в данных, полученных в результате высокопроизводительного секвенирования. Подобная задача часто встречается в биоинформатике, например, при попытке выявить различные формы, возможно существующие внутри одной нозологической группы. Алгоритмы ее решения, имеющиеся в литературе, не имеют статистического обоснования, и вопрос о значимости полученных кластеров остается открытым. Задача осложняется различной глубиной секвенирования разных образцов и высокой вариабельностью в экспрессии генов. В статье предлагается метод выявления значимых кластеров, использующий только ранги относительных частот прочтений и основанный на непараметрическом критерии. Это позволяет уменьшить влияние различных размеров библиотек и избавиться от необходимости постулировать вид распределения активности генов.

Ключевые слова: высокопроизводительное секвенирование, статистически мотивированная кластеризация, классификация по экспрессии генов, основанная на вероятности мера близости, непараметрические методы.

A.M. Pyatnitskiy , V.M. Gukasov , M.A.Pyatnitskiy

Search for significant clusters in high throughput sequencing data

Summary: A new, statistically based method of clustering previously used by authors for analysis of frequency and point data and as well for searching clusters in samples and graphs is applied to the task of searching clusters in high throughput sequence data. Such problem often arises in bioinformatics in attempt to reveal different forms may be presented in one nosology. Nevertheless methods existing in literature have no sufficient statistical background and the question of significance for revealed clusters usually is not considered. Complications due different sequencing deep while construction the library and big biological variations in gene expression are common. We propose method for discovering statistically significant clusters based on ranks of relative frequencies and nonparametric criteria to overcome these obstacles. Such approach allows avoiding dependence from different sequence deep, knowledge of exact form for distribution of gene expression and hypothesis that all expressions have the same functional form.

Keywords: high throughput sequencing, statistically motivated clustering, classification based on gene expression, probability based similarity measure, nonparametric methods.

DOI: 10.34219/2306-3645-2022-12-4-26-35

ИНФОРМАЦИЯ ОБ АВТОРАХ
Пятницкий А.М. – кандидат физико-математических наук, доцент кафедры высшей математики МБФ ФГАОУ ВО РНИМУ им. Н. И. Пирогова, Москва, e-mail: alpyat@bk.ru

Pyatnitskiy A.M. – Ph.D., Associate Professor, Depart- ment of Higher Mathematics, Pirogov Russian National Research Medical University (RNRMU), e-mail: alpyat@bk.ru

Гукасов Вадим Михайлович – доктор биологических наук, главный научный сотрудник, ФГБНУ НИИ РИНКЦЭ.
e-mail: v_m_gukasov@mail.ru

Gukasov Vadim Mikhailovich – Doctor of Biological Sciences, Chief Researcher of the Scientific Research Institute FRCEC, e-mail: v_m_gukasov@mail.ru

Пятницкий М.А. – кандидат биологических наук, ведущий научный сотрудник группы медицинской геномики ФГБНУ «Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича» (ИБМХ),
e-mail: mpyat@bioinformatics.ru

Pyatnitskiy M.A. – Ph.D., Head of Medical Genomics Group, Institute of Biomedical Chemistry,
e-mail:
mpyat@bioinformatics.ru