Русская версия English version   
Том 16   Выпуск 2   Год 2021
Главные компоненты генетических последовательностей: корреляции и достоверность

Ефимов В.М.1,2,3,4, Ефимов К.В.5, Ковалева В.Ю.2, Матушкин Ю.Г.1

1Институт цитологии и генетики СО РАН, Новосибирск, Россия
2Институт систематики и экологии животных СО РАН, Новосибирск, Россия
3Новосибирский государственный университет, Новосибирск, Россия
4Томский государственный университет, Томск, Россия
5Высшая школа экономики, Москва, Россия

Аннотация. Известно, что любой числовой ряд можно разложить на главные компоненты с помощью сингулярного спектрального анализа. Недавно мы предложили новый метод анализа PCA-Seq, который позволяет вычислять числовые главные компоненты для последовательности элементов любой природы. В частности, последовательность может быть символьной, в том числе, нуклеотидной или аминокислотной. При этом неизбежно встают два вопроса: об интерпретации полученных главных компонент и об оценке их достоверности. Для интерпретации главных компонент разумно вычислять их корреляции с любыми числовыми характеристиками элементов изучаемой последовательности, используемыми в данной предметной области ‒ внешними факторами. При оценке достоверности корреляций между последовательностями необходимо учитывать, что стандартные критерии значимости опираются на предположение независимости наблюдений, которое для реальных последовательностей, как правило, не выполняется. В статье рассматривается применение для этих целей якорного бутстрепа, также ранее разработанного авторами статьи. В этом методе предполагается, что объекты могут быть представлены точками метрического пространства и в совокупности составляют в нем некоторую фиксированную структуру, в частности, последовательность. Объектам приписываются те же случайные целочисленные веса, что и при классическом бутстрепе. Этого достаточно для получения бутстреп-распределения коэффициентов корреляции и оценки их достоверности. При исследовании гена SLC9A1 (синонимы APNH, NHE1, PPP1R143) выявились достоверные корреляции первой главной компоненты кодирующей последовательности с гидрофобностью/“трансмембранностью” соответствующих фрагментов аминокислотной последовательности, содержанием в них фенилаланина, а также разностью содержания тимина и аденина в нуклеотидных фрагментах. Похожая закономерность была найдена другими авторами для других генов, весьма вероятно, что она имеет более общий характер.

Ключевые слова: SSA, PCA-Seq, ген SLC9A1(NHE1), CDS, вторичная структура белка, внешние факторы, якорный бутстреп.

Содержание Оригинальная статья
Мат. биол. и биоинф.
2021;16(2):299-316
doi: 10.17537/2021.16.299
опубликована на рус. яз.

Аннотация (рус.)
Аннотация (англ.)
Полный текст (рус., pdf)
Список литературы

 

  Copyright ИМПБ РАН © 2005-2021