Анализ эффективности микс-сборки метатранскриптомных наборов данных в исследовании вирусных сообществ
Букин Ю.С., Бондарюк А.Н., Бутина Т.В.
Федеральное государственное бюджетное учреждение науки Лимнологический институт Сибирского отделения Российской академии наук, Иркутск, Россия
Аннотация. В данной работе проведен сравнительный анализ раздельной и комбинированной («микс») сборки метатранскриптомных данных для исследования вирусных сообществ в нескольких образцах на примере четырех метатранскриптомов эндемичных байкальских моллюсков Benedictia baicalensis. Анализ показал, что микс-сборка по сравнению с раздельной сборкой образцов увеличивает количество вирусных контигов (или скаффолдов) на образец, количество идентифицированных виротипов, среднюю длину скаффолдов на образец и долю собранных вирусных прочтений от общего количества прочтений в образцах. Микс-геномные de novo сборки с использованием скрытых марковских моделей для идентификации вирусов представляют данные в виде таблицы с количеством прочтений из разных образцов для каждого скаффолда (таблица представленности). Такая таблица позволяет сравнивать образцы по представленности всех вирусных скаффолдов, в том числе, не имеющих аналогов в известных базах данных, то есть для которых не удалось установить таксономическую принадлежность. Таким образом, микс-геномные сборки позволяют проводить сравнительный анализ с учетом скрытого разнообразия вирусов. В работе предложен конвейер по анализу данных метатранскриптомов с применением микс-геномной de novo сборки для исследования вирусов, которым могут воспользоваться другие исследователи.
Ключевые слова: метагеномика, транскриптомика, вирусы, вирусные сообщества, метагеномная сборка, микс-сборка, метатранскриптомный анализ, вирусные скаффолды.