Распознавание консервативных пептидов ансамблем нейронных сетей для глубинного анализа белковых данных на примере LPMO
Доценко Г.С., Доценко А.С.
Федеральный исследовательский центр «Фундаментальные основы биотехнологии» Российской академии наук, Москва, Российская Федерация
Аннотация. Глубинный анализ белковых данных – это новое перспективное направление современной биоинформатики. В этой работе мы предложили новый подход для глубинного анализа белковых данных – распознавание консервативных пептидов ансамблем нейронных сетей (CPRENN). Этот подход был применён для поиска литических полисахаридмонооксигеназ (LPMO) в протеомах 19 аскомицетов, 18 базидиомицетов и 18 бактерий. LPMO – это недавно открытые ферменты, и их поиск имеет большое значение для биотехнологии лигноцеллюлозных материалов. CPRENN был сопоставлен с двумя стандартными биоинформатическими методами для глубинного анализа белковых данных – поиском по скрытым марковским моделям (HMM, программа HMMER) и распознаванием пептидных мотивов (программа PPR совместно с приложением Hotpep). Максимальное число аминокислотных последовательностей гипотетических LPMO было обнаружено с помощью программы HMMER. Метод HMM оказался более чувствительным для поиска LPMO, чем распознавание консервативных пептидов. В целом, с помощью CPRENN было найдено 76 %, 67 % и 65 % гипотетических аскомицетных, базидиомицетных и бактериальных LPMO, обнаруженных HMMER, соответственно. Для AA9, AA10 и AA11 семей, содержащих основную часть всех LPMO в базе данных CAZy, с помощью CPRENN и PPR + Hotpep было найдено 69–98 % и 62–95 % аминокислотных последовательностей, обнаруженных HMMER, соответственно. В отличие от PPR + Hotpep, CPRENN обладал идеальной точностью и обеспечивал более полный поиск базидиомицетных и бактериальных LPMO.
Ключевые слова: глубинный анализ белковых данных, распознавание консервативных пептидов, ансамбль нейронных сетей, литические полисахаридмонооксигеназы.