Русская версия English version   
Том 18   Выпуск 1   Год 2023
Использование ансамблевого обучения и пространства отрицательной выборки для прогнозирования взаимодействий между белками внеклеточного матрикса

Абхигьян Натх1, Судама Ратор1, Пангамбам Сендаш Сингх2

1Кафедра биохимии, Мемориальный медицинский колледж имени Джавахарлала Неру, Райпур, Индия
2Кафедра компьютерных наук, Банарасский индуистский университет, Варанаси, Индия

Аннотация. Внеклеточный матрикс  лучше всего описывается как динамическая трехмерная сетка различных макромолекул. К ним относятся протеогликаны (например, перлекан андагрин), непротеогликановые полисахариды (например, гиалуронан) и волокнистые белки (например, коллаген, эластин, фибронектин и ламинин). Белки внеклеточного матрикса участвуют в различных биологических функциях, и их функциональность в значительной степени определяется взаимодействием с другими белками внеклеточного матрикса, а также с трансмембранными рецепторами, включая интегрины, протеогликаны, такие как ассиндекан, другие гликопротеины и члены надсемейства иммуноглобулинов. В настоящей работе разработан подход машинного обучения с использованием последовательности и эволюционных признаков для прогнозирования взаимодействий белок-рецептор внеклеточного матрикса. Два разных представления векторов признаков, а именно слияние векторов признаков и среднее значение векторов признаков, используются в рамках объединения наилучшего представления, использующего выбор признаков. Текущие результаты показывают, что представление вектора признаков является важным аспектом предсказания взаимодействия белков внеклеточного матрикса и что среднее значение векторов признаков работает лучше, чем слияние векторов признаков. Лучшая модель прогнозирования с усиленным случайным лесом показала общую точность 72,6 %, чувствительность 74,4 % и специфичность 70,7 % с 200 лучшими признаками, полученными с использованием алгоритма выбора признаков ReliefF. Кроме того, был проведен сравнительный анализ для выбора подмножества отрицательной выборки с использованием трех методов выборки, а именно случайной выборки, выборки k-средних и равномерной выборки. Репрезентативная выборка на основе k-средних привела к повышенной точности (точность 75,5 % с чувствительностью 80,8 %, специфичностью 68,1 % и AUC 0,801) для предсказания взаимодействий белка внеклеточного матрикса с рецептором по сравнению с другими методами выборки. При сравнении с тремя другими современными предикторами белок-белкововых взаимодействий видно, что последний показал низкую чувствительность, но более высокую специфичность. В текущей работе представлена первая модель прогнозирования на основе машинного обучения, специально разработанная для  белок-рецептор взаимодействий во внеклеточном матриксе.

Ключевые слова внеклеточный матрикс, белок-рецептор взаимодействие, машинное обучение, бустинг, усиленный случайный лес, ReliefF, случайная выборка; выборка k-средних, равномерная выборка.

Содержание Оригинальная статья
Мат. биол. и биоинф.
2023;18(1):113-127
doi: 10.17537/2023.18.113
опубликована на англ. яз.

Аннотация (англ.)
Аннотация (рус.)
Полный текст (англ., pdf)
Список литературы
Доп. материалы

 

  Copyright ИМПБ РАН © 2005-