Электронный журнал | Том 18 Выпуск 1 Год 2023

Использование ансамблевого обучения и пространства отрицательной выборки для прогнозирования взаимодействий между белками внеклеточного матрикса

Абхигьян Натх¹, Судама Ратор¹, Пангамбам Сендаш Сингх²

¹Кафедра биохимии, Мемориальный медицинский колледж имени Джавахарлала Неру, Райпур, Индия
²Кафедра компьютерных наук, Банарасский индуистский университет, Варанаси, Индия

Аннотация. Внеклеточный матрикс лучше всего описывается как динамическая трехмерная сетка различных макромолекул. К ним относятся протеогликаны (например, перлекан андагрин), непротеогликановые полисахариды (например, гиалуронан) и волокнистые белки (например, коллаген, эластин, фибронектин и ламинин). Белки внеклеточного матрикса участвуют в различных биологических функциях, и их функциональность в значительной степени определяется взаимодействием с другими белками внеклеточного матрикса, а также с трансмембранными рецепторами, включая интегрины, протеогликаны, такие как ассиндекан, другие гликопротеины и члены надсемейства иммуноглобулинов. В настоящей работе разработан подход машинного обучения с использованием последовательности и эволюционных признаков для прогнозирования взаимодействий белок-рецептор внеклеточного матрикса. Два разных представления векторов признаков, а именно слияние векторов признаков и среднее значение векторов признаков, используются в рамках объединения наилучшего представления, использующего выбор признаков. Текущие результаты показывают, что представление вектора признаков является важным аспектом предсказания взаимодействия белков внеклеточного матрикса и что среднее значение векторов признаков работает лучше, чем слияние векторов признаков. Лучшая модель прогнозирования с усиленным случайным лесом показала общую точность 72,6 %, чувствительность 74,4 % и специфичность 70,7 % с 200 лучшими признаками, полученными с использованием алгоритма выбора признаков ReliefF. Кроме того, был проведен сравнительный анализ для выбора подмножества отрицательной выборки с использованием трех методов выборки, а именно случайной выборки, выборки k-средних и равномерной выборки. Репрезентативная выборка на основе k-средних привела к повышенной точности (точность 75,5 % с чувствительностью 80,8 %, специфичностью 68,1 % и AUC 0,801) для предсказания взаимодействий белка внеклеточного матрикса с рецептором по сравнению с другими методами выборки. При сравнении с тремя другими современными предикторами белок-белкововых взаимодействий видно, что последний показал низкую чувствительность, но более высокую специфичность. В текущей работе представлена первая модель прогнозирования на основе машинного обучения, специально разработанная для белок-рецептор взаимодействий во внеклеточном матриксе.

Ключевые слова: внеклеточный матрикс, белок-рецептор взаимодействие, машинное обучение, бустинг, усиленный случайный лес, ReliefF, случайная выборка; выборка k-средних, равномерная выборка.