Русская версия English version   
Том 13   Выпуск 1   Год 2018
Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства

Борисова Ирина Артемовна, Кутненко Ольга Андреевна

Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия

 
Аннотация. В работе рассматривается задача цензурирования данных из области медицинской диагностики. Предполагается, что в анализируемой выборке могут встречаться ошибочно диагностированные объекты. Подобные объекты оказывают негативное влияние на процедуру анализа данных и поиск содержащихся в них закономерностей, что замедляет процесс получения результатов и ведет к их искажению. Предложенная процедура цензурирования позволяет отыскивать такие объекты и либо удалять их, либо исправлять ошибки в диагностическом (целевом) признаке. Исправление ошибок предпочтительнее в том случае, когда исходная выборка мала, так как это позволяет максимально сохранить полезную информацию, содержащуюся в выборке. Для решения поставленной задачи используется функция конкурентного сходства, с помощью которой оценивается локальное сходство объектов со своими ближайшими соседями. Будучи усредненными по всей выборке, величины локального сходства дают представление о том насколько сильно различаются классы объектов с разными диагнозами на основе имеющихся данных. При этом предполагается, что если в выборке присутствуют неверно диагностированные объекты, то их сходство с ближайшими аналогами из своего класса низкое, и их исключение или коррекция целевого признака позволит увеличить общую разделимость выборки. Процедура коррекции-фильтрации неверно диагностированных объектов основана на наблюдении за изменениями в оценке разделимости классов, вычисленной до и после внесения исправлений в выборку. Процесс цензурирования продолжается до достижения точки перегиба функции разделимости. Для тестирования предложенного метода использовался ряд модельных задач различной сложности. Кроме того этот метод применялся к задачам диагностики диабета, рака груди по результатам биопсии, болезни Паркинсона по нарушениям речи. Предложенный метод показал высокую чувствительность по отношению к ошибочно диагностированным объектам, а исправление таких ошибок позволило улучшить качество классификации при незначительном сокращении объема обучающей выборки.
 
Ключевые слова: распознавание образов, функция конкурентного сходства, компактность образов,  разделимость классов, цензурирование объектов.
Содержание Оригинальная статья
Мат. биол. и биоинф.
2018;13(1):38-49
doi: 10.17537/2018.13.38
опубликована на рус. яз.

Аннотация (рус.)
Аннотация (англ.)
Полный текст (рус., pdf)
Список литературы

 

  Copyright ИМПБ РАН © 2005-2024