Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства
Борисова Ирина Артемовна, Кутненко Ольга Андреевна
Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия
Аннотация. В работе рассматривается задача цензурирования данных из области медицинской диагностики. Предполагается, что в анализируемой выборке могут встречаться ошибочно диагностированные объекты. Подобные объекты оказывают негативное влияние на процедуру анализа данных и поиск содержащихся в них закономерностей, что замедляет процесс получения результатов и ведет к их искажению. Предложенная процедура цензурирования позволяет отыскивать такие объекты и либо удалять их, либо исправлять ошибки в диагностическом (целевом) признаке. Исправление ошибок предпочтительнее в том случае, когда исходная выборка мала, так как это позволяет максимально сохранить полезную информацию, содержащуюся в выборке. Для решения поставленной задачи используется функция конкурентного сходства, с помощью которой оценивается локальное сходство объектов со своими ближайшими соседями. Будучи усредненными по всей выборке, величины локального сходства дают представление о том насколько сильно различаются классы объектов с разными диагнозами на основе имеющихся данных. При этом предполагается, что если в выборке присутствуют неверно диагностированные объекты, то их сходство с ближайшими аналогами из своего класса низкое, и их исключение или коррекция целевого признака позволит увеличить общую разделимость выборки. Процедура коррекции-фильтрации неверно диагностированных объектов основана на наблюдении за изменениями в оценке разделимости классов, вычисленной до и после внесения исправлений в выборку. Процесс цензурирования продолжается до достижения точки перегиба функции разделимости. Для тестирования предложенного метода использовался ряд модельных задач различной сложности. Кроме того этот метод применялся к задачам диагностики диабета, рака груди по результатам биопсии, болезни Паркинсона по нарушениям речи. Предложенный метод показал высокую чувствительность по отношению к ошибочно диагностированным объектам, а исправление таких ошибок позволило улучшить качество классификации при незначительном сокращении объема обучающей выборки.
Ключевые слова: распознавание образов, функция конкурентного сходства, компактность образов, разделимость классов, цензурирование объектов.