Русская версия English version   
Том 17   Выпуск 2   Год 2022
Применение закона Бенфорда для оценки качества данных профилактического скрининга

Старунова О.А. , Руднев С.Г. , Иванова А.Е. , Семёнова В.Г. , Стародубов В.И.

Центральный научно-исследовательский институт организации и информатизации здравоохранения, Москва, Россия

Аннотация. Эмпирический закон Бенфорда, описывающий вероятность появления определённых первых значащих цифр во многих распределениях, взятых из реальной жизни, используется для выявления аномалий в различного рода данных. Целью исследования является апробация закона Бенфорда для анализа качества массовых данных профилактического скрининга на примере данных биоимпедансных измерений в центрах здоровья Москвы. Как было установлено ранее, особенностью таких данных является их сильное зашумление искусственно сгенерированными и поддельными данными. Сформированная база данных биоимпедансометрии центров здоровья Москвы за 2010–2019 гг. содержала 1361019 записей результатов измерений в возрастном диапазоне обследованных от 5 до 96 лет. Применение алгоритма экспертной оценки качества данных, использованного в качестве эталона для анализа эффективности Бенфорд-анализа, выявило высокий процент некорректных данных (66.5 %) с преобладанием сфальсифицированных данных. Для характеристики степени соответствия данных закону Бенфорда для каждого центра здоровья рассчитывали средние абсолютные отклонения частот встречаемости первой и первых двух значащих цифр от должных значений и статистики χ2 для десятых степеней стандартизованных значений активного, реактивного сопротивлений импеданса и индекса активного сопротивления. Установлена значимая корреляция между отклонением данных от закона Бенфорда и процентом некорректных данных согласно алгоритму экспертной оценки качества (ρmax = 0.66 и 0.62 для среднего абсолютного отклонения и величины χ2, соответственно, на основе параметра активного сопротивления импеданса и первой значащей цифры). Получено, что отклонение данных от закона Бенфорда является достаточным условием их компрометированности. Для центров здоровья, где основную часть некорректных данных составляли многократные измерения одного человека под видом разных, данные хорошо соответствовали закону Бенфорда. Если же в структуре некорректных данных преобладали измерения калибровочного блока, программные эмуляты измерений и выбросы, то использование закона Бенфорда позволяло эффективно ранжировать центры здоровья по уровню компрометированности данных.

Ключевые слова: центры здоровья, профилактический скрининг, большие данные, биоимпедансометрия, качество данных, алгоритм экспертной оценки качества, закон Бенфорда.

Содержание Оригинальная статья
Мат. биол. и биоинф.
2022;17(2):230-249
doi: 10.17537/2022.17.230
опубликована на рус. яз.

Аннотация (рус.)
Аннотация (англ.)
Полный текст (рус., pdf)
Список литературы

 

  Copyright ИМПБ РАН © 2005-2024