Электронный журнал | Том 17 Выпуск 2 Год 2022

Извлечение фактографической информации о пандемии из открытых источников сети Интернет

Акулинина Е.Ю.¹, Карманов А.Л.¹, Теплых Н.А.¹, Власов В.В.¹, Балута В.И.², Варыханов С.С.², Карандеев А.А.², Осипов В.П.², Рыков Ю.Г.², Четверушкин Б.Н.²

¹ФГУП «РФЯЦ ВНИИТФ им. академ. Е.И. Забабахина, Снежинск, Россия
²Институт прикладной математики им. М.В. Келдыша РАН, Москва, Россия

Аннотация. Создание базирующихся на мультиагентных подходах моделей распространения инфекционных заболеваний основывается на использовании большого объема разнородных исходных данных, как правило, отсутствующих в непосредственном доступе, в связи с чем одной из ключевых проблем конструирования таких моделей является разработка инструментов получения данных из различных источников. В настоящей статье представлены подходы, позволяющие извлекать из текстовых сообщений, опубликованных в сети Интернет, значения параметров функционирования моделируемого общества и статистические данные о процессе развития пандемии. Предложены метод и программная реализация для целенаправленного поиска открытых источников информации в сети интернет и обработки неструктурированных данных. Собранные таким образом данные используются для настройки математической̆ модели при исследовании различных сценариев развития эпидемии в конкретных регионах. Акцент в предлагаемом подходе обработки данных сделан на двух основных технологиях: применение регулярных выражений и анализ с использованием методов машинного обучения. Использование метода регулярных выражений позволяет обеспечить высокую скорость обработки текстов, но его применимость ограничивается сильной зависимостью от контекста. В свою очередь, машинное обучение позволяет адаптироваться под информационный̆ контекст сообщения, однако при этом наблюдаются относительно большие затраты времени на анализ. Для повышения точности анализа и нивелирования недостатков каждого из этих подходов предлагаются способы совмещения названных технологий. В статье излагаются полученные результаты оптимизации алгоритмов получения необходимых данных. Реализация предлагаемых решений выполнена на языках Python и С++ с использованием библиотек по обработке русскоязычной̆ текстовой̆ информации. Также представлено решение на основе современной̆ программной̆ платформы для автоматизации процесса мониторинга и обработки выбранных информационных каналов.

Ключевые слова: анализ текстовых данных, регулярные выражения, синтаксические деревья, платформа сбора данных.