Русская версия English version   
Том 17   Выпуск 2   Год 2022
Извлечение фактографической информации о пандемии из открытых источников сети Интернет

Акулинина Е.Ю.1, Карманов А.Л.1, Теплых Н.А.1, Власов В.В.1, Балута В.И.2, Варыханов С.С.2, Карандеев А.А.2, Осипов В.П.2, Рыков Ю.Г.2, Четверушкин Б.Н.2

1ФГУП «РФЯЦ ВНИИТФ им. академ. Е.И. Забабахина, Снежинск, Россия
2Институт прикладной математики им. М.В. Келдыша РАН, Москва, Россия

Аннотация. Создание базирующихся на мультиагентных подходах моделей распространения инфекционных заболеваний основывается на использовании большого объема разнородных исходных данных, как правило, отсутствующих в непосредственном доступе, в связи с чем одной из ключевых проблем конструирования таких моделей является разработка инструментов получения данных из различных источников. В настоящей статье представлены подходы, позволяющие извлекать из текстовых сообщений, опубликованных в сети Интернет, значения параметров функционирования моделируемого общества и статистические данные о процессе развития пандемии. Предложены метод и программная реализация для целенаправленного поиска открытых источников информации в сети интернет и обработки неструктурированных данных. Собранные таким образом данные используются для настройки математической̆ модели при исследовании различных сценариев развития эпидемии в конкретных регионах. Акцент в предлагаемом подходе обработки данных сделан на двух основных технологиях: применение регулярных выражений и анализ с использованием методов машинного обучения. Использование метода регулярных выражений позволяет обеспечить высокую скорость обработки текстов, но его применимость ограничивается сильной зависимостью от контекста. В свою очередь, машинное обучение позволяет адаптироваться под информационный̆ контекст сообщения, однако при этом наблюдаются относительно большие затраты времени на анализ. Для повышения точности анализа и нивелирования недостатков каждого из этих подходов предлагаются способы совмещения названных технологий. В статье излагаются полученные результаты оптимизации алгоритмов получения необходимых данных. Реализация предлагаемых решений выполнена на языках Python и С++ с использованием библиотек по обработке русскоязычной̆ текстовой̆ информации. Также представлено решение на основе современной̆ программной̆ платформы для автоматизации процесса мониторинга и обработки выбранных информационных каналов.

Ключевые слова: анализ текстовых данных, регулярные выражения, синтаксические деревья, платформа сбора данных.

Содержание Оригинальная статья
Мат. биол. и биоинф.
2022;17(2):423-440
doi: 10.17537/2022.17.423
опубликована на рус. яз.

Аннотация (рус.)
Аннотация (англ.)
Полный текст (рус., pdf)
Список литературы

 

  Copyright ИМПБ РАН © 2005-2024