Энтропийный подход к построению меры символьного разнообразия слов и его применение к кластеризации геномов растений
Сметанин Ю.Г., Ульянов М.В., Пестова А.С.
ФИЦ «Информатика и управление» РАН, г. Москва
МГУ им. М.В. Ломоносова, факультет ВМК, г. Москва
ИПУ им В.А. Трапезникова РАН, г. Москва
ФКН НИУ ВШЭ, г. Москва
Аннотация. В статье рассматривается подход к анализу информации, представленной словами конечной длины над конечным алфавитом. Предложен метод построения меры символьного разнообразия слов, основанный на пиковых характеристиках функции энтропии сдвигов. Собственно функция энтропии сдвигов формализована на основе оператора сдвига один и понятия энтропии дискретных распределений. Приводится модельный пример и результаты применения предложенной меры к кластеризации семейств растений на основе анализа геномов их представителей.
Ключевые слова: энтропия сдвигов, мера символьного разнообразия, кластеризация геномов растений.