научная статья

Классификация посредством компрессии: применение методов теории информации для определения тематики научных текстов

Селиванова И.В.
Государственная публичная научно-техническая библиотека СО РАН
Рябко Б.Я.
Государственная публичная научно-техническая библиотека СО РАН
Гуськов А.Е.
Государственная публичная научно-техническая библиотека СО РАН
Научно-техническая информация. Серия 2: Информационные процессы и системы
№ 6 / 2017
страницы: 8-15
Предложен метод автоматической классификации научных текстов, основанный на использовании кодирования источников информации (или «сжатия данных»). Метод реализован и исследован на данных, представленных в Архиве научных текстов (arXiv.org), а также в научной электронной библиотеке «Киберленинка» (cyberleninka.ru). Эксперименты показали, что с вероятностью 75-95% метод правильно определяет тематику текстов, при этом его точность зависит от качества исходных данных.