научная статья

Классификация посредством компрессии: применение методов теории информации для определения тематики научных текстов

Селиванова И.В.

Государственная публичная научно-техническая библиотека СО РАН

Рябко Б.Я.

Государственная публичная научно-техническая библиотека СО РАН

Гуськов А.Е.

Государственная публичная научно-техническая библиотека СО РАН

Научно-техническая информация. Серия 2: Информационные процессы и системы

№ 6 / 2017

страницы: 8-15

Предложен метод автоматической классификации научных текстов, основанный на использовании кодирования источников информации (или «сжатия данных»). Метод реализован и исследован на данных, представленных в Архиве научных текстов (arXiv.org), а также в научной электронной библиотеке «Киберленинка» (cyberleninka.ru). Эксперименты показали, что с вероятностью 75-95% метод правильно определяет тематику текстов, при этом его точность зависит от качества исходных данных.