научная статья

Теоретико-информационный метод классификации текстов

Рябко Б.Я.

Институт вычислительных технологий СО РАН

Новосибирский государственный университет

Гуськов А.Е.

Институт вычислительных технологий СО РАН

Государственная публичная научно-техническая библиотека СО РАН

Селиванова И.В.

Новосибирский государственный университет

Государственная публичная научно-техническая библиотека СО РАН

Проблемы передачи информации

№ 3 / 2017

страницы: 100-111

Рассматривается метод автоматической, т.е. не требующей участия человека, классификации текстов, основанный на использовании методов универсального кодирования источников информации (или "сжатия данных"). Показано, что при некоторых ограничениях предлагаемый метод состоятелен, т.е. при увеличении длины рассматриваемых текстов ошибка классификации стремится к нулю. В качестве примера практического использования метода рассматривается задача классификации научных текстов (статей, книг и т.п.). Экспериментально показано, что предлагаемый метод обладает высокой эффективностью.