научная статья

Ограничения применения метода на основе сжатия данных к классификации аннотаций публикаций, индексируемых в Scopus

Селиванова И.В.
Государственная публичная научно-техническая библиотека СО РАН
Вестник Новосибирского государственного университета. Серия: Информационные технологии
№ 3 / 2020
страницы: 57-68
Приводятся ограничения применения метода классификации научных текстов, основанного на сжатии данных, ко всем категориям из классификации ASJC, используемой в библиографической базе данных Scopus. Показано, что автоматическое создание обучающих выборок для каждой категории является достаточно трудоемким процессом, а в ряде случаев невозможно из-за ограничения на выгрузку данных, установленного в Scopus, и отсутствия названий категорий в Scopus Search API. Другим фактором является то, что во многих областях наук полностью отсутствуют журналы и, соответственно, публикации, у которых указана только одна категория. Применение метода ко всем 26 областям наук невозможна в виду их обширности, а также изначальной классификации Scopus. Часто в разных областях наук находятся терминологически близкие категории, что затрудняет отнесение публикации к верной области. Проведенная работа также указывает на то, что многие исследования, основанные на использовании проклассифицированных по ASJC публикаций, могут иметь некоторые неточности.