грант РФФИ

Разработка вероятностной модели определения плагиата на основе анализа цитирований


Регистрационный номер: 16-07-00652
Номер государственной регистрации: АААА-А16-116022410049-4
Заказчик: РФФИ

Сроки: 2016 – 2017
Руководитель: Мазов Николай Алексеевич
Исполнители:

Рост плагиата в научных публикациях напрямую связан с развитием компьютерных и сетевых технологий, позволивших копировать информацию в больших объемах. В основном эти возможности используются при написании студенческих работ. Между тем системы автоматического индексирования текста позволили в короткие сроки создать эффективные методы выявления прямых заимствований, а также проводить достоверный анализ соотношения оригинального и заимствованного текстов. В научной среде распространен более сложный и трудно выявляемый вариант плагиата, основанный на переводах зарубежных текстов. Выявление такого плагиата в настоящее время требует привлечения большого числа эрудированных компетентных экспертов, знакомых с разработками зарубежных коллег. Таким образом, анализ работ на предмет заимствований ограничен, дорог и трудозатратен, он не используется для проверки тысяч небольших научных статей, не применяется при проверке отчетов, которые пишутся в рамках грантов и государственных программ, не задействуется при проверке на оригинальность кандидатских и докторских диссертаций. Системы же обычного выявления плагиата, основанные на сличении текстов, в данном случае дают нулевой результат. Значительная для российской науки и ее рейтинга в мире проблема заключается в том, что в настоящих условиях недобросовестные ученые чувствуют себя в безопасности и зачастую отказываются от проведения самостоятельной и финансируемой государством работы в пользу менее трудоемкого перевода чужих публикаций. Соответственно, количество оригинальных разработок, способных улучшить профиль российской науки, растет медленнее, чем могло бы. Автоматизация сличения текстов способна решить данную проблему. Наш опыт одновременной работы в сфере научной библиографии позволил нам сделать наблюдение, что после перевода зарубежных публикаций авторы в своих статьях сохраняют всю или значительную долю ссылок, также заимствованных из оригинальной статьи, и их последовательность. На основе этого можно с большой вероятностью определить источник заимствования, сгенерировав запрос в профильную или международную библиографическую базу данных, где содержится информация из пристатейных ссылок. В настоящий момент аналогичной разработкой занимается лишь один зарубежный коллектив, пришедший к тем же выводам, что и мы. Разработка и промышленный запуск подобной системы позволили бы, на наш взгляд, значительно снизить объемы заимствований и, возможно, способствовать росту оригинальных отечественных исследований.


Публикации