За 45 минут я смог обнаружить в 10 раз больше фальшивых статей, чем мне удавалось обнаруживать за год. Это настоящая цитата доктора философии. Кандидат в компьютерные науки по имени Джеффри Гордон, который использовал Classificationbox для обучения модели обнаружению поддельных исследовательских работ в исследовательских журналах.

Поддельные исследования

В настоящее время в академических кругах существует огромная проблема фальшивых исследований.

Бывают случаи, когда в нескольких журналах публикуются рукотворные статьи о фильмах или особенно ужасающих эпизодах Звездный путь: Вояджер. Есть даже пример опубликованной статьи, состоящей полностью из одних и тех же семи слов снова и снова.

Существуют хищные журналы, которые пользуются неопытными исследователями под давлением, чтобы публиковать их работы в любом издании, которое на первый взгляд кажется законным. Финское исследование показало, что с 2010 по 2014 год количество статей, опубликованных хищническими журналами, выросло с пятидесяти трех тысяч до почти полумиллиона.

И что еще хуже, теперь, казалось бы, действительные статьи можно создавать с помощью машины. (Один из таких инструментов называется SCIgen). Это полная чушь, но все же они публикуются. В 2013 году IEEE исключил из своей публикации 120 статей, поскольку было обнаружено, что они созданы на компьютере.

С таким количеством хищных журналов и фальшивых исследовательских работ академические учреждения, журналисты и сами исследователи с трудом справляются с этим шумом. Это подрывает доверие к научному процессу, может привести к появлению фейковых или вводящих в заблуждение новостей, затрудняет законные научные исследования и позволяет неквалифицированным исследователям составлять свои резюме.

Реши это

Заказчик Machine Box недавно решил обучить модель обнаруживать эти статьи в корпусе исследовательских журналов, чтобы посмотреть, сможет ли он справиться с этой проблемой.

Мои коллеги и я пытались решить эту проблему в течение многих лет, - сказал мне Джеффри. С« Classificationbox я решил ее за три часа».

Он получил 1000 примеров статей для этого эксперимента. Он взял 500 примеров машинно-сгенерированных фальшивых исследовательских статей и 500 примеров подлинных и показал их Classificationbox. После создания модели он написал сценарий для прогона 1,5 миллиона неизвестных статей через модель, чтобы убедиться, что она может точно обнаружить поддельные статьи.

«Он правильно определил все 600+ статей SCIgen примерно за 45 минут!»

Выполнение кропотливой задачи, на выполнение которой у человека уйдет слишком много времени, - идеальное применение машинного обучения.

Что такое Machine Box?

Machine Box помещает современные возможности машинного обучения в контейнеры Docker, поэтому разработчики, такие как вы, могут легко включить обработку естественного языка, распознавание лиц, распознавание объектов и т. Д. В свои собственные приложения очень быстро.

Ящики созданы для масштабирования, поэтому, когда ваше приложение действительно набирает обороты, просто добавьте еще ящиков по горизонтали, до бесконечности и дальше. Да, и это намного дешевле, чем любой из облачных сервисов (а они могут быть лучше)… и ваши данные не покидают вашу инфраструктуру.

Поиграйте и дайте нам знать, что вы думаете.