1

Я пишу диссертацию для своего проекта на последнем курсе, и я знаю, что независимо от того, что я пишу, будут сходства в Интернете, в научных журналах и книгах. К счастью для большинства, Google может с легкостью устранить большинство из них, поэтому поиск бесплатного скрипта проверки плагиата не должен быть слишком сложным.

После небольшого поиска в Google я наткнулся на пару действительно базовых шашек, но большинство из них являются либо "базовыми версиями", которые требуют оплаты за скрипт, который действительно работает, или просто бесполезны. Я нашел тот, который, кажется, хорошо работает для маленьких порций данных, но с треском проваливается при передаче большого файла.

Все, что я хочу сделать, - это иметь возможность загружать документ Word (или просто вводить текст, если нет доступных вариантов загрузки) и сообщать мне, что, как представляется, копируется и откуда. Кто-нибудь знает какие-либо хорошие проверки плагиата, которые можно скачать бесплатно или запустить онлайн?

РЕДАКТИРОВАТЬ: просто чтобы прояснить мои потребности, я хочу инструмент, который может взять документ Word и искать его полностью, чтобы он мог пометить любой экземпляр, где документ соответствует другому документу в Google.

5 ответов5

4

Я не думаю, что вы собираетесь найти реальное решение в виде скрипта или бесплатного приложения. Подумайте, что вы хотите, чтобы программа делала: прочитайте документ и проверьте - что? (Чужие опубликованные работы? Это требует большой базы данных опубликованных работ. Стилистическая дисперсия выходит за рамки статистической нормы? Для этого требуется статистическая норма стиля (вероятно, основанная на словарном запасе и длине предложения, вычисленных по отношению к значимым словам - т.е. отфильтровывать слова 'и', 'или', 'to', 'for' и т.д.). Это не тривиальные требования или что-то, что вы можете просто собрать в пару сотен строк | insert-your-scripting-language-here |.

Многие школы используют Turnitin, и многие школы используют Google для поиска опубликованных работ. Этот метод является хитом или мисс по очевидным причинам. Turnitin не бесплатный, и Google - очень несовершенное решение, но это два решения, которые я вижу чаще всего.

2

Университет Вирджинии делает доступным этот инструмент: Copyfind.
И исходный код, и исполняемый файл доступны для скачивания.

Эта программа проверяет коллекцию файлов документов. Он извлекает текстовые части этих документов и просматривает их на предмет совпадения слов во фразах определенной минимальной длины. Когда он находит два файла, которые содержат достаточно слов в этих словосочетаниях, copyfind создает файлы отчетов html. Эти отчеты содержат текст документа с подчеркнутыми соответствующими фразами.

Что может сделать copyfind: он может найти документы, которые разделяют большое количество текста. Этот результат может указывать на то, что один файл является копией или частичной копией другого, или что оба они являются копиями или частичными копиями третьего документа.

Чего не может сделать copyfind: он не может искать текст, скопированный из любого внешнего источника, если только вы не включите этот внешний источник в документы, которые вы предоставляете для copyfind. Он работает только на чисто локальных данных, он не может искать в Интернете или в Интернете, чтобы найти соответствующие документы. Если вы подозреваете, что определенный внешний источник был скопирован, вы должны создать локальный документ, содержащий этот внешний материал, и включить этот документ в коллекцию документов, которые вы предоставляете для copyfind.

Для веб-проверок вы можете взглянуть на:
Бесплатная онлайн система обнаружения плагиата, проверка плагиата

1

Здесь есть много хороших предложений, но общее мнение состоит в том, что нет инструментов, которые могли бы делать то, что я хочу. Несмотря на это, я решил продолжить использовать базовую версию проверки плагиата. Это работает почти так, как я хочу, хотя, чтобы получить некоторые из лучших функций, которые мне нужно будет заплатить.

Этот инструмент использует API Google и будет очень хорошо находить скопированный текст, и я уже нашел два случая, когда я написал фразы, похожие на некоторые статьи.

Поскольку другие перечислили некоторые другие замечательные примеры, я могу закончить тем, что написал свой собственный скрипт, чтобы делать то, что я хочу, поскольку у меня есть опыт работы с Google API, и кажется, что это лучший скрипт, доступный на данный момент, с некоторыми из этих скриптов и техник быть лучшим для их собственного использования.

1

Я только недавно исследовал некоторые из этих онлайн-контролеров плагиата и обнаружил, что большинство этих бесплатных сайтов используют API Yahoo для проверки плагиата в бэкэнде. Хотя этот обзор мне показался довольно хорошим, я лично пользуюсь Google в большинстве случаев, поскольку результаты значительно превосходят результаты, полученные на сайтах на основе API Yahoo.

0

Plagiarism-Checker от architshukla на github - это (главным образом) скрипт проверки плагиата с открытым исходным кодом, написанный (главным образом) на python, который якобы / предположительно использует google api для проверки документов n-граммы .

Я не проверял это, но, возможно, вы могли бы проверить это. Он предназначен для работы в Windows и Linux.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .