Определение текстовых заимствований и нечетких дубликатов на основе алгоритма шинглов

Поиск дубликатов и плагиата среди веб-страниц, как одно из главных направлений сравнения текстов. Алгоритм шинглов, как один из эффективных алгоритмов определения сходства документов на предмет заимствования. Удаление частично измененного копипаста.

Подобные документы

  • Метод поиска MDS матриц на основе сопровождающих матриц. Экспериментальная оценка числа различных миноров для матрицы размером 13х13. Сравнение числа встречаемости дубликатов для матриц размера nхn. Метод поиска MDS матриц на основе кодов Рида-Соломона.

    курсовая работа, добавлен 17.07.2020

  • Рассмотрение проблемы управления точностью получаемых приближенных решений. Характеристика особенностей подхода, который дополняет алгоритм "оптимизации с использованием роя частиц" возможностью обработки нечетких чисел с треугольным представлением.

    статья, добавлен 07.03.2019

  • Обзор существующих методов сравнения гистограмм, анализ их лавных преимуществ и недостатков. Исследование механизмов и приемов, помогающих в устранении рассмотренных недостатков. Принципы определения сходства изображений на основе сравнения гистограмм.

    статья, добавлен 18.12.2017

  • Алгоритм вычисления площади трапеции. Определение существования треугольника по двум углам. Алгоритм с использованием структуры "цикл с параметром". Способы представления алгоритмов. Линейная алгоритмическая конструкция. Понятие рекурсивного алгоритма.

    контрольная работа, добавлен 27.03.2018

  • Разработка эффективных алгоритмов для сокращения размерности данных. Обзор принципов работы: метод главных компонент, ядерный метод главных компонент, метод многомерного шкалирования, локально-линейного встраивания, метод изометрического отображения.

    статья, добавлен 30.04.2018

  • Специфические особенности реализации гибридных алгоритмов настройки параметров нечетких моделей на базе метаэвристик и методов, основанных на производных. Методика представления входных данных аппроксиматора в виде фрагмента пространственной сетки.

    автореферат, добавлен 02.09.2018

  • Классификация систем подготовки текстовых документов. Описание возможностей различных текстовых редакторов и процессоров. Изучение особенностей процессов подготовки текстовых документов на примере Microsoft Word. Редактирование и форматирование текста.

    реферат, добавлен 07.04.2014

  • Понятие алгоритма, его свойства и способы описания. Структурный подход к разработке алгоритмов. Основные алгоритмы обработки массивов. Алгоритм линейной структуры, разветвляющийся алгоритм, алгоритм циклической структуры. Примеры вложенных циклов.

    методичка, добавлен 27.08.2017

  • Рассматриваются основные алгоритмы для кластеризации текстовых документов, осуществляется выбор данных для последующего обучения модели основанных на рассматриваемых алгоритмах и проводится анализ метрик. Результирующие метрики по итогам обучения.

    статья, добавлен 14.02.2025

  • Обзор алгоритмов поиска. Несостоятельность примитивного алгоритма. Алгоритмы: сравнение как "черном ящике", с начала и конца, в необычном порядке. Описание алгоритма Бойера-Мура: сканирование слева направо, сравнение справа налево, эвристика стоп-символа.

    курсовая работа, добавлен 23.06.2011

  • Описание встроенных элементов управления. Создание, открытие и сохранение БД. Удаление, редактирование, добавление и поиск записи. Изменение формата текста. Поиск и сортировки данных. Построение диаграмм. Краткое описание алгоритма работы с программой.

    курсовая работа, добавлен 20.10.2013

  • Рассмотрение содержания способов реализации поиска плагиата с использованием сети интернет. Исследование и характеристика способа реализации и внедрения этих способов для нового программного обеспечения, выполняющих поиск и анализ заимствований.

    статья, добавлен 03.12.2018

  • Характеристика и сущность простых алгоритмов поиска и упорядочения элементов в графе. Выбор и содержание программирования, преимущества языка Pascal. Особенности поиска в ширину и в глубину, способы улучшения простых методов и описание алгоритма.

    курсовая работа, добавлен 28.04.2011

  • Понятие алгоритма как предмета математических исследований, его основные свойства. Составление алгоритмов на естественном языке для процессора электронно-вычислительной машины. Разработка структуры программы с помощью алгоритмов в виде блок-схемы.

    реферат, добавлен 08.02.2014

  • Поиск эффективного метода для удаления нецензурных слов или выражений из текстов, статей и некоторых интернет-страниц. Формальная постановка задачи. Описание данных и используемых мер близости. Составление коллекции и разметка, программная реализация.

    курсовая работа, добавлен 30.08.2016

  • Разработка гибридного алгоритма поиска грифов с минимальным числом входных параметров для оптимизации сложных функций, меняющихся с течением времени. Исследование эффективности работы алгоритма и его сравнительный анализ с некоторыми другими алгоритмами.

    статья, добавлен 14.05.2017

  • Характеристика особенностей использования гиперграфа для оценки сходства изображений. Разработка и анализ алгоритмов ранжирования гиперграфа. Характеристика дескрипторов свойств и мер сходства. Оценка производительности разработанных алгоритмов.

    статья, добавлен 28.11.2016

  • Свойства алгоритмов. Выполнение арифметических операций. Виды алгоритмов и их реализация. Методы изображения алгоритмов. Автоматизация деятельности человека на основе алгоритмизации. Принципы программирования. Проектирование информационной системы.

    контрольная работа, добавлен 24.08.2008

  • Разработка математических моделей текстов на естественном языке предназначенных для поиска, классификации и кластеризации данных. Таксономическое представление текстовых документов в виде решетки замкнутых структурных синтактико-семантических описаний.

    диссертация, добавлен 28.12.2016

  • Классификация текстовых процессоров: процессоры общего назначения, редакторы научных документов и исходных текстов программ, издательские системы. Характеристика отдельных текстовых процессоров: Лексикон, AbiWord, OpenOffice.org Writer, Microsoft Word.

    курсовая работа, добавлен 13.06.2011

  • Основные определения и понятия теории графов. Оптимизация решения задач с применением эволюционно-генетического подхода. Повышение технологичности и простоты конструктивного оформления элементов принципиальных схем на основе генетических алгоритмов.

    курсовая работа, добавлен 28.02.2018

  • Рассмотрение особенностей использования графа для реализации алгоритмов поиска, построенного на основе начальных состояний и пространства доступных действий. Ознакомление с результатами сравнения поиска решений в ширину и глубину в агентной системе.

    статья, добавлен 11.04.2016

  • Разработка методов увеличения производительности алгоритма мультипликативного инвертирования в двоичном поле на основе расширенного алгоритма Эвклида. Применение модифицированного алгоритма инвертирования в программной реализации алгоритмов формирования.

    статья, добавлен 23.02.2016

  • Свойства и виды алгоритмов, их реализация. Словесная форма представления алгоритма. Графический способ записи алгоритмов. Понятие псевдокода и программное представление алгоритма. Основы структурного программирования и предпрограммная подготовка задачи.

    курсовая работа, добавлен 04.03.2009

  • Цели программирования понятного и точного предписания по последовательности действий. Способы записи алгоритмов с помощью технического электронного автоматического устройства для обработки информации. Ознакомление с графическими обозначениями схем.

    презентация, добавлен 07.12.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу и оценить ее, кликнув по соответствующей звездочке.