Определение текстовых заимствований и нечетких дубликатов на основе алгоритма шинглов

Поиск дубликатов и плагиата среди веб-страниц, как одно из главных направлений сравнения текстов. Алгоритм шинглов, как один из эффективных алгоритмов определения сходства документов на предмет заимствования. Удаление частично измененного копипаста.

Подобные документы

  • Исследование применения алгоритмов Data Mining для поиска кластеров дубликатов с использованием синтаксических и лексических методов составления образов документов. Программная реализация и компьютерные эксперименты. Способ выбора параметров методов.

    статья, добавлен 17.01.2018

  • Изучение функции "поиска подобных документов" как способа повышения качества информационного поиска в полнотекстовых базах. Алгоритм определения степени семантического сходства текста с эталоном. Схема оценки текстов на семантическое сходство с эталоном.

    статья, добавлен 25.08.2020

  • Разработка алгоритма формирования информационных образов электронных текстовых документов, включающий механизм сокращения признаков, основанный на подходе к оценке тематической значимости признаков документов. Нейросетевой анализ коллекции документов.

    автореферат, добавлен 31.07.2018

  • История развития теории алгоритмов, роль алгоритма в связи с появлением компьютеров и развитием вычислительной математики. Бинарный алфавит, регулярные выражения, языки программирования. Формализация понятия вычислимости, частично вычислимые функции.

    учебное пособие, добавлен 19.02.2013

  • Применение процедур локальной аппроксимации для решения задачи классификации траекторий на основе критериев точечного сходства. Представление рядов в виде матричных наборов данных и применение алгоритма нечетких средних для их дальнейшей кластеризации.

    статья, добавлен 27.02.2019

  • Назначение текстовых редакторов. Ввод и редактирование текста. Способы создания документов. Выбор параметров страницы. Вставка изображений, формул и других объектов в документ. Копирование, перемещение и удаление фрагментов документа. Поиск и замена.

    реферат, добавлен 15.12.2013

  • Разработка информационной системы для заданной предметной области с использованием заданных структур данных и алгоритмов. Характеристика алгоритмов и структуры данных. Рассмотрение описания программы. Определение алгоритма поиска слова в тексте.

    курсовая работа, добавлен 15.11.2017

  • Изучение методов работы и взаимодействия с базами данных. Рассмотрение алгоритма Рабина–Карпа для определения плагиата. Разработка программы для оценки схожести текстов, методика ее использования. Тестирование программы с помощью набора тест-кейсов.

    курсовая работа, добавлен 10.12.2016

  • Определение задачи оптимального представления текстовых документов на заключительном этапе функционирования информационно-поисковой системы. Характеристика основных преимуществ использования алгоритма Куна в составе автоматических поисковых серверов.

    статья, добавлен 26.04.2017

  • Изучение свойств, характеристик и способов задания алгоритма. Рассмотрение линейных, разветвляющихся и циклических вычислительных процессов. Описание работы с пакетами обработки текстовых документов. Ознакомление с устройствами ввода информации.

    контрольная работа, добавлен 01.02.2014

  • Рассмотрение основных видов и способов описания алгоритмов. Примеры блок-схем алгоритмов. Основные свойства алгоритмов. Изучение системы команд исполнителя алгоритма. Возможности и обязанности исполнителя алгоритма. Примеры решения задач по алгоритму.

    презентация, добавлен 19.06.2024

  • Разработка метода аналитического определения максимального порядка контекста для алгоритмов контекстного моделирования. Теоретическое определение условной энтропии при увеличении порядка контекста. Расчет максимального порядка контекста алгоритма РРМ.

    статья, добавлен 22.01.2018

  • Основная идея алгоритма муравьиного алгоритма - моделирование поведения колонии муравьев. Разработка программы, реализующей модифицированную модель муравьиного алгоритма. Адаптация муравьиного алгоритма к различным графовым задачам, его эффективность.

    статья, добавлен 19.01.2018

  • Исследование средств и языков описания алгоритмов. Определение понятия алгоритма, специфика его свойств и способы записи. Общая структура линейного и разветвленного алгоритма в виде блок-схемы. Особенности классификации и язык описания алгоритма.

    реферат, добавлен 09.09.2010

  • Виды, свойства и способы описания алгоритма. Формат числа в Microsoft Excel. Копирование значений и удаление форматов. Перечень условных обозначений, наиболее часто используемых для представления алгоритмов в графической форме. Способ вызова окна.

    контрольная работа, добавлен 05.06.2021

  • История происхождения термина "алгоритм". Определение понятия "алгоритм" в математике и информатике. Понятие алгоритма в современном мире, его основные виды, свойства. Формы записи алгоритмов. Особенности графического способа записи алгоритма: блок-схема.

    реферат, добавлен 23.03.2016

  • Исследование результатов работы программного продукта, использующего разработанный алгоритм. Модели генетических алгоритмов и их создание. Разработка программного продукта на основе спроектированного алгоритма. Список профессий, подходящих пользователю.

    дипломная работа, добавлен 14.12.2019

  • Математические методы анализа алгоритмов. Измерение эффективности алгоритмов, нахождение существенных различий. Быстродействие алгоритмов, степень роста временных затрат. Определение порядка алгоритма. Скорость роста некоторых функций, их свойства.

    реферат, добавлен 27.03.2009

  • Применение генетических алгоритмов (ГА), эффективных при решении задач оптимизации, их преимущества и недостатки. Процесс настройки и контроля параметров конкретного ГА, его влияние на эффективность решения задачи. Результаты тестирования алгоритмов.

    статья, добавлен 29.04.2018

  • Понятие алгоритмов, их свойства (дискретность, понятность, определенность, массовость, конечность, результативность). Исполнитель алгоритма, его характеристики (среда, элементарные действия, система команд, отказы). Типы алгоритмов и способы их описания.

    презентация, добавлен 19.11.2012

  • Рассмотрение общей схемы алгоритма кластеризации семантических дескрипторов, необходимого для анализа данных, представленных в виде текстов на естественном языке. Влияние различных параметров алгоритма на общую схему работ и перспективы развития подхода.

    статья, добавлен 28.01.2020

  • Изучение работы нечеткой системы типа синглтон. Оценка работоспособности алгоритма идентификации рядом имитационных экспериментов с изменением параметров алгоритма. Сравнительный анализ полученных результатов с аналогами на примере муравьиной колонии.

    статья, добавлен 18.01.2018

  • RC4 как один из широко распространенных алгоритмов потокового шифрования. Сущность, строение и описание алгоритма. Генератор ключевого потока RC4 и алгоритм инициализации. Исследования Руза и восстановление ключа из перестановки, манипуляция битами.

    реферат, добавлен 24.03.2011

  • Метод поиска MDS матриц на основе сопровождающих матриц. Экспериментальная оценка числа различных миноров для матрицы размером 13х13. Сравнение числа встречаемости дубликатов для матриц размера nхn. Метод поиска MDS матриц на основе кодов Рида-Соломона.

    курсовая работа, добавлен 17.07.2020

  • Обзор существующих методов сравнения гистограмм, анализ их лавных преимуществ и недостатков. Исследование механизмов и приемов, помогающих в устранении рассмотренных недостатков. Принципы определения сходства изображений на основе сравнения гистограмм.

    статья, добавлен 18.12.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу и оценить ее, кликнув по соответствующей звездочке.