Определение текстовых заимствований и нечетких дубликатов на основе алгоритма шинглов

Поиск дубликатов и плагиата среди веб-страниц, как одно из главных направлений сравнения текстов. Алгоритм шинглов, как один из эффективных алгоритмов определения сходства документов на предмет заимствования. Удаление частично измененного копипаста.

Подобные документы

  • Исследование применения алгоритмов Data Mining для поиска кластеров дубликатов с использованием синтаксических и лексических методов составления образов документов. Программная реализация и компьютерные эксперименты. Способ выбора параметров методов.

    статья, добавлен 17.01.2018

  • Изучение функции "поиска подобных документов" как способа повышения качества информационного поиска в полнотекстовых базах. Алгоритм определения степени семантического сходства текста с эталоном. Схема оценки текстов на семантическое сходство с эталоном.

    статья, добавлен 25.08.2020

  • Разработка алгоритма формирования информационных образов электронных текстовых документов, включающий механизм сокращения признаков, основанный на подходе к оценке тематической значимости признаков документов. Нейросетевой анализ коллекции документов.

    автореферат, добавлен 31.07.2018

  • Рассматриваются основные алгоритмы для кластеризации текстовых документов, осуществляется выбор данных для последующего обучения модели основанных на рассматриваемых алгоритмах и проводится анализ метрик. Результирующие метрики по итогам обучения.

    статья, добавлен 14.02.2025

  • История развития теории алгоритмов, роль алгоритма в связи с появлением компьютеров и развитием вычислительной математики. Бинарный алфавит, регулярные выражения, языки программирования. Формализация понятия вычислимости, частично вычислимые функции.

    учебное пособие, добавлен 19.02.2013

  • Классификация текстовых документов в строительной отрасли. Изучение алгоритма построения классификационной модели методом Байеса с использованием языка программирования Python. Применение алгоритма в обработке проектной документации зданий и сооружений.

    статья, добавлен 21.02.2025

  • Применение процедур локальной аппроксимации для решения задачи классификации траекторий на основе критериев точечного сходства. Представление рядов в виде матричных наборов данных и применение алгоритма нечетких средних для их дальнейшей кластеризации.

    статья, добавлен 27.02.2019

  • Назначение текстовых редакторов. Ввод и редактирование текста. Способы создания документов. Выбор параметров страницы. Вставка изображений, формул и других объектов в документ. Копирование, перемещение и удаление фрагментов документа. Поиск и замена.

    реферат, добавлен 15.12.2013

  • Разработка информационной системы для заданной предметной области с использованием заданных структур данных и алгоритмов. Характеристика алгоритмов и структуры данных. Рассмотрение описания программы. Определение алгоритма поиска слова в тексте.

    курсовая работа, добавлен 15.11.2017

  • Изучение методов работы и взаимодействия с базами данных. Рассмотрение алгоритма Рабина–Карпа для определения плагиата. Разработка программы для оценки схожести текстов, методика ее использования. Тестирование программы с помощью набора тест-кейсов.

    курсовая работа, добавлен 10.12.2016

  • Определение задачи оптимального представления текстовых документов на заключительном этапе функционирования информационно-поисковой системы. Характеристика основных преимуществ использования алгоритма Куна в составе автоматических поисковых серверов.

    статья, добавлен 26.04.2017

  • Изучение свойств, характеристик и способов задания алгоритма. Рассмотрение линейных, разветвляющихся и циклических вычислительных процессов. Описание работы с пакетами обработки текстовых документов. Ознакомление с устройствами ввода информации.

    контрольная работа, добавлен 01.02.2014

  • Рассмотрение основных видов и способов описания алгоритмов. Примеры блок-схем алгоритмов. Основные свойства алгоритмов. Изучение системы команд исполнителя алгоритма. Возможности и обязанности исполнителя алгоритма. Примеры решения задач по алгоритму.

    презентация, добавлен 19.06.2024

  • Разработка метода аналитического определения максимального порядка контекста для алгоритмов контекстного моделирования. Теоретическое определение условной энтропии при увеличении порядка контекста. Расчет максимального порядка контекста алгоритма РРМ.

    статья, добавлен 22.01.2018

  • Основная идея алгоритма муравьиного алгоритма - моделирование поведения колонии муравьев. Разработка программы, реализующей модифицированную модель муравьиного алгоритма. Адаптация муравьиного алгоритма к различным графовым задачам, его эффективность.

    статья, добавлен 19.01.2018

  • Исследование средств и языков описания алгоритмов. Определение понятия алгоритма, специфика его свойств и способы записи. Общая структура линейного и разветвленного алгоритма в виде блок-схемы. Особенности классификации и язык описания алгоритма.

    реферат, добавлен 09.09.2010

  • Виды, свойства и способы описания алгоритма. Формат числа в Microsoft Excel. Копирование значений и удаление форматов. Перечень условных обозначений, наиболее часто используемых для представления алгоритмов в графической форме. Способ вызова окна.

    контрольная работа, добавлен 05.06.2021

  • История происхождения термина "алгоритм". Определение понятия "алгоритм" в математике и информатике. Понятие алгоритма в современном мире, его основные виды, свойства. Формы записи алгоритмов. Особенности графического способа записи алгоритма: блок-схема.

    реферат, добавлен 23.03.2016

  • Исследование результатов работы программного продукта, использующего разработанный алгоритм. Модели генетических алгоритмов и их создание. Разработка программного продукта на основе спроектированного алгоритма. Список профессий, подходящих пользователю.

    дипломная работа, добавлен 14.12.2019

  • Математические методы анализа алгоритмов. Измерение эффективности алгоритмов, нахождение существенных различий. Быстродействие алгоритмов, степень роста временных затрат. Определение порядка алгоритма. Скорость роста некоторых функций, их свойства.

    реферат, добавлен 27.03.2009

  • Применение генетических алгоритмов (ГА), эффективных при решении задач оптимизации, их преимущества и недостатки. Процесс настройки и контроля параметров конкретного ГА, его влияние на эффективность решения задачи. Результаты тестирования алгоритмов.

    статья, добавлен 29.04.2018

  • Понятие алгоритмов, их свойства (дискретность, понятность, определенность, массовость, конечность, результативность). Исполнитель алгоритма, его характеристики (среда, элементарные действия, система команд, отказы). Типы алгоритмов и способы их описания.

    презентация, добавлен 19.11.2012

  • Рассмотрение общей схемы алгоритма кластеризации семантических дескрипторов, необходимого для анализа данных, представленных в виде текстов на естественном языке. Влияние различных параметров алгоритма на общую схему работ и перспективы развития подхода.

    статья, добавлен 28.01.2020

  • Изучение работы нечеткой системы типа синглтон. Оценка работоспособности алгоритма идентификации рядом имитационных экспериментов с изменением параметров алгоритма. Сравнительный анализ полученных результатов с аналогами на примере муравьиной колонии.

    статья, добавлен 18.01.2018

  • RC4 как один из широко распространенных алгоритмов потокового шифрования. Сущность, строение и описание алгоритма. Генератор ключевого потока RC4 и алгоритм инициализации. Исследования Руза и восстановление ключа из перестановки, манипуляция битами.

    реферат, добавлен 24.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу и оценить ее, кликнув по соответствующей звездочке.