Определение текстовых заимствований и нечетких дубликатов на основе алгоритма шинглов
Поиск дубликатов и плагиата среди веб-страниц, как одно из главных направлений сравнения текстов. Алгоритм шинглов, как один из эффективных алгоритмов определения сходства документов на предмет заимствования. Удаление частично измененного копипаста.
Подобные документы
Исследование применения алгоритмов Data Mining для поиска кластеров дубликатов с использованием синтаксических и лексических методов составления образов документов. Программная реализация и компьютерные эксперименты. Способ выбора параметров методов.
статья, добавлен 17.01.2018Изучение функции "поиска подобных документов" как способа повышения качества информационного поиска в полнотекстовых базах. Алгоритм определения степени семантического сходства текста с эталоном. Схема оценки текстов на семантическое сходство с эталоном.
статья, добавлен 25.08.2020Разработка алгоритма формирования информационных образов электронных текстовых документов, включающий механизм сокращения признаков, основанный на подходе к оценке тематической значимости признаков документов. Нейросетевой анализ коллекции документов.
автореферат, добавлен 31.07.2018История развития теории алгоритмов, роль алгоритма в связи с появлением компьютеров и развитием вычислительной математики. Бинарный алфавит, регулярные выражения, языки программирования. Формализация понятия вычислимости, частично вычислимые функции.
учебное пособие, добавлен 19.02.2013Применение процедур локальной аппроксимации для решения задачи классификации траекторий на основе критериев точечного сходства. Представление рядов в виде матричных наборов данных и применение алгоритма нечетких средних для их дальнейшей кластеризации.
статья, добавлен 27.02.2019Назначение текстовых редакторов. Ввод и редактирование текста. Способы создания документов. Выбор параметров страницы. Вставка изображений, формул и других объектов в документ. Копирование, перемещение и удаление фрагментов документа. Поиск и замена.
реферат, добавлен 15.12.2013Разработка информационной системы для заданной предметной области с использованием заданных структур данных и алгоритмов. Характеристика алгоритмов и структуры данных. Рассмотрение описания программы. Определение алгоритма поиска слова в тексте.
курсовая работа, добавлен 15.11.2017Изучение методов работы и взаимодействия с базами данных. Рассмотрение алгоритма Рабина–Карпа для определения плагиата. Разработка программы для оценки схожести текстов, методика ее использования. Тестирование программы с помощью набора тест-кейсов.
курсовая работа, добавлен 10.12.2016Определение задачи оптимального представления текстовых документов на заключительном этапе функционирования информационно-поисковой системы. Характеристика основных преимуществ использования алгоритма Куна в составе автоматических поисковых серверов.
статья, добавлен 26.04.2017Изучение свойств, характеристик и способов задания алгоритма. Рассмотрение линейных, разветвляющихся и циклических вычислительных процессов. Описание работы с пакетами обработки текстовых документов. Ознакомление с устройствами ввода информации.
контрольная работа, добавлен 01.02.2014Рассмотрение основных видов и способов описания алгоритмов. Примеры блок-схем алгоритмов. Основные свойства алгоритмов. Изучение системы команд исполнителя алгоритма. Возможности и обязанности исполнителя алгоритма. Примеры решения задач по алгоритму.
презентация, добавлен 19.06.2024Разработка метода аналитического определения максимального порядка контекста для алгоритмов контекстного моделирования. Теоретическое определение условной энтропии при увеличении порядка контекста. Расчет максимального порядка контекста алгоритма РРМ.
статья, добавлен 22.01.2018Основная идея алгоритма муравьиного алгоритма - моделирование поведения колонии муравьев. Разработка программы, реализующей модифицированную модель муравьиного алгоритма. Адаптация муравьиного алгоритма к различным графовым задачам, его эффективность.
статья, добавлен 19.01.2018Исследование средств и языков описания алгоритмов. Определение понятия алгоритма, специфика его свойств и способы записи. Общая структура линейного и разветвленного алгоритма в виде блок-схемы. Особенности классификации и язык описания алгоритма.
реферат, добавлен 09.09.2010Виды, свойства и способы описания алгоритма. Формат числа в Microsoft Excel. Копирование значений и удаление форматов. Перечень условных обозначений, наиболее часто используемых для представления алгоритмов в графической форме. Способ вызова окна.
контрольная работа, добавлен 05.06.2021История происхождения термина "алгоритм". Определение понятия "алгоритм" в математике и информатике. Понятие алгоритма в современном мире, его основные виды, свойства. Формы записи алгоритмов. Особенности графического способа записи алгоритма: блок-схема.
реферат, добавлен 23.03.2016Исследование результатов работы программного продукта, использующего разработанный алгоритм. Модели генетических алгоритмов и их создание. Разработка программного продукта на основе спроектированного алгоритма. Список профессий, подходящих пользователю.
дипломная работа, добавлен 14.12.2019Математические методы анализа алгоритмов. Измерение эффективности алгоритмов, нахождение существенных различий. Быстродействие алгоритмов, степень роста временных затрат. Определение порядка алгоритма. Скорость роста некоторых функций, их свойства.
реферат, добавлен 27.03.2009Применение генетических алгоритмов (ГА), эффективных при решении задач оптимизации, их преимущества и недостатки. Процесс настройки и контроля параметров конкретного ГА, его влияние на эффективность решения задачи. Результаты тестирования алгоритмов.
статья, добавлен 29.04.2018Понятие алгоритмов, их свойства (дискретность, понятность, определенность, массовость, конечность, результативность). Исполнитель алгоритма, его характеристики (среда, элементарные действия, система команд, отказы). Типы алгоритмов и способы их описания.
презентация, добавлен 19.11.2012Рассмотрение общей схемы алгоритма кластеризации семантических дескрипторов, необходимого для анализа данных, представленных в виде текстов на естественном языке. Влияние различных параметров алгоритма на общую схему работ и перспективы развития подхода.
статья, добавлен 28.01.2020Изучение работы нечеткой системы типа синглтон. Оценка работоспособности алгоритма идентификации рядом имитационных экспериментов с изменением параметров алгоритма. Сравнительный анализ полученных результатов с аналогами на примере муравьиной колонии.
статья, добавлен 18.01.2018RC4 как один из широко распространенных алгоритмов потокового шифрования. Сущность, строение и описание алгоритма. Генератор ключевого потока RC4 и алгоритм инициализации. Исследования Руза и восстановление ключа из перестановки, манипуляция битами.
реферат, добавлен 24.03.2011Метод поиска MDS матриц на основе сопровождающих матриц. Экспериментальная оценка числа различных миноров для матрицы размером 13х13. Сравнение числа встречаемости дубликатов для матриц размера nхn. Метод поиска MDS матриц на основе кодов Рида-Соломона.
курсовая работа, добавлен 17.07.2020Обзор существующих методов сравнения гистограмм, анализ их лавных преимуществ и недостатков. Исследование механизмов и приемов, помогающих в устранении рассмотренных недостатков. Принципы определения сходства изображений на основе сравнения гистограмм.
статья, добавлен 18.12.2017