Определение текстовых заимствований и нечетких дубликатов на основе алгоритма шинглов

Поиск дубликатов и плагиата среди веб-страниц, как одно из главных направлений сравнения текстов. Алгоритм шинглов, как один из эффективных алгоритмов определения сходства документов на предмет заимствования. Удаление частично измененного копипаста.

Подобные документы

  • Анализ алгоритмов поиска и сортировки информации. Обзор основных методов использования алгоритмов сортировки и поиска на алгоритмическом программировании высокого уровня. Сортировка простым выбором или обменом. Сортировка Шелла. Последовательный поиск.

    курсовая работа, добавлен 04.08.2013

  • Характеристика главных концепций построения вычислительных систем. Анализ основных положений и определения методологии решения сложных задач. Изучение пакета прикладных программ MS Office, табличного хранения данных и подготовки текстовых документов.

    курсовая работа, добавлен 28.10.2010

  • Совокупность теоретических основ, методов, алгоритмов, процедур и программных средств, базирующихся на использовании нечетких знаний и оценок экспертов для решения широкого круга задач. Проблемы создания вычислительной системы на основе нечёткой логики.

    статья, добавлен 20.04.2019

  • Основные современные методы шифрования. Применение алгоритмов, основанных на сложных математических преобразованиях исходного текста. Рассмотрение требований, предъявляемых к системе шифрования. Поиск эффективных средств повышения стойкости шифрования.

    статья, добавлен 30.03.2019

  • Алгоритм как последовательность действий, приводящая к решению поставленной задачи за конечное число шагов. Свойства алгоритма, его описание на естественном языке. Способы задания алгоритмов, стандарты графических изображений функциональных блоков.

    контрольная работа, добавлен 20.04.2011

  • Интеллектуальный анализ данных, группировка схожих документов в отдельные кластеры. Проведение исследований по кластеризации текстовых данных: предварительная обработка, векторизация, запуск алгоритма машинного обучения и оценка качества разбиения.

    дипломная работа, добавлен 30.06.2017

  • Онтологическая модель поисковой системы. Алгоритм нахождения набора документов, который удовлетворяет запросу пользователя, на основе грубых множеств Павлака. Определение точности аппроксимации. Структура онтологии семантического проектного репозитория.

    статья, добавлен 18.01.2018

  • Определение способа ввода входной информации. Определение самого короткого цикла в графе. Обход графа в глубину. Определение кратчайшего пути из заданной вершины во все остальные. Построение минимального остового дерева с помощью алгоритма Прима.

    лабораторная работа, добавлен 24.07.2012

  • Исследование существующих алгоритмов и программного обеспечения для генерации искусственных биометрических образов. Разработка алгоритма генерации искусственных отпечатков пальцев на основе преобразования Габора и его экономико-правовое обоснование.

    дипломная работа, добавлен 22.07.2014

  • Слово как основа морфологической единицы текстового сообщения. Анализ способа повышения эффективности сжатия текстовых сообщений на основе контекстного моделирования, рассмотрение основных особенностей. Проблемы определения весовых коэффициентов.

    контрольная работа, добавлен 13.08.2013

  • Исследования и развитие спектрального метода. Поиск методов сокращения времени выбора эффективных целевых функций (ЦФ) оптимизационных задач. Взаимосвязь между сложностью поиска оптимального решения ЦФ при помощи генетических алгоритмов и её ландшафтом.

    статья, добавлен 17.01.2018

  • Понятие алгоритма и способы его записи (словесный, графический, программный). Блок-схема как графическое представление алгоритма. Его структурные элементы: следование, ветвление, цикл. Программный способ записи и описание алгоритмов на языке VBA.

    реферат, добавлен 14.05.2015

  • Создание web-проектов на языке C# в среде MS Visual Studio. Структура файла в Asp Net Razor. Модели для кодирования веб-страниц. Определение свойства или события функциональных элементов (например, кнопки, текстовых полей). Рабочая область Visual Studio.

    контрольная работа, добавлен 15.04.2024

  • Система визуального эвристического кластерного анализа Visual HCA. Описание работы алгоритмов классификации текстов и отбора слов в словари. Автоматизированная переработка текстов в современной библиотеке как перспективное направление развития ИРБИС.

    диссертация, добавлен 28.12.2013

  • Изучение современных алгоритмов обнаружения и распознавания лиц на изображении для разработки приложения микро-сервиса для распознавания личности на основе фотографии лица с использованием алгоритмов машинного обучения. Описание процесса разработки.

    дипломная работа, добавлен 04.12.2019

  • Анализ алгоритмов построения траектории движущихся объектов на основе сегментации видеоданных. Разработка методов сжатия за счет новых алгоритмов интерполяции отсчетов сигнала и исследование их эффективности. Построение модели кодека программы.

    автореферат, добавлен 31.07.2018

  • Персонализация окружающих устройств в форме компьютерного обучения. Оптимизаторы на основе эволюционных алгоритмов. Анализ исследования пригодности эволюционных алгоритмов для "окружающего интеллекта". Способы создания кооперации между устройствами.

    статья, добавлен 12.01.2018

  • Возможности построения нечетких графовых моделей. Определение причин использования нечетких категорий. Источники информации в среде геоинформационной системы. Процедура генерализации при построении карт. Представление картографической информации в ГИС.

    статья, добавлен 19.01.2018

  • Рассмотрение истории происхождения алгоритма. Описание принципов арифметических действий. Свойства алгоритмов, позволяющие отличать их от других последовательностей действий. Сущность линейных, циклических, разветвляющих и вспомогательных алгоритмов.

    статья, добавлен 05.04.2019

  • Разработка модуля, выполняющего поиск ассоциативных правил по алгоритму AprioriTid. Описание алгоритма и составление листинга программы. Создание простого и понятного пользовательского интерфейса пользователя. Тестовый пример разработанного продукта.

    курсовая работа, добавлен 29.11.2013

  • Требования к функционалу программной реализации, предварительная обработка текстовых данных. Программная реализация, описание логической структуры. Зависимость качества от числа авторов и от объёма текстов. Особенности и значение индексации документов.

    курсовая работа, добавлен 05.08.2018

  • Пример фрагмента алгоритма, описанного с помощью блок-схемы. Внешний вид описания оператора безусловного перехода. Создание программы для подсчета количества четных чисел среди трех данных. Свойства выражения-селектора в структуре оператора выбора.

    лекция, добавлен 13.03.2014

  • Технология Semantic Web. Построение онтологии, формирование словаря без централизованного управления. Проблемы навигации в сети. Разработка алгоритмов ранжирования объектов Semantic Web на трех уровнях детализации: документов, терминов и RDF графов.

    статья, добавлен 26.05.2017

  • Выбор алгоритма, решающий задачу Штейнера большой размерности с низкой погрешностью за приемлемое время. Сущность треугольной и трапецеидальной функция принадлежности. Корректировка параметров функции принадлежности. Разработка автомата адаптации.

    статья, добавлен 29.05.2017

  • Понятие операционной системы, анализ ее задач. Поиск наиболее эффективного алгоритма как главная задача в планировании процессов и потоков. Классификация алгоритмов планирования. Различие между реализацией потоков на уровне пользователя и на уровне ядра.

    курсовая работа, добавлен 03.12.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу и оценить ее, кликнув по соответствующей звездочке.