О поиске сходства интернет-документов с помощью частых замкнутых множеств признаков

Исследование применения алгоритмов Data Mining для поиска кластеров дубликатов с использованием синтаксических и лексических методов составления образов документов. Программная реализация и компьютерные эксперименты. Способ выбора параметров методов.

Подобные документы

  • Разработка генетической топологии поиска нейросетевых моделей, ее программная реализация в составе моделирующей системы. Апробация топологии на актуальной задаче. Изучение методов совместного использования генетических алгоритмов и нейронных сетей.

    автореферат, добавлен 02.05.2018

  • Поиск дубликатов и плагиата среди веб-страниц, как одно из главных направлений сравнения текстов. Алгоритм шинглов, как один из эффективных алгоритмов определения сходства документов на предмет заимствования. Удаление частично измененного копипаста.

    статья, добавлен 19.02.2019

  • Понятие термина Data Mining, его история возникновения. Понятие искусственного интеллекта. Сравнение статистики, машинного обучения и Data Mining. Развитие технологии баз данных начиная с 1960-х г. Data Mining как часть рынка информационных технологий.

    реферат, добавлен 14.01.2015

  • Значение понятия "скрытые знания". Определение сути методов Data mining. Язык запросов к базам данных. Выявление возможностей для создания, изменения и извлечения хранимых данных. Data mining и искусственный интеллект. Задачи кластеризации и ассоциации.

    контрольная работа, добавлен 14.04.2014

  • Разработка алгоритма формирования информационных образов электронных текстовых документов, включающий механизм сокращения признаков, основанный на подходе к оценке тематической значимости признаков документов. Нейросетевой анализ коллекции документов.

    автореферат, добавлен 31.07.2018

  • Технологии извлечения знаний Data Mining. Сравнение формулировок задач при использовании методов OLAP и Data Mining. Выявление мошенничества с кредитными карточками. Подходы к определению понятия "информационная система", многообразие элементов системы.

    контрольная работа, добавлен 19.08.2011

  • Задача анализа данных и распознавания образов. Функция конкурентного сходства (FRiS). Модификация с использованием локального спуска. Коммерческое использование алгоритмов. Идентификации классов объектов по характерным для них свойствам или признакам.

    курсовая работа, добавлен 27.11.2013

  • Methods, tools and applications of Data Mining. Basic concepts of data warehouses and the place of Data Mining in their architecture. The process of data analysis using this technology, its stages. Analytical software market, product data capabilities.

    статья, добавлен 30.10.2020

  • Применение методов классификации, моделирования и прогнозирования, основанных на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования. Задачи и возможности Data Miner в Statistica 8.

    реферат, добавлен 19.12.2014

  • Анализ методов и моделей интеллектуального анализа данных. Модификация методов и алгоритмов распознавания текста и лица. Значение программного обеспечения для решения задачи распознавания текстов и лиц. Режим работы программного обеспечение "DPro".

    диссертация, добавлен 24.05.2018

  • Осуществление исследования набора данных с целью отыскивания скрытых закономерностей на стадии свободного поиска. Особенность определения шаблонов с помощью системы Data Mining. Действия прогностического моделирования. Проведение анализа исключений.

    доклад, добавлен 15.01.2016

  • Метод биоинформатики для изучения данных генной экспрессии, опирающийся на свойства решеток замкнутых множеств. Реализация эффективного алгоритма поиска бикластеризации объектно-признаковых данных для бинарных данных. Исследование его сложности.

    статья, добавлен 18.01.2018

  • Особенности основных направлений методов web mining. Классификация с обучением: деревья решений, нейронные сети и метод Naive Bayes. Варианты модификация работы алгоритма ID3 с деревьями решений. Проведение расчета среднего процент ошибок классификации.

    статья, добавлен 14.01.2017

  • Изучение вопроса организации поиска информации в сети Интернет. Рассмотрение основных методов и средств поиска информации. Расширенные возможности обычного поиска поисковой системы Google. Разработка поисковых машин и алгоритмов поиска информации.

    статья, добавлен 17.07.2018

  • Історія формування Data Mining, її головні завдання. Порядок формулювань завдань при використанні методів OLAP і Data Mining. Рівні знань, видобутих з даних. Характеристика основних бізнес-додатків: роздрібна торгівля, телекомунікація, страхування.

    реферат, добавлен 30.04.2014

  • Мета технології Data Mining - знаходження в даних закономірностей, які не можуть бути знайдені традиційними методами. Види моделей (предиктивні та описові). Використання методів й алгоритмів Data Mining для побудови моделей. Класифікація стадій та фаз.

    реферат, добавлен 22.07.2017

  • Методы автоматизированного неразрушающего контроля в рамках задачи кластеризации данных по применению коротковолнового электромагнитного излучения при дефектоскопии. Методы исследования: самоорганизующиеся карты Кохонена в рамках Data Mining подхода.

    статья, добавлен 11.11.2018

  • Постановка задачи оптимизации о нахождении экстремума вещественной функции в некоторой области. Изучение методов многомерной оптимизации, описание градиентных и безградиентных методов. Программная реализация одного из алгоритмов многомерной оптимизации.

    курсовая работа, добавлен 26.06.2011

  • Ознакомление с процессом решения задачи размещения слова в словаре, используя правила составления стандартного словаря с помощью языка программирования Delphi. Определение сущности двоичного дерева поиска. Анализ упорядоченности двоичного дерева.

    контрольная работа, добавлен 20.12.2015

  • Описан состав и функциональные возможности компьютерных систем подготовки текстовых документов, их редактирование и форматирование. Использование пользовательских и системных шаблонов, стилей, методов ввода и языка, установка параметров абзацев и пр.

    реферат, добавлен 09.04.2014

  • Исследование методов одномерного поиска и влияния параметров алгоритмов на их эффективность. Анализ особенностей решения задач оптимизации с использованием методов многомерной и условной оптимизации. Особенности решения задач линейного программирования.

    методичка, добавлен 21.10.2015

  • Обзор и характеристика информационных ресурсов глобальной сети Интернет. Типология методов поиска информации во всемирной сети. Технология поиска с использованием поисковых машин. Актуальность овладения пользовательскими инструментами и техникой поиска.

    реферат, добавлен 01.04.2011

  • Поняття інтелектуального аналізу даних (Data Mining), їх розвідка. Виникнення і розвиток Data Mining. Сутність та мета технології. Етапи розв'язування задачі класифікації та регресії. Пошук асоціативних правил. Особливості кластеризації об'єктів.

    реферат, добавлен 09.07.2017

  • Обзор методов и алгоритмов работы интерпретатора языка МИЛАН. Грамматика модифицированного языка в виде диаграмм Вирта. Описание лексического анализатора и интерпретатора модифицированного языка МИЛАН. Программная реализация и тестирование интерпретатора.

    курсовая работа, добавлен 19.05.2015

  • Исследование графена и задачи теории перколяции. Анализ методов нахождения замкнутых контуров на графе. Алгоритмы нахождения замкнутых контуров на графе. Реализация метода для определения замкнутых областей на поверхности четырех и шестиугольной решеток.

    курсовая работа, добавлен 10.01.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу и оценить ее, кликнув по соответствующей звездочке.