Основные этапы обработки текста и генерации признаков в задачах текстовой классификации
Этапы проведения обработки текстовых признаков в задачах интеллектуального анализа данных. Процедура генерации информативных факторов. Операции стемминга, формирования мешка слов, формирования статистики TF-IDF. Методы сокращения пространства признаков.
Подобные документы
Обзор истории возникновения программных средств обработки текста. Классификация программного обеспечения. Основные функции текстового редактора MS WORD. Форматы текстовых файлов. Особенности форматирования и редактирования текста, формирования списков.
курсовая работа, добавлен 27.04.2013- 2. Система комплексного анализа русскоязычных текстовых сообщений на платформе IBM InfoSphere Streams
Анализ методов предварительной обработки текстовых сообщений, способов классификации и кластеризации. Программы определения тональности текста. Представление текста в виде дерева синтаксического разбора. Разработка системы анализа текстовой информации.
магистерская работа, добавлен 09.07.2016 Изучение необходимости автоматизирования существующих систем анализа видеопотока и уменьшение влияния человеческого фактора на работоспособность этих систем. Исследование возможностей алгоритмического формирования признаков в реальном масштабе времени.
статья, добавлен 19.06.2018Сущность понятия данных, этапы (формирование, накопление, систематизация и др.) их технологического процесса обработки. Основные носители данных (бумага, диски и др.), возможные операции с ними. Универсальная система кодирования текстовой информации.
реферат, добавлен 13.04.2015Рассмотрение основных признаков классификации компьютерных сетей. Определение задач формирования сети. Введение в динамическое содержание Web-страниц. Основные характеристика клиентской программы MySQL. Этапы получения информации через базы данных.
контрольная работа, добавлен 22.09.2015Описание алгоритмов кластеризации, реализующих задачу поиска изображений по содержанию –Content-Based Image Retrieval. Определение признаков изображения, по которым формируются кластеры изображений и рассмотрение способов извлечения данных признаков.
статья, добавлен 29.07.2017Задача факторного анализа в транзакционных базах данных. Извлечение правил из заданных баз транзакций, получение оценки эквивалентности термов признаков. Исключение избыточных признаков. Сокращение пространства поиска и уменьшение времени анализа.
статья, добавлен 30.08.2016Анализ условий применения упрощенного метода анализа иерархий к получению весовых коэффициентов признаков при большой размерности признакового пространства. Обсуждение способов формирования матрицы парных сравнений, упрощающих процедуры вычислений.
статья, добавлен 16.01.2018Существующие методы аугментации тренировочных данных в задаче классификации, их сравнительная характеристика и особенности применения. Порядок проведения экспериментов по аугментированию с помощью различных подходов. Их сравнение с методом EDA.
дипломная работа, добавлен 20.08.2020Особенности интеллектуальной обработки информации в системах компьютерного зрения. Описание метода формирования сжатого структурного описания на основе грануляции значений признаков. Снижение вычислительных затрат и сокращение числа ложных соответствий.
статья, добавлен 30.08.2016Технологии и методы интеллектуального анализа данных. Этапы процесса интеллектуального анализа. Задачи, которые решает Data mining. Концепция методов кластерного анализа. Вещественно-значные, бинарные, номинальные, порядковые переменные и их значимость.
статья, добавлен 28.01.2019Разделимость описаний объектов из разных классов - метод успешного решения задачи классификации. Применение эволюционного подхода для преобразования входного пространства признаков с целью повышения вероятности обучения искусственной нейронной сети.
статья, добавлен 19.01.2018Интеллектуальная система "Эйдос" как программный инструментарий автоматизированного системно-когнитивного анализа. Описание основных компонентов экранной формы режима генерации сочетаний признаков и декодирования обучающей и распознаваемой выборки.
статья, добавлен 20.10.2018Использование компьютерных технологий для разработки средств сбора медицинской информации. Введение в узорные структуры. Выявление признаков, характеризующих отсутствие осложнений после проведения операции дренирования. Описание интерфейса программы.
курсовая работа, добавлен 18.11.2017Основные подходы к сбору и обработке текстовых данных. Подходы к очистке табличных текстовых данных. Скрапинг веб-сайтов и работа с API. Реализация алгоритмов обработки данных ветеринарных сайтов. Сбор источников данных по рынку ветеринарных услуг Москвы.
дипломная работа, добавлен 07.12.2019Автоматизированное формирование первичного признакового пространства в виде временного ряда. Формализованное описание правил принятия решения. Алгоритмы выбора информативных признаков, опирающиеся на дискретные методы. Численная иллюстрация процедур.
статья, добавлен 18.01.2018Разработка универсальной рекомендательной системы. Реализация микросервисов автоматической обработки и интеллектуального анализа данных. Основные требования к модулю анализа для универсальной рекомендательной системы. Алгоритмы и методы решения задач.
дипломная работа, добавлен 01.08.2017Особенности технологий аналитической обработки данных, а именно OLAP и ИАД (интеллектуального анализа данных), а также их интеграция. Применение данных методов работы с разнородной информацией больших объемов, методы хранения и работы с большими данными.
статья, добавлен 27.02.2019Построение средств интеллектуального анализа данных для нечетких реляционных серверов. Задачи кластеризации и выявления зависимостей в форме нечетких продукций. Гибридный алгоритм использования нечеткой нейронной сети в качестве DM для реляционных данных.
статья, добавлен 17.01.2018Усовершенствованная процедура словарного шкалирования в применении к массиву описаний клинических признаков наследственных заболеваний соединительной ткани. Результаты, полученные при решении задачи интеллектуального анализа экспериментальных данных.
статья, добавлен 18.01.2018Проведение исследования основных признаков, характерных для баз данных. Проведение библиографического розыска и отбора документов для ввода в информационную модель. Порядок контроля и оценки программы. Анализ полнотекстового поиска в текстовых файлах.
контрольная работа, добавлен 20.08.2017Исследование применимости кривой Гильберта для обхода точек расчётной области в задачах цифровой обработки изображений на графических процессорах с поддержкой вычислений общего назначения. Алгоритм обработки изображений, применение Гауссова размытия.
статья, добавлен 27.07.2017Возможности текстовых процессоров. Текстовые редакторы: Word Pad, Word Perfect, Microsoft Word 6.0, Notepad++, Microsoft Word 2003. Этапы подготовки документа: ввод, редактирование, оформление, подготовка к печати, сама печать, диалоговый просмотр текста.
реферат, добавлен 03.05.2015Устройство и компоненты системы машинного (компьютерного) зрения. Изучение основных возможностей библиотеки OpenCV в задачах распознавания образов. Описание алгоритмов поиска, обработки и анализа изображений объектов методом сравнения их контуров.
дипломная работа, добавлен 07.08.2018Сущность и основные компоненты информационной технологии обработки данных. Банки данных, их особенности и этапы разработки. Применение и свойства базы данных. Логическая структура основных моделей баз данных. Функции системы управления базами данных.
реферат, добавлен 12.11.2011