Выделение ключевых слов для классификации текстов
Построение матрицы TF-IDF для классификации текстов по обозначенным категориям. Процесс преобразования исходных текстов для сокращения количества уникальных словоформ и получения списка ключевых термов: лемматизация, стемминг, удаление стоп-слов.
Подобные документы
Особенности перевода юридических текстов, а также основные трудности грамматического и лексического характера, с которыми сталкиваются начинающие переводчики. Различия правовых систем как один из ключевых факторов, осложняющих работу переводчика.
статья, добавлен 28.01.2019Раскрытие специфического аспекта перевода маркетинговых материалов как текстов с высокой эмоциональной нагрузкой, направленностью на реципиента. Алгоритм работы с ключевыми словами с предварительным анализом прилагательных, выступающих в функции эпитетов.
статья, добавлен 10.04.2014Исследование особенностей текстов в политическом дискурсе немецкого языка. Закономерности выбора говорящим определенного набора языковых средств. Признаки ключевых слов, используемых в текстах политического дискурса. Изучение функционирования эвфемизмов.
статья, добавлен 26.01.2019Ориентация переводных текстов первой половины XIX века на носителей отдельных удмуртских говоров. Отличия переводных текстов от устной речи на исходных базовых диалектах. Переводы религиозных текстов с русского и крещено-татарского языков на удмуртский.
статья, добавлен 26.05.2022Общая характеристика ключевых проблем обработки естественного языка с использованием вычислительной техники. Рассмотрение основных особенностей классификации древнетибетских текстов с помощью методов спектрального анализа. Сущность понятия "атрибуция".
курсовая работа, добавлен 02.12.2018Указание ключевых слов как требование современного оформления статей в научных журналах. Программа выделения тематически маркированной лексики "ProTeMaL" - один из наиболее распространенных инструментов для обработки текстов с целью получения маркем.
статья, добавлен 18.11.2020Анализ слоговой структуры морфа в русском языке, ее зависимость от грамматических тенденций, семиологического класса слов и вида морфемы. Влияние слогового строения морфа на особенности и отличия русского научного, разговорного и художественного текстов.
статья, добавлен 09.04.2021Процесс и механизм воспроизводства деятельности. Поступательное движение в прозаическом тексте. Ослабление точности слов и частое их употребление в переносных значениях. Устойчивые образы, типичные и хорошо узнаваемые изображения окружающих объектов.
статья, добавлен 25.06.2013Исследование лексического аспекта текстов корпуса корякского фольклора. Исконная и заимствованная лексика, частотные лексемы, слова и сочетания слов в их выразительной функции. Частотность лексических средств текстов корпуса корякского фольклора.
статья, добавлен 12.12.2018Значение различения омографов в научной речи для классификации частей речи при составлении корпусов текстов и автоматических баз терминов. Анализ основных понятий, свойств и задач корпусной лингвистики и этапов создания электронного корпуса текстов.
статья, добавлен 10.01.2019Определение роли и обоснование необходимости изучения и классификации текстов, обслуживающих сферы медицины и фармации. Комплексное рассмотрение лекарственных инструкций как пограничных текстов, относящихся одновременно к сфере медицины и фармации.
статья, добавлен 01.11.2018Особенности использования английских слов или слов англоязычного происхождения в компьютерном дискурсе. Сокращения и аббревиатуры, характерные для лексического оформления текстов компьютерного дискурса. Специфика компьютерного общения на русском языке.
статья, добавлен 28.01.2019Понятие "мерцающая стилистическая окраска", теоретическое обоснование термина. Влияние окрасок на переход слов из одного лексического пласта поэтического языка в другой в ходе лексико-стилистического анализа (на материале текстов американских блюзов).
статья, добавлен 10.01.2019Исследование предельно малых текстов, представленных в формате "пустой книги". Обзор "пустых книг" в рамках классификации предельно малых текстов, предложенной А. Кондратовым (в соответствии с которой они бывают двух видов: "нулевые" и "пустотные").
статья, добавлен 26.01.2019Анализ подхода к автоматическому построению списка словосочетаний по корпусу выровненных параллельных текстов (текстов и их переводов, сопоставленных по предложениям). Особенности получения словосочетаний для улучшения работы синтаксического анализатора.
статья, добавлен 18.01.2018Возможности системы Google Books Ngram Viewer. Массивы размеченных текстов. Особенности сервиса и представления графиков. Лингвистические особенности системы. Набор пользовательских тэгов. Операции над кривыми графиков. Переносы и сокращения слов.
статья, добавлен 21.08.2015Леммы как ключевые формы слов с указанием основы. Рассмотрение проблем обработки и составления алгоритма, в ходе которого генерируется совокупность словоформ для слов, отсутствующих в словаре. Знакомство с основными подходами к морфологическому анализу.
статья, добавлен 28.08.2018Изучение типологии ключевых принципов, определяющих дискурсивные характеристики текстов сферы туризма, на материале анализа аутентичных текстов на английском языке. Рассмотрение специфики статуса переводчика как проводника межкультурной коммуникации.
статья, добавлен 20.01.2019Изучение индивидуального лексикона писателей по данным их художественных текстов и психолингвистических экспериментов. Сопоставление авторского поведения, реализованного в художественных произведениях, и обыденного сознания автора художественного текста.
статья, добавлен 29.04.2021Исследование проблемы использования аутентичных текстов на уроках английского языка, суть которой заключается в трудности перевода данных текстов. Характеристика специфики аутентичных текстов с различными грамматическими и лексическими особенностями.
статья, добавлен 21.06.2020Рассмотрение основных особенностей перевода английских технических текстов на русский. Изучение и характеристика способов достижения эквивалентности и адекватности при переводе. Исследование отличительной черты текстов технической направленности.
статья, добавлен 22.01.2016Гендерные исследования в лингвистике. Закономерности порождения вторичного текста. Сравнение семантических и физических параметров формообразования вторичных текстов с учетом гендерной принадлежности их авторов. Плотность распределения ключевых слов.
автореферат, добавлен 27.06.2018Анализ особенностей композиционного строения текстов сертификатов. Отличительные особенности текстов сертификатов соответствия. Организация, семантический потенциал, условия функционирования и принципы формирования структуры текстов сертификатов.
дипломная работа, добавлен 09.06.2014Сущность и понятие "наружного рекламного текста", его классификация. Анализ использования лексических, морфологических и стилистических средств при составлении наружных рекламных текстов. Значение слов в рекламе, употребление частей речи в текстах.
статья, добавлен 20.01.2018Слова и культуры. Взаимосвязь частотности слов и культуры. Ключевые слова и ядерные ценности культуры. Проблема понимания культур через посредство ключевых слов. Лингвистические и концептуальные универсалии. Элементарные смыслы и лексические универсалии.
курсовая работа, добавлен 09.08.2009