Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные системы и технологии на предприятиях

Интеллектуальные технологии Text Mining

Разработаны на основе статистического и лингвистического анализов, а также методов искусственного интеллекта, технологии Text Mining предназначены для проведения анализа, обеспечения навигации и поиска в неструктурированных текстах. Применяя системы класса Text Mining, пользователи приобретают новых знаний.

Технологии Text Mining - набор методов, предназначенных для получения информации из текстов на основе современных ИКТ, что дает возможность выявить закономерности, которые могут приводить к получению полезной информации и новых знаний пользователями.

Это инструмент, который дает возможность анализировать большие объемы информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений.

Следует отметить, что технологии анализа текста исторически предшествовало создание технологии анализа получения данных, методология и подходы которой широко используются также в методах Text Mining, например, методы классификации или кластеризации. В Text Mining появились новые возможности: автоматическое реферирование текстов и выявление феноменов, то есть понятий и фактов. Возможности современных систем Text Mining могут применяться в системах управления знаний для выявления шаблонов в тексте, для распределения информации по профилям, создание обзоров документов. Text Mining обеспечивает новый уровень семантического поиска документов.

Важный компонент технологии Text Mining связан с извлечением из текста его характерных свойств, которые затем используют как ключевые слова, аннотации. Другая важная задача заключается в отнесении документа к определенным категориям с заданной схемы систематизации. Основная цель Text Mining - на-

дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса получения нужной информации.

Основные элементы Text Mining:

1) получение феноменов - Feature (Entity) Extraction - извлечение слов или групп слов, которые с точки зрения пользователя важны для описания содержания документа. Это могут быть сведения о персоны, организации, географические места, сроки или другие словосочетания - Feature (Entity) Association Extraction - более сложные наборы слов с технологической точки зрения;

2) автоматическое реферирование, аннотирование (Summarization)

- построение краткого содержания документа с его полным текстом;

3) классификация (Classification), в которой используются статистические корреляции для построения правил размещения документов в предусмотренные категории;

4) кластеризация (Clustering), что основывается на признаках документов, использует лингвистические и математические методы без применения предусмотренных категорий;

5) ответы на вопросы (question answering);

6) тематическое индексирование;

7) поиск по ключевым словам;

8) построение семантичної.мережі или анализ связей (Relationship, Event and Fact Extraction), определяющие появление дескрипторов (ключевых фраз) в документе для обеспечения поиска и навигации. Это самый сложный вариант получения информации, что включает извлечения сути, распознавание фактов и событий, а также извлечения информации из этих фактов. Получение фактов

- это получение определенных фактов из текста с целью улучшения классификации, поиска и кластеризации.

Для методов классификации в настоящее время применяют интеллектуальные механизмы оптимизации процесса классификации. Классификация применяется, например, для решения таких задач, как группировка документов в сетях предприятий, на Web-сайтах, сортировка сообщений электронной почты.

Кластеризация широко применяется при реферуванні больших информационных массивов или определении взаимосвязанных групп документов, а также для упрощения процесса просмотра при поиске необходимой информации, для нахождения уникальных документов из коллекции, для выявления дубликатов или очень близких по содержанию документов.

Различают два основных типа кластеризации: иерархическая и бинарную. Иерархическая кластеризация заключается в построении дерева кластеров, в каждом из которых размещается небольшая группа документов. Бинарная кластеризация обеспечивает группировки и просмотра документальных кластеров по принципу сходства. В один кластер размещаются похожи по своим свойствам документы. В процессе кластеризации строится базис ссылкам от документа к документу, что основывается на весах и совместном использовании ключевых слов.

Одно из важных применений Text Mining позволяет предусматривать по значениям одних признаков объектов значения других. Нахождение исключений (поиск объектов, которые своими характеристиками выделяются из общей картины) - также важное направление исследований Text Mining.

Задача поиска связанных признаков (понятий) отдельных документов подобна кластеризации, но выполняется по определенной совокупностью характерных признаков.

Современные системы класса Text Mining могут осуществлять анализ больших массивов документов и формировать предметные указатели понятий и тем, освещенных в этих документах.

Начиная с 60-х годов, с появлением средств автоматизации и текстов в электронном виде, получил развития контент-анализ информации с большими объемами. Под Data Mining, с точки зрения контент-анализа, понимают механизм выявления в потоке данных новых знаний, таких как модели, конструкции, ассоциации, изменения, аномалии и структурные новообразования.

Контент-анализ - это качественно-количественная, систематическая обработка, оценка и интерпретация формы и содержания текста.

в настоящее время используется несколько подходов к представлению Информации в базах данных для обеспечения дальнейшего поиска этой информации. Наиболее распространенные подходы - булева и векторно-пространственная модели поиска.

Булева модель базируется на теории множеств, и, следовательно, является моделью информационного поиска, базирующейся на математической логике. Сейчас популярно объединение булевой с векторно-пространственной модели алгебры представления данных, что обеспечивает, с одной стороны, быстрый поиск с использованием операторов математической логики, а с другой стороны - ранжирование документов, базируется на весах ключевых слов.

При использовании булевой модели база данных включает индекс, организуется в виде инвертированного массива данных, в котором для каждого терма из словаря базы данных содержится список документов, в которых этот терм встречается.

В индексе могут храниться также значение частоты вхождения этого терма в каждом документе, что помогает сортировать список по убыванию частоты вхождения.

Большинство известных информационно-поисковых систем и систем классификации информации основываются на использовании векторной модели описания данных (Vector Space Model). Векторная модель является классической моделью алгебры. В рамках этой модели документ описывается вектором в евклидовом пространстве, в котором в каждом документе для терму ставится в соответствие его весовой коэффициент, который определяется на основе статистической информации о его вхождении в отдельном документе или в документальном массиве. Описание запроса, который соответствует заданной тематике, также является вектором в том же евклидовом пространстве термов. Для результата оценки близости запроса и документа используется скалярное произведение соответствующих векторов описания тематики и документа.

Векторно-пространственная модель представления данных автоматически обеспечивает системам такие возможности: обработка больших запросов; простая реализация режима поиска документов, подобных найденным; сохранение результатов поиска в информационном массиве с последующим уточняющим поиском.

На практике, однако, чаще всего используются комбинированные подходы, в которых объединены возможности булевой и векторно-пространственной модели и добавлены оригинальные методы семантической обработки информации. Чаще всего в информационно-поисковых системах процедура поиска осуществляется в соответствии с булевой модели, а результаты ранжируются по весам согласно модели векторного пространства.

в настоящее время известно немало производителей программного обеспечения, которые предлагают свои продукты и решения в области Text Mining.

Это масштабируемые системы, в которых реализованы различные математические и лингвистические алгоритмы анализа текстовых данных и имеют дружественные графические интерфейсы, возможности визуализации и манипулирования данными, предоставляют доступ к различным источникам данных и функционируют в архитектуре клиент - сервер. Например, Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp.), Oracle Text (Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, Inf oStream (ElVisti).

Современные системы поиска информации определяются, исходя из двух основных тенденций: обработки знаний и применение открытых систем. Именно на пересечении этих направлений возникли агентні технологии. Активное развитие методов и технологий распределенного искусственного интеллекта, достижения в области аппаратных и программных средств поддержки концепции разделенности и открытости вызвали развитие мультиагентных систем, в которых программные агенты совместно решают сложные задачи в информационном пространстве.

Способность программных агентов автономно планировать и координировать свои действия, вести переговоры с другими распределенными приложениями в сложной гетерогенной информационной среде, гибко и интеллектуально принимать решения в динамично изменяющихся и непредсказуемых ситуациях приводит к тому, что агентно-ориентированные технологии становятся одной из ключевых технологий обработки информации.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее