Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии и моделирование бизнес-процессов

Назначение ботов

Когда объемы Интернет начали превышать несколько десятков сайтов, возникла задача поиска нужных данных без просмотра всей имеющейся информации. Начались разработки программ (ботов), автоматически просматривают Интернет: страница за страницей, идя по ссылкам на другие страницы.

Робот - программная система, получает информацию с Web-узлов, используя стандартные протоколы Интернет

Первые работы были созданы для подсчета количества WWW-серверов, то есть для сбора статистической информации. Современные работы могут также подсчитывать другие параметры, например, среднее количество документов на один сервер, пропорцию заданных типов файлов, средний размер Web-сайта.

Одна из основных проблем поддержки Интернет возникает, когда не работают ссылки на другие страницы - в случае невнимательности разработчика узла, или страница была перемещена или уничтожено. Отметим, что на сегодняшний день не существует автоматического механизма, который сообщал бы разработчиков о таких изменениях. Соответственно, авторы узнают о неправильных ссылки (ссылки) на своих страницах, если заметят сами, или когда пользователи сообщат их по электронной почте.

Робот, проверяет ссылки, помогает разработчику найти так называемые "битые" адреса (ссылка на несуществующие страницы) и поддерживает сайт в рабочем состоянии. Работы могут поддерживать как структуру, так и содержание, проверяя правильность HTML-кода и регулярность обновления информации. Этот вид функциональности является встроенным в HTML редакторе, но работы могут повторять эти проверки при каждой модификации сайта. Подробнее структуру HTML-кода будет рассмотрен в третьей лекции.

Работы могут также обеспечить зеркальность - популярную технику для поддержки архивов в сервисе FTP (файлообменники). Зеркало содержит копию всего дерева каталогов FTP-сайта и регулярно обновляет те документы, которые прилагаются к оригинального сайта. Это позволяет уменьшить трафик к каждому из узлов, их загруженность и работать с архивом, если доступ к оригинальному серверу отсутствует.

Трафик - поток информации в канале связи. В другом значении используется для показателей популярности WEB-сайта -количество посетителей за определенный период времени

Существуют работы, формируют дерево каталогов WEB-узла и записывают его локально, однако они не имеют возможности обновлять ту информацию, которая изменилась - только могут записать все данные с сайта. Необходимость таких средств уменьшилась с появлением современных серверов, которые могут делать выборочное обновление.

Чаще роботов используют для поиска информации и ресурсов. Там, где люди не могут справиться с огромным количеством информации, компьютер осуществляет сортировку и поиск быстро и качественно. Поисковые работы просматривают данные на серверах и предоставляют доступ к собранной информации с помощью поисковой системы.

Пользователь может одновременно использовать просмотр и поиск для нахождения нужной информации. Даже если собранная роботом база данных не содержит именно ту информацию, которая нужна, вероятно в ней найдутся страницы с нужными ссылками.

Часто роботов используют комбинированно - для выполнения нескольких задач. Например, робот для web-узла Википедии - интернет-энциклопедии (uk.wikipedia.org) в результате поиска выдает список найденных данных одновременно с указанием степени соответствия слову-запросу:

Иллюстрация действия поискового робота для web-узла Википедии

Рис.11.4. Иллюстрация действия поискового робота для web-узла Википедии

Недостатки использования ботов. Для качественного функционирования роботов нужны каналы связи (телекоммуникационные каналы) с высокой пропускной способностью, поскольку используют значительную часть трафика.

Отметим, что первые работы работали в течение длительного времени, иногда месяцами. Чтобы ускорить выполнение задания, некоторые работы работают в параллельном режиме, перегружая связи. Серверы могут замедлить работу, если робот получит большое количество запросов за короткое время. Это приводит к уменьшению скорости работы других пользователей, особенно на медленных линиях связи.

Кроме выдвижения высоких требований к сети, работы могут потребовать и соответствующих серверов. В зависимости от частоты получения данных с сервера, одновременная загрузка многих документов может привести к перегруженности. Соответственно, будет снижен уровень сервиса для других пользователей или отказано им в доступе. В качестве решения этой проблемы владельцы серверов ввели ограничения на частоту обращений работа к серверу.

Нагрузка на сеть и серверы также может увеличиваться вследствие некачественной реализации роботов, например, если робот обращается несколько раз к одному и тому же ресурсу. Повторные обращения случаются, когда автоматически не сохраняется история загруженных ресурсов, или когда робот не распознает случаи различных индексов (DNS - Domain Name System) для одного IP-адреса. Также избыточную нагрузку на систему происходит в случае, когда работа не суждено обрабатывать определенные типы файлов (например, GIF). Однако, спрашивается все содержимое узла.

Использование поисковых роботов может также оказаться путем к осуществлению несанкционированного доступа к информации.

Современные разработки в области Интернет-технологий происходят в направлении создания "умного" работа, для увеличения эффективности обработки и поиска информации. Как и все исследования в области искусственного интеллекта, они находятся только на начальной стадии.

Проблемы индексации ресурсов сети Интернет. Существует несколько проблем, ограничивающих использование роботов для поиска ресурсов: большие объемы динамического материала, критерии индексирования web-страниц, порядок анализа сайта, альтернативы для поиска ресурсов.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее