Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии и моделирование бизнес-процессов

Принципы функционирования поисковой системы Google

Google Inc. (Гугл), www.google.com - частная американская открытая акционерная компания, основанная 7 сентября 1998, занимающейся разработкой, развитием и дизайном популярного в Интернет поискового сервиса. В компании, расположенной в Маунтин Вью (Калифорния) работают около 8000 рабочих. Учредители - Лэрри Пейдж и Сергей Брин, в 1998 году были сотрудниками Стэнфордского университета и стремились создать систему поиска с более гибким механизмом, чем существовали в то время - Altavista и Inktomi (последняя была поглощена в 2002 году поисковой системой Yahoo!).

Название "Google" - искаженное написание слова «гугол» (англ. Googol), которое придумал Милтон Сиротта, племянник американского математика Эдварда Кайзера. "Гугол" - это число 10100, десятичная запись его содержит единицу и ста нулей.

Главной задачей разработчиков информационно-поисковой системы (ИПС) Google был такое решение задачи сортировки результатов поиска, чтобы на первых позициях исходного списка находились нужны пользователю документы - с максимальным совпадением ответа.

Почти каждая ИПС имеет свою внутреннюю систему оценки "качества" документов. В Google она называется PageRank (рис.11.5). Сущность ее в том, что на порядок формирования списка результатов поиска влияет некоторый коэффициент, который зависит от популярности страницы и количества ссылок на нее с других страниц. Еще одним важным свойством ИПС Google является то, что в ней хранятся описание ссылок на проиндексированные страницы - это позволяет более адекватно проводить поиск по базе данных. Например, если автор страницы забыл указать ее название (что важно для ИПС), Google будет ориентироваться по текстам ссылок на эту страницу.

Для Google важно также, каким шрифтом написано в документе искомое слово - чем больше буквы, тем больше в них коэффициент. Если в запросе содержится несколько слов, первыми в списке результатов будут страницы, на которых эти слова расположены максимально близко.

Структура информационной поисковой системы Google

Рис.11.5. Структура информационной поисковой системы Google

Всю основную работу по "просеиванию" содержания сети выполняют поисковые работы. Каждый из них берет один адрес URL из базы данных URL-сервера, скачивает и передает содержание узла на сервер хранения документов, где он остается в заархивированном виде. Другая программа - индексатор - раскладывает текст документа на составляющие слова, запоминая его формат. Полученная информация сохраняется в наборе контейнеров (рис.11.5, прямой индекс). Для поиска страниц существуют другие контейнеры (рис.11.5, обратный индекс).

Идентификаторы слов берутся из словаря, постоянно пополняется. Одновременно с этим индексатор просматривает текст ссылок и проверяет корректность самых ссылок в службе DSN. Если найден URL отсутствует в базе данных, индексатор пополняет базу. Позже этот адрес попадает на URL-сервер и система поиска становится самодостаточной - она восстанавливает сама себя. Новые страницы, которые еще никто не успел посетить, попадают в систему путем ручной регистрации.

Дополнительно рассмотрим операторы поиска, используемых для повышения эффективности работы с ИПС Google:

Таблица 11.3. Опции поиска Google

Опции поиска Google

Использование указанных опций при поиске нужной информации может повлечь несанкционированное получение данных - непреднамеренное или специальное. Например, если в строку поиска Google ввести filetype: pwd, поисковик выведет список ссылок на файлы с паролями, имеющиеся в его реестре. Или ответом на запрос site: gov будет перечень государственных узлов.

Приведем несколько советов от профессиональных разработчиков web- сайтов для успешной популяризации страниц:

o создавать сайты с четкой структурой;

o называть каждую страницу уникальным именем, будет отражать ее содержание (например, название Photos.htm будет более информативной для поисковика, нижPage_07.htm)

o избегать навигации элементами плохо индексируются (анимация)

o ключевые слова располагать в верхней или нижней части страницы и выделять их крупным шрифтом.

Поисковые системы продолжают развиваться, появляются новые системы на основе современных технологий. Интересно научный проект "Интеллектуальная поисковая система Nigma", разработанная в МГУ им.М.В.Ломоносова в 2006 году. Отметим, что эта система кроме собственных

роботов использует также результаты работы всех популярных поисковиков (Google, Altavista, Yahoo !, Aport, MSN, Yandex, Rambler).

По результатам рассмотренного выше запроса (см. Табл. 11.2) Nigma выдала 47908247423 документов. Интересна также идея, положенная в основу социального поисковика Anoox - результаты автоматического рейтинге корректируются посетителями путем голосования.

Резюме

На сегодняшний день, примерно 1/4 мира являются пользователями глобальной сети Интернет. Для каждого типа ресурса Интернет есть свой протокол доступа, например FTP - передача файлов; HTTP (Hypertext Transfer Protocol) - передача гипертекста; SMTP (Simple Mail Transfer Protocol) - передача почтовых сообщений; SNTP (Simple Network Time Protocol) - синхронизация времени в сети или в мировом масштабе.

Когда объемы Интернет начали превышать несколько десятков сайтов, возникла задача поиска нужных данных без просмотра всей имеющейся информации - начались разработки программ (ботов), автоматически просматривают Интернет.

Google Inc. - Частная американская открытая акционерная компания, занимающаяся разработкой, развитием и дизайном популярного поискового сервиса. Для повышения релевантности результатов поиска в запросах в Google используют опции поиска.

Ключевые слова

Интернет пользователи, хост, маршрутизатор, интернет-провайдер, домен, пакетная передача данных, протоколы сети Интернет, сервисы сети Интернет, доступ, ресурс, электронная почта, поисковый робот, трафик, индексация web-страниц, поисковая система.

Вопросы и задания для обсуждения и самопроверки:

► Назовите этапы появления сети Интернет.

► Какой принцип положен в структуру глобальной сети?

► Дайте определение хоста.

► Опишите назначение маршрутизатора.

► Дайте определение понятия компьютерного протокола.

► На каком уровне модели ISO OSI происходит реальное взаимодействие двух компьютеров?

► Какая разница между on-line и off-line доступ?

► Опишите назначение сервиса электронной почты.

► Дайте определение Интернет-работа и объясните его назначение.

► Какие недостатки использования ботов?

► Опишите назначение компоненты PageRank в структуре Google.

► Имеет ли значение для поисковой системы формат текста в Web-документе? Обоснуйте ответ.

► Какой результат выдаст Google, если в строке поиска ввести следующее: intitle библиотека?

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее