История поисковых систем

На первой ступени развития интернета, количество пользователей сети было небольшим, соответственно и информации в сети было немного. В то время основную часть история поисковых системпользователей сети составляли сотрудники университетов и научных организаций. На данном этапе развития поиск в сети был не так актуален, как сейчас.

Первыми шагами в организации доступа к ресурсам сети стало создание тематических каталогов сайтов. В 1994 г в апреле открылся Yahoo. В то время Yahoo еще не являлся поисковой системой, так как искомая информация ограничивалась ресурсами, которые были зарегистрированы в каталоге Yahoo.

Сами каталоги ссылок раньше использовались довольно обширно. В наше время они подчи утратили свою былую славу. Объяснение этому очень простое – даже современные, самые огромные каталоги содержут лишь малую часть информации сети. Для примера возьмем каталог DMOZ, который содержит информацию по статистике на сегодняшний день примерно 12.000.000 ресурсов, в то время когда самая полная база данных поисковой системы Google состоит из более чем 28.000.000.000 документов.

Самой первой полноценной поисковой системой стал проект WebCrawler, он появился в 1994 году. В след за ним в 1995 году появились поисковые системы AltaVista и Lycos. Затем в 1997 году появились Google и Yandex.

Основной поисковой системой в рунете является Яндекс, следом по популярности идет Rambler, Google.ru, Mail.ru и Aport.

Принцип работы поисковых систем

Web server (веб-сервер) – сервер поисковой машины, задача которого заключается в осуществление связи между пользователем и компонентами системы.

Spider (паук) - программа предназначена для скачивания веб-страниц.

Crawler («путешествующий» паук) – программа, которая осуществляет переход по всем внешним ссылкам находящимся на сайте. Ее цель - это поиск неизвестных документов (или измененных) и присваивание приоретета. Так же она указывает дальнейший путь пауку (Spider).

Indexer (индексатор) - программа анализирует веб-страницы скаченные пауками. Она "разбирает" скаченную страницу на части и проводит полный анализ ее фрагментов( текст, теги html, заголовки и структурные формы).

Database (база данных) – база данных поисковой машины в которой хранится вся информация о скачанных и обработанных страницах.

Search engine results engine (система выдачи результатов) – ее задача заключается в извлечение результатов поиска из базы данных поисковой системы. Она решает какие страницы более соответствуют запросу пользователя и проводит сортировку страниц в нужном порядке. Модуль работает согласно алгоритму ранжирования, который непосредственно задается поисковой системой.