История поисковых систем
На первом этапе становления сети Интернет число ее пользователей было крайне мало, а объем размещенной в ней информации минимальным. В то время Сеть использовалась в качестве специализированного инструмента и в основном в научных целях, поэтому доступ к ней имели лишь сотрудники различных лабораторий, университетов, военных учреждений. Поиску информации тогда уделялось намного меньше внимания, чем в наше время.
Однако с увеличением объемов информации, возникла проблема быстрого поиска и удобного доступа к интересующему пользователя информационному ресурсу. Первым решением этой проблемы стало появление каталогов сайтов. Такие каталоги представляли собой группы ссылок на ресурсы, которые составлялись согласно тематике ресурсов. Родоначальником таких проектов стал Yahoo – сайт, появившийся в апреле 1994 года. С увеличением в каталоге числа сайтов в Yahoo реализовали возможность поиска по каталогу. Однако сайт не был полноценной поисковой системой, так как позволял искать только те ресурсы, которые были внесены в каталог.
Каталоги ссылок были хорошей задумкой, но целесообразность их использования уменьшалась прямо пропорционально росту числа сайтов в сети Интернет. Даже самый современный каталог, в котором содержится несколько миллионов ресурсов, предоставляет доступ лишь к малой части информации, хранящейся в сети Интернет. Например, в самом большом каталоге сети Open Directory Project содержится информация о 5 миллионах ресурсов, в то же время, в базу поисковой системы Google занесено свыше 8 млрд. документов и их число растет с каждой минутой.
Хронология появления поисковых систем
- В 1994 году появилась первая полноценная поисковая система – проект WebCrawler
- В 1995 году свет увидели сразу две поисковые системы – AltaVista и Lycos. Первая из них на протяжении нескольких лет оставалась основным поисковиком информации в сети Интернет
- В 1997 году силами двух талантливых программистов Сергеем Брин и Лари Пейдж в рамках исследовательского проекта университета Стэндфорд был создан проект Google, который на сегодняшний день является самой популярной поисковой системой в мире
- В 1997 году 23 сентября официально представили проект под названием Yandex, который сегодня является самой популярной поисковой системой в русскоязычном сегменте сети Интернет (Рунет)

На сегодняшний день можно выделить 3 основные международные поисковые системы: Google, Yahoo и MSN Search, которые работают по собственным алгоритмам поиска и имеют свои базы данных. Остальные поисковики пользуются в той или иной мере их технологиями и возможностями. Например, базу Google используют такие поисковики, как Mail.ru и AOL (search.aol.com), а базу Yahoo – поисковики AllTheWeb, Lycos и AltaVista. В России и странах СНГ главной поисковой системой является Яндекс, затем идут Rambler и Google, также широко используются поисковики Mail.ru, Aport и KM.ru.
Базовые компоненты поисковых систем
Все поисковые системы работают по одним и тем же принципам, используя схожие подходы к поиску информации. В общем случае поисковик состоит из следующих компонентов:
- Web server – веб сервер, отвечающий за взаимодействие пользователя с компонентами поисковой системы
- Spider (англ. паук) – браузерная программа, «отыскивающая» Интернет-ресурсы и скачивающая все веб-страницы
- Crawler (англ. паук путешественник) – специализированный вариант spider, программа автоматически переходит по всем ссылкам, найденным на страницах ресурса
- Indexer (англ. индексатор) – программа, анализирующая информацию, предоставленную пауками
- Database – база данных поисковой системы, в которой хранятся скачанные и проанализированные страницы
- Search engine results engine (англ. система выдачи результатов) – выдает из базы данных результат поиска
Конкретная реализация вышеперечисленных компонентов может быть в каждой поисковой системе различной (например, spider и crawler представляют собой одну программу), но эти общие черты присущи всем поисковым системам.

Принципы работы компонентов поисковой системы
Spider. Программа-паук скачивает веб-страницы точно также, как обычный пользовательский браузер. Отличие между ними состоит лишь в том, что браузер отображает на экране всю информацию (графическую, текстовую, аудио и т.д.), в то время как spider работает непосредственно с html-кодом страницы.
Crawler.Паук, отвечающий за поиск новых документов ,которых еще нет в базе поисковой системы. Задачей краулера также является определение пути, по которому должен двигаться spider. Для этого он выделяет все ссылки, находящиеся на странице и переходит по ним.
Indexer. Работа индексатора заключается в анализе найденных новых страниц. Он разбивает их на отдельные части и изучает их. Например, индексатор выделяет такие элементы страницы, как заголовки, текст, служебные html-теги, стилевые и структурные особенности и т.д.
Database. В базу данных поисковой системы заносятся все данные, найденные, скачанные и проанализированные поисковой системой из сети Интернет.
Search Engine results engine. Основным элементом поисковой системы, представляющим главный интерес для владельцев сайтов и пользователей, является система выдачи результатов поиска. Она отвечает за ранжирование страниц (сайтов), то есть решает, какая страница окажется на первом месте, а какая на последнем. Сортировка страниц происходит по определенному алгоритму ранжирования, который у каждой поисковой системы свой, и является самой главной тайной. Именно система выдачи результатов является объектом изучения сео-оптимизаторов, так как с ней ему приходится работать, чтобы улучшить позиции сайта в выдаче результатов поиска.
Web server. Обычно веб сервер представляет собой html-страницу с формой для ввода поискового запроса. Веб сервер также выдает пользователю результаты поиска в виде html-страницы. Для каждой поисковой системы эти страницы оформлены в конкретном фирменном стиле.


