Москва:
+7 (911) 900-44-99
+7 (911) 900-44-99
Санкт-Петербург:
ул. Новый Арбат д. 21, б.ц. "Новый Арбат"
7-ая линия д. 76, б.ц. "Сенатор"
Главная » База знаний » Общее представление о поисковых системах

Общее представление о поисковых системах

История поисковых систем

На первом этапе становления сети Интернет число ее пользователей было крайне мало, а объем размещенной в ней информации минимальным. В то время Сеть использовалась в качестве специализированного инструмента и в основном в научных целях, поэтому доступ к ней имели лишь сотрудники различных лабораторий, университетов, военных учреждений. Поиску информации тогда уделялось намного меньше внимания, чем в наше время.

Однако с увеличением объемов информации, возникла проблема быстрого поиска и удобного доступа к интересующему пользователя информационному ресурсу. Первым решением этой проблемы стало появление каталогов сайтов. Такие каталоги представляли собой группы ссылок на ресурсы, которые составлялись согласно тематике ресурсов. Родоначальником таких проектов стал Yahoo – сайт, появившийся в апреле 1994 года. С увеличением в каталоге числа сайтов в Yahoo реализовали возможность поиска по каталогу. Однако сайт не был полноценной поисковой системой, так как позволял искать только те ресурсы, которые были внесены в каталог.

Каталоги ссылок были хорошей задумкой, но целесообразность их использования уменьшалась прямо пропорционально росту числа сайтов в сети Интернет. Даже самый современный каталог, в котором содержится несколько миллионов ресурсов, предоставляет доступ лишь к малой части информации, хранящейся в сети Интернет. Например, в самом большом каталоге сети Open Directory Project содержится информация о 5 миллионах ресурсов, в то же время, в базу поисковой системы Google занесено свыше 8 млрд. документов и их число растет с каждой минутой.

 

Хронология появления поисковых систем

Доля всех поисковых запросов в рунете

На сегодняшний день можно выделить 3 основные международные поисковые системы: Google, Yahoo и MSN Search, которые работают по собственным алгоритмам поиска и имеют свои базы данных. Остальные поисковики пользуются в той или иной мере их технологиями и возможностями. Например, базу Google используют такие поисковики, как Mail.ru и AOL (search.aol.com), а базу Yahoo – поисковики AllTheWeb, Lycos и AltaVista. В России и странах СНГ главной поисковой системой является Яндекс, затем идут Rambler и Google, также широко используются поисковики Mail.ru, Aport и KM.ru.

 

Базовые компоненты поисковых систем  

Все поисковые системы работают по одним и тем же принципам, используя схожие подходы к поиску информации. В общем случае поисковик состоит из следующих компонентов:

Конкретная реализация вышеперечисленных компонентов может быть в каждой поисковой системе различной (например, spider и crawler представляют собой одну программу), но эти общие черты присущи всем поисковым системам.

Выдача поисковой системы Яндекс

Принципы работы компонентов поисковой системы

Spider. Программа-паук скачивает веб-страницы точно также, как обычный пользовательский браузер. Отличие между ними состоит лишь в том, что браузер отображает на экране всю информацию (графическую, текстовую, аудио и т.д.), в то время как spider работает непосредственно с html-кодом страницы.

Crawler.Паук, отвечающий за поиск новых документов ,которых еще нет в базе поисковой системы. Задачей краулера также является определение пути, по которому должен двигаться spider. Для этого он выделяет все ссылки, находящиеся на странице и переходит по ним.

Indexer. Работа индексатора заключается в анализе найденных новых страниц. Он разбивает их на отдельные части и изучает их. Например, индексатор выделяет такие элементы страницы, как заголовки, текст, служебные html-теги, стилевые и структурные особенности и т.д.

Database. В базу данных поисковой системы заносятся все данные, найденные, скачанные и проанализированные поисковой системой из сети Интернет.

Search Engine results engine. Основным элементом поисковой системы, представляющим главный интерес для владельцев сайтов и пользователей, является система выдачи результатов поиска. Она отвечает за ранжирование страниц (сайтов), то есть решает, какая страница окажется на первом месте, а какая на последнем. Сортировка страниц происходит по определенному алгоритму ранжирования, который у каждой поисковой системы свой, и является самой главной тайной. Именно система выдачи результатов является объектом изучения сео-оптимизаторов, так как с ней ему приходится работать, чтобы улучшить позиции сайта в выдаче результатов поиска.

Web server. Обычно веб сервер представляет собой html-страницу с формой для ввода поискового запроса. Веб сервер также выдает пользователю результаты поиска в виде html-страницы. Для каждой поисковой системы эти страницы оформлены в конкретном фирменном стиле. 



Отзывы и комментарии.