Словарь SEO терминов

ПОИСКОВАЯ СИСТЕМА, ПС

— программно-аппаратный комплекс с пользовательским интерфейсом, предназначенный для поиска и выдачи информации по запросу пользователя.

Виды поисковых систем

Различают поисковые системы:

Глобальные поисковые системы могут быть:

Структура ПС

Так как под понятием «поисковая система» чаще всего понимается глобальная, универсальная ПС, речь далее будет вестись именно о ней. Однако принципы построения и функционирования большинства видов ПС схожи между собой и не имеют существенных различий.

Интерфейс

Видимая пользователю часть поисковой системы представляет собой сайт с интерфейсом, предназначенным для создания запросов к ПС. Кроме того, на этом же сайте формируются страницы поисковой выдачи, являющиеся ответами пользователям на создаваемые ими поисковые запросы.

Программно-аппаратная часть ПС

Программно-аппаратная часть ПС размещена на компьютерах ее владельца и предназначена непосредственно для обработки запроса, поиска информации по нему и формирования страниц поисковой выдачи. Ее структура:

Поисковый алгоритм

Основная статья:Поисковый алгоритм

Поисковый алгоритм является активной частью программно-аппаратной части ПС и в его задачи входят:

Индекс

Основная статья:Индекс

База данных (индекс) служит хранилищем известных поисковой системе адресов сайтов и их страниц, а также всех слов, ссылок и прочей информации, на них размещенных. Индекс разбит на управляемые разделы и хранится на множестве компьютеров по всему миру (для крупных поисковых систем), соединенных в сеть.

Принципы функционирования поисковых систем

Индексация

Основная статья:Индексация

Поисковый алгоритм находится в непрерывном действии, каждую секунду сканируя глобальную сеть в поиске новых ресурсов, переходя по найденным на них ссылкам и добавляя (индексируя) новые адреса и информацию в базу данных (индекс). Сайты, подлежащие индексации, должны соответствовать некоторым требованиям, определяющим:

Апдейт

Основная статья:Апдейт

Добавление информации и адресов страниц сайтов в индекс происходит не тотчас после их сканирования, а лишь после того, как поисковый робот просканирует их определенное количество, достигающее порой нескольких миллиардов. Массовые «зачисления» новых ресурсов в индекс осуществляются во время так называемых апдейтов поисковых систем.

Апдейт — своеобразная ревизия базы данных ПС, во время которой из нее исключаются одни и добавляются другие ресурсы и их страницы.

Кроме того, во время апдейта сайтам присваиваются качественные характеристики, влияющие на их ранжирование во время формирования поисковой выдачи. Одними из важнейших характеристик, к примеру, являются тИЦ - тематический индекс цитирования у Яндекс, и PageRank у Google. Но кроме них на ранжирование влияет еще множество параметров, количество которых у некоторых поисковых систем может достигать нескольких сотен (порядка 200 у Google, например).

Ранжирование и поисковая выдача

Основные статьи:Ранжирование,Поисковая выдача

В ответ на запрос пользователя, поисковые роботы сканируют индекс поисковой системы, находя и предлагая пользователю адреса страниц сайтов, где заданное слово или их комбинация встречается в виде ключевых. Если ключи не совпадают с запросом, ПС выбирает сайты с наиболее релевантным ему контентом. Так как количество соответствий измеряется обычно многозначными числами, перед поисковыми роботами встает задача ранжирования сайтов, их содержащих.

Другими словами, раз поисковым алгоритмам необходимо каким-то образом предоставить возможность пользователю ознакомиться со всеми релевантными запросу ответами (что на практике осуществить чаще всего невозможно из-за огромного их количества), то создателями ПС было принято решение показывать поисковую выдачу в виде ранжированного списка адресов. Таким образом, лидерами поисковой выдачи являются ресурсы с лучшими параметрами, а далее — по списку: по убыванию качества характеристик.

Поисковая выдача — список адресов сайтов. Кроме того, здесь же дается краткое текстовое описание содержимого сайтов — сниппет.

Штрафные функции поисковых роботов

В случаях обнаружения поисковыми роботами ресурсов, использующих для своего продвижения запрещенные или не приветствуемые приемы, ими могут быть применены штрафные санкции:

К приемам, влекущим наказание от поисковых систем, относятся: «черное» продвижение, воровство контента, публикация запрещенных материалов, размещение вредоносного или вредного программного обеспечения и т.п.

Приоритеты развития поисковых систем

Поиск

Постоянно растущее количество веб-ресурсов поставило задачу перед поисковыми системами о новых подходах к организации данных и алгоритмам поиска. Одним из выходов владельцы ПС видят кластеризацию документов — автоматическое выделение множества групп похожих семантически документов среди фиксированного заданного множества. Причем, характеристики для данных групп не задаются заранее, а определяются на основе их попарной схожести.

Выдача

Все ПС нацелены на максимальное удовлетворение запросов пользователей. Поэтому поисковые алгоритмы совершенствуются таким образом, чтобы формировать поисковую выдачу из наиболее релевантных ресурсов, чей контент является наиболее интересным, информативным, грамотно организованным и, обязательно, уникальным.

Полнота выдачи

Индексы крупных поисковых систем содержат миллиарды адресов, а объем информации, хранящейся на их компьютерах, исчисляется сотнями миллионов гигабайт. Кроме того, крупнейшие ПС позволяют осуществлять поиск не только по текстовым запросам, но и по изображениям, видео, и аудио фрагментам.

Актуальность выдачи

Кроме основных поисковых алгоритмов (таких, как Panda у Google), ПС используют и более узкоспециализированные. К примеру, новостной поисковый алгоритм Fresh Google проводит непрерывное сканирование новостей и может индексировать их спустя всего несколько минут после того, как они имели место быть.

Скорость

Время, которое требуется ПС для обработки запроса и формирования выдачи, является одной из важнейших характеристик ее работы, над которой сотрудники поисковых систем ведут постоянную работу. На данный момент скорость обработки одного запроса в лидирующих поисковиках составляет четверть секунды в среднем.

См. также