Что такое поисковые машины и как они работают?

В самом начале статьи нам хотелось бы подробно рассказать, на чём базируется работа поисковых машин, а также дифференцировать категории поиска так, как это делают поисковые машины (ПМ). Мы считаем это важным, потому что как только вы поймёте, что такое поисковые машины и как они работают, вам будет легче понять результаты, поскольку вы увидите, как они появляются на странице после поиска определённого ключевого слова. Это поможет вам рационализировать и затем оптимизировать способ создания веб-страниц, которые будут внесены в базу данных поисковой машины, и лучше понять , почему необходима поисковая оптимизация.

Поисковые системы состоят из пяти отдельных программных компонентов.

  1. Система выдачи результатов (search engine results engine) извлекает результаты поиска из базы данных.
  2. Паук (спайдер, spider) – программа, которая скачивает веб-страницы. Она работает точно так же, как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу, выбирая команду Просмотр HTML-кода в своём браузере.
  3. Краулер (Crawler, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Его задача – определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер , следуя по найденным ссылкам, осуществляет поиск новых документов, ещё неизвестных поисковой системе.
  4. Индексатор (Indexer) разбирает страницу на различные её части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
  5. База данных (Database) – хранилище всех данных, которые поисковая система скачивается т анализирует. Она часто требует огромных ресурсов.

Неверно считать , что поисковые машины сразу ищут сайт, как только вы ввели ключевое слово в запросе. Это – чистой воды миф, что поисковые машины просматривают весь Интернет в поисках нужного запроса. Поисковая машина может искать только в пределах собственной базы данных (индекса). И конечно, количество и новизна данных определяется тем , как часто эта база данных обновляется. Часто такое обновление базы данных той или иной поисковой машины называют апдейтом (от англ. update – модернизация, корректировка, обновление информации, данных) – пополнение базы данных поисковой машины новой информацией. Крупные поисковые машины индексируют информацию подобно каталогу в библиотеке. Храня большое количество информации, они должны уметь быстро находить нужные документы по заданным ключевым словам или фразам. Но самих веб-страниц ещё больше, чем непосредственно данных о них. Интернет в целом не имеет никакой чёткой структуры, и сайты обладают огромным количеством вариантов авторской разработки и содержания по сравнению со стандартными текстами. Это делает почти невозможным для поисковой машины применение стандартных методов, используемых в управлении базой данных и в обычном информационном поиске.

Поисковые алгоритмы (математические методы программирования, сортирующие найденные результаты) каждого из поисковых сервисов являются уникальными. Вы можете проверить это сами: введите ключевое слово или фразу в поисковую систему ссылка link и запомните результаты. Теперь зайдите на ссылка link или ссылка link и повторите то же самое. У вас всегда будут разные результаты в различных поисковых машинах. Учитывая этот факт, можно отметить, что необходимо иметь индивидуальный подход к различным поисковым службам. Стоит отметить, что некоторые поисковые системы используют базу и алгоритмы более авторитетных собратьев, например, ссылка link, использует алгоритм Яндекса, многие зарубежные поисковые системы используют общие алгоритмы. Googl, являющийся самой крупной поисковой машиной в мире и по популярности среди тех, кто ищет, и по базе данных из нескольких миллиардов файлов, имеет только малую долю данных, содержащихся во всей глобальной сети. Сеть растёт быстрыми темпами. Исследование проведённое в 2000г., обнаружило приблизительно 7,5 млн страниц, добавляемых каждый день. Таким образом, невозможно представить, что какая-либо поисковая машина будет когда-нибудь иметь ежедневно обновляемые данные обо всех сайтах сети.

Здесь речь идёт о практических ограничениях, заключающихся в размере веб-страницы. В среднем, каждая страница содержит около 5-10 Кбайт текста, поэтому , даже если учитывать, что поисковая машина хранит информацию только о текстовых страницах, это уже выливается в десятки терабайт, которые находятся в базе данных поисковых машин. Есть так называемая «невидимая сеть», которая представляет собой более 550 млрд документов. С этими документами поисковые машины либо не знакомы (не связаны с другими сайтами), либо не могут получить доступ (некоторые участки защищены паролем), либо их технология просто не позволяет им «захватить» эти страницы (например, те, которые включают только сложные типы файлов: визуальные, аудио, мультипликация, сжатые файлы, файлы под паролем и т.д.). Постоянно «ползать» по сети и индексировать веб-страницы с множеством документов, как это делают поисковики, — задача не из дешёвых. Вы сами убедитесь в этом , когда мы изучим «анатомию» поисковой машины. Поддержка базы данных поисковой машины требует много инвестиций для обеспечения работы, необходимых технических ресурсов и продолжения научных исследований.

Мы должны понимать, что базы данных поисковых машин постоянно изменяются. Googl может иметь больше страниц, внесённых в свой индекс, чем, скажем, Яндекс. Однако, например, если Яндекс обновит свои данные быстрее, чем Google, то даже при его относительно небольшом количестве страниц это может дать пользователю более свежие и всесторонние результаты. Кроме технического фактора, есть также много других, которые должны быть приняты во внимание. Мы должны упомянуть, что зачастую поисковые машины указывают большой объём страниц, содержащих в их базе данных, как признак своей исключительности. Это своего рода игра или соревнование между количеством и качеством имеющихся ресурсов. Хотя размер – это важный индикатор, другие факторы, касающиеся качества данных, могут обеспечить лучшие результаты в плане того, что они гораздо больше соответствуют ключевому запросу пользователя (релеванты, от англ. Relevant – относящийся к делу). Обнаружение релевантных страниц в сети для индексации – приоритет поисковых машин. Но как машина может определить, насколько важна та или иная страница? Некоторые поисковые машины, например, Яндекс, даже используют ручную проверку на релевантность, так называемые асессоры (от англ. Assessor). Асессоры работают по заданной методике. Существует определённые критерии, по которым должно измеряться качество страниц. Асессор вводит поисковый запрос и ставит определённую оценку, насколько по этим критериям релевантны сайты, находящиеся в поисковой выдаче.

Поскольку поисковые машины часто возвращают несоответствующие запросам результаты, мы должны также остановится подробнее на том, что информация в базах данных машин должна постоянно обновляться. Кроме новых страниц, которые каждый день появляются в сети, непрерывно обновляются и старые. Рассмотрим пример. В одном из исследований говорится о том, что в результате четырёхмесячного изучения полумиллиона страниц было выяснено, что более 23% всех веб-страниц обновляются ежедневно. Около половины страниц обновляются каждые 10 дней, а некоторые документы и вовсе перемещались на новый доменный адрес. Спайдеры поисковых машин находят миллионы страниц в день, которые заносятся в базу данных и индексируются. Но как вы можете понять из вышеописанного, поисковикам очень трудно определить частоту изменений страниц. Спайдер поисковой машины может «заползти» на страницу один раз, затем вернуться к ней, чтобы обновить, и, возможно, обнаружит, что были сделаны какие-то изменения. Но, он не может обнаружить, сколько раз страница изменялась, начиная с последнего его посещения.

Некоторые веб—сайты изменяются очень часто. Пример — новостные сайты, где информация должна постоянно обновляться, или сайты интернет – магазинов, где регулярно происходит изменение цен, номенклатуры продукции и т.д. Сегодня проводится много как научных, так и коммерческих исследований для развития методов оперативного обнаружения свежей информации. Даже если «важная» страница будет проверяться спайдером каждые 48 часов. Веб-мастера могут обновлять эти страницы гораздо чаще. Критически важно, чтобы ваш сайт работал, когда его посещает робот поисковой машины. Если в этот момент он не работает, то вы можете исчезнуть из индекса до следующего обновления! Поисковая машина думает, что ваш сайт не существует, поэтому удаляет его из списков после нескольких заходов.

Если веб-мастер загружает страницу на сервер, а затем делает страницу доступной для поиска через опцию «Добавить URL» в поисковой машине, или если страница просто найдена поисковой машиной по ссылке с другого сайта, то содержание страницы в индексе будет именно таким, каким оно было при индексировании поисковой машиной во время обхода.

Так, если в день индексации страница имеет определённое количество слов, которые содержатся в определённом числе параграфов и в определённой степени относятся к ключевому слову — всё это будет записано в индексе поисковой машины до следующей индексации. Если автор страницы решит дополнить её (добавит изображение, заголовки, выполнить редактирование текста), то поисковая машина не будет знать об этом до следующего посещения страницы. Если пользователь делает запрос на определённую тему в этот день, когда поисковая машина как раз обновила эту страницу, то он получит обновлённую информацию, которая уже попала в базу данных поисковика. Однако если пользователь выполняет поиск после того, как автор изменил страницу, то поисковая машина приведёт его по ключевой фразе к той же страницы, даже если автор, возможно, изменил контекст или убрал важные ссылки на тему, не ставя об этом в известность поисковые машины. Конечно, такая ситуация расстраивает пользователя, который хотел найти релевантную его запросам веб – страницу. Это как вы понимаете, является главной проблемой поисковых машин. Они просто не могут постоянно следить за изменениями веб – страниц.