Паук
Паук (поисковый робот, краулер, веб-паук, бот) – основа любой поисковой системы. Программа, используемая для проработки сайтов и их страниц и наполнения с последующим занесением их в свою базу данных. Поисковый паук периодически перепроверяет все сайты, находящиеся в сети, собирая их обновления и выискивая новые ресурсы. Для быстроты проведения подобного рода работы, поисковые системы используют несколько пауков. Кроме того, боты представляют собой автоматические скрипты и каждый из них имеет свой алгоритм поиска и занимается определённым делом на том или ином сайте.
Со временем, паук распознаёт средний интервал обновления контента сайта и начинает заходить на его страницы с такой же периодичностью. Поэтому, некоторые страницы могут быть не проиндексированы в течении нескольких дней или недель, в зависимости от прежнего обновления информации на ресурсе. Если обновления происходят несколько раз в день, то и паук заходит на такой сайт значительно чаще, чем на другие.
Одни роботы-пауки отвечают за текстовые файлы, другие распознают картинки, в ведении третьих находятся видео или ссылки ведущие на сайт и на внешние ресурсы. Есть и такие роботы, которые вычисляют «умершие» ресурсы и выводят их из индекса и своих баз данных.
Для того, чтобы поисковый паук мог видеть страницы, он обращается к корневому файлу сайта robots.txt, который управляет его дальнейшей работой. Данный файл содержит информацию о том, какие страницы может просматривать бот, а какие закрыты для индексации. |