Индексация страниц и разделов сайта поисковыми роботами Яндекс

Без проводов
Индексация страниц и разделов сайта поисковыми роботами Яндекс

Индексирование страниц и контента поисковыми системами Яндекса

Введение

Количество ресурсов, индексируемых поисковыми системами, постоянно растет. Чтобы ресурс был включен в базу данных поисковой системы, он должен хотя бы быть проинформирован о существовании вашего ресурса. Поисковые системы могут узнать это двумя способами:

Если вы зарегистрируетесь в поисковой системе; или путем ссылки на ваши страницы из ресурсов, которые уже проиндексированы системой.

Сканер поисковой системы будет время от времени возвращаться на ваши страницы, чтобы обновлять информацию о них. Индексирование ваших страниц — важная часть работы поисковых систем. Конечный эффект продвижения в данной поисковой системе зависит от того, как и в каких поисковых системах будет проиндексирован ваш сайт.

Эффективная индексация вашего сайта роботами поисковых систем — это то, чего вы всегда должны добиваться в начальный этап продвижения. В этом руководстве мы сосредоточимся на том, как правильно проиндексировать ваш сайт, с какими проблемами вы можете столкнуться в ходе подготовительной работы и как устроены поисковые системы для обработки ваших страниц как роботов.

Мы рассмотрим процесс индексации на примере поисковой системы Яндекс. Это имеет смысл, потому что русскоязычные пользователи используют эту конкретную поисковую систему для поиска релевантной информации.

Яндекс-роботы

Говоря об индексировании, вы должны сначала поговорить о том, кто непосредственно этим занимается, и есть роботы поисковых систем. На вопрос «что такое робот поисковой системы и для чего он нужен?» Яндекс отвечает следующим образом: «Сканер ведет список URL-адресов, которые он может проиндексировать, и регулярно выбирает соответствующие документы. Если сканер находит новую ссылку во время анализа документа, он добавляет ее в свой список. Таким образом, любой связанный документ или страницу может найти робот, а значит, и поисковая система Яндекс ».

Благодаря этим знаниям вы легко подготовите свой сайт к эффективной индексации. Индексирование страниц — это то, где сканеры посещают страницы и делают их контент доступным для поиска.

Компания Jandex была основана в 1996 году. Не как поисковая система, а как несколько отдельных продуктов. Например, Яндекс.Сайт — программа для поиска по страницам и Яндекс.CD — программа для поиска документов на компакт-дисках.

Сама поисковая система была запущена осенью 1997 года. 23 сентября в Softool был официально представлен Яндекс как полнофункциональная поисковая система в Интернете. С тех пор объем данных в Интернете неуклонно рос, что вынуждает нас постоянно улучшать наши алгоритмы индексирования и поиска.

Итак, в 1999 году мы представили нового поискового робота, который, помимо значительного улучшения индексации скорость, позволяла пользователям выполнять поиск в различных областях документа, включая URL-адреса, заголовки, ссылки и т. д.

Яндекс официально анонсировал 11 роботов Яндекса, каждый из которых специализируется на конкретной задаче.

Яндекс / 1.01.001 (совместимый; Win16; I) — это робот Яндекса. главный индексирующий робот. Это важнейший робот, занимающийся поиском и индексацией информации на ресурсах российского Интернета. Всем SEO-специалистам важно следить за внешним видом своих страниц, особенно этого краулера. Обычно робот приходит со следующих IP-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах сайта легендарное слово яндекс, обратите внимание на ip-адрес, ведь сейчас достаточно тестовых веб-сервисов сайта, которые вы переходите на страницы, выступая в роли агента пользователя: Яндекс / 1. 01.001 (совместимый; Win16; I) Может оказаться, что ваш сайт вообще не посещал Яндекс. Яндекс / 1.01.001 (совместимый; Win16; P) — индексатор фотографий, который затем быть доступным в поисковой системеиндексация. Подумайте, какие страницы вы хотели бы видеть в поисковых системах: какие из них имеют отношение к пользователю, а какие служат, например, только в качестве технической информации.

Мы рекомендуем вам не разрешать административную часть ваш веб-сайт для индексации, каталог / images / (если он называется), где хранятся произведения искусства. Владельцы интернет-магазинов должны закрыть служебные страницы, то есть те, через которые осуществляется прямая покупка товаров и т. Д. Выполнив эти шаги, вы, во-первых, убедитесь, что роботы индексируют именно ту информацию, которая действительно важна, а во-вторых, вы сделаете это. проще роботам не посещать все страницы сайта.

1. Управление индексацией с помощью robots.txt

Файл robots.txt — самый популярный инструмент, с помощью которого вы можете эффективно управлять индексированием вашего сайта. Он чрезвычайно прост в использовании и не требует специальных навыков. Его единственная цель — помешать поисковой системе индексировать страницы или области содержания вашего веб-сайта.

2. Основная информация о файле robots.txt

Файл /robots.txt используется, чтобы сообщить всем поисковым системам, как индексировать серверы данных.
Синтаксис файла позволяет вам устанавливать запрещенные области для всех или определенных роботов. Файл txt имеет особые правила, несоблюдение которых может привести к тому, что роботы поисковых систем неправильно прочитают информацию или сделают файл непригодным для использования.

Общие правила:

Все буквы в имени файла должны быть строчными: robots.txt действителен, Robots.txt или ROBOTS.TXT — нет; файл robots.txt должен быть в текстовом формате. При копировании этого файла на страницу ftp-клиент должен быть переведен в текстовый режим, файл robots.txt должен быть помещен в корневой каталог страницы.

2.1. Контент robots.txt

Файл robots.txt должен содержать две директивы: User-agent и Disallow. Некоторые поисковые системы поддерживают дополнительные записи. Например, Яндекс использует директиву Host для идентификации root зеркальная страница.

Каждая запись имеет цель и может отображаться несколько раз в зависимости от количества страниц и / или каталогов, которые вы исключаете из индексации, и количества роботов, к которым у вас есть доступ.
Полностью пустой файл robots.txt эквивалентен отсутствию файла robots.txt, что означает, что вы разрешаете индексирование всего вашего сайта.

Запись "User-agent"

Запись «User-agent» должна содержать имя робота поисковой системы. Пример записи «User-agent» для всех без исключения поисковых систем и с использованием символа «*»:

User-agent: *

Пример записи «User-agent», где упоминается только робот Яндекс:

 User-agent: Yandex 

У каждого робота поисковой системы есть отличающийся Я звоню. Есть два основных способа узнать эти имена:

Основные роботы популярных поисковых систем:

Google — «googlebot»;
Яндекс — «Яндекс»;
Rambler -«StackRambler»;
Yahoo! — «Yahoo! Slurp»;
MSN — «msnbot».

Директива Disallow

Директива Disallow должна содержать инструкции, которые сообщают поисковой системе в разделе User-agent, какие файлы и / или каталоги не должны индексироваться.
Давайте рассмотрим различные примеры для "Disallow".

Пример 1. Страница полностью открыта для индексации:

Disallow: /

Пример 2. Файл page.htm в корневом каталоге и файл page2.htm в каталоге dir не являютсяразрешено для индексации:

 Disallow: /page.htm
Disallow: /dir/page2.htm 

Пример 3. Каталоги "cgi-bin" и "forum", поэтому все содержимое этого каталога не может быть проиндексировано:

 Запретить: / cgi-bin /
Disallow: / forum / 

Можно предотвратить индексирование нескольких документов и / или каталогов, которые начинаются с одних и тех же символов, используя только одну запись «Disallow». Это требует использования тех же начальных символов без закрывающей косой черты.

Пример 4. Каталог «dir», а также все файлы и каталоги, начинающиеся с букв «dir», не допускаются к индексации, например, файлы: «dir.htm», «direct.htm», каталоги: "dir", "directory1", "directory2" и т. д .:

 Disallow: / dir 

Некоторые поисковые системы разрешают регулярные выражения в "Disallow". Например, поисковая система Google поддерживает "*" в Disallow (что означает любая строка) и «$» (конец строки). Это позволяет предотвратить индексирование определенных типов файлов.

Пример 5. Запретить индексирование файлов с расширением "htm":

 Disallow: * .htm $ < / pre> 

Директива Host

Директива Host используется для указания корневого зеркала сайта. Это означает, что если у вашего сайта есть зеркало, вы можно использовать директиву Host, чтобы выбрать URL-адрес сайта, по которому индексируется ваш сайт. В противном случае поисковая система выберет основное зеркало, и другие имена не будут разрешены для индексации.

Для совместимости с роботами, которые не распознают директиву Host при обработке robots.txt, добавьте ее сразу после записей Disallow .

Пример 6. www.site.ru — основное зеркало:

 Хост: www.site.ru 

Любая строка в файле robots.txt, начинающаяся с символа "#", рассматривается как комментарий. Допускается использование комментариев в конце директив, но некоторые сканеры могут неправильно распознать эту строку.

2.2 Управление индексированием с помощью метатегов

Мета-теги также управляют индексированием веб-страница. Мета-теги должны быть в заголовке вашего HTML-документа (между тегами и).

Наиболее полезные метатеги, которые помогают поисковым системам правильно индексировать ваши страницы:

Управляет индексированием страницы для роботов поисковых систем. В этом случае сообщите сканеру поисковой системы, чтобы он не индексировал все страницы. Требуется, чтобы поисковые системы определяли, соответствует ли страница запросу. Повышает вероятность того, что поисковая система найдет страницу по выбранному запросу. (A) Управляет индексированием страниц для роботы поисковых систем Определяет, как часто страница индексируется. Это сообщает сканерам поисковых систем, что ваш документ является динамическим и должен регулярно индексироваться роботами.

  • Во многих поисковых системах есть специальный раздел «помощь веб-мастеру» (в Яндексе также есть http://webmaster.yandex.ru/faq.xml ), в котором часто перечислены имена роботов поисковых систем. Когда вы просматриваете журналы веб-сервера, особенно файл robots.txt, вы можете увидеть множество имен, которые содержат имена поисковых систем или их часть. Так что просто выберите подходящее имя и добавьте его в файл robots.txt.

Существуют теги, которые не влияют напрямую на индексацию, но также важны для взаимодействия с пользователем:

  • Контроль кеширования для HTTP / 1.0. Не разрешает кэширование страницы. Определяет задержку в секундах, после которой браузер автоматически обновляет документ или происходит перенаправление. Указывает, когда информация о документе устарела и браузер должен получить новую копию, а не загружать ее из кеша.

Существует еще один метатег, называемый revisit — после того, как ранее ходили слухи, что он заставляет поисковые роботы посещать сайт через определенные промежутки времени, но эксперты Яндекса официально это отрицали.

Нет гарантии, что поисковые системы учтут содержание вашего метатега при индексировании вашего сайта. Более того, нет никакой гарантии, что эта информация будет учтена при определении рейтинга страницы в поисковой выдаче. Однако метатеги полезны, поскольку они позволяют поисковым системам получать необходимую информацию о ресурсе.
Добавление метатегов не займет много времени, поэтому попробуйте добавить их все.Мета страница Информация.

Проблема индексации страницы

При работе в продвижении поиска, сталкивается с проблемой индексации страниц поисковыми системами, время «потерять» некоторые сайты сайтов, и в результате проигрывателя ключевых слов. Это происходит в подавляющем большинстве случаев из-за ошибок веб-мастеров.

Не все знают, что на первый взгляд даже небольшая ошибка или упущение могут привести к «значительным» последствиям — потеря поисковых систем. Ниже представляет собой список проблем, которые можно встретить во время индексации.

3.1 Динамические страницы, идентификаторы сеанса.

проблема. поисковая система робот получает ту же страницу с разными идентификаторами сеанса. Поисковая система «видит» — это как разные страницы. То же самое происходит с динамических веб-сайтов.
Описание. Некоторые сайты имеют динамические страницы с различной последовательностью параметров, например, index.php? Id = 3 & amp; show = for_print и index.php? Show = for_print & amp; id = 3.

Это один И та же страница для пользователей, но различных страниц для поисковых систем. Мы также можем взять на себя пример страницы «Печать версии», с index.htm? To = print и main page index.htm, например. С точки зрения структуры и контента текста эти веб-сайты практически они одинаковые. Однако для поисковых систем это разные страницы, которые будут «клеены» и вместо того, чтобы, например, продвинутая домашняя страница, поисковая система покажет страницу «для печати».

Аналогичная проблема Происходит при использовании ссылок на по умолчанию ссылками на каталог и файл в каталоге, например / root / i /root/index.htm. Это поддерживается использованием файла « directoryindex /index.htm Один из типов динамических страниц — страницы с идентификаторами сеанса. На страницах, имеющих идентификаторы сеанса, каждый посетители получают уникальный параметр & amp; Session_id = при посещении ресурса. Этот параметр добавлен на каждую страницу посещенного страницы. Использование идентификатора сеанса позволяет вам удобно собирать статистику по поведению людей, посещающих сайт. Механизм сеанса позволяет сохранять информацию о пользователе при перемещении на одной стороне сайта на другой, что не позволяет протоколу HTTP. Идентификатор либо сохраняется в файле cookie, либо добавляется в качестве параметра на адрес страницы.

Но потому что роботы поиска не принимают куки, идентификаторы сеанса добавляются к адресу страницы и роботы Можно найти много экземпляров одной и той же страницы с разными идентификаторами сеанса. Просто для поисковой системы робота страница с новым адресом — новая страница; Каждый раз, когда робот посетит сайт, он получит новый идентификатор сеанса и распознает те же стороны, что и прежде, как новый сайт.

Мы знаем, что поисковые системы имеют алгоритмы для «склеивания» страниц с Та же содержимое, поэтому сайты, которые используют идентификаторы сеанса, все равно будут проиндексированы. Однако трудно индексировать такие страницы. В некоторых случаях он не может быть должным образом проиндексирован, поэтому использование идентификаторов сеансов на сайте не рекомендуется. Решение. Что касается динамических страниц, закройте страницу «Печать версии» и другие дубликаты в файле Robots.txt или используя атрибут Meta Tag NOINDEX. Другое решение — это & ​​# 8212; Создание функциональности страницы, которая не будет генерировать динамические страницы с другой последовательностью параметров.

для идентификаторов сеанса, решение этой проблемы просто просто и # 8212; Ввод следующих команд в .HTACCESS:

 PHP_FLAG SESSIONS.Use_trans_SID OFF
php_flag session.use_Only_cookie On
Индексация страниц и разделов сайта поисковыми роботами Яндекс

Session php_flag.auto_start на

3.2 Неправильная поддержка состояния 404

проблема. проблема состоит в обработке сервером 404 состояния, когда вместо кода 404 (страница нетсуществует) сервер возвращает 200 и стандартную страницу ошибки.

Описание. Ошибка 404 может быть обработана несколькими способами, но смысл остается прежним. Основной и самый простой способ — создать страницу, например 404.htm, и ввести «ErrorDocument 404 /404.htm» в файл .htaccess. Однако не все веб-мастера делают это. Многие веб-мастера настраивают сервер для вывода домашней страницы своего веб-сайта с ошибкой 404. Это ловушка. Если сервер настроен неправильно, сервер вернет 200 OK для страницы с ошибкой 404 (в данном случае это домашняя страница). Таким образом, вы можете получить стопроцентную копию своей домашней страницы, и в результате сканер поисковой системы сможет «прикрепить» ее к любой другой странице сайта.

Решение. Выход из этой проблемы такой: правильная настройка сервера и поддержка кода 404 через. htaccess, создав отдельную страницу обработки ошибок.

3.3 Плагиат

Проблема. Размещение содержимого вашего сайта на других страницах, что приводит к "застреванию" и потере положение.
Описание. Описание проблемы находится в заголовке, и все в Интернете сегодня хорошо знают, что плагиат — это «кража» контента и «присвоение» авторских прав, но с точки зрения поисковой оптимизации это Также есть проблема с индексацией страницы в виде появления дубликатов страниц.
Решение. Есть одно решение этой проблемы — письмо с жалобой на хостера сайта с плагиатом, предупреждающее, конечно, плагиатора о том, что он действует незаконно.

3.4 Другие проблемы

Может быть несколько причин, по которым некоторые элементы страницы не индексируются. Причины:

  • Текст заключен в тег. Это специальный тег, который не позволяет роботам Яндекса индексировать текст.
  • Текст в скрипте, т.е. между тегами Текст в комментариях Очень маленький размер страницы (Яндекс не индексирует файлы меньше 1кб) Ресурс не содержит русского текста (опять про Яндекс)

Вывод

Любой, кто запускает серьезный интернет-проект, должен понимать, как работают роботы поисковых систем. Знание того, когда краулер посещает ваш сайт, что он индексирует, а что не индексирует, позволит вам избежать многих проблем, особенно технических, как на этапе создания сайта, так и в дальнейшем при его обслуживании.

Чтобы избежать вопроса, почему страница снова исчезает из результатов поиска по заданному запросу, вам следует сначала проанализировать, что робот проиндексировал на странице в данный момент. Может быть, какая-то информация по какой-то причине стала недоступной для робота?

Знание основ индексирования документов позволит вам правильно зарегистрировать ресурс в поисковой системе и грамотно провести его дальнейшее продвижение, чтобы пользователи всегда находили ваш сайт в Интернете.

 
Оцените статью