
Как составить индекс, от чего зависит скорость, с какими проблемами можно столкнуть и как их исправить + раскрываем методы, как ускорить индексацию сайта.
Что внутри:
Индексация сайта — основа его SEO-продвижения. Пока страницы сайта не будут проиндексированы поисковыми системами, пользователи их не увидят. Не будет ни видимости, ни позиций, ни трафика. Расскажем, как сделать так, чтобы страницы скорее попали в базу данных поисковиков и стали видны широкой аудитории.
Индекс поисковой системы — это ее база данных обо всех сайтах. Пользователи интернета видят только те страницы, которые добавлены в индекс. На непроиндексированные адреса можно зайти только по прямой ссылке. Поиск их не видит.
Индексацию проводят специальные алгоритмы — поисковые боты, они же роботы, краулеры или спайдеры. Собственные роботы есть у Яндекса, Google, других поисковиков.
Проанализируем состояние вашего сайта, найдем зоны роста и дадим рекомендации.
Краулер регулярно обходит как вновь созданные, так и старые страницы. Он просматривает контент и оценивает его качество и релевантность запросам. Он делит текст на слова и фразы, анализирует их смысл. Технологии машинного обучения позволяют ботам оценивать не формальные признаки текста, а его содержание.
Если качество соответствует критериям поисковика — нет спама и малоценного, запрещенного контента — адрес отправляется в базу данных (индекс). Если страница там уже есть, робот периодически повторно сканирует содержимое, чтобы обновить проиндексированную версию.
Если сайт не содержит никаких указаний для спайдера, он обходит его по своим правилам. Практика показывает, что для робота приоритетны:
При этом спайдер может не посетить новые или изменившиеся документы, но повторно обойти старые. Из-за этого вновь созданные страницы иногда долго не могут попасть в индекс, а обновленные остаются там со старым контентом. Есть несколько способов указать роботу, где что находится и какие страницы следует обойти в первую очередь:
Процесс индексации страниц длится от нескольких минут до нескольких дней. Чем быстрее страница проиндексирована, тем раньше она попадает в ранжирование и появляется в поисковой выдаче.
Поисковики формируют так называемый краулинговый бюджет сайта — сколько его страниц обходит робот за каждый визит. Поисковики не дают информацию о том, как они рассчитывают это количество и что на него влияет. Но опытные оптимизаторы давно заметили, что чем крупнее ресурс, тем больше его краулинговый бюджет.
Считается, что краулинговый бюджет среднего сайта составляет 10-50 тыс. страниц. Этого должно хватать, чтобы быстро проиндексировать все вновь созданные или обновленные страницы. Тем не менее даже на небольших сайтах SEO-специалисты зачастую для ускорения отправляют документы на индексацию вручную. На больших ресурсах обязательно надо указать роботу на приоритетные URL. Страницы, которые не несут ценность для пользователя, например технические, лучше вообще закрыть от индексации, чтобы не расходовать краулинговый бюджет.
Помимо бюджета на скорость индексации влияют следующие факторы:
Практика показывает, что при индексации сайта возникают три основные проблемы.
Все эти проблемы тесно связаны между собой. Чтобы исправить их, нужно показывать краулеру полезные страницы, скрывать ненужные. Ценный контент постепенно привлечет посетителей. Дальше расскажем, какую работу над ошибками провести.
Добавьте сайт в Яндекс Вебмастер и Google Search Console. Для этого придется подтверждать права на ресурс. Сервисы подскажут, как это сделать — например, внедрить тег в код или файл в корневой каталог.
Добавление сайта — еще не индексация: оно только уведомляет поисковики, что существует некий ресурс, который робот еще не смотрел.
В Яндекс Вебмастере и Google Search Console вы сможете отслеживать, какие страницы проиндексированы, какие нет, какие фатальные и критические ошибки препятствуют индексации. Отчет Google Search Console — на скриншоте ниже.
В Вебмастере отчет об индексации выглядит похожим образом.
Чтобы минимизировать ошибки, прежде чем добавить сайт в сервисы, проведите на нем следующие работы.
1. Создайте файл Robots.txt. Включите в него правила: отдельные для роботов Google и Яндекса или общие для всех. Укажите, какие страницы индексировать не надо. Например, на сайте интернет-магазина это могут быть корзины пользователей, результаты их поисков в каталоге. Таких генеративных страниц много, они не несут ценности для других покупателей, но расходуют краулинговый бюджет.
На скриншотах ниже — примеры закрывающих директив (Disallow) и открывающих индексацию команд (Allow).
Корректность Robots.txt полезно проверить в Вебмастере и Google Search Console.
Здесь же можно посмотреть, доступна ли для индексирования конкретная страница. В Вебмастере для этого есть инструмент «Анализ Robots.txt», в Google Search Console — «Проверка URL». Введите адрес: сервисы покажут, разрешена ли индексация страницы, а если нет — какое правило Robots.txt ее закрывает.
Также в robots.txt задается адрес Sitemap.xml.
2. Сделайте карту сайта Sitemap.xml. Он содержит адреса всех страниц сайта, которые нужно индексировать.
Для каждой страницы нужно указать ее URL, дату последнего изменения (тег ), приоритетность (). сообщает краулеру, что страница была обновлена, надо ее заново обойти. Тег содержит значения от 0 до 1 — они указывают на приоритетность для индексации. Высший приоритет — 1, его назначают главной странице сайта. Остальные выставляют от 0,9 до 0. Если коэффициент не указан, поисковик присвоит значение 0,5.
На больших сайтах специалисты настраивают автоматическую генерацию и обновление файла Sitemap.xml. Так она будет всегда актуальной, не надо спешно добавлять данные вручную.
Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.
Заполнить заявку
12618 тендеров
проведено за восемь лет работы нашего сайта.
Проследите, чтобы карта сайта и Robots.txt не противоречили друг другу. Если URL закрыт от индексации в Robots.txt, его не должно быть в Sitemap.xml.
3. Проверьте и исправьте ошибки в ответах сервера. Корректный ответ — код 200. Если много адресов отдают краулеру код 404 («страница не существует»), они не будут индексированы, а поисковики сочтут сайт некачественным. Если URL не нужны, удалите ссылки, по которым робот на них приходит.
Если эти страницы нужны, то верните им работоспособность или настройте редирект 301 («страница перемещена на новый адрес»). Лучше не использовать редирект 302 («страница временно перемещена») — краулер перейдет на новую страницу, но в индексе останется старый адрес, который отвечает 404. Проверьте и исправьте написание страниц: иногда адрес не содержит косую черту в конце, а ведущие на него ссылки — содержат.
Ответы сервера можно посмотреть в Вебмастере на вкладке «Инструменты» — «Проверка ответа сервера».
4. Проработайте внутреннюю перелинковку. При обходе страницы краулеры собирают найденные на ней активные ссылки и ставят их в план обхода. Поэтому чем лучше выстроены внутренние ссылки, тем быстрее боты проиндексируют все связанные URL.
Перелинковка с уже проиндексированных адресов с хорошей посещаемостью мотивирует робота перейти по ссылкам. Для ускорения внутри сайта стоит использовать такие приемы:
5. Проведите линкбилдинг. Внешние ссылки с трастовых ресурсов — сигнал для поисковиков, что эта страница качественная, на нее надо зайти. Сайт-донор должен быть релевантным тематике вашего ресурса, иметь высокий ИКС (индекс качества сайта) в Яндексе, хорошие показатель качества в Google. Простой способ — добавить свой ресурс в Яндекс Бизнес и Google Мой Бизнес, отметить в картографических сервисах, размещать ссылки в соцсетях. Далее нужно искать возможность разместиться на таких ресурсах, как отраслевые площадки, тематические СМИ, блоги. Ищите площадки для размещения в топах выдачи по релевантным запросам, по которым вы не будете с ними конкурировать.
6. Проработайте структуру сайта. Оптимальный уровень вложенности — три-четыре кликов в глубину от главной страницы. Глубже робот спускается долго, если вообще туда пойдет. Поэтому размещайте страницы, которые должны приносить трафик и конвертировать его, на втором-третьем уровнях вложенности.
7. Исправьте дубли. Одинаковые URL, тексты, метатеги Title, H1, Description для поисковиков — признаки некачественного сайта, который не заботится о качестве контента. Все повторы надо устранить: удалить либо уникализировать страницы. Настройте автоматическую генерацию метатегов при помощи нейросети, например, в LSI-анализаторе SearchLab. На крупных ресурсах дубли часто возникают из-за страниц с комментариями, добавлением товаров, которые различаются только цветом и размером. Все эти повторы можно устранить.
8. Настройте мониторинг хоста. Когда приходит краулер, сервер должен работать, чтобы страницы были доступны. Если проблемы с работоспособностью появляются регулярно, смените хостера.
Используйте для ускорения инструменты, которые сообщают роботам о новых или обновленных страницах. Расскажем про них подробнее.
Он находится на вкладке «Индексирование». Через этот инструмент можно отправить на приоритетное сканирование конкретные страницы сайта — как по одной, так и списком. Вставьте их в поле, нажмите «Отправить». Если Вебмастер не сообщил об ошибке, индексация обновится в течение двух недель.
Здесь есть лимит на количество URL в сутки, который зависит от размеров сайта. Поэтому иногда приходится отправлять адреса пакетами в течение нескольких дней.
Этот инструмент также расположен в разделе «Индексирование». Если его включить, краулер Яндекса будет узнавать о новых страницах из данных Яндекс Метрики. Счетчик передаст боту адреса, даже если они не включены в Sitemap.xml. Для этого нужно сделать счетчик Метрики, настроить его и указать в Вебмастере.
При использовании «Обхода по счетчикам» важно, чтобы были корректно настроены правила индексации, а различные дубли страниц с get-параметрами были запрещены к индексированию. Иначе можно навредить, с помощью этого инструмента добавив такие страницы в индекс.
Еще одна функция в меню «Индексирование» Вебмастера. С какой частотой робот обращается к страницам, по умолчанию рассчитывается Яндексом автоматически. Если у вас есть данные, что запросы робота замедляют ваш сервер или что скорость индексации падает, измените значение вручную.
Это независимый инструмент, который сообщает об обновлении или добавлении страниц напрямую в Яндекс, а также Bing, Naver, Seznam, Yep (кроме Google). Индексация происходит без обхода собственных роботов поисковых систем. Правда, добавление в индекс не гарантировано — об отказе поисковики сообщат. Ниже на скриншоте — возможные ответы после отправки страниц через IndexNow.
Лимиты тут выше, чем у «Переобхода Страниц» Вебмастера. Поэтому использовать этот инструмент, чтобы ускорить проверку новых страниц, однозначно стоит.
Это относительно продвинутый инструмент, которым владеют не все оптимизаторы. Для его использования надо создать проект в Google Cloud Platform и настроить Json-ключ. Чтобы не делать это вручную для каждого блока адресов, SEO-специалисты применяют автоматические скрипты.
Через Indexing API можно отправлять 200 URL для сайта в день. Если этого недостаточно, запросите увеличение квоты для проекта. Google разрешает увеличивать лимит не более чем в два раза за одно обращение. Поэтому сначала нужно просить 400 адресов, через несколько дней 800 и так далее.
*В конце 2024 года Google изменил работу инструмента, теперь Indexing API поддерживает только сканирование страниц со структурированными данными типов JobPosting или BroadcastEvent. Отправка обычных страниц больше не работает.
Рекомендуем последовательно проверить все параметры сайта.
Удачного продвижения!
***
Автор материала: Кирилл Безбородов, руководитель группы оптимизаторов в «Ашманов и партнеры».
Общаемся и делимся экспертизой в digital: SEO, ORM, performance. Подписывайтесь на нас в соцсетях!
Подробнее об услугах — на нашем сайте.