Screaming Frog позволяет найти все что угодно, в HTML и тексте вашего сайта с помощью функции пользовательского поиска. Ранее я уже рассказывалкак найти страницы без кода Метрики и Аналитики, а сегодня мы поговорим про поиск определенных слов или фраз, а также поговорим про более расширенный поиск
Я надеюсь, что вы прекрасно понимаете, что при обходе сайта скриминг фрог сканирует весь код каждой страницы. Зная это, мы можем попросить его, при обходе, находить определенные данные на страницах и показать URL-адреса на которых он это нашел.
По умолчанию пользовательский поиск проверяет исходный HTML-код сайта, который может не совпадать с текстом, отображаемым в браузере. Обычно это связано в тем, что некоторые элементы реализованы через JavaScript и переключившись в режим рендеринга JavaScript, вы сможете легко найдете эти элементы.
Перед настройкой поиска добавьте в сканирование файл sitemap.xml, так как в ней могут быть страницы, которые краулер не увидит при сканировании, так как на них нет ссылок внутри сайта (кстати, это тоже плохо). Чтобы учитывать карту при сканировании в меню верхнего уровня переходим в разделConfiguration → Spider → Crawl.
Ставим галочки напротив:
1. Crawl Linked XML Sitemaps (обойти файл sitemap.xml и все URL, которые в нем находятся)
2. Auto Discover XML Sitemaps via robots.txt (будет сканировать карту, указанную в robots.txt)
3. Crawl These Sitemaps (ставим галочку, если вам нужно указать дополнительные карты сайта или sitemap.xml не указана в роботсе)
После переходим в раздел пользовательского поиска Configuration → Custom → Custom Search
Чтобы произвести настройки и добавить значение, которое мы будем искать, нам нужно нажать на кнопку"+ Add", чтобы перед нами появилось поле с настройками.
Максимальное число поисковых фильтров, которое можно настроить - 100
Теперь разберем каждый пункт в строке, которую мы только что добавили:
1. Название того, что мы ищем
Указываем понятное название для себя, чтобы не запутаться при поиске нужных значений.
2. Содержит (Contains) или Не содержит (Does Not Contain) значение, которое мы ищемContains - лучше всего подходит при поиске определенных слов на странице, ненужного кода или поиска товаров, которых нет в наличии;
Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.
Заполнить заявку
12209 тендеров
проведено за восемь лет работы нашего сайта.
Does Not Contain - является идеальным вариантом при поиске страниц без кода Метрики или Аналитики.
3. Выбор поиска значений
Text - Конкретный поиск именно того слова, числа или фразы, которое вы указали ;
Regex - позволяет использовать регулярные выражения, что значительно упрощает поиск, мы ещё поговорим про это подробнее ниже.
Чтобы не испытывать боль с регистром (большая буковка будет или маленькая) рекомендую всегда, в поле ввода данных, ставить галочку напротив "Case sensitive". Так как по умолчанию программа разделяет буквы В ВЕРХНЕМ РЕГИСТРЕ и нижнем.
Чтобы произвести настройки и добавить значение, которое мы будем искать, нам нужно нажать на кнопку "+ Add", чтобы перед нами появилось поле с настройками.
По факту я опишу те вещи, с помощью которых вы сможете не только хвастаться упростить поиск элементов, но и сохраните львиную долю времени в перспективе, выделив чуть больше времени на обучение сейчас. Буду думать, что я вас убедил.
Ищем несколько слов сразу в 1 колонке
Чтобы стать более продвинутыми в использовании поиска, нужно переключиться на регулярные выражения (Regex)
Чтобы не использовать по 5-10 колонок для поиска одного значения в разных вариациях, мы можем объединять слова и искать их сразу в одном окне. Чтобы было понятнее разберем на примере.
Допустим, заказчик изменил название своей компании, после ссоры с партнером, и просит вас изменить название старого бренда на новый на всем сайте. В примерах выше мне нужно было создать отдельное поле для каждого варианта бренда, но с помощью регулярных выражений это решается правилом в 1 строку ⏬
Любое регулярное выражение (Regex) чувствительно к регистру, чтобы сделать его нечувствительным к регистру, используйте (?i) перед формулой или словом. Чтобы было понятнее добавим это в нашу предыдущую формулу
Также часть контента может быть не найдена краулером, так как она будет реализована JavaScript, поэтому для поиска всей необходимой информации нам нужно разрешить сканирование JavaScript и только после этого запускать сканирование.
Это лишь малая часть того, как можно использовать SEO Spider для поиска слов, фраз, тегов, скриптов и прочих значений.