Номинируйте кейсы на Workspace Digital Awards 2026. Прием заявок до 15 декабря по льготной цене, успейте принять участие!
Назад
SEO

Как получить список товаров без изображений

536 
 

Инструкция для поиска информации через XPath в Screaming Frog

Что такое XPath

XPath (XML Path Language)– это язык запросов, используемый для навигации и поиска информации в XML-документах. Он позволяет точно указать путь к элементам, атрибутам и текстовым данным, которые нужно найти в структуре XML файлов и получить данные при необходимости.

Для чего можно применять XPath

  1. Поиск элементов: XPath позволяет найти определенные элементы в XML-документе с помощью путей и фильтров (вывод всех заголовков, определенных HTML-тегов).
  2. Извлечение данных: XPath позволяет извлекать конкретные значения из XML-документа (содержимое элемента или значение его атрибута).
  3. Проверка условий: XPath позволяет задавать условия и проверять их в XML-документе (отбор по определенным параметрам, подобно работе регулярных выражений).
  4. Навигация по структуре: XPath позволяет перемещаться по структуре XML-документа, находить конкретные узлы и выполнять с ними операции.

Из всего этого разнообразия возможностей, разберем “Поиск элементов” и “Извлечение данных” с помощью Screaming Frog (SF).

Пример поиска товаров у которых нет картинки

1. С помощью инструментов разработчика (клавиша F12) анализируем HTML-элемент (тег), в котором располагается ссылка на картинку на каждой товарной карточке. Для этого используем инструмент “Выбор элемента” или сочетание клавиш CTRL+SHIFT+C и наводим курсор на нужную область:

Как получить список товаров без изображений

Все картинки располагаются в теге figure, который имеет одинаковое значение атрибута class=”woocommerce-product-gallery__image”:

Как получить список товаров без изображений

2. На основе общих тегов и атрибутов формируем запрос XPath:

//figure[@class="woocommerce-product-gallery__image"]/@data-thumb

  • // – начало выражения;
  • figure – HTML-элемент, который мы ищем;
  • [@class="woocommerce-product-gallery__image"] – в таких скобках заключается условие поиска HTML-элемента, т.е. в примере мы ищем: “найди мне тег figure, у которого атрибут class равен woocommerce-product-gallery__image”;
  • /@data-thumb – извлечение значения атрибута data-thumb из элемента figure, у которого class=woocommerce-product-gallery__image.

Таким выражением мы запрашиваем вот это значение

Как получить список товаров без изображений

3. Запускаем Screaming Frog. Переходим в “Configuration” – “Custom” – “Extraction”.

Как получить список товаров без изображений

4. Добавляем наш запрос XPath.

Как получить список товаров без изображений

5. Вводим сайт для поиска и запускаем парсинг SF:

Как получить список товаров без изображений

6. После того, как парсинг завершен, ищем в правом окошке интерфейса “Custom Extraction” и выбираем искомый параметр.

Как получить список товаров без изображений

Разместите
тендер бесплатно

Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.

Заполнить заявку 13203 тендера
проведено за восемь лет работы нашего сайта.


7. Экспортируем данные в отчет:

Как получить список товаров без изображений

8. Открываем полученный документ. Удаляем столбцы “Status Code”, “Status”.

Как получить список товаров без изображений

9. Дополнительно добавляем к оставшимся столбцам фильтр.

Как получить список товаров без изображений

10. С помощью фильтра удаляем лишние страницы.

В моем примере у всех товаров есть составная часть /product/.

Таким образом удаляем все URL, что не содержит ее.  

Как получить список товаров без изображений

11. Удаляем сортировку. В столбце “Product image 1” выбираем сортировку “Сортировка от А до Я”:

Как получить список товаров без изображений

12. Результат получен! Пустое поле в столбце “Product image 1” означает, что на данной странице товара нет уникальной картинки:

Как получить список товаров без изображений

Информация взята с сайта  https://seo-personal.ru/blog/screaming-frog/straniczy-bez-kartinok/

Выскажите мнение
Авторизуйтесь, чтобы добавить свой комментарий.




536

Лучшие статьи

Поделиться: 0 0 0
Руководитель SEO-отдела в  Alekzo , Минск
 55  1  1