Как получить список товаров без изображений

536

Инструкция для поиска информации через XPath в Screaming Frog

Что такое XPath

XPath (XML Path Language)– это язык запросов, используемый для навигации и поиска информации в XML-документах. Он позволяет точно указать путь к элементам, атрибутам и текстовым данным, которые нужно найти в структуре XML файлов и получить данные при необходимости.

Для чего можно применять XPath

Поиск элементов: XPath позволяет найти определенные элементы в XML-документе с помощью путей и фильтров (вывод всех заголовков, определенных HTML-тегов).
Извлечение данных: XPath позволяет извлекать конкретные значения из XML-документа (содержимое элемента или значение его атрибута).
Проверка условий: XPath позволяет задавать условия и проверять их в XML-документе (отбор по определенным параметрам, подобно работе регулярных выражений).
Навигация по структуре: XPath позволяет перемещаться по структуре XML-документа, находить конкретные узлы и выполнять с ними операции.

Из всего этого разнообразия возможностей, разберем “Поиск элементов” и “Извлечение данных” с помощью Screaming Frog (SF).

Пример поиска товаров у которых нет картинки

1. С помощью инструментов разработчика (клавиша F12) анализируем HTML-элемент (тег), в котором располагается ссылка на картинку на каждой товарной карточке. Для этого используем инструмент “Выбор элемента” или сочетание клавиш CTRL+SHIFT+C и наводим курсор на нужную область:

Как получить список товаров без изображений

Все картинки располагаются в теге figure, который имеет одинаковое значение атрибута class=”woocommerce-product-gallery__image”:

2. На основе общих тегов и атрибутов формируем запрос XPath:

//figure[@class="woocommerce-product-gallery__image"]/@data-thumb

// – начало выражения;
figure – HTML-элемент, который мы ищем;
[@class="woocommerce-product-gallery__image"] – в таких скобках заключается условие поиска HTML-элемента, т.е. в примере мы ищем: “найди мне тег figure, у которого атрибут class равен woocommerce-product-gallery__image”;
/@data-thumb – извлечение значения атрибута data-thumb из элемента figure, у которого class=woocommerce-product-gallery__image.

Таким выражением мы запрашиваем вот это значение

3. Запускаем Screaming Frog. Переходим в “Configuration” – “Custom” – “Extraction”.

4. Добавляем наш запрос XPath.

5. Вводим сайт для поиска и запускаем парсинг SF:

6. После того, как парсинг завершен, ищем в правом окошке интерфейса “Custom Extraction” и выбираем искомый параметр.

Разместите
тендер бесплатно

Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.

Заполнить заявку 13203 тендера
проведено за восемь лет работы нашего сайта.

7. Экспортируем данные в отчет: