Почему парсер собирает не все товары: 7 причин неполной выгрузки

2368

Клиент открывает сайт, видит в категории 20.000 товаров, запускает парсер и получает в таблице только 6.000. Первая реакция понятная: "Парсер работает неправильно".

Но не всегда проблема в программе. Часто причина в самом сайте. Каталог может быть ограничен по выдаче, зависеть от региона, подгружать товары частями или показывать часть данных только после авторизации.

Поэтому перед разработкой парсера важно смотреть не только на страницу глазами пользователя. Нужно понять, как сайт реально отдает данные.

Что такое неполная выгрузка товаров

Неполная выгрузка — это ситуация, когда в итоговый файл попали не все товары, которые клиент ожидал получить.

Например:

на сайте указано 30.000 товаров, а в Excel выгрузилось 12.000;
часть карточек видна в браузере, но отсутствует в таблице;
один и тот же раздел дает разные результаты в разных регионах;
при повторном сборе появляются новые товары, которых не было раньше.

Для бизнеса это критично. Если данные используются для анализа конкурентов, загрузки каталога, мониторинга цен или обновления остатков, неполная выгрузка может исказить итоговую картину.

Почему парсер собирает не все товары

Главная причина простая: сайт не всегда отдает весь каталог одним прямым способом.

Пользователь может видеть витрину, но за ней работает сложная логика: фильтры, сортировки, внутренние запросы, региональные настройки, лимиты, защита и личные кабинеты.

Парсеру нужно не просто открыть ссылку. Ему нужно пройти по той же логике, по которой сайт показывает товары человеку.

1. У сайта есть лимит выдачи

Многие сайты и маркетплейсы ограничивают количество товаров в одной выдаче.

Например, по запросу найдено 50 000 товаров, но площадка реально показывает только первые 2 000 или 5 000. Остальные товары существуют, но не доступны через обычный просмотр страницы.

В такой ситуации простой сбор по одной ссылке даст неполный результат. Чтобы получить больше товаров, сбор приходится дробить: по категориям, брендам, диапазонам цен, размерам, цветам, продавцам или другим фильтрам.

Это особенно часто встречается в больших каталогах и на маркетплейсах.

2. Товары подгружаются при прокрутке

На некоторых сайтах товары не лежат на странице сразу. Они появляются постепенно, когда пользователь прокручивает каталог вниз.

Визуально все выглядит просто: человек скроллит страницу и видит новые карточки. Но для обычного парсера на странице может быть только первая партия товаров.

Например, первые 24, 48 или 100 карточек. Остальные появляются только после действия пользователя.

В таких случаях нужен другой сценарий сбора: открыть страницу, дождаться загрузки, прокрутить каталог, дождаться новых карточек и только потом забирать данные.

3. Неправильно обработана пагинация

Пагинация — это переход по страницам каталога: 1, 2, 3, 4 и дальше.

Иногда все просто: у каждой страницы есть отдельная ссылка. Тогда парсер может последовательно пройти весь список.

Но бывает иначе. Следующая страница открывается через кнопку, внутренний запрос или скрипт. В адресной строке ничего не меняется, хотя товары на экране обновляются.

Если эту механику не учесть, парсер соберет только первую страницу. Поэтому при разработке важно проверить, как сайт реально переключает страницы.

4. Фильтры меняют состав выдачи

Фильтры не всегда просто "сужают" каталог. Иногда они помогают добраться до товаров, которых нет в общей выдаче.

Например, без фильтра сайт показывает 10.000 товаров. Но если отдельно пройти бренды, размеры, цвета или диапазоны цен, можно найти дополнительные позиции.

Поэтому для сложных каталогов сбор часто строится не по одной ссылке. Сначала изучается структура сайта, затем формируется схема обхода фильтров.

Такой подход помогает получить более полную выгрузку и убрать дубли.

5. Данные зависят от региона

Один и тот же сайт может показывать разные товары для разных городов.

В Москве товар есть, в другом регионе его нет. Или цена отличается. Или срок доставки меняется в зависимости от склада.

Это часто встречается в интернет-магазинах, автозапчастях, строительных материалах, продуктах и маркетплейсах.

Если регион не задан, парсер может собрать не те данные, которые видит клиент в своем браузере. Поэтому перед запуском важно определить город, склад или другой параметр, который влияет на выдачу.

Разместите
тендер бесплатно

Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.

Заполнить заявку 13590 тендеров
проведено за восемь лет работы нашего сайта.

6. Часть товаров видна только после авторизации

Некоторые сайты показывают полный каталог только после входа в личный кабинет.

Без авторизации может быть видна общая витрина. А после входа появляются другие цены, остатки, склады, скидки, сроки доставки или закрытые позиции.

Для B2B-сайтов это обычная история. Один клиент видит одни условия, другой — другие.

Поэтому перед разработкой нужно сразу понять, как должен работать сбор: как обычный посетитель или как пользователь из личного кабинета.

7. Сайт включает защиту от частых запросов

Если программа слишком быстро открывает много страниц, сайт может включить защиту.

Это может быть капча, временная блокировка, пустые ответы, обрезанная выдача или принудительное ограничение скорости. Внешне это выглядит так, будто парсер "пропустил" часть товаров.

На практике сайт просто перестал отдавать данные в нормальном виде.

Чтобы снизить риск, в сбор добавляют паузы, повторные попытки, прокси, логи ошибок и проверку результата. Это не делает задачу мгновенной, но повышает стабильность.

Почему нельзя сразу точно назвать количество товаров

Снаружи сайт может выглядеть простым. Но реальная сложность становится понятна только после проверки.

Нужно понять:

как загружаются товары;
есть ли лимит выдачи;
влияет ли регион;
нужна ли авторизация;
как работают фильтры;
есть ли защита;
появляются ли дубли;
какие поля нужно собрать.

Иногда достаточно одной ссылки на категорию. А иногда нужно строить отдельную схему обхода сайта.

Именно поэтому нормальная оценка парсинга начинается с анализа источника, а не только с подсчета страниц.

Пример простой задачи

Клиент дает ссылку на категорию интернет-магазина. В категории 500 товаров. Страницы открываются обычными ссылками. Все карточки доступны без авторизации.

В этом случае парсер проходит по страницам, открывает карточки и выгружает данные в Excel или CSV.

В таблице могут быть: название, артикул, бренд, цена, наличие, ссылка, фото, характеристики и категория.

Такая задача обычно предсказуема: понятен объем, структура и способ обхода.

Пример сложной задачи

Клиент хочет собрать товары с маркетплейса по большому поисковому запросу.

В выдаче есть лимит. Товары зависят от фильтров. Часть карточек подгружается при прокрутке. Площадка может включать защиту. Один и тот же товар может попасть в несколько фильтров.

Здесь простого сбора по одной ссылке недостаточно.

Нужно разбивать задачу на части, проходить фильтры, удалять дубли, проверять пропуски и собирать итоговую таблицу из нескольких наборов данных.

На выходе клиент получает не случайную выгрузку, а очищенный файл, который можно использовать в работе.

Что подготовить перед разработкой парсера

Чтобы быстрее получить точный результат, лучше заранее подготовить вводные.

Нужны ссылки на категории, бренды, продавцов или поисковые запросы. Также нужен список полей: цена, наличие, фото, характеристики, рейтинг, отзывы, продавец, артикул, категория и другие данные.

Если данные зависят от региона, нужно указать город или склад.

Если сбор должен идти из личного кабинета, нужно заранее обсудить доступ и правила работы с аккаунтом.

Также важно определить формат результата: Excel, CSV, Google Таблица, база данных, API или файл для загрузки на сайт.

Частые вопросы клиентов

Почему на сайте указано одно количество товаров, а в таблице меньше?

Можно ли собрать все товары из категории, если сайт показывает только первые страницы?

Почему парсер видит не те товары, что я вижу в браузере?

Можно ли собрать товары, которые появляются только после прокрутки?

Что делать, если сайт ограничивает выдачу по одному запросу?

Нужно ли давать доступ в личный кабинет?

Можно ли проверить, какие товары не попали в выгрузку?

Можно ли настроить регулярный сбор, чтобы данные обновлялись каждый день?

Главное

Если парсер собирает не все товары, причина не всегда в ошибке программы.

Чаще всего дело в ограничениях сайта: лимитах выдачи, фильтрах, подгрузке, регионе, авторизации или защите.

Поэтому хороший парсинг начинается не с запуска скрипта, а с анализа источника. Сначала нужно понять, как сайт показывает товары. Потом выбрать правильную схему обхода. И только после этого собирать данные в нужный формат.

Такой подход помогает получить не просто таблицу, а рабочий файл для анализа, мониторинга цен, загрузки товаров или обновления каталога.