LLMs.txt — это файл управления доступом для больших языковых моделей (LLM), аналогичный robots.txt для поисковых систем. Он позволяет владельцам сайтов контролировать, какие страницы могут использоваться для обучения ИИ-моделей.
Основное назначение: указать, разрешено ли языковым моделям (ChatGPT, Gemini, Claude и другим) сканировать и использовать контент вашего сайта для обучения. В отличие от robots.txt, который технически обязателен, LLMs.txt пока носит рекомендательный характер, но может стать стандартом в будущем.
Стоит ли его внедрять? Да, потому что это лучше, чем ничего, и готовит почву для будущего регулирования. Можно ли на него полагаться? Нет — нужен комплексный подход: юридический + технический + мониторинг.
LLMs.txt использует простой текстовый формат, похожий на robots.txt:
User-agent: [название LLM] Allow: /разрешенные-страницы/ Disallow: /запрещенные-разделы/
Пример для ChatGPT:
User-agent: ChatGPT-User Disallow: /private/ Allow: /blog/
Для справки:
Исследование "Как часто LLM посещают llms.txt?".
Результаты: llms-full.txt посещается чаще, чем llms.txt. Причем, большая часть трафика llms-full.txt приходится на ChatGPT.
llms-full.txt – это стандарт Mintlify, впервые разработанный компанией Anthropic, который позволяет выйти за рамки ссылок высокого уровня в llms.txt. Вместо перечисления только ключевых страниц, llms-full.txt включает полное содержание вашей документации в одном структурированном файле, что предоставляет LLM—специалистам гораздо более широкие возможности для индексации.
Файл должен находиться в корневой директории сайта (как и robots.txt) по адресу:
https://ваш-сайт.com/llms.txt
Позволяет явно указать, какие разделы сайта можно использовать для обучения ИИ, а какие — нет. Особенно важно для:
Некоторые LLM уже учитывают LLMs.txt при сканировании:
В условиях ужесточения законов об авторском праве (например, EU AI Act) наличие LLMs.txt может стать юридическим преимуществом. Впрочем, с такими же шансами может и не стать.
Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.
Заполнить заявку
13203 тендера
проведено за восемь лет работы нашего сайта.
Гуглоид Джон Мюллер практически высмеял инициативу управления поведением краулеров систем ИИ с помощью файла LLMS.txt по схожей логике с файлом robots.txt: "keywords meta tag V2".
Явный намек на бесполезность данного файла по аналогии с давно неучитываемым мета-тегом keywords. Системам ИИ нужно как можно больше контента для обучения, и плевать их создатели хотели на какие-то правила приличия и прочие протоколы.
User-agent: * Disallow: /
User-agent: ChatGPT-User Allow: /public-content/ Disallow: /members-only/
User-agent: ChatGPT-User Disallow: /sensitive-data/ User-agent: Google-LLM Allow: /
Можно использовать в head страницы:
<meta name="llm" content="noindex">
Настройка сервера для отправки:
X-LLM-Permissions: none
LLMs.txt — это важный инструмент для контроля доступа языковых моделей к вашему контенту. Хотя его соблюдение пока не гарантировано на 100%, он:
Рекомендация: Для большинства сайтов стоит создать базовый LLMs.txt, на всякий случай, явно запрещающий сканирование закрытых разделов. Медиа-компаниям и издателям следует разработать детальную политику сканирования. Может и не пригодится и не будет работать, но подстраховаться стоит.
Используйте LLMs.txt как часть стратегии, но не как единственное решение.
Описание спецификации: https://llmstxt.org/
Пример файла: https://wordlift.io/llms.txt
Каталог (индекс): https://llmstxt.directory/