безкоштовно з міських телефонів України
Київ | 044 392-73-56 |
Харків | 057 728-49-18 |
Дніпро | 056 790-86-00 |
Одеса | 048 734-56-54 |
Львів | 032 229-58-50 |
Миколаїв | 051 270-12-63 |
Полтава | 053 262-53-74 |
Запоріжжя | 061 228-69-91 |
Файл robots.txt , також званий індексним файлом, є звичайним текстовим документом у кодуванні UTF-8. Цей файл містить інструкції для пошукових роботів, які містять рекомендації про те, які сторінки або файли потрібно сканувати.
Під час обробки файлу robots.txt пошукові роботи можуть отримати одну з трьох інструкцій:
Файл потрібно розміщувати у кореневій директорії сайту у вигляді звичайного текстового файлу. Після розміщення файлу необхідно переконатись, що він доступний за адресою https://ваш_домен.com.ua/robots.txt
Нижче вказано кілька правил, наприклад.
User-agent є правилом, яке повідомляє про те, яким роботам необхідно переглянути інструкції, вказані у файлі robots.txt
Щоб дозволити перегляд інструкцій усім роботам, необхідно прописати таке правило:
User-agent:*
Якщо ж необхідно дозволити перегляд інструкції тільки для роботів google, потрібно встановити таке правило:
User-agent: Googlebot
Disallow є правилом, що повідомляє, яку саме інформацію не варто сканувати.
Щоб дозволити сканування всієї інформації на сайті, необхідно прописати таке правило:
Disallow:
Щоб заборонити сканування всієї інформації на сайті, необхідно прописати таке правило:
Disallow: /
Щоб заборонити сканування лише конкретної папки на сайті (у прикладі папка називається images), необхідно прописати таке правило:
Disallow: /images/
Щоб заборонити сканування лише конкретної URL на сайті (у прикладі URL називається images.html), необхідно прописати таке правило:
Disallow: /images.html
Щоб заборонити сканування лише конкретного файлу на сайті (у прикладі файл називається images.jpg), необхідно прописати таке правило:
Disallow: /images.jpg
Щоб заборонити сканування всіх файлів на сайті з певним розширенням (у прикладі вказано розширення .jpg), необхідно прописати таке правило:
Disallow: /*.jpg$
Allow є правилом, що повідомляє, яку саме інформацію не потрібно сканувати.
У випадку, якщо необхідно заборонити сканування всього сайту, крім папки images необхідно прописати таке правило:
Allow: /images Disallow: /
Sitemap є правилом, що повідомляє роботам розташування файлу sitemap.xml, в якому знаходяться всі URL адреси, обов'язкові для індексації:
Sitemap: https://ваш_домен.com.ua/sitemap.xml
Існують і інші правила для файлу robots.txt, докладнішу інформацію про які можна дізнатися на наступному ресурсі - https://support.google.com/webmasters/answer/6062608?hl=ua
Див. також:
Для чого потрібен файл robots.txt