Robots.txt и Sitemap.xml

Вишенкой на торте, без которой торт, то есть сайт, не будет полноценным сайтом, являются файлы robots.txt и sitemap.xml. Чаще всего эти файлы формируют с помощью генератора, например pr-cy.ru/robots/ и sitemap-xml.ru, но иногда нужно приложить к этому и собственные руки. Разберемся, для чего нужны эти файлы.

robots и sitemap

Robots.txt

Это инструкция для роботов поисковых систем, что можно индексировать, а что нельзя, это если вкратце. Что же можно прописать в файле robots. Сначала обычно прописывают информацию, для роботов каких поисковых систем актуальны эти правила, а затем что то разрешают или запрещают, а затем дают ссылку на sitemap. Здесь мы укажем разрешение для всех поисковых систем индексацию всего на сайте:
User-agent: *
Allow: /
Sitemap: http://вашсайт.ru/sitemap.xml

Если вы по каким то причинам не хотите, чтобы поисковые системы или например персонально Яндекс индексировал какую то страницу, прописываем правило для него через Disallow: (а разрешаем наоборот через Allow:). Если же это касается всех страниц, то не обязательно прописывать User-agent каждый раз.
User-agent: Yandex
Disallow: /тестовая.html

Так же можно запретить индексировать любую папку (например папку с изображениями)
Disallow: /img
или файл, или все фалы .pdf например:
Disallow: /*.pdf$

Если ваш сайт на cms, нужно закрывать все технические папки и страницы и открывать индексацию картинок например с определенной папки, а все что до нее индексироваться не будет (здесь пример для вордпреса):
User-agent: *
Disallow: /wp-
Disallow: /?
Disallow: /*?
Disallow: /&
Disallow: /*&
Disallow: /author/
Disallow: /embed
Disallow: /page/
Disallow: /trackback
Allow: /uploads
Allow: /*.js
Allow: /*.css
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-*.svg
Allow: /wp-*.pdf
Allow: /wp-admin/admin-ajax.php

Sitemap: http://вашсайт.ru/sitemap.xml

Вот собственно и все. Хотя нет, еще он должен лежать в корневой папке и открываться по ссылке http://вашсайт.ru/robots.txt.

Sitemap.xml

Теперь пару слов про карту сайта. В ней мы прописываем все страницы сайта, что бы поисковый робот не запутался. Основные теги:

"urlset" — открывающий/закрывающий тег для файла sitemap (как "html" "/html", который пишется внутри <>). "url" — в этом теге прописываем всю необходимую информацию по ссылке: адрес - URL, как что обновлять ее, приоритет в индексировании.
"loc" — тег ограничивающий URL:
"changefreq" — периодичность обновления на странице: always, hourly, daily, weekly, monthly, yearly, never (всегда, ежечасно, ежедневно, еженедельно, ежемесячно, ежегодно, никогда).
"lastmod" —дата последнего обновления страницы. Информация для робота для понимания, изменилось ли что-нибудь с момента его предыдущего посещения.
"priority" — информация о приоритете индексирования. У главной всегда "priority" 1, остальные можно расставить как вам удобно и приятно (например, 0,7, 0,6 и так далее до 0,1).

Все это великолепие вы можете сгенерировать автоматически на специальных сервисах, приведенных в начале страницы. После автоматической генерации вы можете откорректировать результат под свои нужды. И обязательно проверьте качество генерации в вебмастере Яндекса и Гугла.