Sitelerin ana dizininde bulunan/bulunması gereken robots.txt dosyası adından anlaşılabileceği üzere botlar için hazırlanır ve uzantısından anlaşılacağı üzere metin dosyası formatındadır.
Bu dosya içerisinde arama motoru örümcekleri gibi vs. tüm botların kullanması için komutlar ve referans tanımları yer alır.
Bir bot sitemizi ziyaret etmeden önce ana dizinde olması gereken robots.txt dosyasına bakar. Yani örnek üzerinden ilerlemek gerekirse; benimsitem.com/ ya da benimsitem.com/test-sayfa sayfalarına istekte bulunmadan önce ilgili domain/subdomain için benimsitem.com/robots.txt dosyasını okur.
Her bot robots.txt okuyacak ya da okusa bile dikkate alacak anlamına gelmez.
Fakat arama motorları örümcekleri gibi botlar robots.txt okur ve dikkate alırlar. Hatta buradaki kurallara göre sayfalarınızı tarar, dizine ekleme/eklememe kararlarını verirler. Yani sizin tanımlamalarınızı dikkate alırlar ve ziyaret etme dediğiniz sayfaları ziyaret etmez görmezden gelirler.
Eğer robots.txt dosyası yoksa herşeyi tararlar ve eğer bot bir arama motoru örümceği ise tüm sayfalarınızı indeksleyecektir. Negatif örnek vermek gerekirse; eğer robots.txt dosyanız var ve tüm sayfaların taranmasını engellediyseniz siteniz arama motoru indekslerine eklenmez ve bu nedenle arama sonuçlarında yer alamazsınız.
Artık bir robots.txt oluşturalım mı?
Başlamadan önce ayrıntılı bilgi edinmek için support.google.com/webmasters/answer/6062596?hl=tr sayfasını kesinlikle ziyaret etmelisiniz.
User-agent: *
Allow: /
robots.txt dosyamız böyle olursa; tüm tarayıcılar için tüm dizinlere izin vermiş oluruz.
User-agent: *
Disallow: /
robots.txt dosyamız böyle olursa; tüm tarayıcılar için tüm dizinlere erişimi engellemiş oluruz.
# Bu şekilde yorum notları ekleyebilirsiniz.
# Önemli! Bu notlar herkes tarafından görülebilir.
User-agent: googlebot
Disallow: /dizinA/
Disallow: /dizinB/
Allow: /dizinB/altDizinC/
robots.txt dosyamız böyle olursa; googlebot tarayıcısını kullanan botlar için /dizinA/ ve /dizinB/ erişimi engeller fakat /dizinB/altDizinC/ için erişime izin vermiş oluruz.
Son olarak site haritamızı robots.txt içerisinde nasıl referans gösterebileceğimize bakalım;
# Burada dilediğimiz kuralları eklediğimizi varsayalım...
Sitemap: https://benimsitem.com/sitemap.xml
robots.txt dosyamız böyle olursa; adresinden benim site haritama erişebilirsin demiş oluruz.
DipNot: Site haritalarının ana dizinde/aynı alan adı seviyesinde vs. bulunmasına gerek yoktur. Yani dilerseniz benimsitem.com/sitemap.xml yerine arkadasiminsitesi.com/sitemap/benimsitem.xml gibi bir URL’de verilebilir.
Önemli olan belirtmiş olduğumuz adresin erişilebilir ve geçerli site haritası formatında olmasıdır.
Örümceklerin sitenizi hızla gezip indekslediği, istemediğiniz içeriklerin taranmadığı hit dolu günler geçirmeniz dileğiyle…