Robots.txt dosyası, arama motoru botlarının sitenizde erişmesini istemediğiniz alanları arşivlemek için kullanılan temel bir yönerge dosyasıdır.
Konunun temelini daha geniş çerçevede anlamak için SEO nedir? içeriğine de göz atabilirsiniz. Web sitenizi tarayan ve indexleyen botların, sitenize ziyaretinde varsa eğer ilk uğrayacağı yer Robots.txt dosyasıdır.
Robots.txt dosyasını doğru oluşturmak, siteniz için oldukça önem taşır. Yanlış hazırlanan bir robots.txt dosyası bu botların sitenizde önemli verileri erişime kapatmasına yol açabilir.
Robots.txt Dosyası Nedir?
Basit bir komut dosyası olan ancak birçok veriyi nasıl yönetilmesi gerektiği hakkında botlara imkan tanıyan robots.txt dosyası, sitenizi ziyaret eden arma botlarının ilk uğrayacağı adrestir.
Burada bulunan dosyaları tarar ve dizine ekleyip eklemeyeceği izinleri kontrol ederek, sitede gerekli indexlemeyi yapar. İndeksleme sürecini daha iyi anlamak için Google sıralama kaybı nedenleri yazısı konuyu tamamlayıcıdır.
Robots.txt dosyası, arama motoru botlarının bir siteyi nasıl tarayacağını belirlemek için kullanılan temel bir dosya biçimidir. Bu dosya sayesinde hangi sayfa veya dizinlerin taranabileceği ya da taranmayacağı kontrol edilebilir.
Doğru hazırlanan bu komut dosyası sayesinde taranmasını istediğiniz alanları düzenleyebilirsiniz. Yanlış hazırlanan robots.txt dosyası ise sitenin büyük zararlar görmesine neden olabilir. Bu tür teknik hatalar, en sık yapılan SEO hataları arasında yer alır.
Robots.txt Dosyası Kuralları
Belli başlı kurallara sahip olan robots.txt dosyasının en önemli 3 noktası bulunmaktadır. Bu noktalar dahilinde hazırlanmalı ve sitenin kök dizinine yerleştirilmelidir.
- Robots.txt dosyasının mutlaka kök dizininde olması gereklidir.
- Robots.txt dosyasının sitenin URLsi ile aynı formata sahip olması gereklidir.
- Robots.txt dosyasının karakter kodlamasının UTF-8 uygunluğu sağlanmalıdır.
Robots.txt dosyasının herhangi bir başka klasör içerisinde yer almaması sadece sitenin kök dizininde olması gerekmektedir. Buna örnek olarak;
https://www.siteismi.com/robots.txt Doğru Olan.
https://www.siteismi.com/main/robots.txt Yanlış olan.
UTF-8 Karakter Kodlaması
Düz metinden oluşması gereken robots.txt dosyası mutlaka UTF-8 karakteri ile hazırlanmalıdır. Farklı karakter kullanmamaya özen göstermelisiniz. Ayrıca bu dosyanın her zaman için çalışır durumda olması gereklidir. Robots.txt dosyanı site URL niz ile aynı olmalıdır.
Grup Komutları
- Arama Motoru robotu Engelleme – İzin Verme.
- Dizin Engelleme – İzin Verme.
- Sayfa Engelleme – İzin Verme.
- Tarama Gecikmesi Belirtme.
Grup Dışı Komutlar
- Site Haritası Belirtme.
- Yorum ve Notlar.
User – Agent
Sitenize hangi arama moturu botunun ziyaret edebileceğini belirlemenize yarayan dizindir. Hangi arama motoru tarafından taranmak istemiyorsanız User-agent kullanabilirsiniz.
Kullanımı
Arama motoru botlarının tümüne engelleme koymak için;
- User-agent: *
- Disallow
Arama motoru botlarının tümüne izin vermek için;
- User-agent:
Dizin Engelleme – İzin Verme
Sitenizde belirleyeceğiniz alanların botlar tarafından taranmasını ya da taranmamasını sağlayabileceğiniz komuttur.
Kullanımı
Sitenizde yer alan bazı görsellerin taranmasını istemiyor iseniz;
- User-agent:*
- Disallow: /resim/
İstediğiniz dizinin botlar tarafından taranmasını ve incelenmesini bu sayede engelleyebilirsiniz.
Sayfa Engelleme – İzin Verme
Arama botlarının hangi sayfalara erişmesini istemediğiniz komutları içermektedir. Allow veya disallow ile istediğiniz sayfanın erişimini durdurabilirsiniz.
Kullanımı
- User-agent: *
- Disallow: /belge.html/
Bu sayede yukarıda belirtilen satırın erişimi engellenecektir. Örneğin, https://www.siteismi.com/belge.html
Tarama Gecikmesi Sağlama
Sitenizin sizin belirleyeceği süre zarfında botlar tarafından taranmasının sağlanacağı bir komut sistemidir. Bu işlemi pek fazla kullanmanız önerilmez. Ancak site trafiği çok yoğun olan ve buna bağlı yaşanan hatalarda veya sunucuya bağlı site sorunlarında bu işlemi gerçekleştirebilirsiniz.
Kullanımı
Belirleyeceğiniz zaman diliminde botların sitenizi ziyaret etmesi ve bu zaman içerisinde gerekli sayfaları taraması işlemini yapabilirsiniz. Ancak belirlenen zaman bittiğinde botlar geri kalan dizin dosyalarını tarayamamış olacaktır.
- User-agent: googlebot
- Crawl-delay: 15
Crawl – delay komutu ile botların tarama zaman dilimini belirleyebilirsiniz. Örneğin 15 dakika.
Sitemap – Grup Dışı Komutlar
Arama motoru botları sitenizi ziyarete geldiğinde Robots.txt dosyası ile birlikte sitemap.xml olması gerekmektedir. Botlara en doğru bilgileri verecek olan dosya sitemap.xml’dir. Sitemap yapısının doğru kurgulanması için WordPress siteye harita ekleme rehberi yol gösterici olabilir. Her sitede olması gereken bir dizindir. Diğerlerinde oldu gibi bu dizinde de doğru URL yazılmalıdır.
- User-agent: *
- Sitemap: https://www.siteismi.com/sitemap.xml
Özel Komutlar
Arama robotlarının sitenizde ulaşmasını istemediğiniz alanlarda uygulayabileceğiniz özel komutları Robots.txt ye ekleyebilirsiniz.
- User-agent: *
- Disallow: / *!
URL içerisinde yer alan ünlem işareti ile sahip olunan URL tamamen robotların erişimine kapatılmıştır. Bunun için farklı karakterlerde kullanabilirsiniz. Tüm hazırlanan bu karakterler ile robotlar erişime engellenecektir.
Ayrıca .asp uzantısına sahip olduğunuz URL içinde bu durum geçerlidir.
- User-agent: googlebot
- Disallow: /*.asp!
.asp! ünlem işaretine sahip .asp uzantısında da bu işlemi gerçekleştirebilirsiniz.
Robots.txt Neden Kullanmalısınız?
Robots.txt dosyası, arama motoru botlarıyla temel düzeyde iletişim kurulmasını sağlar. Bu dosya aracılığıyla botların siteyi hangi kurallar çerçevesinde tarayacağı belirlenebilir.
Site üzerinde yapılan güncellemeler veya geçici düzenlemeler sırasında, robots.txt dosyası kullanılarak botların belirli alanlara erişimi sınırlandırılabilir. Bu yöntem, içerik tamamlanmadan önce arama motorlarının sayfaları taramasını önlemek için tercih edilir.
Her zaman için robots.txt dosyası ile bu molanın ardından robotları site ziyaretine çekmeniz daha makul olacaktır. Böylelikle parça parça sitenizi taramaları ve dezavantaj yaratmaları yerine sitenizin bitmiş ve güncel hali ile tarayıp arşivlemeleri en mantıklısı olacaktır.
Not: Daha önce indexlenen ve taranan sayfaları Robots.txt dosyasıyla tekrar engelleme yapılamaz.
Sayfa engellenmiş ve arama motoru ziyaretçisi o sayfa adına bir arama gerçekleştirmiş ise sayfa açıklaması yerine şu ibareyi gösterecektir.
‘’Bu sitenin robots.txt dosyası olduğundan, bu sonuç için bir açıklama bulunmamaktadır. Daha fazla bilgi ediniz.’’ Yazmaktadır.
Not: Robots.txt dosyasında yaptığınız engelleme, o sayfayı hâlâ arama motorlarında gösteriyorsa, bunun sebebi farklı web sitelerinden o sayfanın link almış olması olabilir. Ancak bu durumu artık robots.txt dosyasından dizin engelleme ile değiştiremezsiniz. Bunun yerine engellemeye son verip noindex meta etiketini kullanabilirsiniz. Bu yaklaşım, aşırı SEO (over optimizasyon) riskini de azaltmaya yardımcı olur.
Örneklemeler
- User-agent: *
- Disallow: /gizli/
- Allow: /gizli/gizli.html
- Disallow erişime kapalı, allow erişime açık ibaresidir.
- User-agent: *
- Disallow: /tasarim/
- User-agent: *
- Allow: /tasarim/
Robots.txt dosyasını mümkün olduğunda dikkatli incelemeli ve dikkatli kullanmalısınız. Herhangi bir yanlışlık yapma kaygısında Google Search Console Robots.txt test aracını kullanabilirsiniz.
Ayrıca robots.txt dosyası hakkında daha detaylı bilgiye erişmek için de robots.txt Spesifikasyonları rehber sayfasını inceleyebilirsiniz.
Yeni oluşturulan veya mevcut bir web sitesinde robots.txt dosyasının bulunması, arama motoru botlarının siteyi doğru şekilde tarayabilmesi açısından önemlidir. Bu dosya, botlara hangi alanların taranabileceği veya sınırlandırılacağı konusunda yönlendirme sağlar.
Ancak robots.txt dosyasının tek başına arama sonuçlarında görünürlük garantisi vermediği unutulmamalıdır. Teknik yapı kadar kullanıcı deneyimi (UX) de sıralamaları doğrudan etkiler.
cPanel ya da FTP erişimi kullanılarak sitenin kök dizinine robots.txt dosyası eklenebilir.
İlgili bir içerik olarak En Popüler Google Fontlar yazısına da göz atabilirsiniz.
