File robots.txt yang disimpan di root situs web Anda akan memberi tahu robot web seperti spider mesin telusur, direktori dan file apa yang diizinkan untuk dirayapi. Sangat mudah untuk menggunakan file robots.txt, tetapi ada beberapa hal yang harus Anda ingat:
- Robot web Blackhat akan mengabaikan file robots.txt Anda. Jenis yang paling umum adalah bot perangkat lunak perusak dan robot yang mencari alamat email untuk dipanen.
- Beberapa programmer baru akan menulis robot yang mengabaikan file robots.txt. Ini biasanya dilakukan oleh kesalahan.
- Siapa pun dapat melihat file robots.txt Anda. Mereka selalu disebut robots.txt dan selalu disimpan di root situs web.
- Terakhir, jika seseorang menautkan ke file atau direktori yang dikecualikan oleh file robots.txt Anda dari laman yang tidak dikecualikan oleh file robots.txt mereka, mesin telusur mungkin menemukannya.
Jangan gunakan file robots.txt untuk menyembunyikan sesuatu yang penting. Sebagai gantinya, Anda harus meletakkan informasi penting di balik kata sandi aman atau membiarkannya keluar dari web sepenuhnya.
Cara Menggunakan File Contoh Ini
Salin teks dari sampel yang paling dekat dengan apa yang ingin Anda lakukan, dan tempelkan ke file robots.txt Anda. Ubah robot, direktori, dan nama file agar sesuai dengan konfigurasi pilihan Anda.
Dua File Robots.txt Dasar
Agen pengguna: *Disallow: / File ini mengatakan bahwa robot apa pun ( Agen pengguna: *) yang mengaksesnya harus mengabaikan setiap halaman di situs ( Disallow: /). Agen pengguna: *Melarang: File ini mengatakan bahwa robot apa pun ( Agen pengguna: *) yang mengaksesnya diizinkan untuk melihat setiap halaman di situs ( Melarang:). Anda juga dapat melakukan ini dengan membiarkan file robots.txt Anda kosong atau tidak memiliki satu pun di situs Anda sama sekali. Agen pengguna: *Larang: / cgi-bin /Disallow: / temp / File ini mengatakan bahwa robot apa pun ( Agen pengguna: *) yang mengaksesnya harus mengabaikan direktori / cgi-bin / dan / temp / ( Disallow: / cgi-bin / Disallow: / temp /). Agen pengguna: *Disallow: /jenns-stuff.htmDisallow: /private.php File ini mengatakan bahwa robot apa pun ( Agen pengguna: *) yang mengaksesnya harus mengabaikan file /jenns-stuff.htm dan /private.php ( Disallow: /jenns-stuff.htm Disallow: /private.php). Agen-pengguna: Lycos / x.xDisallow: / File ini mengatakan bahwa bot Lycos ( Agen-pengguna: Lycos / x.x) tidak diizinkan mengakses di mana saja di situs ini ( Agen pengguna: *Disallow: /Agen pengguna: GooglebotMelarang: File ini pertama kali melarang semua robot seperti yang kami lakukan di atas, dan kemudian secara eksplisit memungkinkan Googlebot ( Agen pengguna: Googlebot) memiliki akses ke segala sesuatu ( Meskipun lebih baik menggunakan jalur Agen-Pengguna yang sangat inklusif, seperti Agen-pengguna: *, Anda dapat sespesifik yang Anda suka. Ingat bahwa robot membaca file secara berurutan. Jadi jika baris pertama mengatakan bahwa semua robot diblokir dari semuanya, dan kemudian di file itu dikatakan bahwa semua robot diizinkan mengakses semuanya, robot akan memiliki akses ke semuanya. Jika Anda tidak yakin apakah Anda telah menulis file robots.txt dengan benar, Anda dapat menggunakan Alat Webmaster Google untuk memeriksa file robots.txt Anda atau menulis yang baru. Lindungi Direktori Khusus Dari Robot
Lindungi Halaman Tertentu Dari Robot
Mencegah Robot Khusus dari Mengakses Situs Anda
Izinkan Hanya Satu Akses Robot Tertentu
Gabungkan Beberapa Baris untuk Mendapatkan Pengecualian yang Anda Inginkan