Webサイト制作に関することは全て独学で学んだのですが、いつの頃からかなんとなーく使っている「robots.txt」というファイルについて、その利用用途や書き方などを改めて知りたいと思い、ググって調べてみました。
「robots.txt」とは
自分のWebサイトのディレクトリやファイルに検索エンジンのクローラーがアクセスするのを制御する為に使われるテキストファイルです。
例えば「このディレクトリにあるファイルにはアクセスさせない」とか「kensaku.htmlというファイルにはアクセスさせない」という感じで設定します。
またこのことから、SEO的には「クロール最適化」の手段の一つとして挙げられています。
「robots.txt」のファイル名
「robots.txt」のファイル名は必ず「robots.txt」にします。
「robot.txt」でも「robots.html」でも「Robots.txt」でも「.robots」でもダメです。
「robots.txt」の設置場所
「robots.txt」はWebサイトのルートディレクトリ(ルートドメイン)に設置します。
例えばWebサイトのURLが「http://hogehoge.com」の場合には「http://hogehoge.com/robots.txt」に設置します。
ちなみに「http://hogehoge.com/blog/robots.txt」などに設置しても効果はありませんので要注意です。
「robots.txt」の書き方
「robots.txt」には下記の四つの要素を記述することができます。
User-Agent:
Disallow:
Allow:
Sitemap:
User-Agent:
どのクローラーの動きを制御するかを指定する要素で「*」は全てのクローラーに指示する設定になります。例えば「User-Agent:Googlebot」と記述すると、検索エンジンGoogleのクローラー(Googlebot)に対して指示することになります。基本的には「*」と記述しておけば大丈夫です。
Disallow:
User-Agentで指定したクローラーのアクセスを制御するディレクトリやファイルを指定する要素です。
サイト全体をクロール不可・・・Disallow: /
特定のディレクトリとその中身全て・・・Disallow: /fukadesu/
特定のファイル・・・Disallow: /fuka-file.html
Allow:
上記Disallowの反対の意味の要素でアクセス許可を設定する要素ですが、基本的には使いません。
Sitemap:
sitemapファイルの場所をクローラーに知らせるための要素です。これを記述しておくとクローラーがsitemapファイルを積極的に読みにいくようになります。必ず記述しておくようにしましょう。
「robots.txt」の具体例
User-Agent: *
Disallow: /admin/
Allow:Sitemap: http://hogehoge.com/sitemap.xml
全てのクローラーに対して、adminフォルダへのアクセスは不可。
User-Agent: *
Disallow: /
Allow: /blog/Sitemap: http://hogehoge.com/sitemap.xml
全てのクローラーに対して、サイト全体がアクセス不可だが、blogフォルダのみアクセス可。
User-Agent: Googlebot
Disallow: /google-dame/
User-Agent: Googlebot-Image
Disallow: /dame-photo/Sitemap: http://hogehoge.com/sitemap.xml
Google検索のクローラーに対して、google-dameフォルダへのアクセス不可。
Google画像検索のクローラーに対して、dame-photoフォルダへのアクセス不可。
検索エンジンはなぜ見つけるのか
- 作者: 森大二郎
- 出版社/メーカー: 日経BP社
- 発売日: 2011/03/10
- メディア: 単行本(ソフトカバー)
- 購入: 8人 クリック: 1,195回
- この商品を含むブログ (27件) を見る