webの最近のブログ記事

robots.txtとは?

google, Yahoo! などロボット型検索エンジンに対し、サイトの巡回方法を指示できる。
通常、次のような用途で利用する。
  • 検索エンジンに登録して欲しくないディレクトリ階層を指定する。
    例: /cgi-bin, /member-only/
  • サーバに高負荷をかける CGI を実行しないようにする。
また、SEO 対策として ページの存在を効率よく検索エンジンのロボット(クローラー)に通知するためにも利用できる。

robots.txtの書き方

下記内容のファイルを作成し、 サイトのトップ・ディレクトリに置く(例: http://foo.jp/robots.txt)。

全ての検索エンジンに対し、全ての URL への巡回を許可する

User-agent: *
Disallow:

特定のディレクトリへの巡回を拒否する

User-agent: *
Disallow: /cgi-bin/

robots.txt にサイトマップを記述する

sitemap.xml を作成したら、robots.txt に場所を記述しておく。
sitemap.xml が複数存在する場合は、複数記述する。
User-agent: *
Sitemap: http://trasis.jp/sitemap.xml
Sitemap: http://trasis.jp/blog/lab/sitemap.xml
Disallow:

robots.txt のテスト方法

Google ウェブマスターツール を使って、正しく動作するかどうかをテストできる。
間違えて記述したために、全てのページが巡回されなくなったなどのミスが起きるのは避けたい。

使い方
  • 「運用ツール」の「robots.txtを解析」をクリックする。
  • 「次のファイルのテキスト」のところに、robots.txt の内容をコピー&ペーストする。
  • 「この robots.txt ファイルに対して URL をテスト」のところに、自サイトの URL をいくつか入力してみる。
  • [テスト] ボタンを押す。

参考URL

2009年9月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30