「robots.txt」の基本知識

| お知らせ · SEO

SEO対策の際や、長い間サイトを運営していく際に耳にする可能性がある「robots.txt」ですが、サイトを上手く運営していく中で非常に大切なものとなります。
今回はその「robots.txt」の基本的な部分に触れておきたいと思います。

「robots.txt」とは?

「robots.txt」はサイトを運営する中でサイト運営者が、GoogleやYahoo!などの検索エンジンの「クローラー」と呼ばれる検索データベースを作成するために世界中のWEBページを回収するプログラムに対して、自身のサイトにアクセスさせるかアクセスさせないか教えるテキストファイルのことです。
多くの検索エンジンのクローラーは、ドメインの最上位のディレクトリ(フォルダ)に設置された「robots.txt」を最初に読み込み、サイト内の情報取集するページとそうでないページを取得し、それに基づいて巡回します。
これを用いる事により、「naisyo.htmlというファイルだけアクセスさせない」や「himituというディレクトリにあるファイルには全てアクセスさせたくない」という使用方法が出来ます。「アクセスさせたくない」ということは、つまり「検索結果に表示させない」ようにすることです。
では、なぜ検索結果に表示させたくないのでしょうか?
様々なケースがあるのですが、管理系のファイルや、「404エラーページ」などコンテンツとして価値の低いページなどが挙げられます。また、この様なページを検索エンジンに表示させない事で良質なサイトとみなされSEO対策につながるようです。
 

「robots.txt」の書き方・ルール

「robots.txt」は、メモ帳などのエディタで作成できるシンプルなファイルです。
書き方はいくつかルールがあり、複雑に感じるかも知りませんが、慣れるとすぐに設定できるようになります。

①robots.txtの作成方法

robots.txtはテキストファイルで作成します。そして、「robots.txt」という名前で保存しなければなりません。

②robots.txtの設置場所

作成したrobots.txtファイルは、「http://sample.com/robots.txt」のようにルートディレクトリ(ドメインの最上位の階層のフォルダ)にアップロードします。
例えば、「http://sample.com/blog/robots.txt」に設置しても効果はないので注意してください。

③「robots.txt」の書き方のルール

以下は「robots.txt」のサンプルです。

User-Agent: *
Disallow: /

記述する項目は
1.アクセスを制御するクローラのタイプ
2.アクセスを許可するのか拒否するのか
3.アクセスを制御するディレクトリやファイル
の3点となります。
User-Agent:
これは、どのクローラの動きを制御するかの指定となります。「*(アスタリスク、ワイルドカード)」は、すべてのクローラを表します。
その他、Googleのクローラは「googlebot」、Yahoo!のクローラは「Slurp」、MSN Live Searchのクローラは「msnbot」で指定できます。
Disallow:
これは、「アクセス拒否」を表します。アクセスを許可する「Allow」ですが基本的には使いません。
「Disallow」の記述がなければアクセスするので、ざわざAllowを指定する必要はありません。
Disallow(Allow)の後
「Disallow(Allow)」の後に続くのは、アクセスを制御するディレクトリまたはファイルとなります。
「/」は「ルートディレクトリ(ドメインの最上位の階層のフォルダ)」を表します。
「/himitu/」と指定すると、ルートディレクトリの中の「himitu」というディレクトリの中のファイルをアクセス制限出来ます。URLで表すと「http://sample.com/himitu/」となります。
また、「/tantou/naisyo.html」とすると、ルートディレクトリの中にある「tantou」というサブディレクトリの中の「naisyo.html」というファイルへのアクセスを制御できます。
以上を踏まえるとサンプルは「すべてのクローラは、ルートディレクトリ配下の全てのファイルに、アクセスしてはいけません」という意味になります。
 

「robots.txt」の注意点

「robots.txt」は検索結果に表示されないようにする手段であるが、必ず結果に表示されないわけではありません。あくまでも表示しないようと検索エンジンに伝える手段なので、従わない検索エンジンロボットも存在します。もし、ユーザーや第三者に決して見られてはいけないページなどがある際は、「.htaccess」の「BASIC認証」等を利用し、パースワード等を設定するようにしましょう。
参考:「Basic認証について」