「robots.txt」の基本知識

2014年6月3日

SEO対策の際や、長い間サイトを運営していく際に耳にする可能性がある「robots.txt」ですが、サイトを上手く運営していく中で非常に大切なものとなります。
今回はその「robots.txt」の基本的な部分に触れておきたいと思います。

「robots.txt」とは?

「robots.txt」はサイトを運営する中でサイト運営者が、GoogleやYahoo!などの検索エンジンの「クローラー」と呼ばれる検索データベースを作成するために世界中のWEBページを回収するプログラムに対して、自身のサイトにアクセスさせるかアクセスさせないか教えるテキストファイルのことです。
多くの検索エンジンのクローラーは、ドメインの最上位のディレクトリ(フォルダ)に設置された「robots.txt」を最初に読み込み、サイト内の情報取集するページとそうでないページを取得し、それに基づいて巡回します。
これを用いる事により、「naisyo.htmlというファイルだけアクセスさせない」や「himituというディレクトリにあるファイルには全てアクセスさせたくない」という使用方法が出来ます。「アクセスさせたくない」ということは、つまり「検索結果に表示させない」ようにすることです。
では、なぜ検索結果に表示させたくないのでしょうか?
様々なケースがあるのですが、管理系のファイルや、「404エラーページ」などコンテンツとして価値の低いページなどが挙げられます。また、この様なページを検索エンジンに表示させない事で良質なサイトとみなされSEO対策につながるようです。
 

「robots.txt」の書き方・ルール

「robots.txt」は、メモ帳などのエディタで作成できるシンプルなファイルです。
書き方はいくつかルールがあり、複雑に感じるかも知りませんが、慣れるとすぐに設定できるようになります。

①robots.txtの作成方法

robots.txtはテキストファイルで作成します。そして、「robots.txt」という名前で保存しなければなりません。

②robots.txtの設置場所

作成したrobots.txtファイルは、「http://sample.com/robots.txt」のようにルートディレクトリ(ドメインの最上位の階層のフォルダ)にアップロードします。
例えば、「http://sample.com/blog/robots.txt」に設置しても効果はないので注意してください。

③「robots.txt」の書き方のルール

以下は「robots.txt」のサンプルです。

User-Agent: *
Disallow: /

記述する項目は
1.アクセスを制御するクローラのタイプ
2.アクセスを許可するのか拒否するのか
3.アクセスを制御するディレクトリやファイル
の3点となります。
User-Agent:
これは、どのクローラの動きを制御するかの指定となります。「*(アスタリスク、ワイルドカード)」は、すべてのクローラを表します。
その他、Googleのクローラは「googlebot」、Yahoo!のクローラは「Slurp」、MSN Live Searchのクローラは「msnbot」で指定できます。
Disallow:
これは、「アクセス拒否」を表します。アクセスを許可する「Allow」ですが基本的には使いません。
「Disallow」の記述がなければアクセスするので、ざわざAllowを指定する必要はありません。
Disallow(Allow)の後
「Disallow(Allow)」の後に続くのは、アクセスを制御するディレクトリまたはファイルとなります。
「/」は「ルートディレクトリ(ドメインの最上位の階層のフォルダ)」を表します。
「/himitu/」と指定すると、ルートディレクトリの中の「himitu」というディレクトリの中のファイルをアクセス制限出来ます。URLで表すと「http://sample.com/himitu/」となります。
また、「/tantou/naisyo.html」とすると、ルートディレクトリの中にある「tantou」というサブディレクトリの中の「naisyo.html」というファイルへのアクセスを制御できます。
以上を踏まえるとサンプルは「すべてのクローラは、ルートディレクトリ配下の全てのファイルに、アクセスしてはいけません」という意味になります。
 

「robots.txt」の注意点

「robots.txt」は検索結果に表示されないようにする手段であるが、必ず結果に表示されないわけではありません。あくまでも表示しないようと検索エンジンに伝える手段なので、従わない検索エンジンロボットも存在します。もし、ユーザーや第三者に決して見られてはいけないページなどがある際は、「.htaccess」の「BASIC認証」等を利用し、パースワード等を設定するようにしましょう。
参考:「Basic認証について」
 
 

Related Posts

スラック(slack)のバックアップは取れる?

スラック(slack)のバックアップは取れる?

先日スラック(slack)の仕様が変更されるとお伝えしましたが、できれば費用をかけずに無料で使い続けたいという方もいるかと思います。とりあえずは90日分は閲覧できるのでバックアップをとっておいて、タイミングの時に有料化するのも方法かもしれません。 それではスラック(slack)でバックアップをとることはできるのでしょうか。 結論としては不可能ではないが、難しいケースが多いという形です。 スラック(slack)の仕様変更に注意 無料の履歴は90日まで プランによりエクスポート可能なデータは異なる...

至急BitLocker回復バックアップキーの取得を。Windows11で不具合発生中!?

至急BitLocker回復バックアップキーの取得を。Windows11で不具合発生中!?

Windows11のパソコンを使用されている方は要注意です。 Windows向けの更新プログラム「KB5012170」で現在問題が発生しており、最悪パソコンがロックされて初期化以外復旧ができなくなってしまうことがあるので事前の対策を取りましょう。 手動更新している場合はしばらく更新しないことをおススメします。 症状 BitLocker回復キーを求められる 普段と同じようにパソコンを使い、パソコンをシャットダウンし、翌日立ち上げると英語だらけの画面に。よくわからないので取り合えずOKやキャンセルを押すと、...

第三者のプロ目線でホームページをチェック!

第三者のプロ目線でホームページをチェック!

今や企業としてホームページを持つことは当たり前の時代ですがホームページを作ったまま放置していませんか?ホームページは不変的なものではなく、車などと同じく定期的なチェックやメンテナンスが必要です。 車のメンテナンスは安全性を守るため。それではホームページはというと情報の鮮度を保ち、本来の目的を果たし機会を損失しないためにもメンテナンスが大切になってきます。...