「robots.txt」の基本知識

2014年6月3日

SEO対策の際や、長い間サイトを運営していく際に耳にする可能性がある「robots.txt」ですが、サイトを上手く運営していく中で非常に大切なものとなります。
今回はその「robots.txt」の基本的な部分に触れておきたいと思います。

「robots.txt」とは?

「robots.txt」はサイトを運営する中でサイト運営者が、GoogleやYahoo!などの検索エンジンの「クローラー」と呼ばれる検索データベースを作成するために世界中のWEBページを回収するプログラムに対して、自身のサイトにアクセスさせるかアクセスさせないか教えるテキストファイルのことです。
多くの検索エンジンのクローラーは、ドメインの最上位のディレクトリ(フォルダ)に設置された「robots.txt」を最初に読み込み、サイト内の情報取集するページとそうでないページを取得し、それに基づいて巡回します。
これを用いる事により、「naisyo.htmlというファイルだけアクセスさせない」や「himituというディレクトリにあるファイルには全てアクセスさせたくない」という使用方法が出来ます。「アクセスさせたくない」ということは、つまり「検索結果に表示させない」ようにすることです。
では、なぜ検索結果に表示させたくないのでしょうか?
様々なケースがあるのですが、管理系のファイルや、「404エラーページ」などコンテンツとして価値の低いページなどが挙げられます。また、この様なページを検索エンジンに表示させない事で良質なサイトとみなされSEO対策につながるようです。
 

「robots.txt」の書き方・ルール

「robots.txt」は、メモ帳などのエディタで作成できるシンプルなファイルです。
書き方はいくつかルールがあり、複雑に感じるかも知りませんが、慣れるとすぐに設定できるようになります。

①robots.txtの作成方法

robots.txtはテキストファイルで作成します。そして、「robots.txt」という名前で保存しなければなりません。

②robots.txtの設置場所

作成したrobots.txtファイルは、「http://sample.com/robots.txt」のようにルートディレクトリ(ドメインの最上位の階層のフォルダ)にアップロードします。
例えば、「http://sample.com/blog/robots.txt」に設置しても効果はないので注意してください。

③「robots.txt」の書き方のルール

以下は「robots.txt」のサンプルです。

User-Agent: *
Disallow: /

記述する項目は
1.アクセスを制御するクローラのタイプ
2.アクセスを許可するのか拒否するのか
3.アクセスを制御するディレクトリやファイル
の3点となります。
User-Agent:
これは、どのクローラの動きを制御するかの指定となります。「*(アスタリスク、ワイルドカード)」は、すべてのクローラを表します。
その他、Googleのクローラは「googlebot」、Yahoo!のクローラは「Slurp」、MSN Live Searchのクローラは「msnbot」で指定できます。
Disallow:
これは、「アクセス拒否」を表します。アクセスを許可する「Allow」ですが基本的には使いません。
「Disallow」の記述がなければアクセスするので、ざわざAllowを指定する必要はありません。
Disallow(Allow)の後
「Disallow(Allow)」の後に続くのは、アクセスを制御するディレクトリまたはファイルとなります。
「/」は「ルートディレクトリ(ドメインの最上位の階層のフォルダ)」を表します。
「/himitu/」と指定すると、ルートディレクトリの中の「himitu」というディレクトリの中のファイルをアクセス制限出来ます。URLで表すと「http://sample.com/himitu/」となります。
また、「/tantou/naisyo.html」とすると、ルートディレクトリの中にある「tantou」というサブディレクトリの中の「naisyo.html」というファイルへのアクセスを制御できます。
以上を踏まえるとサンプルは「すべてのクローラは、ルートディレクトリ配下の全てのファイルに、アクセスしてはいけません」という意味になります。
 

「robots.txt」の注意点

「robots.txt」は検索結果に表示されないようにする手段であるが、必ず結果に表示されないわけではありません。あくまでも表示しないようと検索エンジンに伝える手段なので、従わない検索エンジンロボットも存在します。もし、ユーザーや第三者に決して見られてはいけないページなどがある際は、「.htaccess」の「BASIC認証」等を利用し、パースワード等を設定するようにしましょう。
参考:「Basic認証について」
 
 

Related Posts

Windows 11登場。何が変わる?ポイント

Windows 11登場。何が変わる?ポイント

先日マイクロソフトからWindows11のリリース予定が発表されました。 正式には2021年の後半登場予定のようです。 windows10が2015年に登場してから6年ぶりのメジャーバージョンアップです。 Windows10が出た当時はWindows10が最終バージョンと言っていたようなので掟破り感はありますが、Windows7のサポートが昨年終了したり、IE11のサポートが来年切れたりと技術は日々進歩しているのかもしれません。 参考:IE11(Internet Explorer)サポート終了が2022年6月16日...

パソコンから簡単にスマホ表示を確認

パソコンから簡単にスマホ表示を確認

調べ方 スマートフォンからサイトを表示すればスマートフォン対応されているかどうか一発で分かりますが、パソコンで作業を行っている時にスマートフォンを触るのも手間です。そんな時、パソコンからでも疑似的にスマートフォン時の表示を確認することができます。 Googleクロームの場合は下記です。※MicrosoftEdgeの場合も同様 1、キーボード上部のF12を押す。 2、デバイスサイズの切り替えボタン。 3、念のためページの再読み Ctrl+F5 4、上記でデザインが変わった場合はスマートフォン対応されたサイトです。...

事業再構築補助金 第2回公募~7月2日まで

事業再構築補助金 第2回公募~7月2日まで

事業再構築補助金の第2回公募が現在受付中です。 残り3回予定とのことですので5回中の2回目となるかもしれません。 事業再構築補助金という名前を初めて聞く方は下記をご覧ください。 事業再構築補助金(公式) 事業再構築補助金 事業計画書 具体的取組内容 事業再構築補助金を簡単にお伝えするとコロナにより売上が減少した企業に対して事業再構築の計画を立ててもらいその資金を最大1億円補助してもらえる制度です。(募集の多い主な枠では6000万円上限)...