「robots.txt」の基本知識

2014年6月3日

SEO対策の際や、長い間サイトを運営していく際に耳にする可能性がある「robots.txt」ですが、サイトを上手く運営していく中で非常に大切なものとなります。
今回はその「robots.txt」の基本的な部分に触れておきたいと思います。

「robots.txt」とは?

「robots.txt」はサイトを運営する中でサイト運営者が、GoogleやYahoo!などの検索エンジンの「クローラー」と呼ばれる検索データベースを作成するために世界中のWEBページを回収するプログラムに対して、自身のサイトにアクセスさせるかアクセスさせないか教えるテキストファイルのことです。
多くの検索エンジンのクローラーは、ドメインの最上位のディレクトリ(フォルダ)に設置された「robots.txt」を最初に読み込み、サイト内の情報取集するページとそうでないページを取得し、それに基づいて巡回します。
これを用いる事により、「naisyo.htmlというファイルだけアクセスさせない」や「himituというディレクトリにあるファイルには全てアクセスさせたくない」という使用方法が出来ます。「アクセスさせたくない」ということは、つまり「検索結果に表示させない」ようにすることです。
では、なぜ検索結果に表示させたくないのでしょうか?
様々なケースがあるのですが、管理系のファイルや、「404エラーページ」などコンテンツとして価値の低いページなどが挙げられます。また、この様なページを検索エンジンに表示させない事で良質なサイトとみなされSEO対策につながるようです。
 

「robots.txt」の書き方・ルール

「robots.txt」は、メモ帳などのエディタで作成できるシンプルなファイルです。
書き方はいくつかルールがあり、複雑に感じるかも知りませんが、慣れるとすぐに設定できるようになります。

①robots.txtの作成方法

robots.txtはテキストファイルで作成します。そして、「robots.txt」という名前で保存しなければなりません。

②robots.txtの設置場所

作成したrobots.txtファイルは、「http://sample.com/robots.txt」のようにルートディレクトリ(ドメインの最上位の階層のフォルダ)にアップロードします。
例えば、「http://sample.com/blog/robots.txt」に設置しても効果はないので注意してください。

③「robots.txt」の書き方のルール

以下は「robots.txt」のサンプルです。

User-Agent: *
Disallow: /

記述する項目は
1.アクセスを制御するクローラのタイプ
2.アクセスを許可するのか拒否するのか
3.アクセスを制御するディレクトリやファイル
の3点となります。
User-Agent:
これは、どのクローラの動きを制御するかの指定となります。「*(アスタリスク、ワイルドカード)」は、すべてのクローラを表します。
その他、Googleのクローラは「googlebot」、Yahoo!のクローラは「Slurp」、MSN Live Searchのクローラは「msnbot」で指定できます。
Disallow:
これは、「アクセス拒否」を表します。アクセスを許可する「Allow」ですが基本的には使いません。
「Disallow」の記述がなければアクセスするので、ざわざAllowを指定する必要はありません。
Disallow(Allow)の後
「Disallow(Allow)」の後に続くのは、アクセスを制御するディレクトリまたはファイルとなります。
「/」は「ルートディレクトリ(ドメインの最上位の階層のフォルダ)」を表します。
「/himitu/」と指定すると、ルートディレクトリの中の「himitu」というディレクトリの中のファイルをアクセス制限出来ます。URLで表すと「http://sample.com/himitu/」となります。
また、「/tantou/naisyo.html」とすると、ルートディレクトリの中にある「tantou」というサブディレクトリの中の「naisyo.html」というファイルへのアクセスを制御できます。
以上を踏まえるとサンプルは「すべてのクローラは、ルートディレクトリ配下の全てのファイルに、アクセスしてはいけません」という意味になります。
 

「robots.txt」の注意点

「robots.txt」は検索結果に表示されないようにする手段であるが、必ず結果に表示されないわけではありません。あくまでも表示しないようと検索エンジンに伝える手段なので、従わない検索エンジンロボットも存在します。もし、ユーザーや第三者に決して見られてはいけないページなどがある際は、「.htaccess」の「BASIC認証」等を利用し、パースワード等を設定するようにしましょう。
参考:「Basic認証について」
 
 

Related Posts

小規模事業者持続化補助金 次回締切は22年1月12日(低感染リスク型)と2月4日(一般型)です

小規模事業者持続化補助金は2020年から継続実施されているものですが、数か月おきに回を区切って実施され、2020年度、2021年度では名称と共に細かい要件なども変更されているので注意が必要です。 コロナ特別枠→低感染リスク型ビジネス枠 一般型と低感染リスク型ビジネス枠がありますが、低感染リスク型ビジネス枠の方が補助率や補助上限額が大きいので要件が合致する場合はおススメです。 大枠には変わりないですが従来からの主な変更点やポイントご紹介します。 こちらにも詳しくのっています。 丸わかり!小規模事業者持続化補助金(公式PDF)...

Gmail接続エラー「メールを今すぐ確認する」が消えてできない時

Gmail接続エラー「メールを今すぐ確認する」が消えてできない時

先日Gmailで接続エラーの障害が長時間発生し、メールの受信が遅延することがありました。 一時的な受信遅延や障害は今までもあったものの1日以上連続して起きたことはほとんどありません。 こういった障害の発生は原因によって対処法も異なり、いつも同じ方法で解決できるとは限りませんが、今後の参考に今回のケースと対処法をご紹介します。 Gmail接続エラー発生状況 ・メールサーバー:KDDI系のCPIを使用 ・Gmail管理画面経由で独自ドメインのメール送受信ができるように設定...

2021年7月2日にGoogleのコアアップデートが実施されました

2021年7月2日にGoogleのコアアップデートが実施されました

2か月ほど前になりますが、Googleからコアアップデートの実施がアナウンスされ、SEO会社などからの変動分析などもあがってきているのでご紹介します。 なお、7月以前には6月3日にもアップデートが実施されており、7月のアップデートは6月の残りとして一連のものと公式では発表されています。 コアアップデートとは? まず前提としてコアアップデートとはなんでしょうか。...