非同期スニペット

「robots.txt」の基本知識

無料 ご相談承ってます!

電話 078-955-7461(平日 -)お気軽にご連絡ください!
打合せなどで電話に出れない場合がございます。その場合は、フォームもしくは 070-5503-3830までお手数をおかけしますがご連絡ください。

私たちの実績
(→ 実績一覧へ

Webデザインやグラフィックデザインの実績をご紹介しております。

お知らせ

ブログ最新の10件
(→ 記事一覧へ

事務所案内

  • ワサビ株式会社
  • マーケティング部(東京オフィス)
  • 〒142-0041
    東京都品川区戸越1-21-15 創建ビル4F
  • 本社
  • 〒658-0065
    兵庫県神戸市東灘区御影山手4-10-21
  •    
  • マーケティング部・デザイン室・開発室
  • 〒657-0864
    兵庫県神戸市灘区新在家南町1-1
  • TEL. 078-955-7461
  • 受付時間: 平日 -
  • マーケティング部(福岡オフィス)
  • 〒812-0053
    福岡県福岡市東区箱崎2-10
会社の詳細情報は、こちら

Work with us!

私たちのビジネスの成功は、社会に貢献できると確信してます。

ワサビは、才能や情熱を持った方との出会いを待ってます。

インターネットで出来る事、その可能性を仕事にしたい方は、ご連絡ください!

採用の詳細は、こちら

ソーシャルメディア

「robots.txt」の基本知識

更新日

SEO対策の際や、長い間サイトを運営していく際に耳にする可能性がある「robots.txt」ですが、サイトを上手く運営していく中で非常に大切なものとなります。
今回はその「robots.txt」の基本的な部分に触れておきたいと思います。

「robots.txt」とは?

「robots.txt」はサイトを運営する中でサイト運営者が、GoogleやYahoo!などの検索エンジンの「クローラー」と呼ばれる検索データベースを作成するために世界中のWEBページを回収するプログラムに対して、自身のサイトにアクセスさせるかアクセスさせないか教えるテキストファイルのことです。

多くの検索エンジンのクローラーは、ドメインの最上位のディレクトリ(フォルダ)に設置された「robots.txt」を最初に読み込み、サイト内の情報取集するページとそうでないページを取得し、それに基づいて巡回します。

これを用いる事により、「naisyo.htmlというファイルだけアクセスさせない」や「himituというディレクトリにあるファイルには全てアクセスさせたくない」という使用方法が出来ます。「アクセスさせたくない」ということは、つまり「検索結果に表示させない」ようにすることです。

では、なぜ検索結果に表示させたくないのでしょうか?
様々なケースがあるのですが、管理系のファイルや、「404エラーページ」などコンテンツとして価値の低いページなどが挙げられます。また、この様なページを検索エンジンに表示させない事で良質なサイトとみなされSEO対策につながるようです。

 

「robots.txt」の書き方・ルール

「robots.txt」は、メモ帳などのエディタで作成できるシンプルなファイルです。
書き方はいくつかルールがあり、複雑に感じるかも知りませんが、慣れるとすぐに設定できるようになります。

①robots.txtの作成方法

robots.txtはテキストファイルで作成します。そして、「robots.txt」という名前で保存しなければなりません。

②robots.txtの設置場所

作成したrobots.txtファイルは、「http://sample.com/robots.txt」のようにルートディレクトリ(ドメインの最上位の階層のフォルダ)にアップロードします。
例えば、「http://sample.com/blog/robots.txt」に設置しても効果はないので注意してください。

③「robots.txt」の書き方のルール

以下は「robots.txt」のサンプルです。


User-Agent: *
Disallow: /

記述する項目は

1.アクセスを制御するクローラのタイプ
2.アクセスを許可するのか拒否するのか
3.アクセスを制御するディレクトリやファイル

の3点となります。

User-Agent:
これは、どのクローラの動きを制御するかの指定となります。「*(アスタリスク、ワイルドカード)」は、すべてのクローラを表します。
その他、Googleのクローラは「googlebot」、Yahoo!のクローラは「Slurp」、MSN Live Searchのクローラは「msnbot」で指定できます。

Disallow:
これは、「アクセス拒否」を表します。アクセスを許可する「Allow」ですが基本的には使いません。
「Disallow」の記述がなければアクセスするので、ざわざAllowを指定する必要はありません。

Disallow(Allow)の後
「Disallow(Allow)」の後に続くのは、アクセスを制御するディレクトリまたはファイルとなります。
「/」は「ルートディレクトリ(ドメインの最上位の階層のフォルダ)」を表します。

「/himitu/」と指定すると、ルートディレクトリの中の「himitu」というディレクトリの中のファイルをアクセス制限出来ます。URLで表すと「http://sample.com/himitu/」となります。
また、「/tantou/naisyo.html」とすると、ルートディレクトリの中にある「tantou」というサブディレクトリの中の「naisyo.html」というファイルへのアクセスを制御できます。
以上を踏まえるとサンプルは「すべてのクローラは、ルートディレクトリ配下の全てのファイルに、アクセスしてはいけません」という意味になります。

 

「robots.txt」の注意点

「robots.txt」は検索結果に表示されないようにする手段であるが、必ず結果に表示されないわけではありません。あくまでも表示しないようと検索エンジンに伝える手段なので、従わない検索エンジンロボットも存在します。もし、ユーザーや第三者に決して見られてはいけないページなどがある際は、「.htaccess」の「BASIC認証」等を利用し、パースワード等を設定するようにしましょう。

参考:「Basic認証について」

 

 

ページトップへ

taromiki