robots.txtの基本を5分で理解！｜クロール最適化を叶える正しいrobots.txtの記述の仕方

2014/03/04

スポンサードリンク

robots.txtについて取り上げているサイトは多いですが、「robots.txtって何？」という人がスムーズに理解出来るように、出来るだけシンプルにご説明します。

robots.txtがどんなものなのかを簡潔にご説明すると、『検索エンジンに対する命令を記述するためのもの』であり、検索エンジンのデータベースにあなたのサイトをインデックスさせないように指示する事が出来ます。

ここで「インデックスされないより、された方がいいんじゃないの？」と思うかもしれませんが、検索エンジンに登録される必要のないページをブロックする事で、クローラーは検索エンジンに登録したいページのみを効率的に巡回出来るようになります。

これによって得られる効果は馬鹿に出来ないほど大きく、しかもSEO施策の中ではかなりスピーディーに成果を見込める部分でもあるのです。その為、クロール最適化の為にはrobots.txtをしっかり理解しておかなければなりません。

かなりシンプルな比較ですが、信頼出来る目安です。

◆ クロール頻度が一日10回程度だった場合、そのサイトは検索エンジンからの自然流入はほとんど見込めないレベルだと考える事が出来ます。

◆　クロール頻度が一日100回以上だった場合、そのサイトは月間10万以上のアクセスを見込む事が出来ます。

そして、クローラーが頻繁に巡回しているサイトにはそれだけの理由があり、評価に値するからこそ一日のクロール頻度が増えます。つまり、クロール頻度はある程度そのサイトが検索エンジンにどう評価されているのか？を測る指標にする事が出来るという事です。

「どうせクローラーが来てくれるならサイトを隅々まで巡回してもらえばいいじゃないか？」と思うのであれば是非覚えておいていただきたいのがクロールバジェットの存在です。

クロールバジェットはページのクロールに割り当てられている“予算”と考えて下さい。つまり、クローラーはあなたのサイトに割り当てられてる予算分しかクローリングしてくれません。

そして、あなたのサイトにどれくらいの予算が割り当てられるかを測る最もわかりやすい目安は、Googleのページランクです。と、考えるとお察しの事かと思います。そうです、ページランクは一朝一夕で上がるものではなく、新たに立ち上げたばかりのサイトは予算がごく限られているのです。

何についても言える事ですよね。例えばあなたが入社間もない新入社員だったとして、あるプロジェクトのメンバーに選ばれたとします。その時「予算が不満です。もっと下さい」と言っても、「実績もなく、結果も出していない奴が偉そうな事を言うな！」と返されてしまうのは目に見えている訳です。それと同じ事です。

その為、予算の少ない初期段階は特にクロールを最適化させ、必要なページに無駄なくクローラーを巡回させる為の対策が必要になるのです。

では具体的な制御方法についてご説明しますね。

User-Agent:（①　クローラーの指定）
Disallow: （②　アクセスを制御したいファイル）
Sitemap:http://example.com/sitemap.xml

◆　google=『Google bot』
◆　yahoo!＝『Slurp』
◆　百度＝『baiduspider』
◆　全てのクローラー＝『*』

使うのはほとんど『Google bot』か『*』だと思いますが、念の為記載しておきます。

◆ ルートディレクトリ全体＝『/』
◆ サブディレクトリを制御＝『/サブディレクトリ/』
◆　サブディレクトリ内の特定のファイルを制御＝『/サブディレクトリ/特定のファイル/』

例えば、全てのクローラーに「http://noje-inbound.com/ac/999」へのアクセスを制御したい場合は、

User-Agent: *
Disallow: /ac/999
Sitemap:http://noje-inbound.com/sitemap.xml

となります。

その他にも、「Allow＝許可」、「$＝URL末尾を一致させる記述」などがありますが、まず使いません。Allowはともかく$は変に使うとサイトのトラフィックに甚大なダメージを与えかねないので、使う時は気をつけて下さい。

robots.txtを書いたらサーバーにアップする前に、忘れずにウェブマスターツールで正しく制御が出来ているかの確認をします。『クロール＞ブロックされたURL』でテストする事が出来ます。

上の枠にrobots.txtをコピペし、下の枠に確認したいURLを貼り付け、テストをクリックすれば、テスト結果が表示されます。

最後にrobots.txtを設置する際の注意事項として覚えておいて欲しいのが、必ず最上階層に置く事です。robots.txtファイルがサブディレクトリにある場合は無効になってしまいます。

○　http://noje-inbound.com/robots.txt
×　http://noje-inbound.com/abcd/robots.txt

いかがでしたか？

かなり地味な印象のrobots.txtですが、こだわる事で得られるメリットは大きく、逆に間違った使い方をすると相当な痛手を食ってしまうかなりデリケートな対策と言えます（苦笑）

是非参考にして下さいね。

北海道札幌市でマーケティングコンサルとWebサイト制作をしている人達のブログ