2014/03/04

robots.txtの基本を5分で理解!|クロール最適化を叶える正しいrobots.txtの記述の仕方

ロボット画像

スポンサードリンク

robots.txtについて取り上げているサイトは多いですが、「robots.txtって何?」という人がスムーズに理解出来るように、出来るだけシンプルにご説明します。

robots.txtがどんなものなのかを簡潔にご説明すると、『検索エンジンに対する命令を記述するためのもの』であり、検索エンジンのデータベースにあなたのサイトをインデックスさせないように指示する事が出来ます。

ここで「インデックスされないより、された方がいいんじゃないの?」と思うかもしれませんが、検索エンジンに登録される必要のないページをブロックする事で、クローラーは検索エンジンに登録したいページのみを効率的に巡回出来るようになります。

これによって得られる効果は馬鹿に出来ないほど大きく、しかもSEO施策の中ではかなりスピーディーに成果を見込める部分でもあるのです。その為、クロール最適化の為にはrobots.txtをしっかり理解しておかなければなりません。

クローラビリティがどの位大事か?

かなりシンプルな比較ですが、信頼出来る目安です。

◆   クロール頻度が一日10回程度だった場合、そのサイトは検索エンジンからの自然流入はほとんど見込めないレベルだと考える事が出来ます。

◆ クロール頻度が一日100回以上だった場合、そのサイトは月間10万以上のアクセスを見込む事が出来ます。

そして、クローラーが頻繁に巡回しているサイトにはそれだけの理由があり、評価に値するからこそ一日のクロール頻度が増えます。つまり、クロール頻度はある程度そのサイトが検索エンジンにどう評価されているのか?を測る指標にする事が出来るという事です。

なぜクロール最適化をする必要があるのか?

「どうせクローラーが来てくれるならサイトを隅々まで巡回してもらえばいいじゃないか?」と思うのであれば是非覚えておいていただきたいのがクロールバジェットの存在です。

クロールバジェットはページのクロールに割り当てられている“予算”と考えて下さい。つまり、クローラーはあなたのサイトに割り当てられてる予算分しかクローリングしてくれません。

そして、あなたのサイトにどれくらいの予算が割り当てられるかを測る最もわかりやすい目安は、Googleのページランクです。と、考えるとお察しの事かと思います。そうです、ページランクは一朝一夕で上がるものではなく、新たに立ち上げたばかりのサイトは予算がごく限られているのです。

何についても言える事ですよね。例えばあなたが入社間もない新入社員だったとして、あるプロジェクトのメンバーに選ばれたとします。その時「予算が不満です。もっと下さい」と言っても、「実績もなく、結果も出していない奴が偉そうな事を言うな!」と返されてしまうのは目に見えている訳です。それと同じ事です。

その為、予算の少ない初期段階は特にクロールを最適化させ、必要なページに無駄なくクローラーを巡回させる為の対策が必要になるのです。

robots.txtでクロールを制御する方法

では具体的な制御方法についてご説明しますね。

User-Agent:(① クローラーの指定)
Disallow: (② アクセスを制御したいファイル)
Sitemap:http://example.com/sitemap.xml

① クローラーの指定

◆ google=『Google bot』
◆ yahoo!=『Slurp』
◆ 百度=『baiduspider』
◆ 全てのクローラー=『*』

使うのはほとんど『Google bot』か『*』だと思いますが、念の為記載しておきます。

② アクセスを制御したいファイル

◆    ルートディレクトリ全体=『/』
◆    サブディレクトリを制御=『/サブディレクトリ/』
◆  サブディレクトリ内の特定のファイルを制御=『/サブディレクトリ/特定のファイル/』

例えば、全てのクローラーに「http://noje-inbound.com/ac/999」へのアクセスを制御したい場合は、

User-Agent: *
Disallow: /ac/999
Sitemap:http://noje-inbound.com/sitemap.xml

となります。

その他にも、「Allow=許可」、「$=URL末尾を一致させる記述」などがありますが、まず使いません。Allowはともかく$は変に使うとサイトのトラフィックに甚大なダメージを与えかねないので、使う時は気をつけて下さい。

必ずサーバーにアップする前にウェブマスターツールで確認をする

robots.txtを書いたらサーバーにアップする前に、忘れずにウェブマスターツールで正しく制御が出来ているかの確認をします。『クロール>ブロックされたURL』でテストする事が出来ます。

ウェブマスターツールキャプチャ画像

上の枠にrobots.txtをコピペし、下の枠に確認したいURLを貼り付け、テストをクリックすれば、テスト結果が表示されます。

robots.txtを設置する場所は?

最後にrobots.txtを設置する際の注意事項として覚えておいて欲しいのが、必ず最上階層に置く事です。robots.txtファイルがサブディレクトリにある場合は無効になってしまいます。

○ http://noje-inbound.com/robots.txt
× http://noje-inbound.com/abcd/robots.txt

まとめ

いかがでしたか?

かなり地味な印象のrobots.txtですが、こだわる事で得られるメリットは大きく、逆に間違った使い方をすると相当な痛手を食ってしまうかなりデリケートな対策と言えます(苦笑)

是非参考にして下さいね。

もしよろしければ共有をお願いします

HOME > SEO/LPO > robots.txtの基本を5分で理解!|クロール最適化を叶える正しいrobots.txtの記述の仕方

関連記事