"BOKU"のITな日常

BOKUが勉強したり、考えたことを頭の整理を兼ねてまとめてます。

はてなブログの記事が、Search Consoleの「インデックス除外」ページに分類された原因と対策。

f:id:arakan_no_boku:20190301193447j:plain

目次

いきなり増えた「インデックス除外」ページ

突然「Google Search Console」でインデックス除外ページが増えました。

Google のインデックスには、本の索引みたいな感じで、各ウェブページに含まれているすべての語が 1 つずつ追加されているものです。

つまり、インデックスにウェブページが登録されていないということは、検索結果に表示される不可欠な条件が欠落していることになります。

実によろしくありません。

ずーっと、インデックス除外ページはゼロだったんですが。

ある日を境に突然増えて、こんな感じになってました。

f:id:arakan_no_boku:20190401210830j:plain

どうにも気持ちが悪いので、調べてみました。

 

インデックス除外ページの意味

 

サーチコンソールのヘルプに説明ページがありました。

support.google.com

これを元に自分なりに整理してみました。

インデックス登録しないのが適切だと Google が判断したページらしいです。

Google がコンテンツをインデックスに登録するかどうかは、システム アルゴリズムによって決定されていますが、おおむね以下んも理由に分類できるようです。

  • インデックスに登録済みのページと重複している
  • サイトのなんらかのメカニズムによってインデックスに登録できない
  • エラー以外のなんらかの理由でインデックスに登録できない

これらの内訳にあたる除外理由と対象のURLは、サーチコンソールで確認できます。

とりあえず、対処が必要か否かを、それを見て判断することになります。

なお、必要か否かの判断は「はてなブログ」のページに対してどうか?と判断したものなので、ご了承ください。

 

対処の必要がないか自分では対応できない「除外理由」のリスト

 

Googleのヘルプに対処が必要ないと書かれているものと、システム管理者権限のない身では「はてな」さんがちゃんとやってくれるだろうと期待する以上のことができない除外理由は以下のとおりです。。

  • 代替ページ(適切な canonical タグあり)
  • noindex タグによって除外されました
  • ページ削除ツールによりブロックされました
  • robots.txt によりブロックされました
  • 未承認のリクエスト(401)が原因でブロックされました
  • クロール済み - インデックス未登録
  • クロールエラー
  • 検出 - インデックス未登録
  • 見つかりませんでした(404)
  • ソフト 404:
  • 法的申し立てにより、ページが削除されました
  • クロールのキューに追加されました
  • 送信された URL は削除済みです

これらの場合は放っておくしかありません。

 

対処が必要な除外理由とその対策

 

上記を除くと、以下の3つだけが残ります。

  • 重複しています。ユーザーにより、正規ページとして選択されていません
  • 重複しています。Google により、ユーザーがマークしたページとは異なるページが正規ページとして選択されました
  • 重複しています。送信された URL が正規 URL として選択されていません

確認すると、これらの対処策は、全部同じです。

一覧から「対策の必要な理由」(以下図で赤枠のところとか)をクリックして、表示されるURLをひとつずつURL検査するだけです。

f:id:arakan_no_boku:20190413124622j:plain

理由をクリックすると、こんな感じでURLが一覧されます。

f:id:arakan_no_boku:20190413130513j:plain

これをひとつずつ「URL検査」をするわけです。

f:id:arakan_no_boku:20190413130612j:plain

それで問題があれば、こんな感じの画面が表示されます。

f:id:arakan_no_boku:20190413130759j:plain

で、何が正規URLになっているかの情報が、下段の方に表示されます。

f:id:arakan_no_boku:20190413131214j:plain

この場合だと、「https://・・」で指定しているのに、Googleが選択した正規URLが「http://・・」になっているのが原因だと、ここでわかります。

 

修正するには「インデックス登録をリクエストする」しかないです。

f:id:arakan_no_boku:20190413131522j:plain

リクエストにも多少時間がかかります。

まあ、しょうがないです。

これを問題になっているURLすべてに、地道に繰り返します。

 

やってみたら、みんな同じ根っこでした

 

今回の場合、原因はただひとつでした。

このように、

https://arakan-pgm-ai.hatenablog.com/entry/2018/08/27/090000

でURL検査した結果に

http://arakan-pgm-ai.hatenablog.com/entry/2018/08/27/090000 

 がGoogleに正規URLとして認識されているため、除外されているばっかりでした。

そうなんですね。

それで思い出したんですが、Google検索で「httpsページ」が優先的にインデックスされるようになったのをうけて、最近、はてなブログhttps化したのです。

webmaster-ja.googleblog.com

ところが、自分のブログは「http」の頃に書いたページも沢山あるので、どういう基準かはわかりませんが、その中の一部が「http」のURLが正規URLとして認識されて、「https」の方が除外されていた・・と、まあ、そういうことだったみたいです。

やれやれです

リクエストの送信にすごい時間と手間はかかりましたけど、すっきりはしました。

ではでは。