"BOKU"のITな日常

還暦越えの文系システムエンジニアの”BOKU”は新しいことが大好きです。

はてなブログの記事が、Search Consoleの「除外」ページに分類された原因と対策。

ある日、突然「Google Search Console」でインデックス除外ページが増えました。

なんとも気持ち悪いので、調べて対策をやってみた・・ってのが、今回のテーマです。

f:id:arakan_no_boku:20190301193447j:plain

 

いきなり増えた「除外」ページ

 

ずーっと、除外ページはゼロだったんですが.0

ある日を境に突然増えて、こんな感じになってました。

f:id:arakan_no_boku:20190401210830j:plain

どうにも気持ちが悪いので、調べてみました。

 

放っておいてよいものと、対策が必要なもの

 

サーチコンソールのヘルプに説明ページがありました。

support.google.com

これを元に自分なりに整理してみました。

 

除外の意味


インデックス登録しないのが適切だと Google が判断したページらしいです。

主な理由は以下のいずれかに該当します。

  • インデックスに登録済みのページと重複している
  • サイトのなんらかのメカニズムによってインデックスに登録できない
  • エラー以外のなんらかの理由でインデックスに登録できない

これらの内訳にあたる除外理由と対象のURLは、サーチコンソールで確認できますから、対処が必要か否かを判断できれば良さげです。

なお、必要か否かの判断は「はてなブログ」のページに対してどうか?と判断したものなので、ご了承ください。

 

対処の必要がないと判断したもの

 

以下の理由です。

Googleのヘルプに対処が必要ないと書かれているものと、システム管理者権限のない身では「はてな」さんがちゃんとやってくれるだろうと期待する以上のことができないものになります。

  • 代替ページ(適切な canonical タグあり)
  • noindex タグによって除外されました
  • ページ削除ツールによりブロックされました
  • robots.txt によりブロックされました
  • 未承認のリクエスト(401)が原因でブロックされました
  • クロール済み - インデックス未登録
  • クロールエラー
  • 検出 - インデックス未登録
  • 見つかりませんでした(404)
  • ソフト 404:
  • 法的申し立てにより、ページが削除されました
  • クロールのキューに追加されました
  • 送信された URL は削除済みです

 

対処が必要だと判断したもの

 

上記を除くと、以下の3つだけが残ります。

  • 重複しています。ユーザーにより、正規ページとして選択されていません
  • 重複しています。Google により、ユーザーがマークしたページとは異なるページが正規ページとして選択されました
  • 重複しています。送信された URL が正規 URL として選択されていません

確認すると、これらの対処策は、全部同じみたいです。

つまり、やらないといけないのは、この3つの理由で「除外」になっているURLを確認して、URLの検査を地道にやっていくこと・・みたいですね。

 

対策をやってみる

 

対策といっても、一覧から「対策の必要な理由」(以下図で赤枠のところとか)をクリックして、表示されるURLをひとつずつURL検査するだけです。

f:id:arakan_no_boku:20190413124622j:plain

理由をクリックすると、こんな感じでURLが一覧されます。

f:id:arakan_no_boku:20190413130513j:plain

これをひとつずつ「URL検査」をするわけです。

f:id:arakan_no_boku:20190413130612j:plain

それで問題があれば、こんな感じの画面が表示されます。

f:id:arakan_no_boku:20190413130759j:plain

で、何が正規URLになっているかの情報が、下段の方に表示されます。

f:id:arakan_no_boku:20190413131214j:plain

この場合だと、「https://・・」で指定しているのに、Googleが選択した正規URLが「http://・・」になっているのが原因だと、ここでわかります。

 

修正するには「インデックス登録をリクエストする」しかないです。

f:id:arakan_no_boku:20190413131522j:plain

リクエストにも多少時間がかかります。

まあ、しょうがないです。

これを問題になっているURLすべてに、地道に繰り返します。

 

やってみたら、みんな同じ根っこでした

 

今回の場合、原因はただひとつでした。

このように、

https://arakan-pgm-ai.hatenablog.com/entry/2018/08/27/090000

でURL検査した結果に

http://arakan-pgm-ai.hatenablog.com/entry/2018/08/27/090000 

 がGoogleに正規URLとして認識されているため、除外されているばっかりでした。

そうなんですね。

それで思い出したんですが、Google検索で「httpsページ」が優先的にインデックスされるようになったのをうけて、最近、はてなブログhttps化したのです。

webmaster-ja.googleblog.com

ところが、自分のブログは「http」の頃に書いたページも沢山あるので、どういう基準かはわかりませんが、その中の一部が「http」のURLが正規URLとして認識されて、「https」の方が除外されていた・・と、まあ、そういうことだったみたいです。

 

まとめ

 

地味ーーーに、ひとつひとつURL検査をやりました。

あれって、ひとつのURLに対して、そこそこ時間がかかります。

メッセージに1分~2分かかる場合がありますって書いてあるくらいなので。

だから、合計で2時間30分くらい、ずっとやってました。

でも、おかげで対処が必要とされたURLを再検査したら、全部がインデックス済にはなってましたね。

やれやれ。

ちょっと、すっきりです。

ではでは。