SE_BOKUのまとめノート的ブログ

SE_BOKUが知ってること・勉強したこと・考えたことetc

reCAPTCHAのVersion3をGoogleが発表した件と、おまけで迷惑ボットの話題など

Googleが「reCAPTCHA」のバージョン3を発表しました。

webmaster-ja.googleblog.comwww.itmedia.co.jp

 

開発者向けサイトはこちらです。

reCAPTCHA v3  |  reCAPTCHA  |  Google Developers

今度は、人間は何もしなくていいとのこと。

なんでも「最新のreCAPTCHA v3は、ユーザーの一連の操作を分析し、その動きがどれぐらい不審なのかをスコア化する仕組み」でBOTか人間かを識別するらしい。

凄いですね。

Version2のチェックボックスでも、相当楽でしたけど。

f:id:arakan_no_boku:20181101010129j:plain

さらに進化したようです。

 

reCAPTCHAの進化の歴史だけでも結構面白い

オンライン上のログインの40%がBOTによる不正ログインだったとか。

BOTはますます増えてます。

f:id:arakan_no_boku:20181101012016j:plain

 

この傾向は今に始まったことでないですが。

わりと前からそうです。

だから、reCAPTCHA Version1が発表された時は、画期的でした。

自分も、使ってました。

でも。

正直、あの生成されるぐにゃぐにゃ文字は結構読みづらくて、ちょっと面倒でしたので、いろいろ文句も言われたのは覚えてます。

こういう防御手段がでてくると、破る方法を一生懸命考える人もでてきます。

こんな感じで「CAPTCHA」を破ったぞ!的なニュースはよくありました。

www.itmedia.co.jp

特に、面白かったのは、これですね。

破ったぞ!と発表する、同じ会場でGoogleがそれを叩き潰すという・・。

冗談みたいなパターンです。

ちょっと古いですけど、「すげえなあ」と思ってみてました。

www.itmedia.co.jp

引用します。

ハッカーグループがGoogleのreCAPTCHAを破るためのコンセプト実証ツール「Stiltwalker」を開発したと発表した。

99%の確率でreCAPTCHAを破ることができるとしている。

セキュリティ企業のHeise Securityによると、同グループはロサンゼルスで開かれたセキュリティカンファレンス「LayerOne」でこの成果を発表した。

ただし、Googleはそのプレゼンテーションの直前にCAPTCHAシステムの強化を発表。

これによりStiltwalkerは通用しなくなったという。

爆笑ものです。

しかも、ここで99%解読と言っているのは、音声版だけですしね。

この時点ではGoogleの圧勝です。

結局、reCAPTCHAのVersion1に引導を渡したのは、Google自身でした。

本丸の画像くねくね文字版を99%解読してしまいました。

www.itmedia.co.jp

ストリートビューに映りこんだ番地などの情報を画像解析して、住所などを特定するアルゴリズムGoogleが開発したということなんですが。

凄いですね。

それもあって。

画像であるということが、まったくセキュリティ的には意味をなさなくなってきたうえに、ユーザに余分な操作を強制する問題も解消しなければならない・・ということで、reCAPTCHAはversion2を経て、今回のversion3にたどり着いたみたいです。

それにしても。

さらっと「reCAPTCHA v3 では、サイトに対するアクティビティがどの程度不審であるかを示すスコアが返される」なんて書いてありますが、どうやったら「どの程度不審であるか」をスコア化できるかなんて想像もつきません。

でも、返してくれるスコアをつかって。

しきい値を設定し、ユーザーをパスさせるか、さらに確認が必要かを判断する

・不正行為に対抗するための機械学習モデルのトレーニングの指標として活用する

とかできるのは面白いですね。

特に後者の方。

tensorflow.jsとかを使った、reCAPTCHAのスコアをAIで評価して・・みたいなことで、かなりインテリジェンスなインタフェースができるんじゃないかとか。

色々、考えられそうな可能性は感じます。

 

おまけで思わず笑った迷惑ボットの話

reCAPTCHAの話題のついでに、BOTのことを調べてたら、なかなか迷惑なやつらがいることがわかりました。

例えば。

 

リファラスパム

webcommu.net

Web管理者をスパムサイトに誘導するとか・・、たまらんですね。

あと。

 

FeedWordPress

RSSを定期チェックして記事を盗んでいく悪質なプラグイン

投稿丸パクリの、悪質コピーサイトを作る元凶だという意見もありました。

なんか、ググってるとこれを便利なツールとして紹介している方とかもいるみたいですが、とんでもないですね。

 

Baiduspider

上の2つもムカつくBOTだと思うのですが。

もう、それを通り越して思わず笑ってしまったのがこれです。

Wikipediaに項目があって、その説明がわかりやすいので引用します。

Baiduspiderは、中国の検索サイト「百度」のために、ウェブサイトの情報を収集するロボット(クローラ)。

過去には非常に短い間隔で次々とリクエストを行うなどの問題によって、ウェブサーバを不安定に陥れる可能性があることから、アクセス拒否を行うサイトも見られた。

これに対し、百度は日本向けウェブサイトにおいてBaiduspiderが過剰な負荷をかけたことを謝罪[1]するとともにクローリングの頻度管理を統一するなどの対処策を発表している。

また同年5月には負荷の少ない新型クローラーを投入し、ウェブサイトに与える負荷を平均数百バイト程度に抑えられるようになったと表明している[2]。

Robots.txtを利用することで、Baiduspiderによるサイトへの全アクセス、もしくは一部のアクセスを禁止することができる[3]とされているが、実際にはRobots.txtを無視してアクセスを続ける例が報告されている。

またUAの詐称も報告されている。[4].htaccessで対処しても、大量のエラーメッセージを残すので、サーバーの負担になる。

Baiduspiderの他に、画像検索のBaiduImagespiderや携帯検索のBaiduMobaiderもあり、これらも遮断する必要がある。

 Robot.txtって、BOTに「ここにはアクセスしないでね」と教えるための共通ルールみたいなもんで、Google BOTをはじめ、行儀のよいBOTはちゃんと守ってくれます。

まず、それを「無視する」ってのがすごい。

さらに、「.htaccessで対処しても」ってのは、ようするにWebサーバーの設定でBOTを拒否することですが、そうすると、嫌がらせのように「大量のエラーメッセージ」を残すというのもすごい。

しかも、「UAの詐称」・・。

実は、BOTを拒否するときには、UA(ユーザエージェント)の名前で識別するのです。

例えば、これが「Baiduspider」のUAなんですが、これを指定して、こいつを拒否しろとか設定するわけです。

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

ところが、これを詐称する。

つまり、偽名と変装で出入り禁止の場所に出入りしようとするみたいな感じです。

これが本当なら、いやあ、もう悪質すぎて・・。

大笑いしてしまいました。

百度」は日本版もあるみたいですが、自分はなんか怖くて使えなかったです。

まあ・・。

使う理由もないしね。