タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

PythonとHTMLとscrapingに関するraimon49のブックマーク (2)

  • 【2Captcha】Python+Seleniumで『reCAPTCHA』を突破する方法

    2Captchaとは 2Captcha公式ページ ロシアの会社が開発したreCAPTCHAを突破するためのプラットフォームです。 通常であれば、プログラムからreCAPTCHAにチェックをいれることは、ほぼ不可能レベルだと言われています。 では、なぜ2Captchaを使うだけで、可能なのでしょうか。 2Captchaの仕組み 2Captchaの仕組みを簡単に説明すると、reCAPTCHAのチェックボタンをネット上の『Worker』と呼ばれている人達に代わりに押してもらっているイメージです。 PythonのSeleniumで説明すると、プログラムの実行中にWorkerの誰かがリアルタイムで解錠した結果を2Captcha経由で受け取ると言ったところでしょう。 なので、2Captchaはプログラムで解錠しているように見えるけど、実際は人力…みたいなオチです。 使用方法 2Captchaを使うため

    【2Captcha】Python+Seleniumで『reCAPTCHA』を突破する方法
    raimon49
    raimon49 2019/09/21
    人力分散協調システム、リアルmaster-slaveみたいな話だ。
  • Beautiful SoupでHTMLやXMLをparseしよう - そこはかとなく書くよ。

    Beautiful SoupはHTMLやXMLをparseしてくれるパーサーライブラリです。でも、Beautiful Soupは単なるパーサーじゃなくてちょっと賢い奴なんです。 今回、このBeautiful Soupのドキュメントを翻訳しました。 http://www.tdoc.info/beautifulsoup/ 下に軽く紹介していますが、詳しくはこのドキュメントをご覧ください。 Beautiful Soupをざっくり紹介 Beautiful Soupがどういうやつかって?例えばこんなHTMLがあったとしましょう。 <HTML> <body> 改行<br> したいよね <br/> <! --あれ、空白が入ってるちょっと変なコメント--> <p> bodyが閉じてないよ? </html> 結構変なHTMLですよね。でも、巷にはこういうのも結構あるんです。で、これをtest1.htmlだと

    Beautiful SoupでHTMLやXMLをparseしよう - そこはかとなく書くよ。
  • 1