タグ

スクレイピングに関するastro-catのブックマーク (2)

  • りょうくんグルメの文体を自動でもとに戻すやつを作りました - 開け閉め

    りょうくんグルメをご存知だろうか。知らなくても、人のツイートの雰囲気は料理レシピなんかで一度は見た文脈のはずだ。 こんなやつ。 まじでこの世の全てのタピオカ好きに教えてあげたいんだが新宿三丁目のceleb縁味には全ての人間を虜にする禁断のオレオミルクフォームがある。 これが濃厚黒糖で超絶美味いからぜひ全国のタピオカ好き、タピオカを愛する者たち、タピオカを憎む者たち、全てのタピオカ関係者に伝われ pic.twitter.com/wnnPvkJ2pr— りょうくんグルメ (@uryo1112) 2019年6月15日 「りょうくんグルメ」は文章が情報量に対してやたら長いので、pythonの練習も兼ねてアイデンティティである上から目線の構文を取り去ることにした。逆りょうくんグルメである。 手順は大雑把に分けて以下の3ステップ。 1. Twitterからりょうくんグルメのツイートをスクレイピング

    りょうくんグルメの文体を自動でもとに戻すやつを作りました - 開け閉め
    astro-cat
    astro-cat 2019/11/25
    機械学習よりも正規表現の方が近しい人間によるツイートという結果が面白かった。Python学習の観点から後でもう一度ゆっくり読みたい。こういう技術のモチベ、大好き。
  • 【2Captcha】Python+Seleniumで『reCAPTCHA』を突破する方法

    2Captchaとは 2Captcha公式ページ ロシアの会社が開発したreCAPTCHAを突破するためのプラットフォームです。 通常であれば、プログラムからreCAPTCHAにチェックをいれることは、ほぼ不可能レベルだと言われています。 では、なぜ2Captchaを使うだけで、可能なのでしょうか。 2Captchaの仕組み 2Captchaの仕組みを簡単に説明すると、reCAPTCHAのチェックボタンをネット上の『Worker』と呼ばれている人達に代わりに押してもらっているイメージです。 PythonのSeleniumで説明すると、プログラムの実行中にWorkerの誰かがリアルタイムで解錠した結果を2Captcha経由で受け取ると言ったところでしょう。 なので、2Captchaはプログラムで解錠しているように見えるけど、実際は人力…みたいなオチです。 使用方法 2Captchaを使うため

    【2Captcha】Python+Seleniumで『reCAPTCHA』を突破する方法
  • 1