[B! scraping] xiangzeのブックマーク

BeutifulSoupでお手軽DOMツリーのテキスト出力 - はてだBlog（仮称）

はじめに Python、BeautifulSoupふと思い出し企画です。 Pythonのスクレイピングライブラリである、BeutifulSoup4 についてオレオレ切り口でちょっとだけふれています。 BeautifulSoup4やScrapyというキーワードで言うと、スクレイピングやそもそものクローラーという話題になるのですが、ここではそれらの前段であるhtml/htmlファイル群に対する探索的データ解析の視点に寄せています。よって、どちらかといえばデータ抽出などの目的よりは、例えば、あるCMSから別のCMSにデータを移行したい場合にhtmlマークアップ構造とドキュメントの共通構造を切り出し新たなスキーマを見出すために、ざっくりhtmlの構造をオーバービューしたいといった場合をイメージしています。 Elasticsearchなどの検索エンジンに検索対象のhtmlドキュメントのデータを抜き

xiangze 2022/11/15

scraping

リンク

【R】転職ドラフトのデータをスクレイピングして分析（集計）する - 歩いたら休め

お久しぶりです。最近上司と「機械学習とかその辺の技術が発展したら、真っ先に自動化されて仕事なくなるのはハンパなエンジニアと中間管理職だよね〜」という話をして危機感を募らせている @takeshi0406 です。 WEBエンジニアにはご存じの方も多いと思いますが、転職ドラフトというWEBサービスがあります。 job-draft.jp このサービスは、次のような理念や問題感から始まった作られたものだそうです。素晴らしいです。企業による公開競争入札。これなら、自由競争でのリアルな相対価値がわかるようになる。エンジニアだからこそ、より明確に。誰が評価され、誰が評価されないのか。自分の価値向上には、これから何をすべきなのか。私も「友達を紹介してオライリー・ジャパンの本をGETしよう！」の文言につられて、友だちを3人紹介した上で登録したのですが、レジュメを丁寧に読んでダメ出ししてもらえ（

xiangze 2017/04/23

r
scraping

リンク

人間にはわかるのに、なぜ機械にはそれがわからないのか。A.I.とスクレイピング - かれ4

この投稿はクローラー／スクレイピング Advent Calendar 2014の12月23日用です。はじめに人間って凄い。まずはこの画像を御覧ください。図1 各国のECサイトの画像 Eコマースのサイトで、商品の詳細のページを見るだけですぐに商品名、価格を判断出来ましたよね？それが英語のサイトでも中国語のサイトでも、韓国語のページでも分かりましたよね？凄いですね。人間のスクレイピング能力人間は恐ろしいほどのスクレイピング能力を持っている事が分かりました。ソースも見ない、タグも見ないで、なんとなく雰囲気だけでスクレイピングしています。もしこの能力をコンピュータに移植できたら凄いことですね。もし、先ほどの画像を身の回りのインターネットに一番疎い人に見せてみて下さい。きちんとスクレイピング出来たでしょうか？おそらく出来なかった事が多いのではないかと思います。こんな事させて

xiangze 2014/12/29

リンク

BlogSlime – Just another WordPress site

コンテンツへスキップ登録は無効化されました。

xiangze 2014/08/18

リンク

Pythonでスクレイピングに最適なライブラリはlxmlな気がした。時間的な意味で - When it’s ready.

ここ数日でHTMLからTagを除去する方法を、色々知った。とても勉強になりました。教えてくれた人ありがとうです。具体的には、BeautifulSoupとHTMLParserとlxmlという3つのライブラリでそれぞれTag除去が可能な事が分かった。実際どれも満足な挙動で、じゃあどれを使えばいいのさ！と、迷ったので実行速度を適当に測ってみた。時間を計るところのコードが激しく恥ずかしい。ホントは、3つのファンクションを配列に入れて、forで回したかったけど、配列に入れる時に評価されてしまってNG、map関数で、関数と関数（計測したい関数と、計測する関数）を２つ渡すやり方がわかんなかったので、同じ事を3回書く事にした。マジ恥ずかしいがこれしか思いつかなかった。計測用のHTMLには、はてダのトップページとした、コメント、Style、Script、htmlがそこそこのボリュームで入っていた為計

xiangze 2014/08/17

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

scrapingに関するxiangzeのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス