エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記録: extbody -- PythonによるBlog&News本文領域抽出ツール
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
記録: extbody -- PythonによるBlog&News本文領域抽出ツール
Pythonで、BlogやニュースのWEBページから、本文領域のHTMLを抽出するツール extbody -- Blog&News本文... Pythonで、BlogやニュースのWEBページから、本文領域のHTMLを抽出するツール extbody -- Blog&News本文領域抽出ツール を作りましたので公開します。 いつものごとくα版です。(そろそろいいかげんに、ひとつひとつきっちりと作ったほうがいいよね。) 以前から、他のアプリの一部として使っていたものを分離してモジュールにまとめたものです。 * 正解率8割程度。(2ch抜粋系blogにはめっぽう弱いです。) * 日英対応。 です。 中身は試行錯誤が複雑にからまった呪文のようなソースになっておりますことをご了承ください。 最初はPython標準のHTMLパーサーや、有名なBeautifulSoupを使ってましたが、時折解析できないHTMLがありましたので、結局自筆の正規表現で解析しています。 おおざっぱにtableタグとdivタグぐらいの対応が少なくとも合っているソースで