FirefoxのhtmlparserをXPCOM経由で呼び出して壊れたHTMLを修復する - bits and bytes

学びカテゴリーの変更を依頼記事元:

labs.gmo.jp

18 usersがブックマークコメント

コメント

2

記事へのコメント2件

注目コメント
新着コメント

IMAKADO 壊れたhtml修復

2009/05/07 リンク

mogwaing firefoxのhtmlパーサーを使う

2007/03/02 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

FirefoxのhtmlparserをXPCOM経由で呼び出して壊れたHTMLを修復する - bits and bytes

dapper のように、ブラウザでクリックをしたところをスクレイプする、というときにはXPathが向いていま... dapper のように、ブラウザでクリックをしたところをスクレイプする、というときにはXPathが向いています。ブラウザでクリックした部分のXPathをサーバに保存しておけば、あとで保存したXPathに従ってドキュメントからエレメントを取り出すことができます。しかし実際にHTMLからXPathを使ってエレメントを取り出すときに大きな問題になるのが、ウェブページの大半(体感で70%くらい)は記述されているHTMLが構造的に壊れているという事実です。タグを開いたまま閉じていなかったり、開いていないものを閉じていたり、ドキュメントの最後に</body></html>が二重に入っていたり、壊れかたは様々ですが、とにかくウェブ上のHTMLは大半が壊れています。壊れているHTMLが大半だからなのか、壊れているHTMLでもブラウザが適当に解釈して表示してくれるからなのか、とにかく世の中のヘージの大半

ブックマークしたユーザー

takeshiyako2009/09/11
rti77432009/09/03
hagihala2009/07/20
IMAKADO2009/05/07
tarao2009/01/15
Gemma2009/01/13
yuanying2008/12/18
teramako2008/09/14
okagawa2008/02/06
h5i2008/01/04
matsuza2007/11/07
ishideo2007/07/27
sakenomi2007/06/01
cloned2007/05/10
toton2007/04/14
mogwaing2007/03/02

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 学び

いま人気の記事 - 学びをもっと読む

新着記事 - 学び

新着記事 - 学びをもっと読む

設定を変更しましたx