[B! html][dom] yassのブックマーク

yass id:yass

htmlとdomに関するyassのブックマーク (3)

DOM Based Content Extraction via Text Densityのbindingを書いたよ - y_tagの日記
SIGIR 2011のDOM Based Content Extraction via Text Densityが、シンプルなアルゴリズムながら良さそうな結果を示していたので、著者のコードを改変してSWIGでPerlとPythonのbindingを作った。下手な英文メールにも関わらず、コードの利用を快く認めて下さったFei Sunさん、ありがとうございます！ cpp-ContentExtractionViaTextDensity - GitHub これは何をするものかというと、タイトルどおり、DOMツリー上でText Densityという指標を用いてウェブページの本文抽出を行うもの。機械学習とかではなく、単純に決められた方法で計算されたText Densityを用いるだけのシンプルなアルゴリズムである。 Text DensityはDOMノードごとに計算され、シンプルにテキストの文字数をタ
yass 2012/01/17
extraction

html

dom
リンク
エラーを含んだXMLをルーズにパースする - kaisehのブログ
各種ブログのRSSのようなWeb上のXMLリソースをdom4jやJDOMなどで読み込むと、パースに失敗するケースがとても多いです。というのも、こういうXMLは基本的に、validであることをあまり期待できないからです（エスケープ漏れがあったり、"<!--"で始まったコメントの直後に"-"が来たりする[追記: これはinvalidな例じゃなく非well-formedな例でした]）。ひどいときはwell-formedですらないこともあります。こういう問題がある場合、HTMLであれば、MayaaやS2JSFでも採用されているNekoHTMLというライブラリを使って、エラーを出さずにルーズにパースできます。このNekoHTMLを、HTMLではなくXMLに適用する方法を調べたので、メモしておきます。パーサを以下のような構成にすると、XMLの解析に適した状態になります。 NekoHTML側ではなく
yass 2009/02/25
html

xml

parser

extraction

dom

java
リンク
窓の杜 - 【NEWS】米MS、HTML構造やレイアウトを検証できるWeb制作者向けIEプラグインを正式公開
米Microsoft Corporationは9日（現地時間）、Webページの構造を検証できるIE用プラグイン「Internet Explorer Developer Toolbar」の正式版を無償公開した。Windows XP/Server 2003/Vista上のIE6/7に対応し、現在同社のダウンロードセンターからダウンロードできる。「Internet Explorer Developer Toolbar」は、IEのエクスプローラバーとして動作するWeb制作者向けのプラグイン。ローカルまたはインターネット上のWebページのHTML/CSS構文を解析でき、レイアウトや色合いの調整、W3Cの文法チェックサービスを利用した構文エラーチェックなど、アクセシビリティに配慮したWebページ作成に便利な機能が多数搭載されている。エクスプローラバーはWebブラウザー画面の下側へ表示され、上部に各
yass 2007/05/11
ie

html

dom

css

windows

plugin
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx