[B! HTML][parser] youzのブックマーク

youz id:youz

HTMLとparserに関するyouzのブックマーク (2)

パーサー・コンビネーターで Web スクレイピング - (new Hatena).blog()
パーサー・コンビネーター (parser.ss) を使って、テキスト全体の解析だけでなく、部分を抽出することも可能なんじゃないかと思い付き、実験してみました。例として、はてなダイアリーに貼り付けられているコードを抽出するパーサーを作ります。このページのソースを見ていただくと良く分かると思いますが、Scheme のコード部分は PRE タグに囲まれています。構文ハイライト無しの場合はシンプルにタグの間の文字列を読み取れば良いんですが、有りの場合、構文要素ごとに細かく SPAN タグが埋め込まれています。そのまま抽出しても読みにくいので何とかしたいんですが、とりあえず、タグ無しの文字列を読み取るパーサーを作ることにしましょう。基本的には "<" 以外の文字を読み取るだけで良いと思うんですが、文字実体参照が有った場合には特別な処理が必要となります。 (define entities '
youz 2008/10/01
HTML

parser

scheme
リンク
Monadic Parser Combinators - Haskell 風パーサー・コンビネーターの実装 - (new Hatena).blog()
Abstract for English readers: This article describes an implementation of a purely functional, monadic parser combinator library in PLT Scheme. With this library, one can easily build non-ambiguous, recursive-descent style parsers for string of characters, input port, or even list of tokens generated by a separate lexer process. To accomodate parse failure, i.e., to perform backtracking, this libr
youz 2008/10/01
parser

HTML

scheme
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx