タグ

HTML Parseに関するyuutookunのブックマーク (2)

  • ぬるもでら Android開発 #14 HTMLのパース

    NextTrain互換アプリであるjNTrainにWebからの時刻表取り込み機能を組み込めないかと研究中。 というわけで、先日JavaでのHTTP通信を試し、こちらは問題なさそう。 時刻表のURLまでたどり着ければ、時刻表データの含まれているHTMLファイルが取得できるわけですが、このままではデータとして扱いにくい。 HTMLは結局のところテキストファイルですので、一定の法則性を見つけ出して抜き出す文字列操作だけでも何とかなるのですが、ちゃんとHTML構文とかをたどっていったほうが後々仕様変更にも対応しやすいのではと、HTMLパースの方法を調べてみました。 JavaHTMLパーサにはいろんなものがあるようなのですが、AndroidのSDKでも使用されているというTagSoupというものを使ってみようかと前回の記事でも触れていました。 今回は、実際にTagSoupを使ってHTMLの読み込み

  • 男もすなる日記といふもの::TagSoupを飲んでみる 2回目

    ここからは具体的なTagSoupの使い方になります。 といっても必要な手順は少なく、 1.Parserをインスタンス化 2.ContentHandlerを実装したHandlerをインスタンス化 3.ParserにsetContentHandlerでHandlerをべさせる 4.InputStreamをparser.parseする 以上で完了です。 もっとも、解析するためのHandlerの実装が大変なわけですが...それは続きにて。 外部jarファイルとしてtagsoup-1.2.1.jarにビルドパスを通します。 まずはメイン画面のActivity。 AD710BlogTakerActivity.java package ad710.bloger; import java.util.ArrayList; import android.app.Activity;

  • 1