タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

parserに関するmtknのブックマーク (6)

  • pylori*style: Ruby の正規表現によるXMLの解析: force_arrayオプション

    Ruby の正規表現によるXMLの解析のECS.xml_to_hash は、リスト要素にも対応しています。同じ要素が複数あらわれる場合には、それは自動的に配列に変換されます。 しかし、複数あらわれる可能性のある要素が、たまたま一個しかなかった場合、ECS.xml_to_hashは配列には変換しません。よって、変換後の処理で、オブジェクトが Array か String かを調べて分岐する必要があります。 これをいちいちやっていては手間もかかるし美しくないので、ECS.xml_to_hash に force_array オプションを追加してみました。名前はPerlのXML::SimpleにあるForceArrayオプションからとっています。 使い方は、例えば以下のようになります。 hash = ECS.xml_to_hash xml_str, 'Offer'=>true, 'Author'=

  • Microsoft C#での HTML 構文解析 - japan.internet.com デベロッパー

    mtkn
    mtkn 2008/05/09
  • John Resig - Pure JavaScript HTML Parser

    Recently I was having a little bit of fun and decided to go about writing a pure JavaScript HTML parser. Some might remember my one project, env.js, which ported the native browser JavaScript features to the server-side (powered by Rhino). One thing that was lacking from that project was an HTML parser (it parsed strict XML only). I’ve been toying with the ability to port env.js to other platforms

    mtkn
    mtkn 2008/05/09
  • Javaの「制御文」を使いこなす

    前回「プログラムの制御構造を理解しよう」までで、Javaではif、switchなどの制御文を使って制御構造を記述できることを学びました。簡単におさらいすると、制御構造とはプログラムを「順番に実行する」「条件が合致すれば実行する」「繰り返して実行する」という3つのパターンのことであり、制御文とは制御構造を実際にプログラムとして記述するときに使うif、switchなどの文のことでした。 制御文を使いこなす 制御文まで学習すると、ソースコードを読んでおおよその流れや何をしようとしているプログラムなのかは理解できるようになります。来ならここでクラスについての理解をさらに深めたいところです。しかし、今回はJavaでアルゴリズムを記述して、制御文の使い方にさらに慣れることにします。というのも、今後Javaのクラスの継承について説明するうえで、今回作成するHTML文書を扱うクラスを題材にしたいからです

    Javaの「制御文」を使いこなす
    mtkn
    mtkn 2008/04/24
  • HTML文書からのデータ抽出 - HTMLパーサ

    (2007/05/09) HTML文書とは何か Webページを構成するHTML文書は、コンテンツ文を含むテキストに一定の書式情報をつけて作成したものです (Wikipedia: HTML)。 この文書ファイルを Internet Explorer のようなWebブラウザで閲覧すると、 書式情報は目に見える体裁へと変換され、我々が日ごろ目にするWebページになります。 例えば、自社運営のWebサイトが静的HTML文書で構成されていて、 数千ページにのぼっている会社を考えます。 この会社では、Webサイトの更新作業を効率化したいと考えており、 コンテンツ管理システム(CMS)などのWebシステム導入を検討しています。 しかし、 膨大なHTML文書を新システムへデータ移行する問題に頭を悩ませています。 人手で数千ページものデータを移行することは多大な費用と時間が生じる上、

    mtkn
    mtkn 2008/04/24
  • IT戦記 - JavaScript で数式パーサを書いてみた。

    背景 いままで、ちゃんとパーサというものを書いたことがなかったので勉強のためにアレコレ考えながらやってみようと思って、簡単な数式を木にするパーサを書いてみようと思ったのです>< 今回作るパーサの仕様 パースする数式の演算子は二項演算子 + - * / と単項演算子 + - だけ。 括弧とかは使わない。 演算の優先順位は * / のほうが + - より高い。つまり、 1 + 1 * 1 は 1 + (1 * 1) 単項演算子は二項演算子より優先順位が高い。つまり、 - 1 + 1 は (-1) + 1 で、作ってみた! ソースコード filter 関数とか使ってるので、 Firefox only です。 var parse = function(source) { var tokens = source.match(/[-+*/]|[^-+*/\s]+|\s+/g).filter(/^[^\

    IT戦記 - JavaScript で数式パーサを書いてみた。
    mtkn
    mtkn 2008/04/24
  • 1