タグ

parserに関するYasSoのブックマーク (4)

  • phpによるスクレイピング処理入門

    1. はじめに このサイトは php を利用したスクレイピング処理の具体的手法について記載されたサイトにしようと思っています。なので、あまり面白いサイトではありません。内容も偏重していることと思いますが、ご質問などがございましたら、りょーちまでご連絡ください。 1.1. スクレイピングとは スクレイピングの話しを始める前に、現在のWebサービスについて幾つか言及しておきます。 現在様々な会社が様々なWebサービスを展開しています。かなり昔、今よりWebサイトそのものが少ない頃の時代は、HTMLファイルを手動で作成することが殆どでした。しかし、現在はバックグラウンドにデータベースが存在し、データベースの内容を動的に表示し、ページを作成するようなサイトがかなり多くなっています。 さて、データベースを利用するメリットは何でしょうか? 幾つかの視点が挙げられると思います。 最も重要な点は、ひとつひ

  • 正規表現に見切りをつけるとき

    Perl, Rubyなど手軽に使えるプログラミング言語に慣れてくると、あらゆるテキストデータの処理に正規表現(regular expression)を使ってしまいがちです。 けれど実は、正規表現の処理能力を超えるフォーマットというのが存在します。その典型的な例が、XMLやJSONのように、入れ子になったデータフォーマットです。

  • Enju - A practical HPSG parser

    オンラインデモ公開中 English page 目次 はじめに Enju のインストール Enju の使い方 デモとウェブインタフェース マニュアルなど 生命科学文献用の解析モデル 参考文献 はじめに Enju は英語の構文解析器です.HPSG理論に基づく文法[1-7]と高速な構文解 析アルゴリズム[8-11]により,高速かつ高精度な構文解析を行い,構文構造お よび述語項構造を出力します.文の意味を扱うことが必要である高度な自然言 語処理アプリケーション,例えば情報抽出,自動要約,質問応答などで特に有 用です. この構文解析器の主な特徴は以下のとおりです. 高精度かつ深い解析: 構文構造だけでなく述語項構造も出力する ことができ,新聞記事や生命科学文献に対しては90%程度の精度で解析する ことができます. 高速な解析: デフォルトの設定で一文平均約500ミリ秒(たいていの Penn Tre

    YasSo
    YasSo 2008/09/03
    英語の構文解析器
  • JavaScript で構文解析: Days on the Moon

    C++ の特徴のひとつである演算子オーバーロード、その粋を極めたのが Boost Lambda (無名関数) と Boost Spirit (構文解析) ではないかと思っています。JavaScript では無名関数が使えるので Lambda に関しては間に合っているとも言えますが、Spirit はそうも行きません。JavaScript 2 で演算子オーバーロードがサポートされるのならチャレンジしてみようかななどと思ってそれきりになっていました。 しかし、一部でパーサブームが起こっているというのを受け、Perl 6 Rules をつらつらと眺めているうち、正規表現のメタ文字を使えば文法定義をきれいに書けるのではと思い至りました。そこで実際に JavaScript でパーサジェネレータを作り、Spirit にあやかって Gin (ジン) と名づけてみました。 文法定義 正規表現リテラルを使うこ

  • 1