タグ

parserに関するmackatoのブックマーク (6)

  • parslet - About

    require 'parslet' include Parslet # Constructs a parser using a Parser Expression Grammar parser = str('"') >> ( str('\\').ignore >> any | str('"').absent? >> any ).repeat.as(:string) >> str('"') result = parser.parse %Q("this is a valid \\"string\\"") result # => {:string=>"this is a valid \"string\""@1} A small Ruby library for constructing parsers in the PEG (Parsing Expression Grammar) fashion

  • 第17回 Scalaとパーザコンビネータ(基本編)

    筑波大学第三学群情報学類を卒業したのち、現在は、筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻博士後期課程3年。プログラミング言語や処理系に強い興味を持っている。現在の研究テーマは、プログラミング言語の構文解析アルゴリズム。Scala勉強会を不定期で行うなど、研究の合間にScalaの普及活動を行っている。 Scalaにはパーザコンビネータライブラリという、構文解析を行うための専用ライブラリが存在します。パーザコンビネータライブラリを使うことで、特定の用途に特化した設定ファイルやDSLのパーザを手書きで書くよりも簡単に書けるようになります。 記事では、Scalaのパーザコンビネータライブラリの基的な使い方から、パーザコンビネータを使ったJSONのサブセットのパーザの実装までを解説します。構文解析の実装手法に関する知識は前提としませんが、構文解析とはどのようなものか、という

    第17回 Scalaとパーザコンビネータ(基本編)
  • Super Csv - A super CSV reader/writer...

  • Nokogiri Is Released - Tender Lovemaking

    Hey internet. How are you doing? Ya. It's been a while. I know, I know. I suck at blogging. Couldn't you tell by my horrible layout? But seriously, I've been really busy lately. We used to have such good times together. I'd write a blog post, you would show it to everyone on the internet. But that spark just doesn't seem to be there anymore. Well, I'm doing my best to keep this relationship togeth

  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

    mackato
    mackato 2007/10/13
    Webstemmer はニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で 自動的に抽出するソフトウェアです
  • Web内容マイニング

    Web内容マイニング (NECインターネットシステム研究所 楠村幸貴) Web上には膨大の情報が存在している.そこでWebを巨大な知識ベースと捉え,Webから有用な知識を取り出す情報抽出技術の研究が行われている.この技術はWeb内容マイニングとも呼ばれており, 複数のサイトをまとめて提示する情報統合システム[1][2]や,ブログからの評判抽出システム[3][4][5],コミュニティサイトからの人間関係の抽出システム[6]など,近年多くの研究が行われているトピックとなっている.そこでブックマークではこれらのWeb内容マイニング技術を取り上げたい. [1] TSIMMIS, http://infolab.stanford.edu/tsimmis/tsimmis.html [2] ARANEUS, http://www.dia.uniroma3.it/Araneus/ [3] BlogWa

    mackato
    mackato 2007/06/26
    特定のレイアウトを持つサイトが提供する情報を抽出・解析する場合には,Webラッパーが利用可能である
  • 1