[B! parser] mackatoのブックマーク

parslet - About

require 'parslet' include Parslet # Constructs a parser using a Parser Expression Grammar parser = str('"') >> ( str('\\').ignore >> any | str('"').absent? >> any ).repeat.as(:string) >> str('"') result = parser.parse %Q("this is a valid \\"string\\"") result # => {:string=>"this is a valid \"string\""@1} A small Ruby library for constructing parsers in the PEG (Parsing Expression Grammar) fashion

mackato 2011/03/04

ruby
parser

リンク

第17回 Scalaとパーザコンビネータ（基本編）

筑波大学第三学群情報学類を卒業したのち、現在は、筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻博士後期課程3年。プログラミング言語や処理系に強い興味を持っている。現在の研究テーマは、プログラミング言語の構文解析アルゴリズム。Scala勉強会を不定期で行うなど、研究の合間にScalaの普及活動を行っている。 Scalaにはパーザコンビネータライブラリという、構文解析を行うための専用ライブラリが存在します。パーザコンビネータライブラリを使うことで、特定の用途に特化した設定ファイルやDSLのパーザを手書きで書くよりも簡単に書けるようになります。本記事では、Scalaのパーザコンビネータライブラリの基本的な使い方から、パーザコンビネータを使ったJSONのサブセットのパーザの実装までを解説します。構文解析の実装手法に関する知識は前提としませんが、構文解析とはどのようなものか、という

mackato 2010/06/02

scala
parser

リンク

Super Csv - A super CSV reader/writer...

mackato 2008/12/19

リンク

Nokogiri Is Released - Tender Lovemaking

Hey internet. How are you doing? Ya. It's been a while. I know, I know. I suck at blogging. Couldn't you tell by my horrible layout? But seriously, I've been really busy lately. We used to have such good times together. I'd write a blog post, you would show it to everyone on the internet. But that spark just doesn't seem to be there anymore. Well, I'm doing my best to keep this relationship togeth

mackato 2008/11/01

リンク

Webstemmer（クローラーツール）

日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ

mackato 2007/10/13

Webstemmer はニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出するソフトウェアです

リンク

Web内容マイニング

Web内容マイニング（NECインターネットシステム研究所　楠村幸貴） Web上には膨大の情報が存在している．そこでWebを巨大な知識ベースと捉え，Webから有用な知識を取り出す情報抽出技術の研究が行われている．この技術はWeb内容マイニングとも呼ばれており，複数のサイトをまとめて提示する情報統合システム[1][2]や，ブログからの評判抽出システム[3][4][5]，コミュニティサイトからの人間関係の抽出システム[6]など，近年多くの研究が行われているトピックとなっている．そこで本ブックマークではこれらのWeb内容マイニング技術を取り上げたい． [1] TSIMMIS, http://infolab.stanford.edu/tsimmis/tsimmis.html [2] ARANEUS, http://www.dia.uniroma3.it/Araneus/ [3] BlogWa

mackato 2007/06/26

特定のレイアウトを持つサイトが提供する情報を抽出・解析する場合には，Webラッパーが利用可能である

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

parserに関するmackatoのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス