Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more
Platform AI Platform The platform for generative and predictive AI. Learn more Documentation Pricing What’s New Demo Hub Explore Generative AI Product Offering Operate Confidently scale AI and drive business value with unparalleled enterprise monitoring and control. Deploy and Run Learn and Optimize Observe and Intervene Govern Unify your AI landscape, teams, and workflows for full visibility and
Darts clone は,ダブル配列(Double-array)の有名なライブラリである Darts のクローンとして開発したライブラリです.Darts clone 0.32g は,TAIL を用いないという点が Darts と共通しているものの,ダブル配列の各要素を 4 bytes で表現したり,トライ(Trie)の代わりに Directed Acyclic Word Graph (DAWG) を採用したりという違いがあります.Darts clone と Darts の性能を比べると,辞書のサイズについては Darts clone の方が優れています.検索時間については,状況によって逆転することがあり,どちらか一方が常に優秀ということはありません. Darts Darts: Double ARray Trie System Darts clone Google Code Archive
まるまるです。春がきてますね。東京はだいぶ暖かくなってきました。 先週(3/17〜3/20)行われた言語処理学会第20回年次大会(NLP2014)において「文法圧縮入門:超高速テキスト処理のためのデータ圧縮」というタイトルでチュートリアル講義をさせて頂きました。 講義資料はSlideShareで公開しています。 文法圧縮とは、文字列を木構造に変換し、その木構造に含まれる冗長部分を文脈自由文法の生成規則として集約させて表現する圧縮法です。この圧縮法は近年の文字列アルゴリズム業界で注目を集めており、主に以下の様な特徴があります。 冗長度の高いデータ(例えばゲノム集合、バージョン管理文書、ウェブアーカイブなど)を効果的に圧縮できる。 圧縮したまま高速に検索処理などを行える(圧縮文字列処理)。 木構造などのデータ構造の圧縮にも使われる(圧縮データ構造)。 NLPとは直接結びつかない内容ですが、文字
SPIRE2012で発表したメモリー効率の良い文法圧縮のための可変長コードに関する論文を公開しました。 Y.Takabatake, Y.Tabei, H.Sakamoto: Variable-Length Codes for Space-Efficient Grammar-Based Compression, Symposium on String Processing and Information Retrieval (SPIRE), Cartagena, Colombia, 2012. Link to the PDF 上記の論文に基づくオンライ文法圧縮(online LCA)のC++による実装(olca++)を公開しました。 下のサイトからダウンロードできます。 https://code.google.com/p/olca-plus-plus/ 文法圧縮のアルゴリズムは@marugo
海野です。ちょっと時間があいてしまいましたが、昨年の12月に開催されたNTCIR-9という会議のRecognizing Inference in TExt (RITE)というタスクに、前職の方々と共著で出場しました。 Syntactic Difference Based Approach for NTCIR-9 RITE Task. Yuta Tsuboi, Hiroshi Kanayama, Masaki Ohno and Yuya Unno. NTCIR-9, 2011. [pdf] 含意関係認識といわれるこのタスクは、大雑把に言うと与えられた2つの文が同じ意味のことを言っているかどうか判定しなさいというタスクです(厳密には一方からもう一方が帰結できるかの判定です)。今日は、その中で使ったTree Edit Distance (TED) について解説します。 TEDは2つの順序付き木が
This page was completely revised Jan 2006. The earlier edition is here. This is the ‘official’ home page for distribution of the Porter Stemming Algorithm, written and maintained by its author, Martin Porter. The Porter stemming algorithm (or ‘Porter stemmer’) is a process for removing the commoner morphological and inflexional endings from words in English. Its main use is as part of a term norma
@nobu_k さんのつぶやきでこのエントリを知りました。Changing Bits: Lucene’s FuzzyQuery is 100 times faster in 4.0Luceneで曖昧検索を効率化した話です。 最初の実装では、転置インデックスを全探索して編集距離がN以下の単語を拾っていたレーベンシュタインオートマトンという、編集距離がN以下の単語のみをアクセプトするオートマトンを利用することにした 単語ごとに構築したレーベンシュタインオートマトンをマージするという操作が必要になるが、なかなかうまくいかなかった 難解な論文を見つけたが、実装は難しかった良いライブラリを見つけたので、PythonからJavaに移植した 最後に1つだけ残ったバグは、移植の失敗ではなく元ライブラリのバグだった。報告すると1日で直ってきた。この前のエントリでは、有限状態トランスデューサを使った辞書の圧縮
検索 [1] ダブル配列とdartsの概略 [NEW 2011.2.14] pdf版(約61 K byte) トライを効率よく検索するダブル配列とそれを実装したdartsプログラムの概説です。 dartsは、奈良先端大学で作成されたプログラムです。 → http://chasen.org/~taku/software/darts/ [2] NDBMとSDBMの仕組み (pdf版)[2005.6.24] DBライブラリであるNDBMとSDBMのソースコードの概説です。 コメントつきndbmソース ndbm.c, ndbm.h 自然言語処理 [1] 茶筌 ソースコードの概略 (html)[2001.6] pdf版(約134 K byte) 茶筌は、奈良先端大学松本研究室で作成された形態素解析システムです。 → http://chasen.naist.jp/hiki/ChaSen/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く