[B! algorithm][nlp] nfunatoのブックマーク

Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source

Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

nfunato 2016/05/13

リンク

Natural Language Processing

Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

nfunato 2016/04/29

リンク

Why DataRobot Why DataRobot Discover the benefits and impact of DataRobot. Discover AI Leaders AI Practitioners Validation Awards and Recognition Customers Enterprise AI Suite AI Apps & Agents Agentic AI Platform Apps & Agents Apps & Agents Our apps and agents are engineered to drive innovation, scale effortlessly, and deliver meaningful impact across departments and industries. Department Finance

nfunato 2016/04/29

リンク

2010-03-01

Darts clone は，ダブル配列（Double-array）の有名なライブラリである Darts のクローンとして開発したライブラリです．Darts clone 0.32g は，TAIL を用いないという点が Darts と共通しているものの，ダブル配列の各要素を 4 bytes で表現したり，トライ（Trie）の代わりに Directed Acyclic Word Graph (DAWG) を採用したりという違いがあります．Darts clone と Darts の性能を比べると，辞書のサイズについては Darts clone の方が優れています．検索時間については，状況によって逆転することがあり，どちらか一方が常に優秀ということはありません． Darts Darts: Double ARray Trie System Darts clone Google Code Archive

nfunato 2015/10/30

リンク

似ている文字列を探す - umeajiの日記

nfunato 2015/08/10

リンク

言語処理学会年次大会で文法圧縮チュートリアル講義をしてきました - Preferred Networks Research & Development

まるまるです。春がきてますね。東京はだいぶ暖かくなってきました。先週（3/17〜3/20）行われた言語処理学会第２０回年次大会（NLP2014）において「文法圧縮入門：超高速テキスト処理のためのデータ圧縮」というタイトルでチュートリアル講義をさせて頂きました。講義資料はSlideShareで公開しています。文法圧縮とは、文字列を木構造に変換し、その木構造に含まれる冗長部分を文脈自由文法の生成規則として集約させて表現する圧縮法です。この圧縮法は近年の文字列アルゴリズム業界で注目を集めており、主に以下の様な特徴があります。冗長度の高いデータ（例えばゲノム集合、バージョン管理文書、ウェブアーカイブなど）を効果的に圧縮できる。圧縮したまま高速に検索処理などを行える（圧縮文字列処理）。木構造などのデータ構造の圧縮にも使われる（圧縮データ構造）。 NLPとは直接結びつかない内容ですが、文字

nfunato 2014/10/06

リンク

SPIRE2012の効率的な文法圧縮のための可変長コードに関する論文とオンライン文法圧縮のソフトウェアー (olca++)を公開しました。 - Yasuo Tabeiの日記

SPIRE2012で発表したメモリー効率の良い文法圧縮のための可変長コードに関する論文を公開しました。 Y.Takabatake, Y.Tabei, H.Sakamoto: Variable-Length Codes for Space-Efficient Grammar-Based Compression, Symposium on String Processing and Information Retrieval (SPIRE), Cartagena, Colombia, 2012. Link to the PDF 上記の論文に基づくオンライ文法圧縮(online LCA)のC++による実装(olca++)を公開しました。下のサイトからダウンロードできます。 https://code.google.com/p/olca-plus-plus/ 文法圧縮のアルゴリズムは@marugo

nfunato 2012/11/05

リンク

Tree Edit Distanceと自然言語処理への応用 - Preferred Networks Tech Blog

海野です。ちょっと時間があいてしまいましたが、昨年の12月に開催されたNTCIR-9という会議のRecognizing Inference in TExt (RITE)というタスクに、前職の方々と共著で出場しました。 Syntactic Difference Based Approach for NTCIR-9 RITE Task. Yuta Tsuboi, Hiroshi Kanayama, Masaki Ohno and Yuya Unno. NTCIR-9, 2011. [pdf] 含意関係認識といわれるこのタスクは、大雑把に言うと与えられた2つの文が同じ意味のことを言っているかどうか判定しなさいというタスクです（厳密には一方からもう一方が帰結できるかの判定です）。今日は、その中で使ったTree Edit Distance (TED) について解説します。 TEDは2つの順序付き木が

nfunato 2012/02/13

リンク

The Porter Stemming Algorithm

This page was completely revised Jan 2006. The earlier edition is here. This is the ‘official’ home page for distribution of the Porter Stemming Algorithm, written and maintained by its author, Martin Porter. The Porter stemming algorithm (or ‘Porter stemmer’) is a process for removing the commoner morphological and inflexional endings from words in English. Its main use is as part of a term norma

nfunato 2011/06/05

リンク

Luceneの曖昧検索を100倍高速化したアルゴリズム - nokunoの日記

@nobu_k さんのつぶやきでこのエントリを知りました。Changing Bits: Lucene’s FuzzyQuery is 100 times faster in 4.0Luceneで曖昧検索を効率化した話です。最初の実装では、転置インデックスを全探索して編集距離がN以下の単語を拾っていたレーベンシュタインオートマトンという、編集距離がN以下の単語のみをアクセプトするオートマトンを利用することにした単語ごとに構築したレーベンシュタインオートマトンをマージするという操作が必要になるが、なかなかうまくいかなかった難解な論文を見つけたが、実装は難しかった良いライブラリを見つけたので、PythonからJavaに移植した最後に1つだけ残ったバグは、移植の失敗ではなく元ライブラリのバグだった。報告すると1日で直ってきた。この前のエントリでは、有限状態トランスデューサを使った辞書の圧縮

nfunato 2011/03/29

リンク

ピーチツリーテクニカルペーパー

検索 [1] ダブル配列とdartsの概略 [NEW 2011.2.14] pdf版（約61 K byte）トライを効率よく検索するダブル配列とそれを実装したdartsプログラムの概説です。 dartsは、奈良先端大学で作成されたプログラムです。 →　http://chasen.org/~taku/software/darts/ [2] NDBMとSDBMの仕組み (pdf版)[2005.6.24] DBライブラリであるNDBMとSDBMのソースコードの概説です。コメントつきndbmソース ndbm.c, ndbm.h 自然言語処理 [1] 茶筌ソースコードの概略　（ｈｔｍｌ）[2001.6] pdf版（約134 K byte）茶筌は、奈良先端大学松本研究室で作成された形態素解析システムです。 →　http://chasen.naist.jp/hiki/ChaSen/

nfunato 2011/03/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

algorithmとnlpに関するnfunatoのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

月間はてなブックマーク数ランキング（2025年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス