Run your own experiment! Raw data is available for download here.
大規模データから one-pass で item(n-gram など)の頻度を数える手法に関するメモ.ここ数年,毎年のように超大規模な n-gram の統計情報を空間/時間効率良く利用するための手法が提案されている.最近だと, Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EMNLP 2010) とか.この論文では,最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など,細かい技術を丁寧に組み上げており,これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象(ちょうど論文を読む直前に,この論文の7節の
この通り、 7 倍近い性能を出すことに成功しています ! 以下では、実装のために実際に行った手順と、実装の一部を紹介します。 動作環境 私の手元では以下のような環境で、動作を確認しております。基本的に、 Ubuntu 10.04 上でパッケージマネージャを用いただけの、簡単な LAMP (Linux / Apache / MySQL / PHP) 構成です。 # Linux $ cat /etc/lsb-release DISTRIB_ID=Ubuntu DISTRIB_RELEASE=10.04 DISTRIB_CODENAME=lucid DISTRIB_DESCRIPTION="Ubuntu 10.04.1 LTS" # Apache $ apache2 -v Server version: Apache/2.2.14 (Ubuntu) Server built: Sep 28 20
Text_Ngram Subversion Repository: http://openpear.org/repository/Text_Ngram / Latest Release: 0.9.0-beta 文字列を N-gram 形式に分割するためのライブラリです。 N-gram オブジェクトを生成し、配列のように扱うことができます。 Requirements PHP5 (>= PHP 5.3) N-gram? 例えば全文検索システムを構築する場合、前処理としてインデックスの作成が必要となります。 しかし、欧米の言語と違って、日本語はスペース等の一定のデリミタで区切ることはできません。 そこで、文章的な意味に関わらず、 n 文字ごとの分割した形式を使い、これを N-gram といいます。 分かち書きの方法としては、形態素解析も挙げられますが、 N-gram では辞書のメンテナンスが不要
皆さんこんにちは。taketyan といいます。 もう何度目になるかわかりませんが、再び始めました。 私は渋谷区の音楽関連企業で働く Web エンジニアです。ブログには音楽のこと、技術的なことなど書いていければと思っています。 これらのキーワードにピンと来る人は仲良くしてください。 Doom Metal Stoner Rock Sludgecore Psychedelic Rock Acid Folk もう少し具体的に言うと・・・。 Pentagram Saint Vitus Pentagram Blood Farmers Eyehategod Speed, Glue & Shinki Juan de la Cruz Comus Linda Perhacs Vashti Bunyan あとこっちも。 Ruby PHP JavaScript MySQL Ubuntu OOP Design P
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く