[B! ngram] taketyanのブックマーク

Google Labs - Books Ngram Viewer

Run your own experiment! Raw data is available for download here.

taketyan 2010/12/18

これすごい ! Google がスキャンした書籍の単語 N-gram 検索サービス & データもダウンロードできる。

リンク

大規模データで単語の数を数える - ny23の日記

大規模データから one-pass で it em（n-gram など）の頻度を数える手法に関するメモ．ここ数年，毎年のように超大規模な n-gram の統計情報を空間／時間効率良く利用するための手法が提案されている．最近だと， Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EM NLP 2010) とか．この論文では，最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など，細かい技術を丁寧に組み上げており，これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象（ちょうど論文を読む直前に，この論文の7節の

taketyan 2010/11/17

リンク

MySQL と N-gram による高速な日本語全文検索の実装 - Born Too Late

この通り、 7 倍近い性能を出すことに成功しています ! 以下では、実装のために実際に行った手順と、実装の一部を紹介します。動作環境私の手元では以下のような環境で、動作を確認しております。基本的に、 Ubuntu 10.04 上でパッケージマネージャを用いただけの、簡単な LAMP (Linux / Apache / MySQL / PHP) 構成です。 # Linux $ cat /etc/lsb-release DISTRIB_ID=Ubuntu DISTRIB_RELEASE=10.04 DISTRIB_CODENAME=lucid DISTRIB_DESCRIPTION="Ubuntu 10.04.1 LTS" # Apache $ apache2 -v Server version: Apache/2.2.14 (Ubuntu) Server built: Sep 28 20

taketyan 2010/11/07

Blogged. MySQL と PHP で高速な全文検索を簡単に実装。

リンク

N.M-gram：ハッシュ値付きN-gram索引による全文検索の一手法 | CiNii Research

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業

taketyan 2010/11/01

リンク

Text_Ngram - Openpear

Text_Ngram Subversion Repository: http://openpear.org/repository/Text_Ngram / Latest Release: 0.9.0-beta 文字列を N-gram 形式に分割するためのライブラリです。 N-gram オブジェクトを生成し、配列のように扱うことができます。 Requirements PHP5 (>= PHP 5.3) N-gram? 例えば全文検索システムを構築する場合、前処理としてインデックスの作成が必要となります。しかし、欧米の言語と違って、日本語はスペース等の一定のデリミタで区切ることはできません。そこで、文章的な意味に関わらず、 n 文字ごとの分割した形式を使い、これを N-gram といいます。分かち書きの方法としては、形態素解析も挙げられますが、 N-gram では辞書のメンテナンスが不要

taketyan 2010/10/22

Openpear にも公開してみました。

リンク

ブログはじめました | Born Too Late

皆さんこんにちは。taketyan といいます。もう何度目になるかわかりませんが、再び始めました。私は渋谷区の音楽関連企業で働く Web エンジニアです。ブログには音楽のこと、技術的なことなど書いていければと思っています。これらのキーワードにピンと来る人は仲良くしてください。 Doom Metal Stoner Rock Sludgecore Psychedelic Rock Acid Folk もう少し具体的に言うと・・・。 Pentagram Saint Vitus Pentagram Blood Farmers Eyehategod Speed, Glue & Shinki Juan de la Cruz Comus Linda Perhacs Vashti Bunyan あとこっちも。 Ruby PHP JavaScript MySQL Ubuntu OOP Design P