kshimo69のブックマーク - はてなブックマーク

開発メモ: WikipediaのN-gram頻度DBを作る
Wikipedia 英語版の本文中に出てくる単語の5-gramまでの組み合わせの頻度を数えてみた。全部で10億N-gramくらい処理した。背景英和辞書の収録語を選定するにあたり、単語N-gramの出現頻度を知っておくことが重要だ。前回の記事ではCOCA（Corpus of Contemporary American English）のN-gram頻度DBを利用したが、その他の選択肢も検討してみたい。COCAは口語とフィクションと雑誌と新聞と学術論文をバランスよく選定していると主張していて、確かに俺が知っているような英単語・熟語は大抵網羅されている。が、コーパス自体を自分で入手して前処理できると各種のチューニングができて嬉しいこともあるだろう。で、簡単に手に入る大量のコーパスといえば、Wikipediaの記事である。Wikipediaの方が偏りがひどいという話もあるが、一般人が書く英語と
kshimo69 2012/01/08
リンク
開発メモ: memcachedメッセージキューの詳しい使い方
memcachedプロトコルでメッセージキューが実現できるという話を前回したが、今回はその具体的な使用方法を解説してみる。サーバを起動するまずはサーバを起動しないと始まらない。典型的には以下のコマンドで立ち上げるとよい。 $ ktserver -th 1 -ls \ -plsv /usr/local/libexec/ktplugservmemc.so \ -plex 'port=11211#tout=30#thnum=16#opts=fq#qtout=10' \ 'casket.kct#ktopts=p' 「-th 1」でメインサーバのスレッド数を1にしている。最新版からはデフォルトで16スレッドを立てるのだが、アプリ側からはメインのサーバにはアクセスしないだろうから、1個あればよい。「-ls」はログレベルをSYSTEMに設定。「-plsv ...」では、memachedプラガブルサー
kshimo69 2011/06/27
リンク
開発メモ: MapReduce on Kyoto Cabinet
Googleで実用化されHadoopで流行しているところの分散処理フレームワークMapReduceをKyoto Cabinetにおいても実現してみた。その解説。ローカルなMapReduce MapReduceは多数のマシンが連携して分散処理を行うためのフレームワークなので、プロセス組み込みDBMであって分散など全く関係ない世界に生きているKCでMapReduceを実行して意味があるのだろうか。答えは、「あんまりない」である。それにもかかわらず実装したのは、何となく話題性がありそうだからってのが最大の理由なのだが、もうひとつ理由がある。スクリプト言語で集計処理をやろうとすると、めっちゃメモリ食うしCPUパワーを使うわりに遅いからである。1000万件のソートってだけでスクリプト言語だと結構辛いからね。そこで、MapReduceフレームワークをC++で実装してmapとreduceだけをスクリ
kshimo69 2010/11/02
MapReduce

KyotoCabinet
リンク
開発メモ: Kyoto Tycoonベータ版リリースすた
ここのところ必死こいて作り込んでいたKyoto Tycoonだが、主要機能を実装しきって文書もそこそこ書けてきたので、ベータリリースということにした。プロジェクトページもちゃんと作ってある。公式には英語の文書しか作らない方針なのだが、それだと国内ではなかなか使ってもらえないので、この場でチュートリアルを書いてみる。 Kyoto Tycoonとはプロセス組み込み軽量データベースライブラリであるKyoto Cabinetをネットワーク越しに利用できるようにするためのツールキットである。KCのデータベースを内部に持ったサーバプログラムと、それに接続してデータベースを操作するためのクライアントライブラリからなる。また、コマンドラインからサーバにアクセスするためのユーティリティもついてくるので、簡単に使い始められる。製品コンセプトは、「永続的キャッシュサーバ」もしくは「memcachedの永続
kshimo69 2010/10/04
kvs

kyototycoon

memcached
リンク
1

はてなブックマーク

タグ

ブックマーク / fallabs.com (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / fallabs.com (4)

開発メモ: WikipediaのN-gram頻度DBを作る

開発メモ: memcachedメッセージキューの詳しい使い方

開発メモ: MapReduce on Kyoto Cabinet

開発メモ: Kyoto Tycoonベータ版リリースすた

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス