nobu666のブックマーク - はてなブックマーク

RE: sort を使うときは，LC_ALL=C を忘れずに - ny23の日記
Twitter ID も livedoor ID もないので直接コメントできないが，sort (GNU coreutils) の名誉のために，ここにメモしておく． 404 Blog Not Found:algorithm - bucketsort.[ch] - 汎用かつlibcの*sortより高速なまず第一印象として，この程度のサイズのファイルのソートで sort (GNU coreutils) がいまどきこんなに遅いはずはない．LC_ALL=C で追試すると，やはり bucketsort との差は無くなった．上の記事（に対するツイート）は Twitter 上でもそれなりにリツイートされているように見えるのだけど，この実行時間に違和感を感じる人が全くいないのはどういうことなのだろうか．sort を実際に使う人がほとんど見ていないのか，それとも計算量が違うから速くて当然という思い込みか．
nobu666 2012/01/16
リンク
機械学習／テキスト処理 × Lua (LuaJIT) - ny23の日記
Python で書いた Passive Aggressive-I が C++ 実装に比べて50倍遅かったので，（スクリプト言語でも）もう少しぐらい速くならないかと思って，スクリプト言語で最速の処理系 (LuaJIT) を持つ Lua で Passive Aggressive-I を実装してみることにした． Lua はアプリケーションへの組み込みを意図し，高速な動作，ポータビリティ，拡張の容易さなどを重視して設計されたコンパクトな汎用スクリプト言語．今月の TIOBE Programming Community Index では Ruby の一つ下の12位にランキングされている*1．これは，iPhone アプリの開発者による利用が増えているというのが大きい*2と思うが，プログラム言語の設計者たちへのインタビューを纏めた Masterminds of Programming（邦訳: 言語設計者
nobu666 2011/04/21
lua
リンク
大規模データで単語の数を数える - ny23の日記
大規模データから one-pass で it em（n-gram など）の頻度を数える手法に関するメモ．ここ数年，毎年のように超大規模な n-gram の統計情報を空間／時間効率良く利用するための手法が提案されている．最近だと， Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EM NLP 2010) とか．この論文では，最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など，細かい技術を丁寧に組み上げており，これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象（ちょうど論文を読む直前に，この論文の7節の
nobu666 2010/11/12
nlp

ngram
リンク
1