タグ

ブックマーク / s-yata.hatenadiary.org (4)

  • std::string の正体(gcc-4.4.3)と細かい話 - やた@はてな日記

    # 環境依存な内容な上,無駄に細かい話なので,「そういうこともあるかもねー」くらいに流しちゃってください. (追記 2011-01-11)新しい規格では std::string の Copy on Write(CoW: 書き込み時に複製)が実質禁止になるとのことです.後,gcc 4.5 の時点で CoW はやめてしまうみたいですし,「そんな時代もあった」くらいに軽く流しちゃってください.id:gintenlabo さん,コメントありがとうございます. (追記の続き)個人的には,std::string の CoW 動作は挙動が分かりにくくなるので止める方に賛成です.でも,std::vector なんかを拡張するときはどうするのかな…?コピーしてしまうのか,swap() を使うようにするのか…. (さらに追記 2011-01-11)おおっと,ムーブコンストラクタにムーブ代入演算子なんてものが…

    std::string の正体(gcc-4.4.3)と細かい話 - やた@はてな日記
  • 2010-03-01

    Darts clone は,ダブル配列(Double-array)の有名なライブラリである Darts のクローンとして開発したライブラリです.Darts clone 0.32g は,TAIL を用いないという点が Darts と共通しているものの,ダブル配列の各要素を 4 bytes で表現したり,トライ(Trie)の代わりに Directed Acyclic Word Graph (DAWG) を採用したりという違いがあります.Darts clone と Darts の性能を比べると,辞書のサイズについては Darts clone の方が優れています.検索時間については,状況によって逆転することがあり,どちらか一方が常に優秀ということはありません. Darts Darts: Double ARray Trie System Darts clone Google Code Archive

    2010-03-01
  • Google n-gram に索引を - やた@はてな日記

    Google n-gram のデータが大きすぎて,簡単には使えないとのことで,索引を付けてほしいと依頼されました.AND 検索ができれば OK とのことでしたが,規模が大きいので何か良い方法がないか模索中です. まとまっていませんが,以下,考えている方法です. Google n-gram のデータ http://googlejapan.blogspot.com/2007/11/n-gram.html 総単語数: 255,198,240,937 (2550億) 総文数: 20,036,793,177 (200億) 異なり 1-gram 数: 2,565,424 異なり 2-gram 数: 80,513,289 異なり 3-gram 数: 394,482,216 異なり 4-gram 数: 707,787,333 異なり 5-gram 数: 776,378,943 異なり 6-gram 数:

    Google n-gram に索引を - やた@はてな日記
  • 簡潔トライの実装に含まれる簡潔ビットベクトルの性能比較 - やた@はてな日記

    はじめに 先日(12/10)DSIRNLP という勉強会で紹介されていた,簡潔トライの実装に含まれる簡潔ビットベクトルの実験結果が予想とかけ離れていたので,自身でも調べてみることにしました. partake.in DSIRNLP#2で発表しました「作ろう!簡潔ビットベクトル」 - EchizenBlog-Zwei 実験設定 比較した実装は元の実験と同じです. ux-trie: http://code.google.com/p/ux-trie/ rx: http://code.google.com/p/mozc/ marisa-trie: http://code.google.com/p/marisa-trie/ 実験環境の CPU は Intel(R) Core(TM) i7-2640M CPU @ 2.80GHz stepping 07 です.物理メモリの容量は十分にあり,ディスク I/

    簡潔トライの実装に含まれる簡潔ビットベクトルの性能比較 - やた@はてな日記
  • 1