タグ

ブックマーク / kaiseh.hatenadiary.org (2)

  • Twitter本文と言及URLの圧縮 - kaisehのブログ

    最近、Twitterのデータを収集しています。APIで取得したtweet文や、そこから抽出したURLを片っ端からDBに保存していくと件数が莫大になるので、ディスクスペースを極力節約したいところですが、個別のtweet文や言及URLは短い文字列なので、普通に1件ずつgzip等で圧縮してもほとんど意味がないか、オーバーヘッドが出て逆効果になってしまいます。 そこで、収集済みのサンプルデータを元にハフマン木を作っておき、それを共通利用してtweetを圧縮してみました。 用意したのは、英語ユーザ/日語ユーザ/韓国語ユーザ各1000人のtweetサンプルをベースにしたハフマン符号と、tweet文から抽出したURL文字列をベースにしたハフマン符号の4種類です。 頻度表は次のようになりました。 char (en) freq (en) char (ja) freq (ja) char (ko) f

    Twitter本文と言及URLの圧縮 - kaisehのブログ
  • 『実用Git』を共訳しました - kaisehのブログ

    id:hirataraさんとkentaro714さんの3人で、"Version Control with Git"を共訳しました。邦題は『実用Git』で、Amazonで予約受付開始されています。 実用Git 作者: Jon Loeliger,吉藤英明(監訳),間雅洋,渡邉健太郎,浜階生出版社/メーカー: オライリージャパン発売日: 2010/02/19メディア: 大型購入: 7人 クリック: 287回この商品を含むブログ (45件) を見る hirataraさんも言っていますが、濱野さんが書かれた『入門Git』に比べると、よりチュートリアル的な内容で、初心者にも分かりやすいのではないかと思います。 日語版だけの付録として、hirataraさん自身が書かれた「Gitにおける日語の利用」と、瀧内元気さん著の「GitHub入門」も追加されているので、これ1冊でかなりGitの理解が深まる

    『実用Git』を共訳しました - kaisehのブログ
  • 1