タグ

ブックマーク / www.mwsoft.jp (3)

  • MahoutのIDMigratorを使ってみる | mwSoft

    概要 MahoutはいろんなものをlongのIDで扱う。ので、文字列をIDに変換しないといけないシーンにけっこう出くわす。 手軽にIDと文字列を変換できる機能に、IDMigratorがある。ファイルとかDBから文字列とIDの対応表を生成してくれる機能。 変換にはハッシュ値を使用し、衝突したら仕方ないという男らしい仕様を採用している。JavaDocには「最悪、違うユーザのレコメン出しちゃうこともあるかもね」と書かれている。 でも、大丈夫。64bitでぶつかってしまうような運命の2人なら、きっと趣味も一緒のはずだから。 MemoryIDMigrator とりあえず手軽に使えるところで、MemoryIDMigratorを使ってみる。Collectionに入った文字列からIDへの変換表を生成してくれる。 List<String> list = Arrays.asList( "田中", "佐藤",

    yass
    yass 2013/01/15
    the top 8 bytes of the MD5 hash of the bytes of the given String's UTF-8 encoding as a long.
  • Javaのhello worldの読み方 | mwSoft

    前書き お馴染み、hello worldのソース。 class Hello { public static void main(String[] args) { System.out.println("hello world"); } } このコードはコンパイルされると、こんなバイトコードになります。 ca fe ba be 00 00 00 32 00 22 07 00 02 01 00 05 48 65 6c 6c 6f 07 00 04 01 00 10 6a 61 76 61 2f 6c 61 6e 67 2f 4f 62 6a 65 63 74 01 00 06 3c 69 6e 69 74 3e 01 00 03 28 29 56 01 00 04 43 6f 64 65 0a 00 03 00 09 0c 00 05 00 06 01 00 0f 4c 69 6e 65 4e

  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

    yass
    yass 2009/10/21
  • 1