タグ

2010年11月17日のブックマーク (2件)

  • GeoIME 〜位置連携日本語入力システム〜

    GeoIME(ジオアイエムイー)って? GeoIMEは,利用者の位置に応じて,読みに対して提示される変換候補が変化する,"少しだけ気が利く"日語変換システムを目指しています.例えば, 位置に応じて変換候補が絶妙にソートされている! 「し」で始まる「渋谷」「新宿」「新橋」などの順序が今いる位置によって変わる 近くの地名がサクッと出る! 福岡にいると「は」→「博多」,「て」→「天神」. 難しい地名もOK.「す」→「周船寺」,「と」→「等々力」 同じ場所では同じような単語が出る! 自身の過去の履歴と,周辺にいる他人の履歴を参照 いつもの場所では「だ」→「大名」.家では,「だ」→「大好き」 みんなが集まる場所で「ま」→「マッシュアップキャラバン」 といった利点があります. DEMO デモ版ではリアルタイムに辞書を生成していますので,動作が遅いです.辞書生成用のサーバ with MeCabを導入し

    mamoruk
    mamoruk 2010/11/17
    これ自分がインターン中からやりたいと思っているんですけど、なかなか人手が取れないですねえー
  • 小規模データで単語の数を数えてみた (1) - ny23の日記

    大規模データで単語の数を数える - ny23の日記 で書いた Count-Min Sketch で,誤差を減らすヒューリスティクス (conservative update) New directions in traffic measurement and accounting (SIGCOMM Comput. Commun. Rev., 32(4), 2002) を実装して,動的ダブル配列を使って Wikipedia のテキスト処理を高速化 - ny23の日記 の小規模データ(1.5GiB の Wikipedia 文)の単語カウントでその効果を見てみた.考えるところはハッシュ関数に何を使うかぐらいで(キーを陽に保持しない限りは)実装はとても簡単. // GNU GPL version 2 copyright@ny23 #include <cstdio> #include <cstdl

    小規模データで単語の数を数えてみた (1) - ny23の日記
    mamoruk
    mamoruk 2010/11/17
    毎回こうやってコード込みで日記書くの見習いたい