タグ

ブックマーク / komachi.hatenablog.com (4)

  • Google 日本語入力のヒューリスティック - 武蔵野日記

    Google 日本語入力のソースコードが公開されたらしい。Mozc (もずく)という名前だそうで。オフィシャルブログだけではなく、Twitter でもものすごい勢いで伝播していたようだが、すごいいつきである。そして、公開されるやいなや読んだ人もたくさんいるようで、そちらもすごいなと思う。日本語入力エンジンのソース読む人なんて、ほとんどいないと思っていたのだが、逆にこんなに日本語入力って注目されるんだ、と嬉しい気持ちである(でも日本語入力エンジン作る人が増えたりはしないのかもしれない)。 そんな感じでいち早くソースコード読まれた @tkngさんがMozc(Google日本語入力)のコードを読んだメモを公開してくださった。ありがたい。変換アルゴリズムは、挙動から考えてそうだろうな、と思っていたのと同じだった。変換履歴を用いたリランキングをするところがなかなか難しいのだが、@tkng さんも手

    Google 日本語入力のヒューリスティック - 武蔵野日記
  • Microsoft Office IME 2010 はガチ - 生駒日記

    ガチとはガチンコの略で「真剣勝負」を意味したそうだが、Microsoft Office 2010 IMEが東方に強いと言う噂を聞いたので検証してみたという話を目にしたので、Microsoft Office 2010 ベータ版ダウンロードから Office Professional 2010 を取得してインストールして試してみた。無料のプロダクトキーがダウンロードページに書いてあり、2010年10月31日まで使用可能なようだ。 上記ページには Twitterのアカウントで、MS-IMEへの不満を書いたら、MicrosoftでIME開発をしている人 (自称) にMS-Office 2010のIMEを勧められ、更に"Twitter / Takashi umeoka: @rh_kimata 東方に強いという、うわさもありますよ"と言われたので、検証してみた。 と書いてあるが、Twitter でつぶ

    Microsoft Office IME 2010 はガチ - 生駒日記
  • ATOK の辞書をつくる - 武蔵野日記

    @klmquasi さんのお勧めで 電脳日語論 作者: 篠原一出版社/メーカー: 作品社発売日: 2003/03/01メディア: 単行購入: 1人 クリック: 8回この商品を含むブログ (11件) を見るを読んでみる。これはジャストシステムの開発者の人から辞書を作っていた人、そして ATOK 監修委員会のできるまでとできてから、などなどをまとめたであり、日本語入力や計算機上の日語処理に興味のある人が読むと、とてもおもしろいだろう(2003年ので新し目だし、これはお勧め)。後述するが、これはぜひみなさんに買って読んでもらいたい。 Google 日本語入力ができてから、日本語入力は規範的であるべき(たとえば「ら抜き表現」は日語として「間違っている」ので変換できないようにするとか)か記述的であるべき(実際言語は変わりうるものであり、使う人がそう書きたいのであれば、変換できるべき)かと

    ATOK の辞書をつくる - 武蔵野日記
    kawacho
    kawacho 2010/01/11
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • 1