タグ

ブックマーク / tkng.hatenablog.com (4)

  • 日本語入力を支える技術 振り返り、もしくは技術書を書きたい人へ - 射撃しつつ前転 改

    を書いてからこっち、年度末で忙しかったり、体調がずっと悪かったりしていますが、そろそろ気出します。正誤表も大幅にアップデートします。今書いてる。 今日は、を書いてみてどうだったか、ということをふり返る。たぶんこれでについて触れるのは最後かな。宣伝はたまにすると思いますが。 ※思いがけず大量にアクセスがあったから、最後に追記を書いたので、そっちも読んでね! を書いたきっかけ 会社の方でPFIセミナーという勉強会のようなものをやっており、なぜかそれがUStreamでインターネットに中継されているのだが、そこで日本語入力の話をしたら「書かない?」って話が来た。編集さんとは、その前年に会社に来たWEB+DB Pressの記事執筆依頼で記事を書いた際に知り合ったので、そういう意味では貪欲にチャンスを掴みに行った結果であると言えなくもない。 PFIセミナーがUSTで中継されるようになったの

    日本語入力を支える技術 振り返り、もしくは技術書を書きたい人へ - 射撃しつつ前転 改
  • 日本語入力を支える技術という本を書きました - 射撃しつつ前転 改

    (追記):「このに書かれていないこと」という項を追加しました。 以前も告知しましたが、日本語入力を支える技術というを書きました。技術評論社から2012年2月8日に発売されます。(私の知っている限りでは、ジュンク堂池袋店、有隣堂AKIBA店、丸善丸の内店、書泉ブックタワーでは既に先行販売しているよう…でしたが、ジュンク堂池袋店、有隣堂AKIBA店、書泉ブックタワーは先行販売分は売り切れの模様です。)どんななのか、目次などについては公式ページを参照していただくとして、以下ではどんななのか宣伝したいと思います。 こののキーワードは「実装」と「初心者向け」です。初心者でも実装ができるようにサンプルコードを多用し、また数式が出てくる部分に関してはちょっとしつこいぐらいに説明を加えました。私自身の経験からすると、を読んだで理解したと思っていても、大抵の場合、細かいところはわかっていないもの

    日本語入力を支える技術という本を書きました - 射撃しつつ前転 改
    kawacho
    kawacho 2012/02/03
    買おう。
  • Text Service Frameworkに関するメモ - 射撃しつつ前転 改

    諸事情でWindowsの文字入力について調べたのだが、専門用語が多くて理解に時間がかかったので、数ヶ月後の自分のためにメモしておく。 Text Service Framework(以下TSF)は汎用的な文字入力フレームワークで、キーボードだけではなく、音声認識や手書き入力などもサポートできるフレームワークである。 TSFを考える時には登場人物が3つある。アプリケーション、テキストサービス、テキストサービスマネージャの3種類である。アプリケーションが普通のアプリケーションデベロッパが開発するもの、テキストサービスがかな漢字変換エンジンのベンダーなどが開発するものである。テキストサービスマネージャはアプリケーションとテキストサービスを仲介する。アプリケーションとテキストサービスが直接通信することはなく、必ずテキストサービスマネージャを通す(らしい)。以下、いくつか用語を箇条書きする。 アンカー

    Text Service Frameworkに関するメモ - 射撃しつつ前転 改
  • Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 改

    Google日本語入力がOSS化されたということで、気になっていたところをいくつか確認してみた。 変換アルゴリズムはどんな感じか? twitterの工藤さんの発言にも「わりと古典的な最小コスト法」とあるけれど、まさにそんな感じ。人名の処理とかでちょっと特別なコードが入ったりもしているが、ほぼ基的な統計的かな漢字変換のモデル。係り受けの情報とかは使っていない。Viterbiでベストパスを求めて、品詞ベースで文節にまとめあげている。コストモデルは接続コストが品詞対品詞で、単語コストの方は単語毎に設定されているっぽい。 src/converter/immutable_converter.ccのImmutableConverterImpl::ViterbiがViterbiアルゴリズムの部分で、その後にMakeSegmentsで文節にまとめている。読むならImmutableConverterImp

    Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 改
  • 1