[B! ime] tettsyunのブックマーク

Zzz Eee Lll Ccc Hhh

仮名漢字変換統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードできます。詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。リンク SIMPLE (Statistical Input Method for Personal Learning and Education; 仮) or KyKC (休憩しぃ)? simple.tar ダウンロード (とりあえず再配布不可です) 統計的仮名漢字変換の学習用単語と読

tettsyun 2010/06/12

ime
nlp

リンク

Mozc(Google 日本語入力)のコードを読んだメモ(2) - 射撃しつつ前転改

TSFのメモとMozcのコード読みメモを比較すると、書くのにかかった時間は4,5倍は違う（TSFの方が大変だった）のに、ブックマーク数は逆転どころか桁が2桁違う事になりそうだなぁ、と、あらためてGoogleの人気のすごさを体感した。小町さんはこんなに日本語入力って注目されるんだと嬉しい気持ちと書いておられるが、個人的な感触としては、日本語入力が注目されているというよりはGoogleが注目されている、というあたりが悲しい現実なのではないかと思う。とは言え、自分もChaSenのコードとか読んだことない（mecabは少しだけ読んだ事があるけど）ので、あんまり人の事は言えないが。さて、週末にバイグラムコストの保存方法についても現実逃避で読んでしまったので、ついでに解説を試みる。前のメモにも書いたが、Google日本語入力のコストモデルは「品詞バイグラム+単語ユニグラム」という構成になってい

tettsyun 2010/05/22

リンク

Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転改

Google日本語入力がOSS化されたということで、気になっていたところをいくつか確認してみた。変換アルゴリズムはどんな感じか？ twitterの工藤さんの発言にも「わりと古典的な最小コスト法」とあるけれど、まさにそんな感じ。人名の処理とかでちょっと特別なコードが入ったりもしているが、ほぼ基本的な統計的かな漢字変換のモデル。係り受けの情報とかは使っていない。Viterbiでベストパスを求めて、品詞ベースで文節にまとめあげている。コストモデルは接続コストが品詞対品詞で、単語コストの方は単語毎に設定されているっぽい。 src/converter/immutable_converter.ccのImmutableConverterImpl::ViterbiがViterbiアルゴリズムの部分で、その後にMakeSegmentsで文節にまとめている。読むならImmutableConverterImp

tettsyun 2010/05/15

リンク

google ime (mozc)のソースコードが公開されたので読んでみた。 - お前の血は何色だ!! 4

google ime (mozc)のソースコードが公開されました。 http://code.google.com/p/mozc/ http://codezine.jp/article/detail/5174 http://googlejapan.blogspot.com/2010/05/google_10.html なんで、早速ソースコードを探検してみた。 google のスーパーハカーはどういう楽しいコードを書いているのか興味津々です。 #まだすべてのソースコードに目を通していないです。 1.CallOnce という CASで実装された楽しい関数 base/mutex.cc に、 CallOnce という大変ユニークな関数があります。 void CallOnce(once_t *once, void (*func)()) { if (once == NULL || func == NU

tettsyun 2010/05/13

mozc

リンク

Google 日本語入力がオープンソースになりました

Google が Google 日本語入力を発表してから、5ヶ月がたちました。発表から今日まで、数回のベータ版のアップデートを通じて不具合の修正や機能の追加を行い、また、開発版も追加しました。ベータ版にも関わらず、非常に多くの方にお使いいただき、貴重なフィードバックも多数いただいております。私たちの考える「思いどおり」の入力というものをユーザーの皆さんも望んでいることをひしひしと感じます。多くの方が出来るだけ少ない労力で日本語を入力したいと考えており、また誤変換の心配から解放されたいと願っていることがわかりました。ユーザーの方にストレス無くインターネットを使っていただけるようにすることが Google の使命であると考えています。ただし、このようなビジョンを実現するためにはオープンソース・コミュニティの方々からの助けが必要です。Google 日本語入力発表時にお約束したとおり、本日、Go

tettsyun 2010/05/11

google
ime

リンク

LinuxBuildInstructions - mozc - How to build Mozc on Linux - Project Hosting on Google Code

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

tettsyun 2010/05/11

リンク

Anthyのソースコードを読む

このページは私がAnthyのソースコードを読んだ記録です。今のところバージョン8317について読んでいます。まず最初に付属のドキュメントを読む doc/以下に、親切にも開発者向けのドキュメントがあります。doc/00indexが各ドキュメントの目次になっているので、まずはそれに目を通しましょう。 Anthyの初期化処理 Anthyは新しい文字列を渡すたびに初期化されますが、その初期化により様々なことが行われているようです(推量)。それについては、Rubyのある風景 - Anthy Hacking GuideのAHG_Initializationが参考になります。辞書周り Anthyには共通辞書と個人辞書の2種類の辞書があります。 Anthy共通辞書 Anthyでかな漢字変換をする際に必ず参照されるのが共通辞書です。共通辞書はAnthyのmake時に生成され、だいたいどのディストリビュー

tettsyun 2010/04/14

ime

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

imeに関するtettsyunのブックマーク (7)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス