タグ

2012年1月2日のブックマーク (6件)

  • Social IMEの共有辞書を公開しました - nokunoの日記

    表題の通り,Social IMEの共有辞書を公開しました.dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく,Wikipediaから括弧表現をマイニングしたものや,はてなキーワードをクリーニングしたもの,MS IMEのユーザ辞書をWebからクロールするスクリプトを含んでいます.各辞書の単語数は以下のとおりです. 辞書 Social IME Wikipedia Hatena 単語数 48k 137k 235k Social IMEに登録される単語やWikipediaからのマイニングで得られる単語には,多くのノイズが含まれています.このノイズを取り

  • NIPS 2011で気になった論文リスト - nokunoの日記

    機械学習分野のトップカンファレンスの1つ,NIPS 2011で気になった論文をまとめました.NIPS 2011 Hogwild: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent Hashing Algorithms for Large-Scale Learning Bayesian Bias Mitigation for Crowdsourcing EigenNet: A Bayesian hybrid of generative and conditional models for sparse learning Learning Anchor Planes for Classification A Non-Parametric Approach to Dynamic Programming Fast a

  • 第2回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記

    第2回 データ構造と情報検索と言語処理勉強会 #DSIRNLP - [PARTAKE] 自然言語処理はじめました by @phylloさん自然言語処理はじめました - Ngramを数え上げまくるDSIRNLPで発表させていただきました - Negative/Positive Thinking 自己紹介:Negative/Positive Thinking 今日の概要:いろんな方法でN-gram頻度を数える N-gramとは? 隣り合うN個の塊のこと 単語n-gramや文字n-gramがある ナイーブな方法 ハッシュに入れて数える 問題:大規模テキストやNを大きくしたら? N-gramの異なり数はNに対して指数的に爆発する 解決法:N-gramをメモリに保存しない! Suffix Arrayを使った方法 入力文のSuffix Arrayを使った方法 メモリの節約になってる?:3*N+4byt

  • 統計的言語モデルとN-best探索を用いた日本語形態素解析法 - nokunoの日記

    今更ながら,NTT永田さんによる形態素解析のためのA*アルゴリズムを使ったN-best論文を読みました.というか,前にも読んで分かった気になっていたのだけど,忘れていたのでメモっておきます.統計的言語モデルとN-best探索を用いた日形態素解析法 そもそもA*アルゴリズムは最適解探索アルゴリズムであり,なぜこれでN-best探索ができるのか疑問でした.A* - Wikipedia論文の5ページ目には「最適解が得られたら,そのノードを取り除き,さらに探索を続けることにより次の最適解が得られる.」と書かれています.しかし,実際に擬似コード(図3)を読むとノードを削除するのではなくclosedリストに移しているだけで,しかもclosedリストに移されたノードは条件によってopenリストに戻される場合がある,というあたりがわかりづらかったです.これはラティス上では最適パスとそれ以下のパスがノー

  • 日本語入力におけるN文節最長一致とはなんなのか - nokunoの日記

    Googleの工藤さんとPFIの徳永さんがN文節最長一致法について議論している記事を見つけました.日本語入力におけるN文節最長一致とはなんなのか興味深かったので引用しておきます.Taku Kudo徳永さんののレビューをやりつつ、N文節最長一致について少しコメントを書きました。N文節最長一致についてはさんざんな言われようで、うまくいく原理はよくわからないとか、たまたまうまくいっているみたいな認識を持っている方が多いと思います。Mozcの開発を通じ、その心がわかったし、よくできてるんだなと感心しました。N文節最長一致は、ユーザの入力単位が文節であるという仮定を強く意識した手法です。換言すると、ユーザは自分の入力が常に1文節になることを期待しながら入力しているという仮定です。実はこれはあながち間違っていなくて、多くのユーザは無意識のうちに文節単位で入力しています。この仮定が常に正しのであれば、

  • 入力メソッドワークショップで発表しました〜「Social IMEの共有辞書をクリーニングしてみた」 - nokunoの日記

    入力メソッドワークショップ(別名IM飲み会)で「Social IMEの共有辞書をクリーニングしてみた」というタイトルで発表しました. WorkshopOnInputMethods2011 - chaime - ChaIME -- Term-based Yet Another Japanese Input Method Editor - Google Project Hosting 入力メソッド飲み会 2011 - [PARTAKE] Social IMEの共有辞書をクリーニングしてみた @nokuno発表資料をslideshareにアップロードしました.Social IMEの共有辞書をクリーニングしてみた View more presentations from Yoh Okuno 以下,他の人の発表についてのメモです. 機械学習による近代文語論説文への濁点の自動付与 岡さん 歴史的コーパ