sleepy_yoshiのブックマーク / 2012年1月2日

sleepy_yoshi id:sleepy_yoshi

2012年1月2日のブックマーク (6件)

Social IMEの共有辞書を公開しました - nokunoの日記
表題の通り，Social IMEの共有辞書を公開しました．dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく，Wikipediaから括弧表現をマイニングしたものや，はてなキーワードをクリーニングしたもの，MS IMEのユーザ辞書をWebからクロールするスクリプトを含んでいます．各辞書の単語数は以下のとおりです．辞書 Social IME Wikipedia Hatena 単語数 48k 137k 235k Social IMEに登録される単語やWikipediaからのマイニングで得られる単語には，多くのノイズが含まれています．このノイズを取り
sleepy_yoshi 2012/01/02
NLP

corpus
リンク
NIPS 2011で気になった論文リスト - nokunoの日記
機械学習分野のトップカンファレンスの1つ，NIPS 2011で気になった論文をまとめました．NIPS 2011 Hogwild: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent Hashing Algorithms for Large-Scale Learning Bayesian Bias Mitigation for Crowdsourcing EigenNet: A Bayesian hybrid of generative and conditional models for sparse learning Learning Anchor Planes for Classification A Non-Parametric Approach to Dynamic Programming Fast a
sleepy_yoshi 2012/01/02
ML
リンク
第2回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記
第2回データ構造と情報検索と言語処理勉強会 #DSIRNLP - [PARTAKE] 自然言語処理はじめました by @phylloさん自然言語処理はじめました - Ngramを数え上げまくるDSIRNLPで発表させていただきました - Negative/Positive Thinking 自己紹介：Negative/Positive Thinking 今日の概要：いろんな方法でN-gram頻度を数える N-gramとは？隣り合うN個の塊のこと単語n-gramや文字n-gramがあるナイーブな方法ハッシュに入れて数える問題：大規模テキストやNを大きくしたら？ N-gramの異なり数はNに対して指数的に爆発する解決法：N-gramをメモリに保存しない！ Suffix Arrayを使った方法入力文のSuffix Arrayを使った方法メモリの節約になってる？：3*N+4byt
sleepy_yoshi 2012/01/02
NLP

資料
リンク
統計的言語モデルとN-best探索を用いた日本語形態素解析法 - nokunoの日記
今更ながら，NTT永田さんによる形態素解析のためのA*アルゴリズムを使ったN-best論文を読みました．というか，前にも読んで分かった気になっていたのだけど，忘れていたのでメモっておきます．統計的言語モデルとN-best探索を用いた日本語形態素解析法そもそもA*アルゴリズムは最適解探索アルゴリズムであり，なぜこれでN-best探索ができるのか疑問でした．A* - Wikipedia論文の5ページ目には「最適解が得られたら，そのノードを取り除き，さらに探索を続けることにより次の最適解が得られる．」と書かれています．しかし，実際に擬似コード（図3）を読むとノードを削除するのではなくclosedリストに移しているだけで，しかもclosedリストに移されたノードは条件によってopenリストに戻される場合がある，というあたりがわかりづらかったです．これはラティス上では最適パスとそれ以下のパスがノー
sleepy_yoshi 2012/01/02
NLP
リンク
日本語入力におけるN文節最長一致とはなんなのか - nokunoの日記
Googleの工藤さんとPFIの徳永さんがN文節最長一致法について議論している記事を見つけました．日本語入力におけるN文節最長一致とはなんなのか興味深かったので引用しておきます．Taku Kudo徳永さんの本のレビューをやりつつ、N文節最長一致について少しコメントを書きました。N文節最長一致についてはさんざんな言われようで、うまくいく原理はよくわからないとか、たまたまうまくいっているみたいな認識を持っている方が多いと思います。Mozcの開発を通じ、その心がわかったし、よくできてるんだなと感心しました。N文節最長一致は、ユーザの入力単位が文節であるという仮定を強く意識した手法です。換言すると、ユーザは自分の入力が常に1文節になることを期待しながら入力しているという仮定です。実はこれはあながち間違っていなくて、多くのユーザは無意識のうちに文節単位で入力しています。この仮定が常に正しのであれば、
sleepy_yoshi 2012/01/02
NLP
リンク
入力メソッドワークショップで発表しました〜「Social IMEの共有辞書をクリーニングしてみた」 - nokunoの日記
入力メソッドワークショップ（別名IM飲み会）で「Social IMEの共有辞書をクリーニングしてみた」というタイトルで発表しました． WorkshopOnInputMethods2011 - chaime - ChaIME -- Term-based Yet Another Japanese Input Method Editor - Google Project Hosting 入力メソッド飲み会 2011 - [PARTAKE] Social IMEの共有辞書をクリーニングしてみた @nokuno発表資料をslideshareにアップロードしました．Social IMEの共有辞書をクリーニングしてみた View more presentations from Yoh Okuno 以下，他の人の発表についてのメモです．機械学習による近代文語論説文への濁点の自動付与岡さん歴史的コーパ
sleepy_yoshi 2012/01/02
NLP

corpus
リンク
- 2012年1月3日
- 2012年1月2日
- 2011年12月31日