yocchan731のブックマーク - はてなブックマーク

yocchan731 id:yocchan731

ブックマーク / d.hatena.ne.jp/nokuno (11)

ルールベースから機械学習へ移行すべきタイミング - nokunoの日記
自然言語処理において機械学習が用いられるのは，ルールベースでやっていた処理の管理が難しくなってきたときだと言われています．それでは，具体的にルールベースから機械学習へ移行すべきタイミングはいつなのか，という問題について考えました．ルールの数が数十〜数百個を超えたときルールに優先順位があって管理が難しくなったときルール同士が矛盾していて曖昧性が発生しているときルールの組合せを考慮したいときルールにパラメータがあって調整するのが難しいときこんなところでしょうか．ツイートする
yocchan731 2011/10/23
*研究

*資料

機械学習
リンク
自然言語処理にはやっぱりPythonがいちばん - nokunoの日記
Quoraで「自然言語処理に適したプログラミング言語はどれか？」という質問をしたところ，やっぱりPythonが一番人気のようです．What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ（re）が強力だからnumpyとscipyがあるからスクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるからまた，機械学習のライブラリを言語別にまとめた質問もありました．こちらもJava, Python, Rが多いですね．Which programming language has the best repository of ma
yocchan731 2011/08/20
*プログラミング

自然言語処理

python
リンク
大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記
大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ（コーパス）に興味のあるところです。大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記タグ付きコーパス（ツリーバンク）Penn Tree bankWSJ C
yocchan731 2011/06/21
*研究

*資料

*まとめ

wikipedia

データマイニング

自然言語処理
リンク
未知語の読み推定のためのアライメントツールmpalignerを試してみた - nokunoの日記
「mpaligner」という名前の未知語の読み推定のためのアライメントツールが公開されていましたので、試してみました。mpaligner mpaligner とはある文字列とある文字列を最小単位でアライメントするオープンソースのプログラムです．例えば，表記と読みのアライメントや遺伝子のアライメントが挙げられます．図1のように表記と読みを最小単位でアライメントすることで，単漢字辞書といった小さい単位の辞書を容易を構築できます．これは，未知語に対する読み付与などに使用されます．ライセンスは GNU GPL です．使用方法は圧縮ファイル内のREADMEを参照してください．このライブラリに、例えばmozcの辞書を読み込ませてアライメントを推定するには、以下のようにする。cat dictionary0* | awk -F "\t" '{OFS="\t";print $5, $1}' |
yocchan731 2011/03/05
*プログラミング

*ソフトウェア

ツール

自然言語処理

辞書

オープンソース
リンク
第９回データマイニング+WEB 勉強会＠東京に参加してきた - nokunoの日記
というわけで行ってきました。第９回データマイニング+WEB 勉強会＠東京　( TokyoWebmining 9)?1st Week? 大規模解析・機械学習・クオンツ祭り? : ATNDFirst Weekって。■大規模解析：1. Mahout Canopy Clustering (講師：@hamadakoichi)(発表30分＋議論60分)　Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離離れたクラスタ算出を実現する。　Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含めお話しします2. 機械学習＝機械の代わりに人間が学習 (講師：@shuyo))(発表20分＋議論40分)　Gihyo.jp でも機械学習の連載し裾野を広げる活動をされている @shuyo さん。　今回、機械学習の歴史や専門外
yocchan731 2011/01/16
*まとめ

*研究

*資料

データマイニング

機械学習

発表

アルゴリズム
リンク
NLP関係のリソースまとめ - nokunoの日記
先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書
yocchan731 2010/12/19
*まとめ

wikipedia

自然言語処理

形態素解析

*研究

*資料
リンク
スペル訂正エンジンを作ってみた - nokunoの日記
紫蘇カンファレンス2010というイベントでLTをしました。紫蘇カンファレンス 2010 - しソ部Togetter - 「紫蘇カンファレンス 2010」内容は、StaKKのスペル訂正機能についての解説です。統計的自然言語処理エンジンStaKK - nokunoの日記shisoconf 2010 Spelling CorrectionView more presentations from nokuno. 他の人は画像会話用の画像検索エンジン「tiqav（ちくわぶ）」や、Flickrのお気に入りをふぁぼったー的に表示してくれる「flistr」など、幅広いサービスや技術やネタが満載の楽しいイベントでした。tiqav / ちくわぶFlistr - View Flickr Photos Favorited by Your ContactsWWSみんなが頑張っているのを見ると刺激になりますし、今の環
yocchan731 2010/11/29
自然言語処理

イベント

*ネタ

*プログラミング

*資料
リンク
統計的自然言語処理エンジンStaKK - nokunoの日記
統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。現在の機能かな漢字変換予測変換またはサジェストスペル訂正形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc （Google日本語入力のOSS版）のデータを使っています。リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。ノーマルモードでは、かなを入力し、単語（主に漢字）を出力します。リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。機能ノーマルモードリバースモード Convert かな漢字変換形態素解析 Predict 予測変換検索ワードのサ
yocchan731 2010/11/24
かな漢字変換

形態素解析

自然言語処理

*ソフトウェア
リンク
「Mozcソースコード徹底解説」 at 第２回自然言語処理勉強会 - nokunoの日記
というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会＠東京 : ATND私の発表は、シルバーウィークにもう１回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回自然言語処理勉強会＠東京 (#tokyotextmining)」自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん）自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん）Query Suggestion @ tokyotextmining#2 (@y_benjoさん）
yocchan731 2010/09/26
*研究

*資料

発表

自然言語処理

機械学習

かな漢字変換

辞書
リンク
予測変換APIを公開しました！ - nokunoの日記
Social IMEではWeb APIを公開していますが、昨年11月に公開したかな漢字変換APIに続き、予測変換APIを公開しました。このAPIを使うと、たとえば次のような予測変換ができます。「はてな」で予測変換はてなはてなブックマークはてなブックはてなダイアリー（以下略）ローマ字入力の途中での予測を行うと、このように展開されます。「わｔ」で予測変換私私は私の私も私が（以下略）また、長文を入力したときのかな漢字変換候補との統合にも対応しています。「きょうのてんきはは」で予測変換今日の天気は晴れ予測変換にはWebから抽出された大規模な統計量（Google提供）が用いられています。APIを活用したクライアントを開発されている方は、ぜひご利用ください。
yocchan731 2009/01/25
*webサービス

api

自然言語処理

google

日本語
リンク
かな漢字変換エンジンの基礎 - nokunoの日記
先日研究室で勉強会（通称サーベイ輪講）があったので、その資料をアップロードしました。うちは自然言語処理をやっている人は少ないので、内容的には本当に基礎の基礎です。先生からは「わかりやすい」とお褒めの言葉を頂きました。 | View | Upload your own間違い等がありましたら遠慮なくご指摘下さい。
yocchan731 2008/05/23
*プログラミング

*資料

自然言語処理

かな漢字変換
リンク
1