自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma
This is the ‘official’ home page for distribution of the Porter Stemming Algorithm, written and maintained by its author, Martin Porter. The Porter stemming algorithm (or ‘Porter stemmer’) is a process for removing the commoner morphological and inflexional endings from words in English. Its main use is as part of a term normalisation process that is usually done when setting up Information Retrie
先日、自然言語処理はどのように役に立つのかというので酒の席で討論になりました。 自然言語処理とは、人が日常的に使っている自然言語(コンピュータ言語との対比でそうなってるらしく、日本語とか英語とか)をコンピュータに処理させる技術で、様々な技術と問題が融合する境界領域です。純粋な言語理論だけではなく、人工知能やら統計やら何でもまじってます。広義だと情報検索(の基盤といったほうがいいかな)とかも含まれます。 絵とか動画がいくらリッチな情報だとは言え、「昨日私がクーラーかけっぱなしのまま、裸で寝てしまい風邪をひいた」ということを言語情報無しで正確に伝えるのは難しいです。世の中の殆どの情報は自然言語で表されています。 で、自然言語処理が抱える宿命として、人にやらせると、言語処理は、ほぼ100%できてしまうということがあります。難しくないのです。 これは他の学問ではあまり見られないことで、例えば300
Statistical Language Modeling Toolkit The CMU-Cambridge Statistical Language Modeling toolkit is a suite of UNIX software tools to facilitate the construction and testing of statistical language models. Version 1 was written by Roni Rosenfeld at Carnegie Mellon University. The toolkit has now been rewritten by Philip Clarkson and Roni Rosenfeld, and now provides increased functionality and efficie
$Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます ファイル 単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル 単語辞書です エントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く