タグ

aiと自然言語処理に関するthondaのブックマーク (3)

  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
  • OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

    様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。 プロジェクトページ 日語詳細ページ 学習、推定を行なう単体プログラムと、C++ライブラリからなります。(C++ライブラリ解説はまだ)。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。 オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習(SVMs, 最大エントロピー法)と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。 学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります(SVMsだと実装に

    OLL: オンライン機械学習ライブラリをリリースしました。 - DO++
  • 人工無脳レビュー

    Fig. 1に最近の人工無脳の能力の、独断に基づいた分布を示す。横軸は学習能力、縦軸は文脈追跡能力を示している。近年この勢力図は大きく変わった。マルコフ文生成を行なう人工無脳の一派の台頭と、限定的ながら論理を追跡して会話に反映させる人工無脳の技術の出現である。かつて人工無脳の代名詞と考えられていた辞書型はいまや旧世代のアーキテクチャに属し、その範疇では新しい技術開発が停滞している模様である。ログ型アーキテクチャは以前から存在していたのだが、いつの時代にもあまり大きな勢力にはなっていないようである。これらの情勢の変化はマシンパワーの増大と人工無脳業界への形態素解析器の導入に伴って生じたと考えられる。以下に各人工無脳の特徴を簡単に述べる マルコフ文生成型 マルコフ連鎖を用いて文を生成する。後述の辞書型人工無脳は辞書を拡大することでよい反応をするようになるが、マルコフ文生成型は逆で、生成する文の

  • 1