タグ

ブックマーク / hillbig.cocolog-nifty.com (3)

  • 連想配列の進化 - DO++

    キーに対して値を結びつける連想配列は多くのアプリケーションの肝であり、コンパクトかつ高速な処理が可能な連想配列を追い求め日夜研究が進められています。 特に非常に巨大な連想配列を高速に処理するというのが重要な課題となっています。例えば、音声認識・文字認識・機械翻訳などで使われている言語モデルでは、非常に大量のN個の単語列の情報(特に頻度)を格納することが重要になります。 この場合、キーが単語列であり、値が単語列のコーパス中での頻度に対応します。 例えばGoogle N-gram Corpusからは数十億種類ものN-gramのキーとその頻度などが取得できます。これらを主記憶上に格納し、それに関する情報(頻度や特徴情報)を操作することが必要になります。 そのほかにも大規模なデータを扱う問題の多くが巨大な連想配列を必要とします。 ここではこのような連想配列の中でも、キーの情報を格納することすら難し

    連想配列の進化 - DO++
  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
  • DO++: 海外のブログのお勧め

    海外のブログでお勧めはどういうのありますかとよく聞かれるのでかいてみます。 といってもそんなないけど。 Terence Tao 非常に幅広い分野の第一線で活躍している数学者のテレンスタオ[jawiki]のブログ.ブログで毎回新しい定理を証明しちゃったり、突然、相対性理論の分かりやすい証明をしたりとすごい.コメントでの議論も丁寧. ブログで書いたのをまとめたが出るそうですが、目次を読むとブログの範疇をこえてる・・ natural language processing blog 自然言語処理ではたぶん一番有名なブログ. による.いろいろな手法の解説から現在ある問題(自然言語処理以外にもアカデミック的な問題とかも含め).守備範囲が大体私と似ていて読んでいて楽しい.ちなみにHal Daumeはハスケラーで、そこそこ有名なhaskel tutorialかいてたりする Google Resear

    DO++: 海外のブログのお勧め
  • 1