タグ

pystanに関するmoa108のブックマーク (1)

  • Pystanで自然言語処理 scikit.learnのdatasetで試す - xiangze's sparse blog

    scikit.learnは様々な機械学習のアルゴリズムのみならず、データセットも充実しています。stanのpythonラッパーpystanでこれを利用し、Stan manualのLDAのコードの性能を評価することを行いました。 20 newsgroupsというデータセットは名前の通りUsenetの20のカテゴリー、20000の文書(英語)からなるデータセットです。 これをsklearn.feature_extraction.text のCounterVectizerを用いて単語数をカウントした行列形式に変換し、Stanのコードに入力します。 コードは以下のようになります。 行列は疎行列形式で保存されているのでこれを変換し、またStanの添え字形式である1始まりに変換します。beroberoさんが高速化のために書かれたコード(あらかじめ計算しておいた各wordの頻度を用いて尤度を足し合わせる

    Pystanで自然言語処理 scikit.learnのdatasetで試す - xiangze's sparse blog
  • 1