タグ

ブックマーク / sucrose.hatenablog.com (2)

  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
  • pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

    scikit-learn(sklearn)の日語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て

    pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm
  • 1