タグ

NLPとdatabaseに関するYasSoのブックマーク (2)

  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
  • plotless: UTF-8での全文検索メモ(PostgreSQL + Tsearch2 + MeCab 編)

    慣れない perl に苦戦しているわけですが、"Bad free() ignored (PERL_CORE)" って警告が出てくる原因がイマイチわかりません…。 perl5.8を入れ直してみようかとportsでコンパイルするとエラーが出るようになるし…。困ったなぁ…。 で、それとは関係なくポスグレのTsearch2 + MeCabを使った全文検索の仕方を忘れないようにメモメモ。 参考にしたのは以下のページ。 https://www.oss.ecl.ntt.co.jp/tsearch2j/index.html http://www.emaki.minidns.net/Programming/postgres/index.html --- 環境 ・FreeBSD 5.4 ・PostgreSQL 7.4.13 インストール済み (/usr/ports/databases/postg

  • 1