タグ

NLPと+++に関するsuikyoのブックマーク (4)

  • 「ニコニコ動画コメント等データ」を研究用に提供開始 - 国立情報学研究所 / National Institute of Informatics

    大規模ソーシャルメディアデータは情報学研究のターゲットとして大きな注目を浴びており、ニコニコ動画も研究データとして大きな可能性があります。 国立情報学研究所 情報学研究データリポジトリ(IDR)では、株式会社ドワンゴの協力の下、ニコニコ動画のコメント等データを広く公開し、研究の用途に供することと致しました。 データはニコニコ動画に昨年11月初旬までに投稿された約830万件の動画のメタデータ(タイトル、説明文、タグ、投稿日時、再生数等)約12GBと、それに対するコメントデータ(コメント文、投稿日時、コメント位置等)約300GBです。動画データ体および個人を特定するユーザIDは含まれません。 データは研究目的であればどなたでもご利用いただけます。希望される方は下記サイトより利用申請をして下さい。 情報学研究データリポジトリ ニコニコ動画コメント等データ

    「ニコニコ動画コメント等データ」を研究用に提供開始 - 国立情報学研究所 / National Institute of Informatics
  • 国立情報学研究所、ニコニコ動画に投稿されたコメントから抽出したデータの提供を開始 | スラド IT

    国立情報学研究所(NII)が24日、ドワンゴとの協力の下、「ニコニコ動画コメント等データ」の提供を開始した(NIIのニュース)。 提供されるのは昨年11月初旬までに投稿された約830万件の動画のメタデータ(タイトルおよび説明文、タグ、投稿日時、再生数等)約12GBと、それに対するコメントデータ(コメント文、投稿日時、コメント位置等)約300GB。動画データや個人を特定するユーザーIDは含まれない。研究目的であれば誰でも利用できるとのこと。 かなり偏ったデータであるとは思われるが、この規模のまとまった投稿データはなかなか興味深いのではないだろうか。

    suikyo
    suikyo 2013/05/30
  • COLING 2012 ワークショップ: モバイルテキスト入力の最前線 - 武蔵野日記

    会議は終わったが最後のワークショップがあるので、荷物をまとめて会場の IIT (インドで一番有名な国立の工科大学。インド各地にある) に出発。スーツケースを持ち運ぶのも面倒で、ホテルで預かってもらい、ワークショップが終わったら一度ホテルに戻ってきてホテルから空港に行くことも考えたが、渋滞に巻き込まれると危険なので、会場から直接空港に行くことにしたのである。 Tuktuk で会場まで送ってもらったはいいが、昨日までの招待講演があった会場ではなくレジストレーションがある会場のほうだったので、スーツケースを引きずりながら移動。階段があるのでちょっとしんどい。ワークショップだけ参加の人もいるようで、「ワークショップの場所はどこですか?」と聞かれたので一緒に行く。インドの大学でちょうど英語の感情推定の研究を始めたばかりで、大きな国際会議が開かれると聞いたので発表に来てみた、とのこと。せっかく来るな

    COLING 2012 ワークショップ: モバイルテキスト入力の最前線 - 武蔵野日記
  • OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

    様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。 プロジェクトページ 日語詳細ページ 学習、推定を行なう単体プログラムと、C++ライブラリからなります。(C++ライブラリ解説はまだ)。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。 オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習(SVMs, 最大エントロピー法)と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。 学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります(SVMsだと実装に

    OLL: オンライン機械学習ライブラリをリリースしました。 - DO++
  • 1