タグ

ブックマーク / www.nii.ac.jp (3)

  • 情報学研究データリポジトリ 不満調査データセット カテゴリ別不満特徴語辞書

    カテゴリ別不満特徴語辞書(旧・不満カテゴリ辞書データ) 国立情報学研究所が株式会社Insight Techから提供を受けて研究者に提供しているデータセットです。 2017/11/22 更新 データ概要 「不満買取センター」に2015年3月18日(サービス開始日)から2017年8月1日までに投稿されたデータのうち,特定カテゴリ下に投稿された約472万件より作成された,カテゴリごとに特徴的な単語を抽出した辞書データです。 データに含まれるのは「カテゴリ」「単語」「単語の品詞情報」「単語のカテゴリ所属スコア」だけであり,特定の個人につながる情報は一切含まれていません。 提供するカテゴリは不満買取センターで運用されているカテゴリおよびサブカテゴリで,総務省の「日標準産業分類」を参考に株式会社Insight Techがカスタマイズした体系であり,約190万単語について,TF-IDF,PMI(自己

  • ことばを理解すること

  • 情報学研究データリポジトリ ニコニコデータセット

    ニコニコ大百科データ ニコニコ大百科に2014年2月上旬までに投稿された記事全ての記事ヘッダ,記事文データと,それに付随する掲示板全データです。ただし,ユーザーページ,ユーザーIDは削除されています。 記事ヘッダデータ 記事ID,記事タイトル,記事ヨミ,記事種類(a:単語,v:動画,i:商品,l:生放送),記事作成日時などのデータです。CSV形式のファイルで,1年当たり1ファイル,圧縮ファイルで約4.9MB,展開後は約14.9MBです。 記事文データ 記事ID,記事文,記事更新日時などのデータです。CSV形式のファイルで,1月あたり1ファイル(例外あり),圧縮ファイルで約4.52GB,展開後は約22.7GBとなりますので,ダウンロードされる際はご注意ください。 掲示板データ 記事ID,レス番号,レス投稿日時,レス文などのデータです。CSV形式のファイルで,1年あたり1ファイル,圧縮

  • 1