タグ

2017年3月1日のブックマーク (2件)

  • 大量の不満投稿から作成した不満カテゴリーの辞書データを無償提供開始 2017/02/27 プレスリリース - 国立情報学研究所

    【国立情報学研究所・株式会社不満買取センター 共同発表】 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII、所長:喜連川 優、東京都千代田区)と株式会社不満買取センター(FKC、代表取締役社長:武石直人、東京都新宿区)は研究コミュニティーへの研究用データの提供で新たに提携し、NIIは2月27日より、FKCが運営するサービス「不満買取センター」に投稿された「不満」から作成された「不満カテゴリ辞書データ」の研究コミュニティーへの無償提供を始めました。NIIとFKCは昨年5月から、「不満買取センター」で買い取られた「不満」の投稿と投稿者のデータからなる「不満調査データ」の提供でも提携しており、「不満カテゴリ辞書データ」の提供はこれに続くものとなります。 今回提供するデータは、平成27年(2015年)3月18日から平成28年(2016年)12月1日までの間に投稿された「不満」

    大量の不満投稿から作成した不満カテゴリーの辞書データを無償提供開始 2017/02/27 プレスリリース - 国立情報学研究所
    bootJP
    bootJP 2017/03/01
  • 文章をベクトル化して類似文章の検索 - Qiita

    Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとは コンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。 単語の意味をベクトル化する手法としてWord2Vecが存在します。 詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。 こうすることで、例えば「犬」と「」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。 実装サンプル 今回Doc2Vecを用いて実現するのは、以下の2つの機能です。 単語で文章を検索 類似文章の検索 サンプルとして、青空文庫の文章を使用しました。 なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzip

    文章をベクトル化して類似文章の検索 - Qiita
    bootJP
    bootJP 2017/03/01