タグ

word2vecとdatasetに関するmanabouのブックマーク (1)

  • 日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク

    最終更新日:2023年6月12日 R&D部の榊です。 当社のR&D部では,研究開発上で利用する様々なリソースを部内で共有しています。 今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。 なので、それについてご説明したいと思います。 なお、最近の日の自然言語処理界隈では、文分散表現モデルであるBERTの日語を含む多言語モデルが公開になったばかりなので、日語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。 ですが、日語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。 なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。 言語資源に関しては、2019年6

    日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク
  • 1