最終更新日:2023年6月12日 R&D部の榊です。 当社のR&D部では,研究開発上で利用する様々なリソースを部内で共有しています。 今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。 なので、それについてご説明したいと思います。 なお、最近の日本の自然言語処理界隈では、文分散表現モデルであるBERTの日本語を含む多言語モデルが公開になったばかりなので、日本語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。 ですが、日本語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。 なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。 本言語資源に関しては、2019年6
![日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク](https://cdn-ak-scissors.b.st-hatena.com/image/square/9964ee327d90112653d86bf2cf4866b1e79644cb/height=288;version=1;width=512/https%3A%2F%2Fwww.hottolink.co.jp%2Fwp-content%2Fuploads%2F2019%2F02%2FiStock-498490849.jpg)