[B! word2vec][gensim] shikimihuaweiのブックマーク

Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループグループ研究開発本部

D. M. です。昨今はテキスト解析が非常にやりやすい時代になりました。チーム内でも活発に検証・活用されており、私も流れに乗って Word2Vec や Doc2Vec を触りだしましたが、参考になる日本語の記事多いですね。よくあるのはニュース記事・青空文庫・ Wikipedia の解析ですが、各社の独自の文字列データ、しかも結構なサイズのデータを食わせて関連語を出す記事などもあったりして、実利用可能かどうかは関係無しに楽しそうです。やりたいこと類語判定について、ウェブ上では既に相当いろんな種類の記事を上げられていて凄いなあと思いつつ、結構簡単に見えたので私も何か検証しようと思いました。ただ同じことをやってもあまり面白みが無いですし小規模でも始められるようなことを考えて、ひとまず自分の Twitter のつぶやきを食わせて類語を見てみることにしました。今日はそんな初歩的な試みの紹介です。

shikimihuawei 2020/04/14

リンク

Word2Vec を用いた併売の分析 - gensim - なんとなくな Developer のメモ

「トピックモデルを用いた併売の分析」ではトピックモデルによる併売の分析を試しましたが、今回は gensim の Word2Vec で試してみました。ソースは http://github.com/fits/try_samples/tree/master/blog/20180617/ はじめにデータセットこれまでは適当に作ったデータセットを使っていましたが、今回は R の Groceries データセット ※ をスペース区切りのテキストファイル（groceries.txt）にして使います。（商品名にスペースを含む場合は代わりに _ を使っています） ※ ある食料雑貨店における 30日間の POS データ groceries.txt citrus_fruit semi-finished_bread margarine ready_soups tropical_fruit yogurt c

shikimihuawei 2020/02/25

リンク

gensimによるword2vecの利用例 - Qiita

はじめに最近、単語の分散表現を学び、使ったので、その際に得た知識をまとめておく。この記事では、MeCab、gensimを用いて、夏目漱石の『こころ』に登場する単語の類似度を計算する。 GitHubにこの記事で使用する全てのコードをアップしてある。 https://github.com/hsoccer/my_word2vec 環境 OS X El Capitan Python3系 MeCabのインストール以下のページ等を参考にインストールする。追加の辞書であるmecab-ipadic-neologdもインストールしておく。 https://qiita.com/taroc/it ems/b9afd914432da08dafc8 MeCabの辞書を強化するデフォルトの辞書では弱いので、Wikipediaの見出語を全て辞書に加えておく。 user.dicという名前で保存しておく。以下のペ

shikimihuawei 2020/02/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

word2vecとgensimに関するshikimihuaweiのブックマーク (3)

お知らせ

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

今週のはてなブックマーク数ランキング（2025年1月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (4)

word2vecとgensimに関するshikimihuaweiのブックマーク (3)

Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループ グループ研究開発本部

Word2Vec を用いた併売の分析 - gensim - なんとなくな Developer のメモ

gensimによるword2vecの利用例 - Qiita

お知らせ

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

今週のはてなブックマーク数ランキング（2025年1月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループグループ研究開発本部