エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
pysparkでタイトル類似度を計測する - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
pysparkでタイトル類似度を計測する - Qiita
概要 大量のタイトルの類似度を測って、似ているタイトルのアイテムを列挙したい。 その場合、タイトル... 概要 大量のタイトルの類似度を測って、似ているタイトルのアイテムを列挙したい。 その場合、タイトルの類似度を図るために、(N*N)/2個のタイトルを比較しなければならない。 タイトルが増えていくと、一つのCPUだと辛くなるので、分散処理環境で並列に処理しようとおもい、pysparkで分散環境で出来ないか調査してみた。 コードはgistにあげている。 利用したソース spark 2.2.1 hadoop 2.7 試したCSV 結果 cid_1 title_1 cid_2 title_2 simularity