エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
文書の特徴をベクタライズする - Qiita
これまでテキストマイニングの流れを説明し、文書から TF-IDF を指標として特徴となる語彙を抽出し、そ... これまでテキストマイニングの流れを説明し、文書から TF-IDF を指標として特徴となる語彙を抽出し、それらの語彙を可視化するといったことをしてきました。 少し間が空いてしまいましたが、こうして得られた文書の特徴をベクタライズする流れを今回は記述します。 ベクトル化する 機械学習などの手法で文書を扱うにあたり、まずその対象の特徴を数列 (一次元配列) にするのがよくある方法です。 線形の数列同士であれば、たとえば類似度を算出したり、似たもの同士を分類するといったことも、機械学習ライブラリを用いて簡単におこなうことができます。 今まで扱ってきた自然言語処理は結局のところ、その文書を表す数列を求めるまでの処理といっても過言ではないでしょう。 ベクタライズのイメージ 自然言語で書かれたテキスト文書を ↓↓↓↓↓ 数列 (一次元配列) に変換する ベクトルの生成 このようなテキストの処理はスクリプ