ビッグデータによる解析で注目されているのは、文字列解析です。 数値解析はこれまでも行われてきましたが、非定型で定量化されていない文字列のデータをどう解析するかは大きな課題でした。しかし、いろいろ解析手法が編み出されてきており、かつIT技術の進歩によって膨大なデータを取り扱えるようになっていることから、現実的に使える分析になっています。 これまでR言語による分析をはじめたと書いてきましたが、今回は具体的な文字列解析に関する内容を書いておこうと思います。 文字列の類似度を定量化する2つの文字列を比較して、どの程度類似しているかを定量化します。いろいろ手法はあると思っていますが、とりあえず使いやすそうなのは「レーベンシュタイン距離」です。 レーベンシュタイン距離(レーベンシュタインきょり)あるいは編集距離(へんしゅうきょり)は、情報理論において、二つの文字列がどの程度異なっているかを示す数値であ
![R言語で文字列の類似度を計算する](https://cdn-ak-scissors.b.st-hatena.com/image/square/7dbd87d8155fc684751378b2fcc7d94b4c1599e7/height=288;version=1;width=512/https%3A%2F%2Fsynapse-diary.com%2Fwp-content%2Fuploads%2Fa1380_001345.jpg)