ミエルカAI TOP > メディア > 技術解説 > 自然言語処理 > 【技術解説】似ている文字列がわかる!レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは 執筆:金子冴 人はだれしも間違いを犯すものである.徹夜で仕上げた報告書を提出した後,よく見直してみると誤字脱字が山ほど見つかった経験が読者にもあるだろう(もしかすると私だけかもしれないが).そういう時,もし自動で間違っている単語を見つけてくれるプログラムがあったら…と考える人もいるかもしれない.そこで今回は,文字列同士の似ている度合いを計算する2つの手法を紹介しよう. ●レーベンシュタイン距離(Levenshtein Distance) ●ジャロ・ウィンクラー距離(Jaro-winkler Distance) 目次 文字列の類似度,距離 編集処理(挿入,削除,置換) レーベンシュタイン距離(Levenshtein Dis
Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野 レコメンド 機械翻訳 Q&A・チャットボット 感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ 参考 世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。 そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。 ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。 もしそん
形態素(けいたいそ、英: morpheme)とは、言語学の用語で、意味をもつ表現要素の最小単位。ある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの1つ1つを指す。 形態素の一般的な性質や、形態素間の結びつきなどを明らかにする言語学の領域は、形態論と呼ばれる。 概要[編集] 形態素には、いくつかのタイプがあると考えた方が良いことが分かっている。またそれぞれの言語によっても違いがあらわれるので、ここではまず英語と日本語での例を示す。 英語では、空白で区切られる単語 (英: word) よりも細かい単位である。たとえば、名詞の複数形の -s なども独立した形態素である。日本語では、日本語文法におけるいわゆる文節よりも細かい単位である、自立語(あるいは「詞」)と付属語(あるいは「辞」)および「接辞」が形態素である。 分類[編集] 機能的形態素[編集]
シラバス 日本語 English 講義資料 講義で使用した資料を公開します。 個人の学習に使う範囲において、自由に利用していただいて構いません。 但し、講義資料には誤りが含まれる可能性がありますので、 御利用はあくまで自己責任でお願いします。 また、誤りの指摘を歓迎いたします。 下記の電子メイルアドレスに御連絡下さい。 講義資料(2006年度, PDFファイル) 第1回 概要 第2回 オートマトンと言語(正規文法、文脈自由文法) 第3回 文法1 (文脈自由文法と句構造文法) 第4回 文法2 (構文解析) 前半 後半 補足資料 第5回 文法3 (素性構造と単一化) 第6回 文法4 (格文法と格フレーム) 第7回 形態素解析1 (日本語の単語分割) 補足資料 第8回 形態素解析2 (英語の品詞のタギング) 第9回 辞書と概念階層 第10回 言語の統計モデル 第11回 テキスト処理1 (コーパス
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く