自然言語処理に関するkenjiodaのブックマーク (2)

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 2つの文字列の類似度を数値化 レーベンシュタイン距離とジャロ・ウィンクラー距離の解説 - 人工知能であそぶ

    人工知能のブログと言っておきながら今まで人工知能っぽいことを書いてきませんでしたが,ようやくそれっぽいことを書こうと思う(汗 今回は2つの文字列の類似度を数値化する2つの方法について考える. これらは自然言語処理の分野でよく用いられる方法である. 私も必要に応じて調べたのだが,ジャロ・ウィンクラー距離を日語で詳しく解説してくれているところがなかったため,理解したことを日語でメモしておく. (2017/12/24 一部ご指摘をいただいたため修正) (2018/05/12 一部修正) 目次 目次 2つの文字列の類似度を数値化 レーベンシュタイン距離(Levenshtein Distance) ジャロ・ウィンクラー距離(Jaro-Winkler Distance) 2つの文字列の類似度を数値化 2つの文字列の類似度を数値化する手段として レーベンシュタイン距離(Levenshtein Dis

    kenjioda
    kenjioda 2017/02/14
    くっそわかりやすい
  • 1