タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

nltkとpythonに関するtjmtmmnkのブックマーク (1)

  • NLTKで英文の文末判定

    英文の文末を判定する簡易なルールベースのアルゴリズム。 Separating sentences 1年前にこの手のアルゴリズムを実装しようとしたが、この問題は非常にやっかいです。 たとえばこんな例:CELLULAR COMMUNICATIONS INC. sold 1,550,000 common shares at $21.75 each yesterday, according to lead underwriter L.F. Rothschild & Co. "INC."の直後や"$21.75"、"L.F."などのピリオドを文末と認識しては大間違いになるのです。 この問題を解決するのに自分が1年前に着目していた論文は以下のもの。 Unsupervised Multilingual Sentence Boundary Detection この論文では、特に言語を英語だけに限定しない方法

    tjmtmmnk
    tjmtmmnk 2019/07/26
    便利
  • 1