タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

pythonとgithubに関するudzuraのブックマーク (1)

  • Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記

    こんにちは! 日語のウェブサイトを作っていると、日語特有の問題にぶちあたることがありますよね。 その中でも今回着目したいのは、日語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日語改行問題とは何か ウェブブラウザで日語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。 たとえば、こんなかんじ。 「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。 英語では単語がスペースによって区切られますが、日語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。 そのため、英語では単語の途中で改行されることは通常ありませんが、日語では単語の途中で改行されることがよくあります。 文ならともかく、見出しやキャッチ

    Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記
    udzura
    udzura 2016/09/12
    フオオ
  • 1