タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

JapaneseとNLPに関するgfxのブックマーク (2)

  • Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記

    こんにちは! 日語のウェブサイトを作っていると、日語特有の問題にぶちあたることがありますよね。 その中でも今回着目したいのは、日語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日語改行問題とは何か ウェブブラウザで日語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。 たとえば、こんなかんじ。 「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。 英語では単語がスペースによって区切られますが、日語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。 そのため、英語では単語の途中で改行されることは通常ありませんが、日語では単語の途中で改行されることがよくあります。 文ならともかく、見出しやキャッチ

    Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記
  • 多くない文

    ある日語を学んでいる外人から、こんな質問を受けた。 当に日語は常に否定疑問文を論理的に答えるのか? 例えば、「多くない?」って聞かれたときはどう答えるんだ。 はて、これはどうしたことか。私は今まで、日語は常に否定疑問文を論理的に答えると考えていた。しかし、「多くない?」という疑問文に対しては、目的物が多くなかった場合、 うん、多くないね。 いや、多くないよ。 と、両方答えることが可能であるし、目的物が、多い場合にも、やはり同様に、二種類の答え方が可能だ。 はて、これはどうしたことだろう。常日頃、「英語はなんて非論理的な言語だ。日語を見よ」と笑っていたのが、急に恥ずかしくなってきた。 ところが、どうも思うに、「多くない?」という文章は、私の感覚からすると、肯定疑問文にも、否定疑問文にも、受け取れるのだ。事実、英語のように非論理的に答える場合、私は肯定疑問文だと解釈している。とすれば

  • 1