形態素解析とニュースに関するjnlpのブックマーク (1)

  • 異なる「しょうぶ」 を見分けるGoogle の同義語システム

    Google は、検索を使いやすくするために、日々改善を続けています。昨年は、検索結果ページのリニューアルやレシピ検索等、ユーザーの皆さんに見える機能を含め、500 以上の改善を施しています。今日は「見えにくい」改善のひとつとして、同義語システムについてご紹介します。 日語には、ひらがな、カタカナ、漢字、アルファベット等、多様な種類の文字があり、同じ言葉でも、さまざまな書き方があります。文字種違いの同義語への取り組みについては、以前の記事でもご紹介しましたが、これは、一見簡単そうで実は奥の深い問題です。一見すると、日本語入力に使っている辞書のようなものがあればよいように思いますが、人手を介さずに正しい同義語を見つけるのは単純ではありません。 たとえば、「しょうぶ」という言葉は「勝負」「菖蒲」「尚武」などさまざまな漢字を当てることができますが、それぞれ異なる意味を持っていて、探している情報

    異なる「しょうぶ」 を見分けるGoogle の同義語システム
  • 1