タグ

形態素解析に関するoh_cannot_angelのブックマーク (2)

  • 京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改

    KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。 私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。 かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。 そこに新しくKyTeaが現れた。

    京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改
  • NAVER まとめ サジェスト検索のしくみ « NAVER Engineers' Blog

    こんにちは、NAVER Japan 検索サービス開発1チームで開発を担当している金森です。 先日「NAVER まとめ」にトピック機能を追加しましたが、そのタイミングでまとめサービス内で使用しているサジェスト検索機能のリプレイスを行いました。 今回このブログでは、実装したサジェスト検索の仕組みと、日本語入力ならではの諸々の面倒くさい問題とその対応について紹介したいと思います。 目次 まとめにおけるサジェスト検索 使用した技術 全体的な検索の流れ サジェストのためのローマ字変換 拗音のローマ字変換 入力途中の文字 「いんてrねt」の対応 ローマ字変換のまとめ その他注釈など まとめ 今後の課題 1. まとめにおけるサジェスト検索 サジェスト検索は皆さんお馴染みのとおりの機能で、簡単に言うと「検索語の入力中に検索候補が表示されるもの」と言えるかと思います。 まとめサービスでは、Web版の画

  • 1