タグ

形態素解析と役に立ちそうに関するtorutoのブックマーク (2)

  • mixi Engineers’ Blog » mixi日記キーワードランキングの秘密

    皆さん、先月の半ば頃からmixiのトップページの3列目に「日記キーワードランキング」というコーナーが登場していたのをご存じでしょうか。手前味噌ながら、これはとても面白い機能で、毎日ランキングが更新される度に素敵なランキングが作られていて悦に入っているmikioです。今回は日記キーワードランキングの秘密についてお話します。 日記キーワードランキングとは、日記に書かれた言葉の使用頻度を統計的に処理して、今話題になっている度合を算出し、その上位をランキング形式で表示する機能です。トップページには5位までが表示されるので、それをチェックするだけで最新の流行を把握することができます。さらに「30位までを読む」に進むと30位までのキーワードとその関連日記が表示されます。詳細を知りたい場合はキーワードをクリックすると、そのキーワードで日記検索をした結果を見ることができます。一通り見るのに10分くらいでし

    mixi Engineers’ Blog » mixi日記キーワードランキングの秘密
    toruto
    toruto 2007/06/21
    暫定ランキング。良くあるけど、意識から外れてた。"一通り見るのに10分くらいでしょうか。ここまでチェックしておけば、昼休み、放課後、アフターファイブなどの雑談で話題をリードできること間違いなしです。"
  • Rosette形態素解析システム

    トークン化や品詞のタグづけ、基形化、複合語分解、漢字の読みなどの機能で高度なテキスト解析を実現する基的な言語解析モジュール 製品評価版お問い合わせフォーム 高精度な言語解析を実現 Rosette Base Linguictics (基言語解析)はポータブルで高性能なテキスト分節(分かち書き)エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。 テキストを単語(トークン)に分割し、トークンに品詞を付与するとともに、活用語を正規化して基形(辞書に載っている標準形)を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でテキストを的確に分節します。日語の外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計さ

    Rosette形態素解析システム
  • 1