タグ

ブックマーク / d.hatena.ne.jp/nokuno (3)

  • ノンパラベイズを勉強してみる (0) - nokunoの日記

    昨日のNL190で以前より日記を拝見させていただいていた持橋さんの発表「ベイズ階層言語モデルによる教師なし形態素解析」がありました。辞書なしで文字単位のテキスト(コーパス)処理をして、情報理論的な基準で形態素解析(というか単語分割)を行うというもので、理論的にもよく考えられているようです。言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いない形態素解析を可能にする。これにより, 教師データの存在しない古文や話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。発表は分かりやすく、結果はかな漢字変換にも応用が効きそうなもので、大変刺激を受けました。理論的な面については付け焼刃でなんとかなるようなものではなさそうなので、持橋さんのサイトで公開されている論文を読みながら勉強してみようと思いま

    tokada
    tokada 2009/04/01
  • 「かんたん特許検索」がすごい件 - nokunoの日記

    サポート掲示板で特許関係の書き込みがあり、それは勘違いだったので良いのですが、特許検索システムを探していて凄いヤツを見つけてしまったので、紹介します。 かんたん特許検索 | 無料・簡単操作で特許検索これまでの特許検索は専門家向けの難しいものでした。もっと誰でも気軽に使えるようにしたい!そこで「もっと簡単に」「もっと身近に」をコンセプトに生まれたのが「かんたん特許検索」です。まるでグーグルのようなトップページ。 検索結果。要約もうまく抽出できます。 あるキーワードに関する出願人の出願数ランキングもあります。 出願件数の推移もわかりやすくグラフ化できます。 2年前に未踏で調べたときはこんな便利なものなかったぞ! というわけで日語処理関係をちょっと調べてみました。マイクロソフトのIMEに関する特許(PDF)従来のユニグラムへのバックオフがもたらす品質の低下を防止することができる言語モデルを作成

  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • 1