タグ

ブックマーク / d.hatena.ne.jp/nokuno (6)

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

    toton
    toton 2010/11/25
    「現在の機能:かな漢字変換、予測変換、スペル訂正、形態素解析、HTTPによるAPIサーバ、Trieの直接操作」辞書にMozc
  • Wikipediaによるテキストマイニング入門 - nokunoの日記

    発表してきました。第4回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) ?WEB祭り? : ATNDDatamining04 textminingView more presentations from nokuno.処理に使ったコードはこちらにあります。 nokuno - Project Hosting on Google Code

  • Wikipediaから作成したN-gramデータを公開しました - nokunoの日記

    id:toilet_lunch さんに先を越された感がありますが、Wikipediaから作成したN-gramデータを公開しました。Downloads - nokuno - Project Hosting on Google Code処理方法については先日の日記を御覧下さい。Wikipediaによるテキストマイニング入門 - nokunoの日記

    toton
    toton 2010/05/24
    Wikipediaから作成したN-gramデータ
  • 「かんたん特許検索」がすごい件 - nokunoの日記

    サポート掲示板で特許関係の書き込みがあり、それは勘違いだったので良いのですが、特許検索システムを探していて凄いヤツを見つけてしまったので、紹介します。 かんたん特許検索 | 無料・簡単操作で特許検索これまでの特許検索は専門家向けの難しいものでした。もっと誰でも気軽に使えるようにしたい!そこで「もっと簡単に」「もっと身近に」をコンセプトに生まれたのが「かんたん特許検索」です。まるでグーグルのようなトップページ。 検索結果。要約もうまく抽出できます。 あるキーワードに関する出願人の出願数ランキングもあります。 出願件数の推移もわかりやすくグラフ化できます。 2年前に未踏で調べたときはこんな便利なものなかったぞ! というわけで日語処理関係をちょっと調べてみました。マイクロソフトのIMEに関する特許(PDF)従来のユニグラムへのバックオフがもたらす品質の低下を防止することができる言語モデルを作成

    toton
    toton 2009/05/02
  • 予測変換APIを公開しました! - nokunoの日記

    Social IMEではWeb APIを公開していますが、昨年11月に公開したかな漢字変換APIに続き、予測変換APIを公開しました。 このAPIを使うと、たとえば次のような予測変換ができます。「はてな」で予測変換はてな はてなブックマーク はてなブック はてなダイアリー (以下略) ローマ字入力の途中での予測を行うと、このように展開されます。「わt」で予測変換私 私は 私の 私も 私が(以下略) また、長文を入力したときのかな漢字変換候補との統合にも対応しています。「きょうのてんきはは」で予測変換今日の天気は晴れ予測変換にはWebから抽出された大規模な統計量(Google提供)が用いられています。APIを活用したクライアントを開発されている方は、ぜひご利用ください。

    toton
    toton 2009/01/25
    Social IME。”Google IMEという可能性”というエントリとか、面白い。
  • かな漢字変換エンジンの基礎 - nokunoの日記

    先日研究室で勉強会(通称サーベイ輪講)があったので、その資料をアップロードしました。うちは自然言語処理をやっている人は少ないので、内容的には当に基礎の基礎です。先生からは「わかりやすい」とお褒めの言葉を頂きました。 | View | Upload your own間違い等がありましたら遠慮なくご指摘下さい。

  • 1