タグ

morphological analysisに関するmaxyのブックマーク (4)

  • テキスト解析 - Yahoo!デベロッパーネットワーク

    LINEヤフーが提供するテキスト解析WebAPI形態素解析語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。 かな漢字変換 ローマ字、ひらがなの文を文節に区切り、変換候補を提示します。短い文字列から変換候補を推測するモードも提供します。VJEと同じ方式のかな漢字変換です。 ルビ振り 漢字かな交じり文に、ひらがなとローマ字のふりがな(ルビ)を付けます。 校正支援 日語文の校正作業を支援します。文字の入力ミスや言葉の誤用がないか、わかりにくい表記や不適切な表現が使われていないかなどをチェックします。 日語係り受け解析 日語文の係り受け関係を解析する機能を提供します。 キーフレーズ抽出 日語文を解析し、特徴的な表現(キーフレーズ)を抽出します。 自然言語理解 日語文を解析し、情報の抽出を行う機能を提供します。 固有表現抽出 日語文を解析し

    テキスト解析 - Yahoo!デベロッパーネットワーク
  • Rosette形態素解析システム

    トークン化や品詞のタグづけ、基形化、複合語分解、漢字の読みなどの機能で高度なテキスト解析を実現する基的な言語解析モジュール 製品評価版お問い合わせフォーム 高精度な言語解析を実現 Rosette Base Linguictics (基言語解析)はポータブルで高性能なテキスト分節(分かち書き)エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。 テキストを単語(トークン)に分割し、トークンに品詞を付与するとともに、活用語を正規化して基形(辞書に載っている標準形)を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でテキストを的確に分節します。日語の外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計さ

    Rosette形態素解析システム
  • MeCab の辞書構造と汎用テキスト変換ツールとしての利用

    $Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます ファイル 単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル 単語辞書です エントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 1