ツールと形態素解析に関するjnlpのブックマーク (5)

  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

  • Igo - a morphological analyzer

    目次 概要/特徴 リリースノート インストール/使い方 jarファイル 解析用辞書作成 形態素解析 コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点 解析結果 機能 辞書ファイル 単語エントリフォーマット 制限/注意点 禁則文字 バイナリ辞書エンディアン ライセンス バグ報告など 概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版 辞書フォーマット及び解析結果は、ほぼMeCab互換。 単機能。 Java形態素解析器としては比較的高速。 スレッドセーフ。 リリースノート version 0.4.3: 2011年06月17日 形態素解析部の微細なパフォーマンスチューニング インストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。 ダウンロード

  • 日本語解析エンジン「なずき」 | NTTデータ

    「エモーションアナライザ」は、アンケートの自由記述回答や、コンタクトセンターに集まった問い合わせ、インターネット上のブログ等、様々なテキストデータの分析を行うことのできる分析パッケージツールです。テキストデータに含まれる単語や係り受けからだけでなく、表現やニュアンスに含まれる書き手の「気持ち」を理解し、文章中にある話題(対象)について「好き」「嫌い」などの評価情報(感性)を高い精度で抽出することができます。

  • Sen - 日本語形態素解析システム

    Sen は Java で書かれた日形態素解析システム。 C++ で開発されている MeCab を Java に移植したもの。 辞書は MeCab、茶筌と同じIPAの辞書を利用。 Sen配布ページ 辞書の構築に Apache Ant が必要。 このページは Sen version 1.2.2.1 用である。 インストール Apache Antのインストール Sen は辞書を構築するのに Apache Ant というビルドツールを使う。 これをあらかじめインストールしておく必要がある。 Apache Ant のインストール Senのインストール パッケージはSen配布ページから sen-1.2.2.1.zip をダウンロードしておく(mirror)。以下では ~学籍番号/Desktop/ にダウンロードしたものとして話を進める。 展開 /usr/local に展開し、ディレクトリ名を se

  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

  • 1