English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい
目次 概要/特徴 リリースノート インストール/使い方 jarファイル 解析用辞書作成 形態素解析 コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点 解析結果 機能 辞書ファイル 単語エントリフォーマット 制限/注意点 禁則文字 バイナリ辞書エンディアン ライセンス バグ報告など 概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版 辞書フォーマット及び解析結果は、ほぼMeCab互換。 単機能。 Javaの形態素解析器としては比較的高速。 スレッドセーフ。 リリースノート version 0.4.3: 2011年06月17日 形態素解析部の微細なパフォーマンスチューニング インストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。 ダウンロード
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaのMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su
DOBON.NET DOBON.NET プログラミング道 .NET Tips 最近1週間の人気の20件.NETプログラミング研究/93 ( 113 / 77 / 139529 ) ぱたうさ ( 94 / 66 / 31923 ) .NETプログラミング研究/76 ( 76 / 40 / 73306 ) free/kanaxsCSharp ( 72 / 32 / 30796 ) .NETプログラミング研究/111 ( 64 / 57 / 47632 ) .NETプログラミング研究/112 ( 62 / 60 / 37907 ) .NETプログラミング研究/94 ( 54 / 35 / 60613 ) .NETプログラミング研究/98 ( 46 / 49 / 42994 ) PukiWiki/Tips ( 45 / 37 / 13532 ) .NETプログラミング研究/85 ( 44 / 32
「エモーションアナライザ」は、アンケートの自由記述回答や、コンタクトセンターに集まった問い合わせ、インターネット上のブログ等、様々なテキストデータの分析を行うことのできる分析パッケージツールです。テキストデータに含まれる単語や係り受けからだけでなく、表現やニュアンスに含まれる書き手の「気持ち」を理解し、文章中にある話題(対象)について「好き」「嫌い」などの評価情報(感性)を高い精度で抽出することができます。
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Tokyonlp03 analyzer - Presentation Transcript 統計的形態素解析入門 #tokyonlp @nokuno 自己紹介 2 Twitter: @nokuno はてなid: nokuno この勉強会の主催者 自然言語処理 / 機械学習 / 並列分散処理に興味 2002~2006:サークルでゲーム開発 2007~2008:未踏でSocial IMEの開発 2009~現在:Web業界勤務 今日の話題 3 形態素解析 生成モデル 識別
Sen は Java で書かれた日本語形態素解析システム。 C++ で開発されている MeCab を Java に移植したもの。 辞書は MeCab、茶筌と同じIPAの辞書を利用。 Sen配布ページ 辞書の構築に Apache Ant が必要。 このページは Sen version 1.2.2.1 用である。 インストール Apache Antのインストール Sen は辞書を構築するのに Apache Ant というビルドツールを使う。 これをあらかじめインストールしておく必要がある。 Apache Ant のインストール Senのインストール パッケージはSen配布ページから sen-1.2.2.1.zip をダウンロードしておく(mirror)。以下では ~学籍番号/Desktop/ にダウンロードしたものとして話を進める。 展開 /usr/local に展開し、ディレクトリ名を se
Google は、検索を使いやすくするために、日々改善を続けています。昨年は、検索結果ページのリニューアルやレシピ検索等、ユーザーの皆さんに見える機能を含め、500 以上の改善を施しています。今日は「見えにくい」改善のひとつとして、同義語システムについてご紹介します。 日本語には、ひらがな、カタカナ、漢字、アルファベット等、多様な種類の文字があり、同じ言葉でも、さまざまな書き方があります。文字種違いの同義語への取り組みについては、以前の記事でもご紹介しましたが、これは、一見簡単そうで実は奥の深い問題です。一見すると、日本語入力に使っている辞書のようなものがあればよいように思いますが、人手を介さずに正しい同義語を見つけるのは単純ではありません。 たとえば、「しょうぶ」という言葉は「勝負」「菖蒲」「尚武」などさまざまな漢字を当てることができますが、それぞれ異なる意味を持っていて、探している情報
突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く