形態素解析といえば MeCab が定番ですが、python から使うには関連パッケージのインストールが結構大変だったりします。 そこで、Janome を使ってみました。 Janome について詳しくは こちら 内部では MeCab の辞書を使うらしいので MeCab のインストールが前提ですが、Janome の解析結果は基本的に MeCab と同等で、インストールはいたって簡単です。 (辞書は janome に同梱されているので MeCab は不要。作者ご本人様から情報提供していただきました)
京大の黒橋・河原研から最近出たJUMAN++をmacOSのhomebrewでinstallできるようにしました。 JUMAN++はRNNLMというディープラーニングベースの言語モデルを使っています。 こちらの記事を読んで知ったという方も多いのではないでしょうか。 qiita.com インストール方法は、現段階では後述する理由のためhomebrew-coreにはまだ入っていないので、tapを使ってください。 [2016/10/23追記] やっと本家homebrewに入ったので、tapは要らなくなりました。 [/追記] $ brew install jumanpp github github.com JUMAN++のサイト凄い JUMAN++のサイトには解析を試せるWebアプリケーションがあるのですが、それがなかなか面白いです。 このリンクに対して、 http://tulip.kuee.kyo
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。 kuromoji.jsの使い方 こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。 適当な文章をリアルタイムに分かち書きできます。 kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意する
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日本語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
※ 画像は公式サイトデモより 分かち書きや形態素解析のニーズは色々な所に存在する。テキストはWebベースで最も扱われるデータの一つであって、その内容を分析、解析して欲しい情報だけを抽出するというのは重要な技術だ。 大規模な辞書データを元に行う形態素解析はコストがかかりすぎる。手軽に行うならこのソフトウェアを使ってみるのはどうだろう。 今回紹介するオープンソース・ソフトウェアはTinySegmenter、JavaScriptベースの分かち書きエンジンだ。 TinySegmenterはまさにJavaScriptベース、クライアントサイドでの分かち書きエンジンだ。辞書を使わない点が一番の特徴で、それによって時代の流れに依らず、さらに言語比依存であるために言語を問わず利用できる。 わずか25キロバイトしかないので、ごく軽量だ。動作の素早い。日本語として正しく書かれている新聞記事などに対して強いが、
Igo GAEはGoogle App Engine/Javaを使って形態素解析エンジンのIgoを動作させる。 [/s2If] Igo GAEはJava製/Google App Engine用のフリーウェア(ソースコードは公開されている)。日本語を解析するのに使われているのがいわゆる「形態素解析」だ。名詞や形容詞などに分割することによって、システムとの連携をしたり文書の意味を解析できるようになる。 メイン画面 方法は幾つか存在する。ローカルで行うならMeCabやKAKASI、ChaSenが有名だ。そしてWebサービスとして提供されているのがYahoo! Japanの日本語形態素解析Webサービスになる。Yahoo!同様、Webベースで独自のシステムを使いたいならばIgo GAEを使ってみよう。 Igo GAEはJava製の形態素解析エンジンであるIgoをGoogle App Engine上に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く