久々にMeCabを使おうと思ったんですが、そういえば辞書の違いによる結果の違いはどれくらいあるんだろう?と思い立って検証してみることにしました。
久々にMeCabを使おうと思ったんですが、そういえば辞書の違いによる結果の違いはどれくらいあるんだろう?と思い立って検証してみることにしました。
PyconJP2017でのトーク「Kivyによるアプリケーション開発のすすめ」(https://pycon.jp/2017/ja/schedule/presentation/20/)のスライドです。 ※本番のスライドはKivyで作成しています。これはあくまでも配布用のスライドです
今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,
Sen は Java で書かれた日本語形態素解析システム。 C++ で開発されている MeCab を Java に移植したもの。 辞書は MeCab、茶筌と同じIPAの辞書を利用。 Sen配布ページ 辞書の構築に Apache Ant が必要。 このページは Sen version 1.2.2.1 用である。 インストール Apache Antのインストール Sen は辞書を構築するのに Apache Ant というビルドツールを使う。 これをあらかじめインストールしておく必要がある。 Apache Ant のインストール Senのインストール パッケージはSen配布ページから sen-1.2.2.1.zip をダウンロードしておく(mirror)。以下では ~学籍番号/Desktop/ にダウンロードしたものとして話を進める。 展開 /usr/local に展開し、ディレクトリ名を se
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く