4. @mosa_siru • DeNA(2年目) • プラットフォーム API開発・運用 • ハッカドール 立ち上げからジョイン • サーバーAPI 設計・開発・運用(ほぼ全部) • フロント/バックエンド Web開発 • ログ設計・リコメンドシステムをうんうん考える • 社内の分析チームと密に連携 4
文脈IDは-1を指定すれば自動採番してくれるという噂だったのですが、実行したら「自動で探したけど、対応するのが見つからなかったよ」と言われた為(文字コードの問題かな)、自前でシステム辞書ディレクトリ内の「left-id.def」と「right-id.def」を探して、それっぽいIDを拾ってきました(本当にこの方法で良いのか未確認)。 辞書によってIDは変わってきて、IPA辞書の「名詞,一般」は、我が家の環境では1285になっていました。バージョンによっても違う可能性もあるので注意が必要です。 読み・発音については、はてなのファイルの読みは全て平仮名で記述されているので、NAISTの辞書に合わせる為に片仮名に変換して登録します。発音は本来「アマクサシロー」になるべきですが、その辺は変換してると面倒なのでこのままで。 参考URLでは、CSVの末尾に「はてなキーワード」と入れて、はてなの辞書が使
こんにちは。Sleipnir Mobile for Android 開発担当の西田です。 最近 Android アプリで、日本語テキストから頻出キーワードを抽出したいなあ等といったことを考えており、ちょっと調べてみました。 まずは 日本語の形態素解析ライブラリの Mecab を使おうと思いつくわけですが、これをアプリに組み込むにはちょっと辞書のサイズが大きすぎる感じです。(50MB 以上!)なのでどっかのサーバーで API を用意してやるのが良さげな感じです。 Mecab には各種スクリプト言語のバインディングが用意されているので、今回は Ruby でやることにしました。 まずは Mecab + Ruby バインディング + 辞書をインストールします。Ubuntu 10.04 だと以下のようなコマンドでインストールできます: sudo aptitude install ruby1.9.1
今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,
概要 我が家のLinux機(Fedora10)にMecabを入れた際のログです。 入れたものは以下。 MeCab0.98 mecab-ipadic-2.7.0-20070801 mecab-naist-jdic-0.6.1-20090630 unidic-mecab-1.3.12 mecab-ruby-0.98 以上5つです。 ここでは入れた際に打ったコマンドと、簡単なサンプルを載せておきたいと思います。 MeCabのインストール ダウンロードはこちら http://sourceforge.net/projects/mecab/files/ Linuxであれば、mecab-x.xx.tar.gz(x.xxはバージョン番号)を持ってきます。持ってきたら解凍してinstall。 $ tar xzvf mecab-x.xx.tar.gz $ cd mecab-x.xx $ ./configure
mecab-ruby が、OSX 10.6 でちゃんと動かなかったのでメモ。 MeCab は、Macports 経由でインストールする。 $ sudo port install mecab-ipadic-utf8 ここで、mecab-ruby-0.98 を展開して普通にインストールして、ruby から使うと、次のようなエラーになる。 0.98 RuntimeError: tagger.cpp(150) [load_dictionary_resource(param)] param.cpp(71) [ifs] no such file or directory: ./dicrc これを直すには、mecab-ruby-0.98 の extconf.rb に、次のように変更する。 — extconf.rb-org 2010-11-05 18:49:52.000000000 +090
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く