タグ

2012年12月1日のブックマーク (2件)

  • Java製形態素解析ライブラリ「lucene-gosen」を試してみる

    概要 Javaの有名な形態素解析器でありながら、長らく「公式サイトどこ?」な状況だったSenとGoSenですが、最近はlucene-gosenなるGoSenベースのライブラリがちゃんと管理された状態で公開されてるとか。 lucene-gosen http://code.google.com/p/lucene-gosen/ しかもこの子は辞書内包なのでjarを落とすだけで使えて、Lucene用AnalyzerやSolr用Toknizerも付いていて、日語の検索用インデックスを貼る時に便利な各種フィルタも用意されているという、至れり尽くせりな構成になっているとか。 これは触ってみねばということで、とりあえず簡単な形態素解析、辞書の追加、Luceneでの利用、Solrでの利用を試してみました。 ちなみに上のURLでCommiterのところに名前が出ているKoji SekiguchiさんはSol

  • Android で日本語読ませる実験中

    プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの Android 楽しいです。 手軽にアプリが作れるってところがいいですね。Java はあまり使ってなかったのですが、勉強しててよかったです。ほんとそう思います。 今は、とりあえず、Aquestalk2 で漢字を含んだ文章を読ませる実験をしています。辞書はSDカードに直接書き込んでいるので、これが自動化できたら誰でも使えるようになるので、そうなったら公開できると思います。 今回は GoSen を Android 向けに改造したものを使って日語を解析しています。MeCab を元に Java で書き直した Sen。その Sen を補強した GoSen です。それを Android で動くように少し書き換えました。AndroidGoSen を動かそうとしたら、どういうわけか XML

    Android で日本語読ませる実験中