タグ

2013年1月14日のブックマーク (5件)

  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

  • scalaとJavaからMeCabを食べてみよう - しがないまんとはなんですと!

    MeCabを使ってみよう http://shiganaiman.hatenablog.com/entry/2012/01/23/151102 MeCabは使えるようになったので、今度はscalaから使ってみる。 scalaJava→MeCabとすれば楽勝ということでやってみる。 環境 Ubuntu11.10 Java 1.6.0_23 Scala 2.9.0.1 mecab-0.98 libamecab-java 0.98-5 java-mecabのインストール $ sudo apt-get install libmecab-java libmecab-jni javaでMeCabをべる EclipseからMecab.jarをBuildパスに追加して、 import org.chasen.mecab.Tagger; public class TestJavaMecab { public

    scalaとJavaからMeCabを食べてみよう - しがないまんとはなんですと!
  • Herokuの全文検索事情

    こんにちは。 Herokuで全文検索(当然日語)を行う場合にどういう選択肢があるのか調査したのでそのレポートを書いてみます。 ★評価のポイント Herokuには複数の全文検索Addonがあり、またPostgreSQLにも全文検索の機能があるのですが今回評価のポイントとしたのは以下の2点です。 ・日語に対応しているか? 全文検索は英語などのヨーロッパ圏の言語と、日語などのアジア圏の言語(CJK)では実装の難易度が大きくが異なります。 英語なんかは単語がスペースや改行などのホワイトスペースで区切られているので、単語の分割で悩む必要がないんですね。一方の日語の文章は基的に切れ目なく連続して記述されるのでどうにかして単語を分割しなければなりません。 この単語分割の方法には「形態素解析」と「N-gram」という2つの有力なロジックがあってそれぞれに特徴があるのですが、とりあえずそこはまぁど

  • 大のオトナが褒め続け褒められ続けた4ヶ月で得たこと。 | Rucca*Lusikka

    横浜のwebデザイナー&ライターRucca(ルッカ)のサイトです。ノート術で人生を楽しくおもしろくすることをテーマにブログを書いてます。 昨日、夕飯のあとテレビでカンブリア宮殿を観ていたら、とある商品について中国の利用者が 「これはとても素晴らしい商品だわ!(日語での吹き替え)」 と絶賛していました。それを聞いたゼツ(夫)が、 「日人ってあまりこういうコメントしないよね」 と言いました。確かに「かなりいい感じ」とか「気に入ってます」は言うけれど、それは自分の感想であって、商品そのものを褒めることば…「素晴らしい商品だわ!」とはあまり言わないと気がついたのです。 なにか新しいものや、作品に触れた時、率直な感想を聞かれたら最初になんといいますか? ことばや表現の違いも大きいけど、海外の人って褒めるのうまいですよね。インタビューとかで役者さんが監督を、監督が役者さんを、スポーツ選手がお互いを

    大のオトナが褒め続け褒められ続けた4ヶ月で得たこと。 | Rucca*Lusikka
  • ソフトウェア開発にとって最大の阻害要因は納期 - 狐の王国

    えっらそうに大規模開発を語るような立場じゃないんだけど、何かと話題のこのへんの記事を読んでいろいろと日ごろ思うところがふつふつとわいてきたので……。 Life is beautiful: 特許庁のシステム開発が破綻した当の理由 Fumi's Travelblog: "費やした55億円、水の泡に 特許庁がシステム開発中断"って一体何だったのか、報告書を読んでみた 特許庁システムのことはそれなりに話題で、日についてから何度も話にあがってきている。まあ不祥事だのなんだのって話もあるがそれはおいとくとしても、設計段階で60人体制ってだけでも多すぎるのに、増員で1300人体制とか……。設計を穴掘りかなにかと勘違いしてるとしか思えない対策でそりゃまあ破綻するよなあと。 それからね、中嶋さんの記事のコメント欄に書き込まれてた、よく言われる大規模開発でのこのへんの話。 SIerが開発を行う場合、この1

    ソフトウェア開発にとって最大の阻害要因は納期 - 狐の王国
    msuhara
    msuhara 2013/01/14
    よくぞ言ってくれた。