サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。
Java で書かれた日本語形態素解析ライブラリ Kuromoji を Perl から使ってみたいなー、と思って、別の言語のプログラムから使いやすいようなインターフェイスを書きました。 Kuromoji について kuromoji - japanese morphological analyzer Java で書かれたオープンソースの日本語の形態素解析ライブラリです。 検索用のライブラリらしくて、Apache Lucene と Apache Solr に組み込まれているらしいです。 もちろん検索エンジンとは独立して利用することも可能です。 独立して使用する場合は、単に jar ファイルをダウンロードしてきて Java のライブラリパスに追加するだけ (あるいは公開されている Maven リポジトリを使用して依存関係を解決するだけ) で形態素解析できるようになります。 便利ですね。 Java
授業で協調フィルタリングを利用したシステムを作成したので,メモ. 言語はRuby,利用したのはtwitter gemと日本語形態素解析器kuromoji 今回はツイートに含まれる語と,ツイートの時間を基に類似度計算を行った. twitterからデータを取ってくるにはOAUTH認証する. 細かいことは他のところを参照してもらうとして,REST APIで認証するとメソッドが使えるようになる. user_timelineメソッドを利用して,あるユーザのツイートを取得する. tweets=client.user_timeline "#{ARGV[1].to_s}",:count=>200 これで200件ツイートを持ってこれる. kuromojiはJavaの形態素解析器であるので,Rubyではそのまま使えない. よって,RubyとJavaの橋渡しをするrjb(Ruby Java Bridge)を利用
resolvers += "ATILIKA dependencies" at "http://www.atilika.org/nexus/content/repositories/atilika" libraryDependencies ++= Seq( "org.atilika.kuromoji" % "kuromoji" % "0.7.7" , "com.typesafe" % "config" % "1.2.1" ) object ExTokenizer { def tokenize(text: String): Iterator[Token] = { Tokenizer.builder() .userDictionary(".\\src\\main\\resources\\userdict.txt") .build().tokenize(text).iterator().toIte
関連記事 solrjでfacet field検索 solrjでfacet query検索 solrjで独自のインデクサを実装する solrjでランダムソートする kuromojiで形態素解析を利用して漢字からカタカナを取得する solr adminのanalysis画面を見ていて気づきました。 カタカナが表示されるという事は、漢字からカタカナが抽出できるのでは?と。 気になったので早速試してみます。 kuromoji.jarをクラスパスに追加する atilikaでkuromoji.jarをダウンロードし、クラスパスに追加します。 入力文字列をもとにカタカナを取得するサンプル package tree.solr.util; import java.util.List; import org.atilika.kuromoji.Token; import org.atilika.kuromoji
Javaです。日本語の文章をローマ字に変換したいなと。文章というほどのものではなく単語とかそれぐらいのものですが。 yahoo APIとか使うのものありなんですが、まあ、そこそこのものが欲しいなというわけです。よくをいえばヘボン式なのですが、そこまではもとめず。 ついさっき知ったのですが、日本語形態素解ですとKuromojiというオープンソースがよく使われているのでしょうか。 Atilika - Applied Search Innovation kuromojiを使い、読み方を取得して、それをローマ字に変換するという方法で実現してみました。 カタカナからlatin変換はICUを使用しています。 カタカナをローマ字に直すだけなので、ICUを使うのは、手書きの処理系を書くのと大きさでいうと月と野球ボールぐらいの大きさほど、まあICUはサイズが大きいのですが(jarのね)。 で、コード pac
import com.atilika.kuromoji.ipadic.Token import com.atilika.kuromoji.ipadic.Tokenizer import scala.collection.JavaConversions._ val tokenizer: Tokenizer = new Tokenizer() tokenizer.tokenize("今日の晩ご飯はお豆腐").map(_.getReading()).mkString 実行結果 res: String = キョウノバンゴハンハオトウフ ただ変な(?)日本語入れるとToken#getReading()が*を返します。
形態素解析とngram,マルコフ連鎖を組み合わせる 前回紹介した記事では rabbitfoot141.hatenablog.com ngramをいくつかの文字で分割するタイプにしたが今回は形態素解析を用いていくつかの形態素で分割し、マルコフ連鎖を使って文章を生成する。 今回の概要 形態素解析は今回はライブラリを用いて行う。 言語はScalaで書くので「kuromoji」を用いる。 ビルドツールにsbtを用いているのでbuild.sbtに次を追加。 resolvers += "Atilika Open Source repository" at "http://www.atilika.org/nexus/content/repositories/atilika" libraryDependencies ++= Seq( "org.atilika.kuromoji" % "kuromoji"
import org.atilika.kuromoji.Tokenizer import org.atilika.kuromoji.Token object Main extends App { val tokenizer = Tokenizer.builder.mode(Tokenizer.Mode.NORMAL).build val tokens = tokenizer.tokenize("僕の夢は、不労収入を得て一生遊んで暮らすことです。").toArray tokens.foreach { t => val token = t.asInstanceOf[Token] println(s"${token.getSurfaceForm} - ${token.getAllFeatures}") } }
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く