関連記事 solrjでfacet field検索 solrjでfacet query検索 solrjで独自のインデクサを実装する solrjでランダムソートする kuromojiで形態素解析を利用して漢字からカタカナを取得する solr adminのanalysis画面を見ていて気づきました。 カタカナが表示されるという事は、漢字からカタカナが抽出できるのでは?と。 気になったので早速試してみます。 kuromoji.jarをクラスパスに追加する atilikaでkuromoji.jarをダウンロードし、クラスパスに追加します。 入力文字列をもとにカタカナを取得するサンプル package tree.solr.util; import java.util.List; import org.atilika.kuromoji.Token; import org.atilika.kuromoji
import com.atilika.kuromoji.ipadic.Token import com.atilika.kuromoji.ipadic.Tokenizer import scala.collection.JavaConversions._ val tokenizer: Tokenizer = new Tokenizer() tokenizer.tokenize("今日の晩ご飯はお豆腐").map(_.getReading()).mkString 実行結果 res: String = キョウノバンゴハンハオトウフ ただ変な(?)日本語入れるとToken#getReading()が*を返します。
インデックス作成するときにカタカナとかローマ字に変換してしまえばユーザがカタカナとか入力した時でもヒットさせることができます。 使うのはkuromoji_readingformです use_romajiでカタカナとローマ字を切り替えることができます。 elastic4sのDSLで使えるようにするためにKuromojiReadingformを作成します。 import org.elasticsearch.common.xcontent.XContentBuilder import com.sksamuel.elastic4s.analyzers.TokenFilter import com.sksamuel.elastic4s.analyzers.TokenFilterDefinition case class KuromojiReadingform(name: String, userRo
日本語の名前や住所を含んだテストデータを用意するためにGemを調べたのでまとめました。 ちなみにRuby ToolboxのRandom Data Generationタグでランキングを参照できます。 Faker Ruby Toolboxでダントツに人気があるGemです。名前(ふりがなは無い)、住所、電話番号を生成でき、多言語対応されており日本語も使えます。 Ffaker Fakerをリライトし高速化したものですが、少しAPIも変わっており、日本語は今のところ名前、職業のみのようです。 ForgeryJa 英語しか無いForgeryを日本向けにしたものです。名前(ふりがな有り)、住所、その他いくつか対応されています。 Gimei 日本語の名前や住所を取得できます。Fakerと違い、ふりがなにも対応しています。 下記のようにインスタンスをつくって同一名の漢字、ふりがなを取得できるのも便利です。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く