Javaです。日本語の文章をローマ字に変換したいなと。文章というほどのものではなく単語とかそれぐらいのものですが。 yahoo APIとか使うのものありなんですが、まあ、そこそこのものが欲しいなというわけです。よくをいえばヘボン式なのですが、そこまではもとめず。 ついさっき知ったのですが、日本語形態素解ですとKuromojiというオープンソースがよく使われているのでしょうか。 Atilika - Applied Search Innovation kuromojiを使い、読み方を取得して、それをローマ字に変換するという方法で実現してみました。 カタカナからlatin変換はICUを使用しています。 カタカナをローマ字に直すだけなので、ICUを使うのは、手書きの処理系を書くのと大きさでいうと月と野球ボールぐらいの大きさほど、まあICUはサイズが大きいのですが(jarのね)。 で、コード pac
import com.atilika.kuromoji.ipadic.Token import com.atilika.kuromoji.ipadic.Tokenizer import scala.collection.JavaConversions._ val tokenizer: Tokenizer = new Tokenizer() tokenizer.tokenize("今日の晩ご飯はお豆腐").map(_.getReading()).mkString 実行結果 res: String = キョウノバンゴハンハオトウフ ただ変な(?)日本語入れるとToken#getReading()が*を返します。
インデックス作成するときにカタカナとかローマ字に変換してしまえばユーザがカタカナとか入力した時でもヒットさせることができます。 使うのはkuromoji_readingformです use_romajiでカタカナとローマ字を切り替えることができます。 elastic4sのDSLで使えるようにするためにKuromojiReadingformを作成します。 import org.elasticsearch.common.xcontent.XContentBuilder import com.sksamuel.elastic4s.analyzers.TokenFilter import com.sksamuel.elastic4s.analyzers.TokenFilterDefinition case class KuromojiReadingform(name: String, userRo
(この記事はQiitaで僕が書いたものを移行した記事です。記事中のコメントはQiitaの該当記事を参照ください) ググっても出てこなかったのでドラマウロボロス聞きながら作りました。そのせいでif入り乱れのスパゲッティです。あしからず。 ※ヘボン式自体が不可逆圧縮のため一部の文字列はひらがな->ローマ字->ひらがなと変換しても元の文字列に完全には戻せません。 例 //SHORYAKU=falseの場合 hiraganaToRome("とうきょう");//tokyo hiraganaToRome("おおさか");//osaka hiraganaToRome("おおの");//ono romeToHiragana(hiraganaToRome("とうきょう"));//ときょ romeToHiragana(hiraganaToRome("おおさか"));//おさか romeToHiragana(h
CSVに存在するAV女優のデータには、AV女優名、AV女優名(ひらがな)、動画URLがあります。Microsoft Azure Face APIを利用するうえで、日本語に対応していなかったので、このひらがなの部分をローマ字に変換します。 pandasで作成したCSVのデータをよみこみ、一つ一つの上を取り出して、ひらがなの部分をローマ字に変換する処理を行い、その結果を再度pandasでCSVにエクスポートすることで、データの前処理を行いました。 ということで今回はそのコードをべた張りしておきます。 ちなみに、だれかがひらがなからローマ字にしてくれるラッパ-を作成してくれていたので、それを利用させてもらいました。ありがたや。 miurahr/pykakasi pykakasi is re-imprelemtation of kakasi library by Python. READMEに従っ
はじめに 以下の記事で映画レビューを収集したとき、ファイル名を作成するために漢字ひらがなカタカナをローマ字に変換できるpykakasiをつかいました。 crimnut.hateblo.jp 今回はそのpykakasiのインストールおよび使い方について説明します。 pykakasiとは pykakasiは、漢字かなまじりの文をひらがな文やローマ字文に変換するライブラリであるKAKASIをPythonで実装したパッケージです。 github.com pykakasiのインストール pykakasiは、sixとsemidbmに依存しているため、これらをインストールします。 pip install six semidbm pykakasiをインストールします。 pip install pykakasi pykakasiの使い方 サンプルコード from pykakasi import kakasi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く