import com.atilika.kuromoji.ipadic.Token import com.atilika.kuromoji.ipadic.Tokenizer import scala.collection.JavaConversions._ val tokenizer: Tokenizer = new Tokenizer() tokenizer.tokenize("今日の晩ご飯はお豆腐").map(_.getReading()).mkString 実行結果 res: String = キョウノバンゴハンハオトウフ ただ変な(?)日本語入れるとToken#getReading()が*を返します。
CSVに存在するAV女優のデータには、AV女優名、AV女優名(ひらがな)、動画URLがあります。Microsoft Azure Face APIを利用するうえで、日本語に対応していなかったので、このひらがなの部分をローマ字に変換します。 pandasで作成したCSVのデータをよみこみ、一つ一つの上を取り出して、ひらがなの部分をローマ字に変換する処理を行い、その結果を再度pandasでCSVにエクスポートすることで、データの前処理を行いました。 ということで今回はそのコードをべた張りしておきます。 ちなみに、だれかがひらがなからローマ字にしてくれるラッパ-を作成してくれていたので、それを利用させてもらいました。ありがたや。 miurahr/pykakasi pykakasi is re-imprelemtation of kakasi library by Python. READMEに従っ
はじめに 以下の記事で映画レビューを収集したとき、ファイル名を作成するために漢字ひらがなカタカナをローマ字に変換できるpykakasiをつかいました。 crimnut.hateblo.jp 今回はそのpykakasiのインストールおよび使い方について説明します。 pykakasiとは pykakasiは、漢字かなまじりの文をひらがな文やローマ字文に変換するライブラリであるKAKASIをPythonで実装したパッケージです。 github.com pykakasiのインストール pykakasiは、sixとsemidbmに依存しているため、これらをインストールします。 pip install six semidbm pykakasiをインストールします。 pip install pykakasi pykakasiの使い方 サンプルコード from pykakasi import kakasi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く