サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
中東情勢
expectorate.hatenadiary.org
Pythonのunicodedata.normalize('NFKC', x)で正規化されて変わる文字ってどんなのがあるんだろうと思って一覧を作ってみました。 https://gist.github.com/ikegami-yukino/8186853 左が変更前の文字、右が変更後の文字(アラビア文字は左右が逆になります)、括弧内の数値はUnicode IDを表します。 (自分がわかる範囲の)ほとんどの変換結果は納得できますが、一つだけ [65374] 〜 から [126] ~に変換されるのはどうかなあと思いました。たとえばインタ〜ネットがインタ~ネットになったり。normalizeする前に〜をーに変換する前処理を加えた方がよさそう。 あとこの変換結果の前後を逆にして、メートルを㍍にするような変換テーブルを作るとTwitterみたいな文字数制限のあるとき用の文章を作るときの文字数節約に使え
NLPをやってると文字の正規化処理でひらがな・カタカナ・半角・全角変換することがあります。 そこでPythonでひらがなからカタカナ、カタカナからひらがな、半角文字から全角文字、全角文字から半角文字に高速変換するライブラリjctconvをPyPIにアップしました。 https://pypi.python.org/pypi/jctconv/ そこでjctconvと既存の文字種変換モジュールで比較してみました。 # -*- coding: utf-8 -*- # 他のひらがなカタカナ変換と比較 if __name__ == '__main__': import time loop = 100000 print u'ひらがなからカタカナに変換' text = u'ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃ
このページを最初にブックマークしてみませんか?
『expectorate.hatenadiary.org』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く