expectorate.hatenadiary.org[B!]新着記事・評価 - はてなブックマーク

『expectorate.hatenadiary.org』

Pythonのunicodedata.normalize('NFKC', x)で正規化される文字一覧 - めもちょう
3 users
expectorate.hatenadiary.org

Pythonのunicodedata.normalize('NFKC', x)で正規化されて変わる文字ってどんなのがあるんだろうと思って一覧を作ってみました。 https://gist.github.com/ikegami-yukino/8186853 左が変更前の文字、右が変更後の文字(アラビア文字は左右が逆になります)、括弧内の数値はUnicode IDを表します。 (自分がわかる範囲の)ほとんどの変換結果は納得できますが、一つだけ　[65374] 〜から [126] ~に変換されるのはどうかなあと思いました。たとえばインタ〜ネットがインタ~ネットになったり。normalizeする前に〜をーに変換する前処理を加えた方がよさそう。あとこの変換結果の前後を逆にして、メートルを㍍にするような変換テーブルを作るとTwitterみたいな文字数制限のあるとき用の文章を作るときの文字数節約に使え
- テクノロジー
- 2013/12/31 22:11

Pythonで少し速くひらがな・カタカナ・半角・全角文字を相互変換する - めもちょう
4 users
expectorate.hatenadiary.org

NLPをやってると文字の正規化処理でひらがな・カタカナ・半角・全角変換することがあります。そこでPythonでひらがなからカタカナ、カタカナからひらがな、半角文字から全角文字、全角文字から半角文字に高速変換するライブラリjctconvをPyPIにアップしました。 https://pypi.python.org/pypi/jctconv/ そこでjctconvと既存の文字種変換モジュールで比較してみました。 # -*- coding: utf-8 -*- # 他のひらがなカタカナ変換と比較 if __name__ == '__main__': import time loop = 100000 print u'ひらがなからカタカナに変換' text = u'ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃ
- テクノロジー
- 2013/05/21 22:53
- python

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx