[B! unicode] snomofのブックマーク

snomof id:snomof

unicodeに関するsnomofのブックマーク (3)

Pythonで unicodedata.normalize を使って全角半角を正規化する方法
（この記事は 2008年03月14日に別のブログに投稿した記事を移動・編集したものです。）インターネット上の日本語を扱っていると、全角半角が統一されていない事による表記揺れをなんとかしたい場面に出くわします。半角で書かれた iPod も、全角で書かれたｉＰｏｄも同じものとして扱いたいときや、あるいは単に見た目がきれいになるように、英数字は半角に、カタカナは全角にそろえたい、という場合です。 Python では setomitsさんによる zenhan.py を使うと、文字種ごとに全角半角を選択して変換することができ、除外文字も設定できるので便利です。ただ、そこまで柔軟でなくても良く、単に表記揺れがなくなれば良い、という場合も多いかと思います。その場合はPythonの標準ライブラリに含まれる unicodedata モジュールの normalize 関数を使うと便利です。 >>> impo
snomof 2015/11/23
python

unicode
リンク
文字列の表記揺れをUnicode正規化で簡単に解決する方法 - Qiita
ユニコード正規化をすると、半角英数字や機種依存文字などの表記が統一できます。表記ブレが吸収されることで検索性が高まったり、データの比較なども行いやすくなります。正規化の手法にはNFD, NFC, NFKD, NFKCがありますが、その中でもNFKCという次のような正規化を行う方法をコードを交えて紹介します。ウ゛ェ → ヴェＡＢＣ → ABC ① → 1 ㊤ → 上 Ⅲ → III ㌶ → ヘクタールﾊﾝｶｸｶﾅ → ハンカクカナ ﹣ → - ※ 左辺はU+FE63 Small Hyphen-Minus: 小さいハイフンマイナス－ → - ※ 左辺はU+FF0D Fullwidth Hyphen-Minus: 全角ハイフンマイナス動作環境
snomof 2015/03/03
記号の変換とかもしてくれるのは嬉しい

ruby

unicode
リンク
全角チルダ問題
株式会社メルカリ様で行われた第2回CircleCI ユーザーコミュニティミートアップでの資料です。 #circlecijp
snomof 2014/07/07
encoding

unicode

shift jis

sjis
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx