[B! 文字コード] kulamochiのブックマーク

asahi.com（朝日新聞社）：日本ＩＴ界の鬼っ子「外字問題」解消を　経産省が着手 - 社会

「外字（がいじ）」。コンピューターで使う漢字として日本工業規格（ＪＩＳ）が定めた約１万字に含まれない、規格外の文字たち。文字化けや正常なデータ通信ができない原因になり、ＩＴ業界にとって悩ましい、この「外字問題」を一気に解消しようというプロジェクトが始まった。パソコンで文章を書くときの使い勝手は大きく変わるのか――。　例えば「渡辺」の「辺」。ＪＩＳ規格には「邊」「邉」をあわせた３文字しか含まれないが、１００字近い異体字があるとされる。　約５８万人分の戸籍を扱う東京都足立区。区役所のパソコン画面には４９もの「辺」の異体字が現れた。戸籍などを管理するコンピューターシステムに区が登録したものだ。名前に未登録の漢字がある住民が転入するたびに増え、今では外字全体で約５千もある。　外字を作るのは区職員。パソコンで、１文字に３０分ほどかけて点描する。完成後は庁内や出先機関にある千数百台のパソコンに登

kulamochi 2011/01/21

文字コード

リンク

Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜

Perl › モジュール › here 日本語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日本語を扱うことができます。外部から入力された文字列はEncodeモジュールのdecode関数でデコードする外部へ出力する文字列はEncodeモジュールのencode関数でエンコードするソースコードはUTF-8で保存しutf8プラグマを有効にするこの解説での用語この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。プログラミングで日本語を扱う場合にその文字列がバイト文字

kulamochi 2010/12/23

リンク

Unicodeでの正規表現 - ぱせらんメモ

http://kjirou.sakura.ne.jp/mt/2008/10/python_unicode.html例えば、ユニコード型文字列の内、漢字のみ（"一"〜"龥"）をマッチさせる場合 l = re.findall(u"[\u4e00-\u9fa5]+", "ひらがな漢字カタカナascii".decode("utf-8")) print l[0].encode("utf-8") # -> "漢字" 他の言語と違ってUnicode型というデータ型があるので明瞭極まりない！（from http://kjirou.sakura.ne.jp/mt/） PythonはわからないけどPerlに通じるものを感じたのでPerlでやってみた。まずは上記のコードに似せたパターン。スクリプトファイルはUTF-8で作成。 use strict; use warnings; use Encode; my

kulamochi 2010/12/23

リンク

文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。

「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ

kulamochi 2010/07/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

文字コードに関するkulamochiのブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (5)

文字コードに関するkulamochiのブックマーク (4)

asahi.com（朝日新聞社）：日本ＩＴ界の鬼っ子「外字問題」解消を 経産省が着手 - 社会

Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜

Unicodeでの正規表現 - ぱせらんメモ

文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

asahi.com（朝日新聞社）：日本ＩＴ界の鬼っ子「外字問題」解消を　経産省が着手 - 社会