タグ

charsetに関するdgdgのブックマーク (9)

  • 『避難者名簿をテキスト化している有志の皆さんへ』

    避難所の名簿をテキスト化して下さっている有志の皆さんへ。 手書きには癖字・略字があったり、氏名には旧字、異体字などが多様されています。 それらに対応する為に何か御役に立てたらと、略字に慣れない方へ向けた参考資料を作ってみました。 新しい写真の投稿がある迄の間、眺めていただけると、入力の際に「この字は入力できる」 「この字は環境依存文字だから、両方で登録した方が良い」 「この字は入力できない文字だから、置換した方が良い」 等のひらめきに繋がると思います。 又、斎と斉などの別字を混同してしまうと、最悪の場合、せっかく登録して頂いたのに、検索してもヒットしない等となる可能性も有ります。 又、住所の入力間違いは、ヒットするしないにも関わります。 どうかご一読下さい。 (一人で取り急ぎ作ったものです。タイプミスや分かりづらい表記、ご容赦下さい。尚、明らかなミスが有った場合はメッセージ頂けましたら幸い

    『避難者名簿をテキスト化している有志の皆さんへ』
    dgdg
    dgdg 2011/03/18
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
    dgdg
    dgdg 2010/07/16
  • Unicode 15.1 Character Code Charts

    European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin

  • Perl 5.8.x における日本語コード変換★

    Perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。(私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。)漸く最近になって基的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、メモは新たにPerl 5.8.x的なPerlスクリプトを書く際に気をつけることをまとめたものであり、基的には既存のスクリプトにPerl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。(たぶん。) 文冒頭ですが、まず参照先を示しておきます。以下のドキュメント

  • Perl Encode - PukiWiki

    http://www.pure.ne.jp/~learner/program/Perl_unicode.html Perl 5.8.x Unicode関連 目次 Perl 関連 ・Perl 変数について ・Perl Tips ・Perlオブジェクト指向プログラミング ・Perl 5.8.x Unicode 関連 ・Perl(とか)の書籍 > 趣旨と注意書き > UTF8フラグ? > UTF8フラグとPerlIOレイヤ > UTF8フラグのついた文字列を記述する > Wide character in print ... > Encode > utf8::* > use utf8; > use encoding; > use UTF8 と use encoding > JcodeからEncodeへ > 情報源 - モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正

  • perl - use utf8; #って何だ? : 404 Blog Not Found

    2009年06月15日07:00 カテゴリLightweight Languages perl - use utf8; #って何だ? id:otsuneに建設予定フラグがたてられていたので。 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech Perl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 use utf8はいつフラグをたてるか use utf8 しててもフラグたたないことがある…… これは、以下の実例を見ていただくのが一番よいだろう。 #!/usr/bin/perl use strict; use warnings; use utf8 (); sub check_flag{ my $str = shift; print qq("$str" ), utf8::is_utf8($str) ? 'is' : 'IS NOT',

    perl - use utf8; #って何だ? : 404 Blog Not Found
  • ずんWiki - vim - 検索語が画面の真ん中に来るようにする

    2012-03-21 bash 2012-02-23 TODO/3 2011-10-28 FrontPage 2011-06-30 plum3.x 2011-03-31 vim 2011-03-21 MyMenuBar MySQL GNU Screen

  • 404 Blog Not Found:perl - Encode 入門

    2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

    404 Blog Not Found:perl - Encode 入門
  • Vista で導入される JIS X 0213:2004(JIS2004) のまとめ(お勉強編)

    「日語文字セットがVista最大の問題として急浮上:ITpro」 が初めのネタになったのですが、なかなか時間もとれず、この記事を書き始めてはや3週間も経ってしまいました・・・orz Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字(英語の発音記号や記号、アイヌ文字など)が新たに表示可能になる。 〜中略〜 さらに、追加される新しい文字の一部をUnicodeで表現すると、通常の2バイトではなく4バイトで表現されるものがある。 をみて、SJIS → UTF-8 → SJIS とかやると文字化けするものとかでるじゃん!大丈夫だっけ?大丈夫じゃなかったら、どんな対策をとったらいいんだっけ?ってのを考察しています

    dgdg
    dgdg 2008/04/04
  • 1