タグ

2005年2月20日のブックマーク (9件)

  • 文字コードの話

    稿は、1996年に筆者が大学の所属サークルの機関誌に寄稿した記事をもとに加筆訂正したものです。(最終更新 1999.7.31) 目次 はじめに 第1章 日語のコード体系 第2章 ASCIIと1バイト文字コード 第3章 JIS漢字コードとエンコーディング法 第4章 ISO 2022 第5章 ISO 2022の実例 第6章 中国語・韓国語の文字コード 第7章 ISO 10646とUnicode おわりに 参考文献 はじめに ASCIIだけで用が足りるアメリカと違って、 私たちは日語を扱わなくてはならないため、 より深く文字コードの問題と関わらざるをえません。 それでも、MS-DOS/WindowsMacを使う限りでは、 ASCIIとシフトJIS(たまにJIS)を知っていれば済みますが、 UNIXやインターネットを使い始めると、 JIS・EUC・シフトJISとさまざまな日語コードに頭を

    iwadon
    iwadon 2005/02/20
  • character-sets

    Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

    iwadon
    iwadon 2005/02/20
  • naoya.dyndns.org is offline

    naoya.dyndns.org is currently offline. Please try again later. Questions about our services? Learn more at Dyn.com.

    iwadon
    iwadon 2005/02/20
  • Perl5.8 の UNICODE 対応

    perl は 5.8 から Unicode(utf-8) がサポートされました.5.6 でも Unicode に対応はしていましたが,ぜんぜん使い物にならず,ようやく 5.8 でまともに使えるようになったということです.ただせっかく使えるにもかか わらず perldoc などを見てもイマイチ使い方がわからないので,独自にまと めてみたのがこのページです. 誤った書き方や勘違いをしてい ることもあるので,形式的ですがこのページの内容は無保証です. 内容 文字コード変換 perlIO jperlからの移行 UTF-8フラグ 文字コード自動判別 Unicode Standard Unicode 正規化 その他 参考資料 文字コード変換 とりあえず perl5.8 で新しく組み込まれた機能を見るために,euc-jp から shift_jis への変換スクリプトをいくつか載せます. openを利用し

    iwadon
    iwadon 2005/02/20
  • たむら::日本語文字コードの自動判定

    Ruby による日語文字コード判別ライブラリの比較 してみた。いいづからぐのネタです :-) そもそも nkf の utf-8対応版が出た。 簡単に NKFモジュールに対応出来るんじゃ む。nkf自体には文字コード判別のルーチンって独立してないんだ NKF.guess って nkfとは関係ないルーチンじゃん 現状の判別ライブラリたち NKF.guess(rb_nkf_guess) もともとの NKFモジュールの実装。 関数のコメント。 /* * Character code detection - Algorithm described in: * Ken Lunde. `Understanding Japanese Information Processing' * Sebastopol, CA: O'Reilly & Associates. */ 最大の問題点は、EUC,SJIS,J

    iwadon
    iwadon 2005/02/20
  • ただ、風のために。5 (2002/August)

    遠い記憶 1999 [01(a,b,c) 02(a,b,c) 03(a,b,c) 04(a,b,c) 05(a,b,c) 06(a,b,c) 07(a,b,c) 08(a,b,c) 09(a,b,c) 10(a,b,c) 11(a,b,c) 12(a,b,c) ] 2000 [01(a,b,c) 02(a,b,c) 03(a,b,c) 04(a,b,c) 05(a,b,c) 06(a,b,c) 07(a,b,c) 08(a,b,c) 09(a,b,c) 10(a,b,c) 11(a,b,c) 12(a,b,c) ] 2001 [01(a,b,c) 02(a,b,c) 03(a,b,c) 04(a,b,c) 05(a,b,c) 06(a,b,c) 07(a,b,c) 08(a,b,c) 09(a,b,c) 10(a,b,c) 11(a,b,c) 12(a,b,c) ] 2002 [01(a,

    iwadon
    iwadon 2005/02/20
  • Ruby: 日本語の文字列を UTF-8 に変換する

    Ruby: 日語の文字列を UTF-8 に変換する 日語の文字列 (euc-jp, shift_jis, iso-2022-jp, utf-8 のいずれかわからない) を UTF-8 に変換しようと思った。 最初は samidareに含まれる Mconv.guess_charset を試したが、巨大なテキストを扱うとかなり遅かったので、ここやここやここを参考にして、次のようなコードを書いた。 class Iconv Preference = ["iso-2022-jp", 'euc-jp', 'utf-8', 'shift_jis', 'windows-31j'] def self.tou8 (str) return str if /\A[\r\n\t\x20-\x7e]*\Z/n.match(str) # us-ascii Preference.each {|name| begin

    iwadon
    iwadon 2005/02/20
  • http://devlog.moonwolf.com/20041015.html

    iwadon
    iwadon 2005/02/20
  • Loading...

    iwadon
    iwadon 2005/02/20