iwadonのブックマーク / 2005年2月20日

iwadon id:iwadon

2005年2月20日のブックマーク (9件)

文字コードの話
本稿は、1996年に筆者が大学の所属サークルの機関誌に寄稿した記事をもとに加筆訂正したものです。(最終更新 1999.7.31) 目次はじめに第1章日本語のコード体系第2章 ASCIIと1バイト文字コード第3章 JIS漢字コードとエンコーディング法第4章 ISO 2022 第5章 ISO 2022の実例第6章中国語・韓国語の文字コード第7章 ISO 10646とUnicode おわりに参考文献はじめに ASCIIだけで用が足りるアメリカと違って、私たちは日本語を扱わなくてはならないため、より深く文字コードの問題と関わらざるをえません。それでも、MS-DOS/WindowsやMacを使う限りでは、 ASCIIとシフトJIS(たまにJIS)を知っていれば済みますが、 UNIXやインターネットを使い始めると、 JIS・EUC・シフトJISとさまざまな日本語コードに頭を
iwadon 2005/02/20
リンク
character-sets
Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or
iwadon 2005/02/20
リンク
naoya.dyndns.org is offline
naoya.dyndns.org is currently offline. Please try again later. Questions about our services? Learn more at Dyn.com.
iwadon 2005/02/20
リンク
Perl5.8 の UNICODE 対応
perl は 5.8 から Unicode(utf-8) がサポートされました．5.6 でも Unicode に対応はしていましたが，ぜんぜん使い物にならず，ようやく 5.8 でまともに使えるようになったということです．ただせっかく使えるにもかかわらず perldoc などを見てもイマイチ使い方がわからないので，独自にまとめてみたのがこのページです．誤った書き方や勘違いをしていることもあるので，形式的ですがこのページの内容は無保証です．内容文字コード変換 perlIO jperlからの移行 UTF-8フラグ文字コード自動判別 Unicode Standard Unicode 正規化その他参考資料文字コード変換とりあえず perl5.8 で新しく組み込まれた機能を見るために，euc-jp から shift_jis への変換スクリプトをいくつか載せます． openを利用し
iwadon 2005/02/20
リンク
たむら::日本語文字コードの自動判定
Ruby による日本語文字コード判別ライブラリの比較してみた。いいづからぐのネタです :-) そもそも nkf の utf-8対応版が出た。簡単に NKFモジュールに対応出来るんじゃむ。nkf自体には文字コード判別のルーチンって独立してないんだ NKF.guess って nkfとは関係ないルーチンじゃん現状の判別ライブラリたち NKF.guess(rb_nkf_guess) もともとの NKFモジュールの実装。関数のコメント。 /* * Character code detection - Algorithm described in: * Ken Lunde. `Understanding Japanese Information Processing' * Sebastopol, CA: O'Reilly & Associates. */ 最大の問題点は、EUC,SJIS,J
iwadon 2005/02/20
リンク
ただ、風のために。5 (2002/August)
遠い記憶 1999 [01(a,b,c) 02(a,b,c) 03(a,b,c) 04(a,b,c) 05(a,b,c) 06(a,b,c) 07(a,b,c) 08(a,b,c) 09(a,b,c) 10(a,b,c) 11(a,b,c) 12(a,b,c) ] 2000 [01(a,b,c) 02(a,b,c) 03(a,b,c) 04(a,b,c) 05(a,b,c) 06(a,b,c) 07(a,b,c) 08(a,b,c) 09(a,b,c) 10(a,b,c) 11(a,b,c) 12(a,b,c) ] 2001 [01(a,b,c) 02(a,b,c) 03(a,b,c) 04(a,b,c) 05(a,b,c) 06(a,b,c) 07(a,b,c) 08(a,b,c) 09(a,b,c) 10(a,b,c) 11(a,b,c) 12(a,b,c) ] 2002 [01(a,
iwadon 2005/02/20
リンク
Ruby: 日本語の文字列を UTF-8 に変換する
Ruby: 日本語の文字列を UTF-8 に変換する日本語の文字列 (euc-jp, shift_jis, iso-2022-jp, utf-8 のいずれかわからない) を UTF-8 に変換しようと思った。最初は samidareに含まれる Mconv.guess_charset を試したが、巨大なテキストを扱うとかなり遅かったので、ここやここやここを参考にして、次のようなコードを書いた。 class Iconv Preference = ["iso-2022-jp", 'euc-jp', 'utf-8', 'shift_jis', 'windows-31j'] def self.tou8 (str) return str if /\A[\r\n\t\x20-\x7e]*\Z/n.match(str) # us-ascii Preference.each {|name| begin
iwadon 2005/02/20
リンク
http://devlog.moonwolf.com/20041015.html
iwadon 2005/02/20
リンク
Loading...
iwadon 2005/02/20
リンク
- 2005年2月21日
- 2005年2月20日
- 2005年2月19日