タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Rubyとcharsetに関するWatsonのブックマーク (2)

  • TRONコードと ruby 1.9 M17n

    ソースコードは troncode.trans.txt です。 ネタを使いまわしした ruby 1.9 でオレオレ文字コードを使う法 も参考になるかもしれません。 岸 誠 BTRON Club 会員発表資料 はじめに ruby バージョン 1.9 文字コードに依存しない多言語化 TRONコードを対応させる実験 文字コードに関する基礎知識 文字とは何か? この問題には踏み込まない(余談だが現在策定中の Ruby の標準仕様では「手続き」という概念が現れるがその定義はしていない) 符号化文字集合(CCS)、文字符号化方式(CES)、エンコーディング 符号化文字集合(Coded Character Set) JIS X 0208 とか GT とか 文字に番号(コードポイント等という)を振った集合 文字符号化方式(Character Encoding Scheme) EUC とか 符号化文字集合に

  • Ruby で UTF-8 の文字化け部分を取り除く - てっく煮ブログ

    rubyRSS を拾ってきてパースしようとしたら、不正な文字列が入っていて REXML が ParseException を投げてしまった。文字コードが UTF-8 前提だったので、UTF-8 として valid な文字のみが含まれるように置換して対処した。 str = str.scan(/([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7][\x80-\xBF]{3})/).join Ruby じゃなくても同じようなコードで対処できそう。関連:UTF-8 の正規表現は 404 Blog Not Found:UTF-8 vs. ISO-10646 から拝借したPHP なら $xmlStr = mb_convert_encoding($xmlStr, "UTF-8", "UTF-8"); でいけるら

  • 1