[B! Unicode][プログラミング] t-murachiのブックマーク

t-murachi id:t-murachi

Unicodeとプログラミングに関するt-murachiのブックマーク (3)

『Rubyの内部文字コードはUTF-8ではない...だと...？！｜TechRacho by BPS株式会社』へのコメント
学び Rubyの内部文字コードはUTF-8ではない...だと...？！｜TechRacho by BPS株式会社
t-murachi 2016/10/14
「ぶっちゃけ普通にコード書いてる分には意識しないで良い話」いやいやいやいや、境界は文字? オクテット? サイズは文字数? オクテット数? 正規表現の\wは[A-Za-z_]相当? 国籍問わず文字と呼べるもの全般? 大違いですよね??

文字コード

Unicode

プログラミング

はてな
リンク
Rubyの内部文字コードはUTF-8ではない...だと...？！｜TechRacho by BPS株式会社
こんにちは、hachi8833です。少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。（追記: 上は会話の途中から切り取りましたのでご了承ください）いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底を食らったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル（""の中など）」「コード中の文字リテラル以外の要素（変数名など）」「ファイル名」などが中心になります。そして文字列に関連し
t-murachi 2016/10/14
「保存」という言葉の使い方がすごく引っかかる… 「保持」とかじゃ駄目なん? (´･ω･`)

Ruby

Unicode

文字コード

プログラミング
リンク
はらぺこ日誌» ブログアーカイブ » libiconv で文字セット自動認識
ご無沙汰ぶりです…。以前、wchar_t はどうにも使い物にならないからどうしよう、といった記事を書いたのですが、その続きのお話です。表題の通りで、 libiconv を用いて文字セットを自動認識する処理のサンプルを書いてみました。詳しい経緯はTicket 内で逐次コメントしています。これがそのサンプルプログラムです。このプログラムは、標準入力からファイルを読み込み、ファイルの文字セットを自動認識し、句点「。」をピリオド「.」に、読点「、」をカンマ「,」に置換し、 UTF-8 に変換して標準出力に書き出す。ということをやるものです。で、以前のブログ記事では、というわけで、内部コードは wchar_t のような型名で定義するのではなく、より具体的に文字セットで定義した方が良さそうだなぁという結論に至りました。候補は以下の 2通りです。 UCS4 を内部コードとし、物理型は符
t-murachi 2010/03/04
はらぺこ

C++

Unicode

文字コード

ライブラリ

プログラミング

開発
リンク
1