[B! Unicode] labgaのブックマーク

gcc と ShiftJIS

文字列リテラルとして「ソー」という表記の含まれている、ShiftJIS でエンコードされたファイルを、gcc でコンパイルする必要が出てきました。元のファイルは(勿論?)Windows上で作られたものです。そのままコンパイルすると、foo.c:6:21: warning: unknown escape sequence: '\201'というエラーになってしまいます。これは「ソー」をShitfJISでエンコードすると、0x83、0x5c、0x81、0x5bになることが原因です。0x5c(バックスラッシュ)の次の文字として、Cで定義されたエスケープシーケンスを構成する文字(例えば'\'+'n'で「改行」等)を期待しているのに、未知の文字(ここでは、0x81)が来たよ、というエラーです。ある意味ここまでは想定の範囲内。iconv サポートを有効にして生成された gcc の場合、入力ファイル

labga 2015/09/21

Unicode

リンク

Unicode 文字型とリテラル（C++0x） - RAD Studio

C++11 対応機能：インデックスへの移動 C++Builder 2009 には Unicode の新しい文字型と文字リテラルが実装されています。これらの型は C++Builder 2009 に追加された C++0x 機能の 1 つです。文字型 char16_t と char32_t 2 つの新しい型は Unicode 文字を表現します。 char16_t は 16 ビットの文字型で、char16_t は C++ キーワードです。この型は UTF-16 文字に対して使用できます。 char32_t は 32 ビットの文字型で、char32_t は C++ キーワードです。この型は UTF-32 文字に対して使用できます。既存の wchar_t 型はワイド文字セットの実行で使用するワイド文字の型です。wchar_t ワイド文字リテラルは大文字 L で開始します（L'c' など）。文字

labga 2015/09/15

Unicode
c++

リンク

Pythonで日本語文字列 (UnicodeとUTF-8, Shift-JIS, EUC-JPなどの相互変換) - プログラミング工場 / Python

2010年05月05日 22:37 カテゴリPython Pythonで日本語文字列 (UnicodeとUTF-8, Shift-JIS, EUC-JPなどの相互変換) Posted by yawamen No Trackbacks Tweet ※2.*系の話です．3.*系は違うので注意． Pythonで日本語を扱う場合，UTF-8やShift-JIS, EUC-JPなどの各種文字コードが使えますが，これらとは別にPythonにはUnicode文字列というものが存在します． ※PythonではUTF-8とUnicodeは別物です．詳しくはマニュアルを読んで頂くとして，ここではソースコードの書き方やいろいろな変換について紹介します．【ソースコード中に日本語を書くために】まず最初に，基本的なこととして，何も考えずにソースコード中に日本語文字を書いてしまうと次のようなエラーが出る場合があ

labga 2014/04/08

リンク

403 Forbidden

＼閉鎖予定のサイトも売れるかも？／アクセスがないサイトもコンテンツ価値で売れる場合も… ドメインの有効期限を更新してサイト売却にトライしてみましょう

labga 2014/01/19

C#
Unicode

リンク

コーディング技法

All Microsoft Global Microsoft 365 Teams Copilot Windows Surface Xbox Deals Small Business Support Software Windows Apps AI Outlook OneDrive Microsoft Teams OneNote Microsoft Edge Moving from Skype to Teams PCs & Devices Computers Shop Xbox Accessories VR & mixed reality Certified Refurbished Trade-in for cash Entertainment Xbox Game Pass Ultimate PC Game Pass Xbox games PC games Business Microsof

labga 2014/01/19

Unicode
C#

リンク

とほほのJava入門 - とほほのWWW入門

真偽値(boolean) boolean には真偽を表す特別な値として true または false を指定します。 boolean b = true; 文字(char) char は1文字を表す2バイトの型です。1文字をシングルクォーテーション(')で囲みます。Unicodeで U+0000～U+FFFF までの文字を扱うことができます。\u3042 はUnicodeの U+3042(あ) を意味します。 char c1 = 'A'; char c2 = 'あ'; char c3 = '\u3042'; char c4 = 0x3042; // '\u3042' と同義エスケープシーケンスを使用することもできます。 char c5 = '\n'; // 改行(LF) 整数(byte, short, int, long) byte は1バイト整数を示します。-128～127 までの数値

labga 2013/08/29

java
Unicode

リンク

Unicode―文字コード入門―

Unicodeとは多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。そこでこの問題を解消すべく、IBM、Microsoft、Apple等が加盟（他のメンバーについてはこちらを参照）するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット（65536文字）に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構（ISO）が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

labga 2013/07/21

Unicode

リンク

文字リテラルと文字コード

文字リテラルは一つの文字の値です。「a」や「あ」などが文字リテラルとなります。複数の文字からなる値は文字列リテラルと呼ばれ区別されます。ここでは文字リテラルを Java のプログラムの中で記述する方法、および文字コードを使った文字リテラルの表しかたについて解説します。

labga 2013/03/21

Unicode
java

リンク

Unicode CJK統合漢字－全漢字一覧 - CyberLibrarian

UnicodeのCJK統合漢字（The Unicode Standard CJK Unified Ideographs）を十六進数の数値文字参照で記述した表です。CJK統合漢字の全範囲（4E00～9FFF）の一覧です。各文字から、より詳細な情報を掲載した6分割のリスト中の該当文字へリンクしてあります。 +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 4E00

labga 2013/03/12