並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 285 件 / 285件

新着順 人気順

utf8の検索結果281 - 285 件 / 285件

  • Announcing ICU4X 1.0

    News, announcements, release info, and calendar updates from the Unicode Consortium I. IntroductionHello! Ndeewo! Molweni! Салам! Across the world, people are coming online with smartphones, smart watches, and other small, low-resource devices. The technology industry needs an internationalization solution for these environments that scales to dozens of programming languages and thousands of human

      Announcing ICU4X 1.0
    • Gitで管理しているソースの改行コードに注意

      改行コード不一致のトラブル チームで開発する時、改行コードを統一しないと、不注意にトラブルが発生する恐れがあります。 スクリプト実施不可 Linuxのシェルの改行コードがLFではないと、実行できません。 逆にWindowsのコマンドスクリプトの改行コードがCRLFではないと、実行出ません。 差分比較不可 ソースを修正してないのに、改行が違う場合、行の差分は出ています。 実際の変更内容は見づらくなります。 ローカル開発時の改行コードのプラクティス Gitクライアントのデフォルト動きの制御 グローバルのコンフィグ(core.autocrlf)をコンフィグする 設定 チェックアウト時 コミット時

        Gitで管理しているソースの改行コードに注意
      • Unicode とサロゲートコードポイント

        Unicode は、文字コードの標準を目指して創設された規格であり、文字をどう処理するか、テキストデータとしてどう表すかを規定している。今や国際的に普及した規格で、特に Unicode が規定する符号化方式 UTF-8 は、いまやテキストデータのエンコーディングデファクト標準となっている。 Unicode は歴史的経緯からサロゲートコードポイントという仕様を包含している。今回は、この仕様の紹介と、UTF-8 を使う際の注意点を見ていく。なお, Unicode 13.0.0: https://www.unicode.org/versions/Unicode13.0.0/ を元にしていく. Unicode と固定長の夢 当初、Unicode は ASC-II の固定長 7bit 表現に倣い、固定長 16bit で世界中の文字を表現する規格として提案された。当時の提案 [1] では、 In th

          Unicode とサロゲートコードポイント
        • UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話

          UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話 利用シーン UTF-8で記述されたテキストをShift-JISエンコードに変換する機会はあります。 UNICODEで表現できる文字の種類の方がShift-JISに比べて圧倒的に広いのですべての文字が変換できるわけではありませんが、「これは変換できてよかろう」というものまでこぼれ落ちるケースは多数あります。 以下こぼれ落ちる例とその対応を示します。 サンプルコード まずはサンプルコード。 rubyで記述していますが、原理はどの言語でも同じです。 str = "あ~あ①髙島屋パバぱ" sjis = str.encode(Encoding::Shift_JIS, :invalid => :replace, :undef => :replace) File.

            UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話
          • 私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込む術 - hsjoihs’s diary

            「ソースコードにアスキーアートや罫線文字使って図を頑張って書いて埋め込むのってめんどいことがあるよね」「どうして人類はプレーンテキストに画像も埋め込めるようにしておかなかったんだろうな」みたいなことを考えていたら、「私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込もうとしたらどうなるかな」という発想に至った。ということで考えてみよう。 私用領域とは https://www.unicode.org/versions/Unicode15.0.0/ch23.pdf によれば、私用領域 (private use area) とは Private Use Area: U+E000–U+F8FF The primary Private Use Area consists of code points in the range U+E000 to U+F8FF, for a tot

              私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込む術 - hsjoihs’s diary