タグ

Unicodeに関するhiro14akiのブックマーク (5)

  • Unicode/UTF-8-character table

    UTF-8 encoding table and Unicode characters page with code points U+0000 to U+00FF We need your support - If you like us - feel free to share.help/imprint (Data Protection)

    hiro14aki
    hiro14aki 2018/09/27
    文字コードリスト
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

    Intro textarea などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID

    JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
  • Homebrewによるunicode-path対応のSubversion1.8系のインストール - Qiita

    問題 Macのファイルシステムは文字コードが特殊(UTF-8-MAC)なため、svnコマンドで濁点や半濁点を含むファイルパスを正常に処理できず、必ず差分として検出されてしまう。 この問題を解消するためには、--unicode-pathパッチをあてたsvnをインストールすることが必要だが、Homebrewのsvn1.8系には、--unicode-pathパッチが対応していない。 (MacPortsでは++unicode_pathをつけることでsvn1.8系をインストール可能) 回避策として、以下のコマンドで、svn1.7系をインストールすることが可能。 対策 HomebrewのSubversionのFormulaファイルを修正し、--unicode-path対応可能なsvn1.8系のFormulaファイルを作成する。 unicode-path用のパッチは、Subversion公式の課題トラッ

    Homebrewによるunicode-path対応のSubversion1.8系のインストール - Qiita
  • UTF-8

    Unicodeのテキストをファイルに保存する場合、UTF-8という形式がよく使われる。システムのログや構成ファイル、XML/HTMLファイル、プログラムコードなど、UTF-8が使われる場面は非常に多い。UTF-8とは何か、どのような特徴を持つのかを解説。 連載目次 「UTF-8」とは、Unicode文字の符号化(エンコード)方法の1つ。Unicodeの文字コード(コードポイント)を、1~4bytesの可変長のバイトデータのストリームとして表現する方式である。Unicode文字列をファイルに保存したり、ネットワーク経由で送信したりする場合にはこのUTF-8がよく用いられる。近年では、HTMLコードやプログラムのソースコードなどをファイルに保存する場合は、このUTF-8形式を使うことが多い。 Unicode文字の符号化とは? Unicodeは、世界中のさまざまな言語で使われる文字を、統一された

    UTF-8
  • 1