タグ

unicodeに関するhate-urumaのブックマーク (32)

  • MySQL :: MySQL 8.0 リファレンスマニュアル :: 10.10.1 Unicode 文字セット

    このセクションでは、Unicode 文字セットで使用可能な照合順序とその区別プロパティについて説明します。 Unicode の一般情報については、セクション10.9「Unicode のサポート」 を参照してください。 MySQL では、複数の Unicode 文字セットがサポートされています: utf8mb4: Unicode 文字セットの UTF-8 エンコーディング。文字ごとに 1 バイトから 4 バイトを使用します。 utf8mb3: Unicode 文字セットの UTF-8 エンコーディング。文字ごとに 1 バイトから 3 バイトを使用します。 utf8: utf8mb3 のエイリアス。 ucs2: 文字ごとに 2 バイトを使用した Unicode 文字セットの UCS-2 エンコーディング。 utf16: 文字ごとに 2 バイトまたは 4 バイトを使用する Unicode 文字セ

  • Unicode Collation Algorithm - tmtms のメモ

    文字コードは面白いね! わーい! たのしー! 🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾 MySQL で utf8mb4_unicode_ci コレーションを使用した時に「🍣」=「🍺」や「ハ」=「パ」になる問題があります。 この utf8mb4_unicode_ci ってなんぞや?と思ってマニュアルを見てみると、 MySQL は、http://www.unicode.org/reports/tr10/ で説明している Unicode 照合順序アルゴリズム (UCA) に従って xxx_unicode_ci 照合順序を実装します。照合順序は、バージョン 4.0.0 UCA 重みキー (http://www.unicode.org/Public/UCA/4.0.0/

    Unicode Collation Algorithm - tmtms のメモ
  • 7.2 ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験

    文字コードについて調べたことや実験したこと, テストプログラム,データファイルなどを随時掲載する予定です. ただし筆者の理解不足や誤解により誤りがあるかもしれませんので, ご利用は自己責任で. このページの主な更新は Blog でお知らせします. 表示確認ブラウザ:FireFox 22.0,IE8. 0.目次 シフトJIS Shift_JIS と Windows-31J (CP932) の違い シフトJIS 2バイト文字の判定 謎の検索ワード集 (シフトJIS編) 「Shift_JIS(SJIS,Windows-31J,CP932) 3バイト文字」 「Shift_JIS(SJIS,Windows-31J,CP932) サロゲート(ペア)」 「UTF-8 4バイト文字 Shift_JIS(SJIS,Windows-31J,CP932) 変換」 「Unicode(UTF-8,UTF-16) か

    7.2 ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験
  • fudist - UTF-8 → cp932(Shift_JIS)変換表

    UTF-8にはcp932(Shift-JIS)に存在しない文字があるため、cp932(Shift_JIS)前提のシステムで使用することができないことがあります。 基的に ♥ ♠ ♦ ♣ のようにcp932(Shift_JIS)に存在しない記号は (はぁと) や外字などへ適当に変換するしかありません。 ただし実際にはcp932(Shift_JIS)でも置換可能な文字だけが問題で変換エラーになっているケースが多数あります。 ページでは文書ファイルをUTF-8からcp932(Shift-JIS)に変換するとき単純置換してさほど問題ない文字の対応表を記します。 cp932(Microsoft定義のShift_JIS) と Shift_JIS とは厳密に言うと ~ など一部の文字コードが異なります。 このためWindowsLinuxでunicode(UTF-8)へ変換した場合異なる文字コードに

  • JavaScriptでのサロゲートペア文字列のメモ - Qiita

    I. UnicodeとJavaScript文字列の前提知識 I-I. Unicodeのエスケープシークエンスで文字列を表す "\uXXXX"形式の4桁の16進数で表す // シングルクォートとダブルクォートの差はない "\u3042"; // => "あ" '\u3042'; // => "あ" // 正規表現リテラルでも表現可能 /\u3042/.test('あ'); // => true

    JavaScriptでのサロゲートペア文字列のメモ - Qiita
  • GitHub - Codepoints/awesome-codepoints: Awesome Code Points

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - Codepoints/awesome-codepoints: Awesome Code Points
  • Unicodeで絶対知っておくべき5つの注意(翻訳)

    概要 原著者の許諾を得て翻訳・公開いたします。 英語記事: Five things everyone should know about Unicode 原文公開日: 2017/11/07 著者: Gojko Adzic -- 多くの書籍を出版しています。 著書: https://gojko.net/books/ Human vs Computer Fifty Quick Ideas To Improve Your Tests Fifty Quick Ideas To Improve Your User Stories Impact Mapping Specification by Example Bridging the Communication Gap Test Driven .NET Development With FitNesse 画像はすべて元記事からの引用です。 2017/

    Unicodeで絶対知っておくべき5つの注意(翻訳)
  • http://www.unicode.org/Public/security/revision-03/confusablesSummary.txt

  • Unicode 8.0.0対応フォント一覧 - てきとーになんか書きます

    はじめに 過去の記事 spark6251.hatenablog.com で,楔型文字などどうやって表示するんだろうと言っていたが,案外フォントは存在したのでそれをまとめたかった. 注意 この記事の多くはUnicode 7.xの時に書いていた. 2015/06/17にUnicode 8.0.0が公開され,元々ブロックが存在した領域にも合計で179文字が追加された. 記事を中途に書いていたため,後に記す表の記号が少々面倒になっている. Unicodeとフォントの対応 OS間でどの程度デフォルトのフォントに差があるのかが分からなかった. そのため日語版Windows 7に元から入っている場合はWindows標準とし,他のOS,他の言語のWindowsは調べないものとした. 単にWindows 標準と書いた場合はMS 明朝,Cambria Math,Meiryo UI,Times New Rom

    Unicode 8.0.0対応フォント一覧 - てきとーになんか書きます
  • MySQLと「令和」 - tmtms のメモ

    新元号が「令和」に決まったことなので、MySQLでの扱いについての話を。 普通の文字 「令」も「和」もJIS第一水準に含まれている基的な文字なので普通に日語が使用できるcharsetで使用できます。 mysql> create table t ( utf8mb4 varchar(255) charset utf8mb4, utf8mb3 varchar(255) charset utf8mb3, utf16 varchar(255) charset utf16, utf32 varchar(255) charset utf32, cp932 varchar(255) charset cp932, eucjpms varchar(255) charset eucjpms, sjis varchar(255) charset sjis, ujis varchar(255) charset

    MySQLと「令和」 - tmtms のメモ
  • MySQLと「令和」その2 - tmtms のメモ

    MySQLでは異なる字が等しいと見なされることがあるということを書きました。 tmtms.hatenablog.com この動きはMySQLが独自に変なことをしているわけではなく、Unicodeの規則に従っています。 MySQL 8.0 のデフォルトのCollationは Unicode 9.0.0のUnicode Collation Algorithm(UCA) に従っています。 文字にはそれぞれ Weight という値が設定されていてソートに使用されています。この値が同じなら等しい文字とみなされます。 Collation utf8mb4 のデフォルトの Collation は utf8mb4_0900_ai_ci という名前ですが、これは次のような意味です。 名前の要素 意味 utf8mb4 charset名 0900 Unicodeバージョン9.0.0 ai アクセントの違いを無視

    MySQLと「令和」その2 - tmtms のメモ
  • MySQL :: MySQL 8.0 リファレンスマニュアル :: 10.9 Unicode のサポート

    Unicode 標準には、Basic Multilingual Plane (BMP) の文字と BMP の外部にある補助文字が含まれています。 このセクションでは、MySQL での Unicode のサポートについて説明します。 Unicode 規格自体の詳細は、「Unicode Consortium の web サイト」を参照してください。 BMP 文字には次の 3 つの特性があります。 コードポイント値は 0 から 65535 (または U+0000 と U+FFFF) の間です。 これらは、8、16 または 24 ビット (1 から 3 バイト) を使用して可変長エンコーディングでエンコードできます。 これらは、16 ビット (2 バイト) を使用して固定長エンコーディングでエンコードできます。 主要言語のほとんどすべての文字には、これらで十分です。

  • Oracle DatabaseでのUnicode設計 - Qiita

    Oracleの場合、それぞれの型に別ののCharsetを指定することが可能です。ふつうにOracleをインストールすると、 NLS_CHARSET=AL32UTF8 NLS_NCHAR_CHARSET=AL16UTF16 になるかと思います。当然ながらNLS_NCHAR_CHARSETには、Unicode系のCharsetしか設定できません。(実際にはNLS_NCHAR_CHARSETに、AL16UTF16以外をセットしたことがないので、それ以外のときにどういう挙動になるか分かってません。) 実際にどの型でどのCharsetを使うかは、以下のSQLで見ることができます。(要sysオブジェクトへの参照権限) SELECT distinct(nls_charset_name(charsetid)) CHARACTERSET, decode(type#,1,decode(charsetform,

    Oracle DatabaseでのUnicode設計 - Qiita
  • 異体字セレクタ - Wikipedia

    異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。 異体字セレクタ[注 1] [注 2] (いたいじセレクタ、英: Variation Selectors) は、Unicode および ISO/IEC 10646 (UCS) における、文字の字体をより詳細に指定するためのセレクタ (選択子) である。 Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である[1][注 3]。 この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとん

    異体字セレクタ - Wikipedia
  • Unicodeの互換文字 - Wikipedia

    Unicodeの互換文字(ごかんもじ、英語: Compatibility Character)とは、ユニコードコンソーシアムが使わないことを推奨している、図形文字の一群である。UnicodeとUCSについて議論するときに言及されることが多い。 Unicodeコンソーシアムの用語集[1]によると、既存の文字コードとの互換性と往復変換のためだけに収録された文字のことである。 しかし、定義はその用語集に表れているものよりも複雑である。ユニコードコンソーシアムが文字に与えている特性[2](英: Property)の1つとして、文字の分解や互換分解がある。ほとんどの文字はこの特性に値を持たないが、5千を超える文字に互換文字から1つかそれ以上の他の文字へ互換分解がある。Unicodeは分解特性が設定されている文字が互換文字であると定めている。これらの互換性を指示することの理由はさまざまであり、詳細は後

  • 日本の文字とUnicode 第7回 | 大修館書店 WEB国語教室

    現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日語に特化して作られたわけではないので、日の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第7回は、WWWやコンピュータ内部での日語処理と、Unicodeの関係です。 WWW (World Wide Web)の世界的な普及は、結果的に、世界中の文字コードをUnicodeへと統一させることになりました。もちろん、WWW上のテキストには、いまだ多種多様な文字コードが使われています。日のシフトJISだって、まだまだ使われています。でも、Unicode以外の文字コ

  • Rubyの内部文字コードはUTF-8ではない...だと...?!|TechRacho by BPS株式会社

    こんにちは、hachi8833です。 少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。 (追記: 上は会話の途中から切り取りましたのでご了承ください) いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。 こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底をらったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係 まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル(""の中など)」「コード中の文字リテラル以外の要素(変数名など)」「ファイル名」などが中心になります。そして文字列に関連し

    Rubyの内部文字コードはUTF-8ではない...だと...?!|TechRacho by BPS株式会社
  • Unicode一覧表

    Unicode(UTF-8)の文字コード表を出力します。区分名に「*」が付いているものは合成用文字です。 表示: 【使い方】 左肩の区分メニューをクリックすると、その区分にある文字を一覧表で表示します。 一覧表の文字やコード番号をクリックすることで、上記フォームに文字が入力表示されます。 様々な機器で見比べることでフォントの違いを比較することが出来ます。 ブラウザの設定や、OSに組み込まれたフォントの仕様によって表示される文字が異なります。 文字コードを調べたいときは、フォームに文字を入力し、検査ボタンを押してください。 コード表の右上にあるURLをクリックするとURLの後ろに#で始まるハッシュがつきます。そのURLをブックマークすることで、表示の区分を直接開くことが出来ます。 【ご注意】 全コードの出力はかなり大きな表となるため、ブラウザの動作が遅くなったり、動かなくなる場合があります。

  • Unicode文字からそれを表示できるフォントを探す方法 - Qiita

    最近、Unicode巨大地図というポスターを制作しています。これはUnicodeの全文字を1枚のポスターに並べるというかなり無謀なポスターなのですが、制作する上でUnicode文字からそれを表示できるフォントを探すためのノウハウが蓄積されたのでご紹介します。 万能Unicodeフォント Unicodeフォントの中でも、特にUnicodeのほぼ全文字を網羅的に収録しているフォント。まずはここに収録されているか調べる。 GNU Unifont Unicodeの全文字を16x16のビットマップフォントで網羅するというプロジェクト。Unicode 6.0 の時点で全文字対応を実現しており、以降Unicodeに文字が追加されるたびアップデートが行われている。 Unicode対応率では他の追随を許さないが、16x16のビットマップフォントというのがやはりネック。Unicode巨大地図には使用していない

    Unicode文字からそれを表示できるフォントを探す方法 - Qiita
  • 【第511回】UnicodeじゃなくてUTF-8にしてください!? : イジハピ!

    2014年01月13日18:08 【第511回】UnicodeじゃなくてUTF-8にしてください!? カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) このブログは、FacebookやTwitterへのボタンを配備するために、zenbackのサービスを使っている。 zenbackを使うと面白いのが、記事の題名や内容から類推して、他の人がポストした似たような記事を引っ張ってリスト化してくれることだ。 先週の月曜日、「Unicodeを使うと犯罪ですか」というブログを書くと、「似たような記事」リストの中に、「UnicodeとUTF-8の違い」という記事があった。 これもコンピューターを商売にしてるこっちにしたら、なかなかインパクトのある言葉である。 でも、専門外の人が知らないのはしょうがないと思う。 ぼくもよく知らない分野について相当トンチンカンな

    【第511回】UnicodeじゃなくてUTF-8にしてください!? : イジハピ!