[B! unicode] hate-urumaのブックマーク

MySQL :: MySQL 8.0 リファレンスマニュアル :: 10.10.1 Unicode 文字セット

このセクションでは、Unicode 文字セットで使用可能な照合順序とその区別プロパティについて説明します。 Unicode の一般情報については、セクション10.9「Unicode のサポート」を参照してください。 MySQL では、複数の Unicode 文字セットがサポートされています: utf8mb4: Unicode 文字セットの UTF-8 エンコーディング。文字ごとに 1 バイトから 4 バイトを使用します。 utf8mb3: Unicode 文字セットの UTF-8 エンコーディング。文字ごとに 1 バイトから 3 バイトを使用します。 utf8: utf8mb3 のエイリアス。 ucs2: 文字ごとに 2 バイトを使用した Unicode 文字セットの UCS-2 エンコーディング。 utf16: 文字ごとに 2 バイトまたは 4 バイトを使用する Unicode 文字セ

hate-uruma 2019/07/25

リンク

Unicode Collation Algorithm - tmtms のメモ

文字コードは面白いね！わーい！たのしー！ 🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾 MySQL で utf8mb4_unicode_ci コレーションを使用した時に「🍣」=「🍺」や「ハ」=「パ」になる問題があります。この utf8mb4_unicode_ci ってなんぞや？と思ってマニュアルを見てみると、 MySQL は、http://www.unicode.org/reports/tr10/ で説明している Unicode 照合順序アルゴリズム (UCA) に従って xxx_unicode_ci 照合順序を実装します。照合順序は、バージョン 4.0.0 UCA 重みキー (http://www.unicode.org/Public/UCA/4.0.0/

hate-uruma 2019/07/25

リンク

７.２ ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験

文字コードについて調べたことや実験したこと，テストプログラム，データファイルなどを随時掲載する予定です．ただし筆者の理解不足や誤解により誤りがあるかもしれませんので，ご利用は自己責任で．このページの主な更新は Blog でお知らせします．表示確認ブラウザ：FireFox 22.0，IE8．０．目次シフトJIS Shift_JIS と Windows-31J (CP932) の違いシフトJIS ２バイト文字の判定謎の検索ワード集 (シフトJIS編) 「Shift_JIS(SJIS，Windows-31J，CP932) ３バイト文字」「Shift_JIS(SJIS，Windows-31J，CP932) サロゲート(ペア)」「UTF-8 4バイト文字 Shift_JIS(SJIS，Windows-31J，CP932) 変換」「Unicode(UTF-8，UTF-16) か

hate-uruma 2019/07/22

unicode

リンク

fudist - UTF-8 → cp932(Shift_JIS)変換表

UTF-8にはcp932(Shift-JIS)に存在しない文字があるため、cp932(Shift_JIS)前提のシステムで使用することができないことがあります。基本的に ♥ ♠ ♦ ♣ のようにcp932(Shift_JIS)に存在しない記号は (はぁと) や外字などへ適当に変換するしかありません。ただし実際にはcp932(Shift_JIS)でも置換可能な文字だけが問題で変換エラーになっているケースが多数あります。本ページでは文書ファイルをUTF-8からcp932(Shift-JIS)に変換するとき単純置換してさほど問題ない文字の対応表を記します。 cp932(Microsoft定義のShift_JIS) と Shift_JIS とは厳密に言うと～など一部の文字コードが異なります。このためWindowsとLinuxでunicode(UTF-8)へ変換した場合異なる文字コードに

hate-uruma 2019/07/22

リンク

JavaScriptでのサロゲートペア文字列のメモ - Qiita

I. UnicodeとJavaScript文字列の前提知識 I-I. Unicodeのエスケープシークエンスで文字列を表す "\uXXXX"形式の4桁の16進数で表す // シングルクォートとダブルクォートの差はない "\u3042"; // => "あ" '\u3042'; // => "あ" // 正規表現リテラルでも表現可能 /\u3042/.test('あ'); // => true

hate-uruma 2019/07/22

リンク

GitHub - Codepoints/awesome-codepoints: Awesome Code Points

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

hate-uruma 2019/06/27

リンク

Unicodeで絶対知っておくべき5つの注意（翻訳）

概要原著者の許諾を得て翻訳・公開いたします。英語記事: Five things everyone should know about Unicode 原文公開日: 2017/11/07 著者: Gojko Adzic -- 多くの書籍を出版しています。著書: https://gojko.net/books/ Human vs Computer Fifty Quick Ideas To Improve Your Tests Fifty Quick Ideas To Improve Your User Stories Impact Mapping Specification by Example Bridging the Communication Gap Test Driven .NET Development With FitNesse 画像はすべて元記事からの引用です。 2017/

hate-uruma 2019/06/27

リンク

http://www.unicode.org/Public/security/revision-03/confusablesSummary.txt

hate-uruma 2019/06/27

リンク

Unicode 8.0.0対応フォント一覧 - てきとーになんか書きます

はじめに過去の記事 spark6251.hatena blog.com で，楔型文字などどうやって表示するんだろうと言っていたが，案外フォントは存在したのでそれをまとめたかった．注意この記事の多くはUnicode 7.xの時に書いていた． 2015/06/17にUnicode 8.0.0が公開され，元々ブロックが存在した領域にも合計で179文字が追加された．記事を中途に書いていたため，後に記す表の記号が少々面倒になっている． Unicodeとフォントの対応 OS間でどの程度デフォルトのフォントに差があるのかが分からなかった．そのため日本語版Windows 7に元から入っている場合はWindows標準とし，他のOS，他の言語のWindowsは調べないものとした．単にWindows 標準と書いた場合はＭＳ明朝，Cambria Math，Meiryo UI，Times New Rom

hate-uruma 2019/06/27

unicode
font

リンク

MySQLと「令和」 - tmtms のメモ

新元号が「令和」に決まったことなので、MySQLでの扱いについての話を。普通の文字「令」も「和」もJIS第一水準に含まれている基本的な文字なので普通に日本語が使用できるcharsetで使用できます。 mysql> create table t ( utf8mb4 varchar(255) charset utf8mb4, utf8mb3 varchar(255) charset utf8mb3, utf16 varchar(255) charset utf16, utf32 varchar(255) charset utf32, cp932 varchar(255) charset cp932, eucjpms varchar(255) charset eucjpms, sjis varchar(255) charset sjis, ujis varchar(255) charset

hate-uruma 2019/06/27

リンク

MySQLと「令和」その２ - tmtms のメモ

MySQLでは異なる字が等しいと見なされることがあるということを書きました。 tmtms.hatena blog.com この動きはMySQLが独自に変なことをしているわけではなく、Unicodeの規則に従っています。 MySQL 8.0 のデフォルトのCollationは Unicode 9.0.0のUnicode Collation Algorithm(UCA) に従っています。文字にはそれぞれ Weight という値が設定されていてソートに使用されています。この値が同じなら等しい文字とみなされます。 Collation utf8mb4 のデフォルトの Collation は utf8mb4_0900_ai_ci という名前ですが、これは次のような意味です。名前の要素意味 utf8mb4 charset名 0900 Unicodeバージョン9.0.0 ai アクセントの違いを無視

hate-uruma 2019/06/27

リンク

MySQL :: MySQL 8.0 リファレンスマニュアル :: 10.9 Unicode のサポート

Unicode 標準には、Basic Multilingual Plane (BMP) の文字と BMP の外部にある補助文字が含まれています。このセクションでは、MySQL での Unicode のサポートについて説明します。 Unicode 規格自体の詳細は、「Unicode Consortium の web サイト」を参照してください。 BMP 文字には次の 3 つの特性があります。コードポイント値は 0 から 65535 (または U+0000 と U+FFFF) の間です。これらは、8、16 または 24 ビット (1 から 3 バイト) を使用して可変長エンコーディングでエンコードできます。これらは、16 ビット (2 バイト) を使用して固定長エンコーディングでエンコードできます。主要言語のほとんどすべての文字には、これらで十分です。

hate-uruma 2019/06/27

リンク

Oracle DatabaseでのUnicode設計 - Qiita

Oracleの場合、それぞれの型に別ののCharsetを指定することが可能です。ふつうにOracleをインストールすると、 NLS_CHARSET=AL32UTF8 NLS_NCHAR_CHARSET=AL16UTF16 になるかと思います。当然ながらNLS_NCHAR_CHARSETには、Unicode系のCharsetしか設定できません。(実際にはNLS_NCHAR_CHARSETに、AL16UTF16以外をセットしたことがないので、それ以外のときにどういう挙動になるか分かってません。) 実際にどの型でどのCharsetを使うかは、以下のSQLで見ることができます。(要sysオブジェクトへの参照権限) SELECT distinct(nls_charset_name(charsetid)) CHARACTERSET, decode(type#,1,decode(charsetf orm,

hate-uruma 2019/06/27

リンク

異体字セレクタ - Wikipedia

異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。異体字セレクタ[注 1] [注 2] (いたいじセレクタ、英: Variation Selectors) は、Unicode および ISO/IEC 10646 (UCS) における、文字の字体をより詳細に指定するためのセレクタ (選択子) である。 Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である[1][注 3]。この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとん

hate-uruma 2019/06/26

unicode

リンク

Unicodeの互換文字 - Wikipedia

Unicodeの互換文字（ごかんもじ、英語: Compatibility Character）とは、ユニコードコンソーシアムが使わないことを推奨している、図形文字の一群である。UnicodeとUCSについて議論するときに言及されることが多い。 Unicodeコンソーシアムの用語集[1]によると、既存の文字コードとの互換性と往復変換のためだけに収録された文字のことである。しかし、定義はその用語集に表れているものよりも複雑である。ユニコードコンソーシアムが文字に与えている特性[2]（英: Property）の1つとして、文字の分解や互換分解がある。ほとんどの文字はこの特性に値を持たないが、5千を超える文字に互換文字から1つかそれ以上の他の文字へ互換分解がある。Unicodeは分解特性が設定されている文字が互換文字であると定めている。これらの互換性を指示することの理由はさまざまであり、詳細は後

hate-uruma 2019/06/26

unicode

リンク

日本の文字とUnicode　第7回 | 大修館書店　WEB国語教室

現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日本語に特化して作られたわけではないので、日本の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第7回は、WWWやコンピュータ内部での日本語処理と、Unicodeの関係です。 WWW (World Wide Web)の世界的な普及は、結果的に、世界中の文字コードをUnicodeへと統一させることになりました。もちろん、WWW上のテキストには、いまだ多種多様な文字コードが使われています。日本のシフトJISだって、まだまだ使われています。でも、Unicode以外の文字コ

hate-uruma 2019/06/26

unicode

リンク

Rubyの内部文字コードはUTF-8ではない...だと...？！｜TechRacho by BPS株式会社

こんにちは、hachi8833です。少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。（追記: 上は会話の途中から切り取りましたのでご了承ください）いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底を食らったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル（""の中など）」「コード中の文字リテラル以外の要素（変数名など）」「ファイル名」などが中心になります。そして文字列に関連し

hate-uruma 2019/06/26

リンク

Unicode一覧表

Unicode(UTF-8)の文字コード表を出力します。区分名に「*」が付いているものは合成用文字です。表示：【使い方】左肩の区分メニューをクリックすると、その区分にある文字を一覧表で表示します。一覧表の文字やコード番号をクリックすることで、上記フォームに文字が入力表示されます。様々な機器で見比べることでフォントの違いを比較することが出来ます。ブラウザの設定や、OSに組み込まれたフォントの仕様によって表示される文字が異なります。文字コードを調べたいときは、フォームに文字を入力し、検査ボタンを押してください。コード表の右上にあるURLをクリックするとURLの後ろに#で始まるハッシュがつきます。そのURLをブックマークすることで、表示の区分を直接開くことが出来ます。【ご注意】全コードの出力はかなり大きな表となるため、ブラウザの動作が遅くなったり、動かなくなる場合があります。

hate-uruma 2019/06/26

リンク

Unicode文字からそれを表示できるフォントを探す方法 - Qiita

最近、Unicode巨大地図というポスターを制作しています。これはUnicodeの全文字を1枚のポスターに並べるというかなり無謀なポスターなのですが、制作する上でUnicode文字からそれを表示できるフォントを探すためのノウハウが蓄積されたのでご紹介します。万能Unicodeフォント Unicodeフォントの中でも、特にUnicodeのほぼ全文字を網羅的に収録しているフォント。まずはここに収録されているか調べる。 GNU Unifont Unicodeの全文字を16x16のビットマップフォントで網羅するというプロジェクト。Unicode 6.0 の時点で全文字対応を実現しており、以降Unicodeに文字が追加されるたびアップデートが行われている。 Unicode対応率では他の追随を許さないが、16x16のビットマップフォントというのがやはりネック。Unicode巨大地図には使用していない

hate-uruma 2019/06/26

unicode
font

リンク

【第511回】UnicodeじゃなくてUTF-8にしてください！？ : イジハピ！

2014年01月13日18:08 【第511回】UnicodeじゃなくてUTF-8にしてください！？カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) このブログは、FacebookやTwitterへのボタンを配備するために、zenbackのサービスを使っている。 zenbackを使うと面白いのが、記事の題名や内容から類推して、他の人がポストした似たような記事を引っ張ってリスト化してくれることだ。先週の月曜日、「Unicodeを使うと犯罪ですか」というブログを書くと、「似たような記事」リストの中に、「UnicodeとUTF-8の違い」という記事があった。これもコンピューターを商売にしてるこっちにしたら、なかなかインパクトのある言葉である。でも、専門外の人が知らないのはしょうがないと思う。ぼくもよく知らない分野について相当トンチンカンな

hate-uruma 2019/06/21

unicode

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

unicodeに関するhate-urumaのブックマーク (32)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス