タグ

Unicodeに関するgfxのブックマーク (13)

  • PlainStyle (プレーンスタイル)

    PlainStyle を友だちに教える Twitter Facebook はてブ 説明 文字を学術用の記号に置き換えることによって、擬似的にフォントをつけることができるツールです。 Unicode に対応しているアプリケーションであれば、Twitter以外にもコピペできます。 テキストの一部を選択してからフォントを選ぶと、その部分だけフォントが変わります。 フォントを指定できるのは英数字のみです。 length は Twitter での消費文字数の目安です。 ご注意 重要な文書には使わないでください。音声読み上げやその他の機械処理で不具合が生じる恐れがあります。 URL やハッシュタグにフォントを付けるとリンクにならないかもしれません。 古い端末や OSバージョンによって正しく表示されない可能性があります。 当サイトは趣味で運営されています。環境によってうまく動かないかもしれませんが勘弁し

    PlainStyle (プレーンスタイル)
    gfx
    gfx 2017/12/01
  • TextViewで濁点の表示が崩れる - Qiita

    TextViewに濁点入り文字列を渡すと表示が崩れたのでメモ。 Unicodeの正規化方式には4種類あるそうだが、今回はNFD正規化した文字列で問題が起きており、それをNFC正規化することで解決した。 NFDな文字列を表示する場合と、それをNFCな文字列に変換して表示する場合で結果が違う。 int[] nfdCodePoints = new int[]{ 0x30C8, //ト 0x3099, //゛ 0x30A4, //イ 0x30C4, //ツ }; String text = new String(nfdCodePoints, 0, nfdCodePoints.length); // NFD文字列を表示 textView.setText(text); // NFC文字列を表示 textView2.setText(Normalizer.normalize(text, Normalize

    TextViewで濁点の表示が崩れる - Qiita
  • MySQL と寿司ビール問題 - かみぽわーる

    MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

    MySQL と寿司ビール問題 - かみぽわーる
  • Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita

    これは,こちらのサイトによると, Depending on your requirements, this may or may not be what you want, but it is certainly consistent with the overall design of the String type to abstract away as many Unicode details as possible. Rule of thumb: if two strings look equal to the user, they will be equal in your code. つまり,「Unicodeでの実装にかかわらず,ユーザ側からの見た目が同じであるからには,コード上でも同一として扱われるべきである」という原則に基づいているとのことです。 実際,この仕様はApple

    Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita
  • 東アジアの文字幅 - Wikipedia

    この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2017年4月) 独自研究が含まれているおそれがあります。(2017年4月) 出典検索?: "東アジアの文字幅" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL 「東アジアの文字幅」(英: East Asian Width)は、Unicode標準の附属書 (英: Unicode Standard Annex) の一つ。Unicodeに収録されている各文字の文字幅に関するヒントを与える East_Asian_Width 参考特性(英: informative property)を定めている。 東アジアのマルチバイト文字コード規格は必ずしも文字幅を

    東アジアの文字幅 - Wikipedia
    gfx
    gfx 2012/07/14
  • visualwidth.js とかかいた - tokuhirom's blog

    https://github.com/tokuhirom/visualwidth-js/blob/master/visualwidth.js だいぶ適当だけど。VisualWidth.width() とか VisualWidth.truncate() とかできるかんじ VisualWidth.width() というのは、見た目上の幅をかえすという関数。 VisualWidth.truncate(str, len, '...') は、なんとなくその幅におさまるように truncate するという関数。 なんか適当でいいやーとおもってサロゲートペアとかしったことかー。ってかんじの実装にしてあるけど日語だとなんとなくうごきます。判定ロジックが超適当だけど、まあなんとなくうごきます。 要は日でまともにつかわれるサロゲートペアの領域は基的に full-width なので、これを half-wi

  • モヤイ像とモアイ像の謎 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    これ、Unicodeのコードチャートに載ってる文字なんだけど、何かわかる? イースター島のモアイさんですね。 いや、正解は渋谷のモヤイ像なんだけどね。 そりゃまあ渋谷にもありますけど……。 Unicode Standardには、ちゃんとこう書いてあるぞ。 イースター島のモアイ像に似た日の石像 おおー。イースター島のと渋谷のとって、見た目の違いがあるんですか? 実はけっこう違うよ。いちばんのポイントは、髪の毛だな。イースター島のモアイ像には長い髪なんてないでしょ。ほら、こんなかんじ。 ああ、これこれ。言われてみれば、こっちが家モアイ像ですね。 ところが実はこれ、Apple絵文字フォントで表示したU+1F5FF MOYAIなんで、理屈の上では渋谷のモヤイ像のはずなんだよね。 え? でも、絵としては、明らかに家モアイ像ですよね。Appleのデザイナーさんも「モヤイ像って単なるモアイ像のコ

    モヤイ像とモアイ像の謎 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    gfx
    gfx 2012/03/08
  • 西村賢さんのPython内部文字コードの話題から端を発するUnicodeの話

    K.Takata @k_takata 「Unicode文字列型が複数の内部表現をサポート」ってどういうこと?「Python 2系からの移植を容易にするため…Unicodeリテラルシンタックスも復活」これは良い。 http://t.co/LxkUP45x 2012-03-06 21:44:00

    西村賢さんのPython内部文字コードの話題から端を発するUnicodeの話
    gfx
    gfx 2012/03/07
  • 開発メモ: UTF-8とUCS-4の変換メモ

    UTF-8とUCS-4の相互変換をC/C++で書いた時のメモ。たぶんまた自分で読むので。 背景 文字のちょっとした正規化などの処理をしたいがiconvやICUなどの巨大なライブラリは使いたくないということがたまにある。嚴密な文字列処理をしたい場合にはそれらのライブラリを使った方が安全だし確実であることは言うまでもないが、ちょっとしたユーティリティを作るのにはちょっとオーバースペックである。 一方で、UTF-8文字列に対してはASCII用正規表現ライブラリを使えば検索や置換などの大抵の操作ができるので、自分でゴリゴリと変換処理を書かなければいけないことはあんまりない。 ただ、たまに自分で書きたくなることもある。ヨーロッパ系言語のアクセント記号を外したり、半角片仮名を全角片仮名にしたり、漢字の異体字表記を常用漢字に統一したりといった処理を一気にやりたい場合とか。そんな場合、各文字が可変長バイト

  • Why does modern Perl avoid UTF-8 by default?

    I wonder why most modern solutions built using Perl don't enable UTF-8 by default. I understand there are many legacy problems for core Perl scripts, where it may break things. But, from my point of view, in the 21st century, big new projects (or projects with a big perspective) should make their software UTF-8 proof from scratch. Still I don't see it happening. For example, Moose enables strict a

    Why does modern Perl avoid UTF-8 by default?
  • vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く

    前置き おはミルキィ! ChromeFullFeedが公開停止になった話を前置きとして書いていたのですが, あまり関係がないのと, 長くなりそうになってきたので, 別の記事に分けました. http://d.hatena.ne.jp/Constellation/20110530/1306701693 概要 という前置きで. ECMAScriptと切っても切れない文字コード, UTF-16. iv / lv5はUnicode変換のためにICUに依存していたのですが, UTF-8 <=> UTF-16なら何とか自分でも書けるのではないかと思い, Unicode Converterを書きました. これでlv5の依存はlibboost, libgc (Boehm GC)に減りましたー. Unicodeの変換の教授, bugつぶしにおいて, id:masa141421356 さんに非常にお世話になりま

    vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く
    gfx
    gfx 2011/05/30
  • Encode::UTF8Mac - トミールの技術系日記

    探したのだけど作っている人がいなかったので、いわゆるutf-8-macと呼ばれるエンコーディングを追加するEncode::Encodingをつくりました。 https://github.com/tomi-ru/Encode-UTF8Mac use Encode; use Encode::UTF8Mac; print Encode::encode('utf-8-mac', '蘄藭づけ'); use Path::Class; for my $entry (dir(".")->children) { my $filename = Encode::decode('utf-8-mac', $entry); } 反応みてPODちゃんと書いたらUPしようと思っている →POD書いた. PODの方が少し整理されているのでわかりやすいかもしれない。 https://github.com/tomi-ru/En

    Encode::UTF8Mac - トミールの技術系日記
  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
  • 1