タグ

unicodeに関するudzuraのブックマーク (10)

  • Jonathan New | "💩".length === 2

    EDIT: Wow, much to my surprise this really blew up on Hacker News. There are some pretty interesting discussions happening. (Thanks Stan!) Yup, it’s true. In Javascript, "💩".length === 2. You can open up a Chrome debug console, or Node.JS REPL and see for yourself. But why?! And why does '⛳'.length only equal 1? It all comes down to codepoints and our friend, Unicode. If you’re a little rusty on

    udzura
    udzura 2017/03/10
    苦労だ
  • Unicode Collation Algorithm - tmtms のメモ

    文字コードは面白いね! わーい! たのしー! 🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾🐾 MySQL で utf8mb4_unicode_ci コレーションを使用した時に「🍣」=「🍺」や「ハ」=「パ」になる問題があります。 この utf8mb4_unicode_ci ってなんぞや?と思ってマニュアルを見てみると、 MySQL は、http://www.unicode.org/reports/tr10/ で説明している Unicode 照合順序アルゴリズム (UCA) に従って xxx_unicode_ci 照合順序を実装します。照合順序は、バージョン 4.0.0 UCA 重みキー (http://www.unicode.org/Public/UCA/4.0.0/

    Unicode Collation Algorithm - tmtms のメモ
    udzura
    udzura 2017/02/11
    “““たのしー”””
  • MySQLの文字コード事情 2017版

    10. 文字集合文字集合 US-ASCII 数字、英字、32個の記号 JIS X 0201 US-ASCII(「」→「¥」/「~」→「‾」)+カタカ ナ JIS X 0208 数字、ひらがな、カタカナ、漢字、ラテン文字、 ギリシャ文字、記号等々 JIS X 0213 JIS X 0208 + 第三水準/第四水準、ローマ数字、 鼻濁音文字等々 11. 文字集合文字集合 Windows-31J JIS X 0201 + JIS X 0208 + NEC特殊文字 + IBM 拡張文字(「⑧」「Ⅷ」「㈱」「髙」「﨑」「彅」 等) Unicode 世界中の文字。絵文字(「�����������������」「�������������������」等)も含む。

    MySQLの文字コード事情 2017版
    udzura
    udzura 2017/02/02
    勉強になりました
  • 東アジアの文字幅 - Wikipedia

    この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2017年4月) 独自研究が含まれているおそれがあります。(2017年4月) 出典検索?: "東アジアの文字幅" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL 「東アジアの文字幅」(英: East Asian Width)は、Unicode標準の附属書 (英: Unicode Standard Annex) の一つ。Unicodeに収録されている各文字の文字幅に関するヒントを与える East_Asian_Width 参考特性(英: informative property)を定めている。 東アジアのマルチバイト文字コード規格は必ずしも文字幅を

    東アジアの文字幅 - Wikipedia
    udzura
    udzura 2015/03/23
    業っぽい
  • Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita

    Stringの比較は正規化をかけた上で行われる Swiftの文字列比較は,Unicode正規化をかけた上で行われます。 たとえば,次の例をご覧ください。 let gaC = "\u{304C}" // 「が」の結合形 let gaD = "\u{304B}\u{3099}" // 「が」の分解形 // NSString としての文字数(UTF16での文字数)は異なる (gaC as NSString).length // => 1 (gaD as NSString).length // => 2 // String としての比較 gaC == gaD // => true (!!) これは,こちらのサイトによると, Depending on your requirements, this may or may not be what you want, but it is certainl

    Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita
    udzura
    udzura 2014/10/27
    ヤクの大牧場だ〜〜📛📛📛
  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
    udzura
    udzura 2014/08/07
    楽しい!!!
  • ターミナルで動画を観る試み - moriyoshiの日記

    Unicode文字セットの一部に、これといって用途がわからないものがある。block elements というものだ。 Block Elements (Range: 2580-259F) マイコン世代にはおなじみのセミグラフィクス用キャラクターだ。なぜ Unicode 時代にもなってこれが必要だったのだろうという疑問はあるが、何にせよ、ノスタルジーをかき立てる身近な存在には違いない。 今日はこれを使ってターミナルで動画を見てみたいと思ったのでこんなコードを書いた。 出力はこんな感じ。 charfb: semigraphics on a Unicode-capable terminal.

    ターミナルで動画を観る試み - moriyoshiの日記
  • 麻雀牌 - ユニコード一覧表:Unicode(文字入力可能)

    麻雀牌 - ユニコード一覧表:Unicode(文字入力可能)

    udzura
    udzura 2012/02/01
    ユニコ~ドすげえんだな
  • GNU FriBidi - Wikipedia

    GNU FriBidi はフリーなライブラリであり、Unicode の双方向アルゴリズムを実装する[1]。GNOME で使われる Pango[2] のような一部のフリーなテキストレンダリングサブシステムや、AbiWord や MPlayer のテキストのレンダリング部分で、直接的または間接的に利用されている。このようなライブラリはアラビア語、ペルシア語やヘブライ語のように文字を右から左に書く言語で書かれたテキストをレンダリングするのに必要である。 FriBidi の開発者は完全に標準互換な Unicode の双方向アルゴリズムを実装していると主張している。 FriBidi は SourceForge.net で開発が始まった[3]が、現在は freedesktop.org 傘下のプロジェクトになっている。

    udzura
    udzura 2011/12/12
    byobuと一緒に入れることを推奨される libfribidi0 ってなんぞ、っと思ったので
  • Route 477(2010-07-10)

    ■ [ruby] Ruby 1.9と波ダッシュ問題に関するメモ ややこしすぎるのでメモ 参考資料: http://gihyo.jp/dev/serial/01/ruby/0004 http://mkosaki.blog46.fc2.com/blog-entry-130.html http://blog.livedoor.jp/dankogai/archives/50488765.html 超参考書: 477414164X UnicodeにはWAVE DASH(U+301C)という文字がある(波ダッシュ) 波ダッシュは、「0時から6時」みたいなときに使われるアレ UnicodeにはFULLWIDTH TILDE(U+FF5E)という文字もある(全角チルダ) チルダは、ダイアクリティカルマーク*1の一種。スペイン語でnの上に付いたりするやつ 見た目はだいたい同じ フォントによっては、波打ち方が

    Route 477(2010-07-10)
  • 1