[B! unicode] arx0balestのブックマーク

Unicode をレンダリングするときは言語情報を渡しましょう - blog.8-p.info

ソフトウェアの日本語文字が中華フォントに侵食されていて想像以上の危機らしい「違和感すごい」というのが盛り上がっていた。「想像以上」は主観的だけど、個人的にはちょっと煽りすぎのように思った。前提: Han Unification はひっくりかえせないそもそも、UTF-8 がよく使われるようになって、絵文字もはいった UCS で、Han Unification しなくてもいいのでは、という話はある。でもこれは後の祭りで、今更ひっくりかえすのは無理だと思うので、ここでは検討しません。ユーザー側の言語情報を参照すれば、日本語のグリフは選べるほとんどの OS には、このユーザーの言語はこれですよ、という情報があって、それでメニューやボタンの文字が日本語になる。日付の表示方法とかも、これを参照する。統合漢字でも日本語のグリフでレンダリングしたい、というのは、8割くらいはこれで解決するはな

arx0balest 2022/10/02

リンク

君たちは正規表現におけるインド数字の罠にハマったことはあるかい？(١٢٣٤٥٦٧٨٩) - Qiita

import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Pythonで書いてはいますが、内容を補足します。「'٢٠٢٢-٠٦'」という文字列が、数字4文字+ハイフン+数字2文字にマッチするかどうか、という正規表現を書いています。一見するとどう見ても数字4桁ではないので、正規表現にマッチしないように見えますよね？？？？実は正規表現にマッチします！！！というのが今回の記事の内容になります。そもそも正規表現における数字の扱いとは今回はPythonの正規表現のライブラリを利用しているので、公式のリファレンスを見てみましょう。該当の部分には以下のような記述があります。 \d Unicode (str) パターンでは: 任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチします。これは [0-9] とその他多数の数字を

arx0balest 2022/06/24

はえ～全く知らんかった。勉強になった。0-9使ってこ。

リンク

JavaScript: 文字数を正確にカウントするには？ - Qiita

この投稿ではJavaScriptで文字数をできるだけ正確にカウントする方法について取り上げます。文字数とは？要件で「文字数を表示してほしい」「○文字以上はバリデーションエラーにしたい」と文字数を考慮しないとならないことがあります。そもそも文字数とは何でしょうか。たとえば、アルファベットの「A」は1文字と数えられそうです。次の絵文字は、何文字になるでしょうか？この絵文字はiOSであれば14.5の環境では、UI上では上のように1文字のように表示されます。しかし、それ以前のバージョンでは、同じ文字列データでも😵💫のように2文字で表示されます。なお、この絵文字は3つのコードポイントU+1F635 U+200D U+1F4ABからなります。この絵文字の「文字数」はいったい何文字として扱ったらよいのでしょうか。以上のように、ひとことで文字数と言ってもデータと見た目と環境の3つのややこ

arx0balest 2022/04/13

リンク

Unityで「ここは自由文言で20文字が入力できる」と言われた時に考えることの全て - Qiita

もし、上の対応方針で頑張ることを決めた場合「文字数制限」との兼ね合いが発生します。もし20文字制限のInputFieldに対して「🏴󠁧󠁢󠁥󠁮󠁧󠁿🏴󠁧󠁢󠁥󠁮󠁧󠁿🏴󠁧󠁢󠁥󠁮󠁧󠁿」という文字が入力された時にあなたのアプリはどうなっていてほしいですか？絵文字合字 👨‍👩‍👧‍👧 はあなたのUIではどう表示されていて欲しいですか？また、何文字と判定されていて欲しいですか？ 👩‍❤️‍👩はZero Width Joinerを使った合字です。どう表示されていて欲しいですか？また、何文字と判定されていて欲しいですか？アラビア文字右から左に表示されるInputFieldはあなたのUIの中ではどう見えていて欲しいですか？ ﷽ ﷽は「慈悲あまねく慈愛深きアッラーの御名において」という一文字です。もし20文字制限のInputFieldに対して「﷽」と

arx0balest 2022/04/01

鬼つら

リンク

ぼくたちのかんがえたさいきょうのi18n国家

本記事は下記のtweetから始まるスレッドに触発され、@qnighyや@na4zagin3からアイディアを拝借して書いた。 i18n力が最強の国は国内に複数の言語があり、そのうちいくつかは他国でも使われている言語の方言で、1バイト文字での代替表記が困難で、歴史的にISO-2022ベースの文字コードとUnicodeと独自エンコーディングが混在していて、フリガナなどの特殊な組版規則があり、右書き左書き縦書きを併用し、 — Masaki Hara (@qnighy) 2018年8月6日皆さんのおかげで最強のi18n国家が建設されつつある。一瞬で滅びそう — Masaki Hara (@qnighy) 2018年8月6日長い前置きソフトウェアのi18nは難しい。自文化では当たり前と思っていてハードコードしてしまった仮定が崩れて、大幅な再設計を余儀なくされるからだ。気づいて再設計できればまだ良

arx0balest 2018/08/09

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

unicodeに関するarx0balestのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス