[B! unicode] ButterflyFishのブックマーク

ButterflyFish id:ButterflyFish

unicodeに関するButterflyFishのブックマーク (13)

「Unicode 16.0」が公開～エジプト象形文字、レガシーコンピューティング記号を大量追加／5,185の新たな文字が追加。総計で154,998文字に
ButterflyFish 2024/09/11
unicode
リンク
Goの標準のutf8.RuneStart関数がエレガントすぎる
先日以下の記事を書きました。ここでUTF-8の最初の文字かどうかの判定を以下の自作した関数で実装していました。 const ( t1 = 0b00000000 tx = 0b10000000 t2 = 0b00000110 t3 = 0b00001110 t4 = 0b00011110 ) func isUTF8LeadByte(tmp byte) bool { if tmp&tx == t1 { return true } tmp >>= 3 if tmp == t4 { return true } tmp >>= 1 if tmp == t3 { return true } tmp >>= 1 if tmp == t2 { return true } return false }
ButterflyFish 2024/05/20
golang

unicode
リンク
Windows と Unicode とボク
「今まで Shift-JIS しか使えなかった Windows で UTF8 が使えるようになりました！」素人だけでなく、Windows についてろくに知らないLinuxかぶれのプログラマまでに知ったふうなことを言っています。別に Unicode の委員会とも縁があるわけではなく、単に UNIX と Windows 、ちょっとずつだけかじっただけの、たまたま独自シェル用に ReadLine を作ってみただけに過ぎない１プログラマのワタクシが世間の Unicode の認識にグチります。そんな怪文書、はーじまーるよー
ButterflyFish 2021/02/08
windows

unicode
リンク
UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやまそれでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試してみることにしました。追記 GoとPythonとJavaScriptでの例を足しました。またいくつかのscriptにおいてブラウザ上で実行できるURLを添付しました。 (2020-08-17 16:22) “Go” に表記を統一しました。 (2020-08-17 17:00) Ruby 僕にとって文字列処理といえばRubyなので、まずは以下のようなscriptを書いてみました。 puts "\u304c" puts "String#encode('Shift_
ButterflyFish 2020/08/17
unicode

encoding
リンク
UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま
Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた。まずは Unicode 正規化の前提として、Unicode の正準等価と互換等価について説明する。以降の U+16進数という表記は Unicode のコードポイント (文字に ID のようなものが割り当てられている) を示す。また、コードポイントに対応する文字の詳細は https://codepoints.net/ といったサイトで確認することができる。正準等価例として、ひらがなの「が」について考える。Unicode では「
ButterflyFish 2020/08/05
unicode

文字コード
リンク
不必要な制御文字への対処 - pixiv inside
こんにちは、晴れて2020新卒になったmipsparcです。最近は趣味の鉄道技術系同人誌の新版が出来上がって喜んでいます。本記事では、入力値には必ずと言っていいほど混入する不必要な制御文字への対処方法をご紹介します。ユーザーに文字列を入力してもらうことのあるすべてのサービスで活用できる話かと思います。不要な制御文字が入ることで生じる問題前提として、この記事は制御文字類が必ずしも邪魔と言いたいわけではありません。制御文字は多言語対応(特に右から左方向に記述する言語)などで重要なときもありますが、今回は問題が発生しうるケースのお話をします。「‪腐向け」「メリークリスマス‬」「ゾンビ」なんの変哲もない3つのイラストタグですが、どれも不可視の制御文字が混入しています。 $ php -r "var_dump(json_encode('腐向け'));" string(26) ""\u2
ButterflyFish 2020/05/14
pixiv

unicode

charactor
リンク
Windows と日本語のテキストについて - Windows Blog for Japan
すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール法人向けサポートソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入するアクセサリ VR & 複合現実エンタメ Xbox Game Pass Ultimate Xbox とゲーム PC ゲーム Windows ゲーム映画とテレビ番組法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform Windows 365 開発者
ButterflyFish 2020/02/21
windows

unicode
リンク
Python 3誕生の理由　― つまり、なぜunicode/str/bytesの仕様は変更されたのか | POSTD
12月、私は PuPPy(the Puget Sound Python users group)の会合でQ&A セッションを行いました。そこでようやくPython 3が誕生した理由と、string/bytesに関する全てを説明しました。Python 3が作られた理由をユーザはもう知っているはずだと思っていたので、私はこの説明で称賛を得たことに、ちょっと驚きました。後で考えてみると、Pythonに詳しい人もそうでない人も含めて大多数の人が、その理由を探すように言われたり、好奇心からその理由を探し当てられるなどと考えた私が愚かでした。ですから、このブログの記事で、Python 3が存在する理由をわかりやすく説明します。後方互換性の全くない unicode / str / bytes の仕様変更は、Python 3のコードの移植の中でも本当に難解な部分ですので、私たちがその仕様変更を選択した理
ButterflyFish 2018/03/23
python

unicode
リンク
「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。意味論的に等価な異なる字形の集合同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
ButterflyFish 2017/03/13
unicode

文字コード
リンク
JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
Intro textarea などに入力された文字数を、 JS で数えたい場合がある。ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID
ButterflyFish 2017/03/03
javascript

unicode

文字コード
リンク
Hacking with Unicode in 2016
This presentation explores common mistakes made by programmers when dealing with Unicode support and character encodings on the Web. For each mistake, I…
ButterflyFish 2016/05/04
unicode

javascript

あとで読む
リンク
base65536
* Up to 280 Unicode characters give or take Twitter's complex "weighting" calculation. † Base85 is listed for completeness but all variants use characters which are considered hazardous for general use in text: escape characters, brackets, punctuation etc.. ‡ Base131072 is a work in progress, not yet ready for general use. Installation import { encode, decode } from 'base65536' const uint8Array =
ButterflyFish 2015/12/06
unicode

javascript

algorithm

nodejs
リンク
新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH（クロステック）
普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。　　　　　（日経コンピュータ） 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ
ButterflyFish 2009/12/11
文字コード

unicode
リンク
1