[B! tips][unicode] beakmarkのブックマーク

beakmark id:beakmark

tipsとunicodeに関するbeakmarkのブックマーク (10)

「ユニコードは犯罪だからやめてください」の衝撃 - yanok.net
新年早々、大笑いしてしまったこと。下らないといえば下らないので書くまでもないかと思ったのですが、後で忘れた頃に読み返すと面白いかもしれないので書きとめておくことにします。何があったのかは下記のページに詳しく書かれてあります。こちらを読んでいただければ、ぶっちゃけそれ以上のことはないです。「LINEウイルス」の正体とは―LINE内で流行する「ウイルス攻撃」の現状について簡単にまとめていうと、 LINE上で「ウイルス」なるものを送りつけることができるという噂があって、実際にそれを送りつけられるとLINEのアプリが誤動作(重くなる)らしい実際のところ、ここで「ウイルス」と呼ばれているものはある特定の文字列である (プログラムではない。であるからしてウイルスでもない) 特定の文字列を受け取ると動作が極端に重くなる不具合のあるアプリがある、というのが真相らしい問題を引き起こす文字列は、U
beakmark 2014/01/11
俺もユニコード犯罪に手を染めよう／

unicode

tips

neta
リンク
電書時代の文字コードを考える(ための資料)
自家製資料いろいろ文字コード体系(サマリ) JIS文字コード表 JIS X 0213全漢字一覧(1-4水準 10050文字) UTF文字コード表部首別漢字コード表 Adobe-Japan1のJIS外Unicodeマッピング文字一覧文字テストEPUB Adobe-Japan1 IVS異体字一覧 Source Han Sansフォント特設ページ漢字これくしょん康熙字典EPUB版 Google Notoフォントグリフ一覧(CJK以外) macOS Sierra で最初から入ってる日本語フォント一覧 Unicode変体仮名フォント **new** 実験ツール文字コードチェッカー青空UTF IVS異体字メーカー顔文字デコーダ Unicodeデコーダ (文字列からUnicodeコードポイントを表示) Unicodeマップ (全Unicodeのマップ。表示できるグリフはフォントに依存しま
beakmark 2013/05/30
めも

char

string

unicode

tips
リンク
『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
『Unicode IVS/IVD入門』（田丸健三郎、小林龍生）を読んでいたら、いくつか気になる点があったので、まとめてみることにした。とりあえず、第4章（37ページ分）だけ。時間と気力があれば、今後、他も追加していくかも*1。組版上の突っ込みは（ひどい例以外は）省いた*2。 p.103 ISO/IEC 8859は《中略》パート16まで定義されています（パート15は破棄）。破棄されたのはパート12。 p.104 「ISO-10646」の文字集合「ISO-10646」→「ISO/IEC 10646」。たとえば、1面19区75点を符号位置とする文字をシフトJISで8ビット符号化した場合0x8A6Bとなる文字を例に見てみましょう。この文字は、葛飾区の「葛」という文字ですが「葛」はシフトJISで「0x8A6B」ではなく「0x8A8B」。 p.106 「U+000000」→「U+0000」（U
beakmark 2013/04/12
unicode

char

tips
リンク
Unicodeがこの10年で普及して…
漢字の話とアラビア文字／インド系文字の話が混在してすみません。現在Unicodeは実用されている文字をほとんど符号化して、新規の追加文字は昔の文字が大きな比重を占めています。複雑な用字系の表示環境も整って特殊絵文字で皆遊んでいる。しかし10年ほど前には全然状況は違っていたわけで……。
beakmark 2013/01/03
まったく関係ないけど途中で出てくる阿辻先生の講義はぶっ通しとして有名だったのを思い出した（ぇ／

unicode

char

tips
リンク
連載: IBM Watson Workspace #鬼わかアプリケーション開発: 第 7 回: IBM Watson Workspace で AI を利用したアプリ連携の実現 #鬼わか解説（前編）
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
beakmark 2009/12/02
unicode

dev

tips
リンク
絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット
前回までを振り返る--Unicodeコンソーシアムの影響力前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC（Unicode Technical Committee/Unicode技術委員会）で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー
beakmark 2009/03/21
図6自重www ってか U+1F3BD CAT FACE WITH OPEN MOUTH 怖ぇよwww

unicode

char

dev

tips
リンク
絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味
じつはコメントを送っていたNTTドコモ最初に前回のおさらいをしておきましょう。スタート当初の携帯電話の絵文字には、キャリア間でメールのやり取りの中で文字化けしてしまう欠点があったこと、それを解決する仕組みをキャリア各社が作ったものの、その場しのぎの欠点の多いものであったこと、そして絵文字のUnicode符号化というのはそうした欠点を一挙に解決するはずであること。ついでにGoogleが絵文字のUnicode符号化を進めることで、キャリア各社は今まで自分たちが育ててきた絵文字の主導権を奪われてしまうということも。それから前回の最後では、キャリア各社に対してGoogleの提案についてどう思うか、パブリックレビューに参加する意向があるかを聞いてみました。そこでの回答は、各社そろって消極的と受け取れるものでした。ところが前回の掲載後に、NTTドコモがGoogleの絵文字メーリングリストに投稿し
beakmark 2009/03/09
string

char

unicode

tips
リンク
UTF-8小話 - Plan9日記
UTF-8はWikipediaに書かれている通り、当初は、Plan 9で用いるエンコードとしてベル研究所で考案された。ものだけど、最近古本屋で見つけた「インターネットヒストリー」の村井純先生のあとがきに気になる記述があった。ちょっと長くなるけど引用する。かなり昔の話だが、ベル研のUNIXを作ったオペレーティングシステムを担当していたグループにオペレーティングシステムについての講演を頼まれたときに「日本語」の話をしたことがある。正直にいうと、ケン・トンプソンやデニスリッチなど、コンピュータ界のノーベル賞といわれるチューリング賞をとった錚々たるメンバーを前にして、当時「ただの研究者」であった自分がオペレーティングシステムについて何を話したらよいのだろうと悩んでしまった。結局開き直って話すことにしたのが漢字の問題だったわけだ。しかし、このときの講演の内容が、彼らにとっては1バイト1文字と
beakmark 2008/10/06
へぇ

unicode

dev

tips
リンク
文字とXSSの関係
beakmark 2007/12/26
あとでよむ

secure

tips

unicode

char

string

dev
リンク
Python の unicodedata モジュール - bkブログ
Python の unicodedata モジュール Unicode のちょっとしたテキスト処理をしようと思い、 Python の unicodedata モジュールを使ってみました。これは非常に便利です。 unicodedata は Python に標準で付属するため、別途のインストールは不要です。次のようなことができます。文字の名前を取得する文字の名前を取得することができます。Unicode の文字にはすべて一意の名前がつけられています。ソースコード内で Unicode のコードポイントを使うときは U+20AC (EURO SIGN) などとコメントをつけておくと便利でしょう。 >>> unicodedata.name(u'A') 'LATIN CAPITAL LETTER A' >>> unicodedata.name(u'あ') 'HIRAGANA LETTER A' 文字の
beakmark 2007/12/23
これは便利そう

unicode

string

char

dev

tips

python

programming
リンク
1