こんにちは、晴れて2020新卒になったmipsparcです。最近は趣味の鉄道技術系同人誌の新版が出来上がって喜んでいます。 本記事では、入力値には必ずと言っていいほど混入する不必要な制御文字への対処方法をご紹介します。ユーザーに文字列を入力してもらうことのあるすべてのサービスで活用できる話かと思います。 不要な制御文字が入ることで生じる問題 前提として、この記事は制御文字類が必ずしも邪魔と言いたいわけではありません。 制御文字は多言語対応(特に右から左方向に記述する言語)などで重要なときもありますが、今回は問題が発生しうるケースのお話をします。 「腐向け」 「メリークリスマス」 「ゾンビ」 なんの変哲もない3つのイラストタグですが、どれも不可視の制御文字が混入しています。 $ php -r "var_dump(json_encode('腐向け'));" string(26) ""\u2
PlayStation 4にて、特定のメッセージを受け取った際に本体がクラッシュし、アカウントが使用不可能になるという不具合が見つかった。海外コミュニティRedditの投稿によれば、特殊文字が含まれたPSNメッセージを”受け取る”だけでPlayStation 4本体が機能不全に陥ってしてしまうとのことだ。つまり、そのメッセージを開いていなくても、受け取った時点でアウトとなる。Kotakuなど海外メディアも報じているほか、すでに国内のSNSなどでも被害報告があがっている。 また、モバイルアプリから削除するのが解決策だと一部では報告されているが、一方で一度そのメッセージを受け取ってしまうとモバイルアプリからメッセージを削除しても効果は見られないとの報告もあがっている。クラッシュ後の症状としては、PlayStation 4が突如フリーズし、連続で再起動するなど不自然な挙動を繰り返す。結果的にその
2017年6月30日にリリースされる予定の「Emoji 5.0」で新たに追加される絵文字69種類の内容が明らかになりました。2016年に15歳のRayouf Alhumedhiさんが「どうしてヘッドスカーフをかぶった絵文字がないのか?」と問いかけていましたが、新しい絵文字にはヘッドスカーフを巻いた人のほか、授乳中の女性や、独立運動を受けてイングランド・スコットランド・ウェールズの国旗などが追加されています。 Emojipedia 5.0 Emoji List http://emojipedia.org/emojipedia/5.0/new/ Final 2017 Emoji List http://blog.emojipedia.org/final-2017-emoji-list/ 新しい絵文字がどんなものなのかは以下のムービーで確認できます。 All 69 New Emojis for
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select
RailsがMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト
『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)のなかで、目玉がWindows 8のIVS対応を紹介している第2章だとするなら、背骨といえるのが、IVSという枠組み自体について解説している第5章だよね。 たとえがしっくりきませんが、こだわらずに先に進みましょう。 その第5章のなかでも、IVSの基本中の基本をわずか1行に凝縮して視覚化しているのが、図5-7だ。 はいはい。 で、今日は図5-7に突っ込んでみようと。 もちろん、突っ込みますよー! あのさ、そういうテンションいらないから。この図なんだけど、どう? んー、解説抜きで見せられても、ちょっと難しいですね。 いや、本当は難しくないんだよ。「漢字に異体字セレクタを付けるとグリフを指定できます」って言ってるだけの図なんだから。 この真ん中の「E010B」が右では「E0110」に変化してるのは、どういう意味なんですか? 誤植だね。
すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール 法人向け サポート ソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画とテレビ番組 法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W
日本マイクロソフトは2012年11月9日、Windows VistaやWindows 7を対象に、同社のオフィス製品(Word、Excel、PowerPoint)で人名、地名など難しい漢字を取り扱えるようにするアドイン「Unicode IVS Add-in for Microsoft Office」を無償で配布すると発表した。人名や地名を扱うことが多い官公庁や自治体、金融機関などにニーズがあるという。 このアドインをインストールすることで、戸籍統一文字、住民基本台帳ネットワークシステム統一文字を含め、「Unicode IVD(UTS#37)」に対応した約5万8000の文字を扱えるようになる(図)。ただし実際に利用するには、アドインとは別に対応フォント(IPAが無償配布するIPAmj明朝など)をインストールする必要がある。 マイクロソフトの運営するオープンソースポータルサイト「CodePle
「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日本語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ
WG 2ダブリン会議に持ち込まれた絵文字の提案 2009年4月21日火曜日、ここはイギリスのお隣、アイルランドの首都ダブリン郊外です。広大なキャンパスをかまえるダブリン・シティ大学の一画では、前日から11カ国のナショナルボディ(以下、NB)と2つの組織のリエゾンメンバー(連絡担当会員)が集まって、第54回WG 2会議が開かれていました。 大学の正門から真っ直ぐに延びた広い道を100メートルばかり行った突き当たりに、巨大なる工学部校舎が建っています。その建物の奥深く、2階にあるミーティングルームでは、先ほどから重苦しい空気が立ちこめていました。 ここで開かれていたのはWG 2の本会議ではなく、特定のテーマを扱うアドホック会議です。「Ad-Hoc Committee on Emoji Encoding」(以下、Emojiアドホック会議)。──そう、2月のUTC会議を無事に通過したGoogleと
という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く