タグ

文字コードに関するsds-pageのブックマーク (14)

  • 「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita

    TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能は良くない UTF-8は神 2023/12/06追記 誤りがあったので訂正します。こんな読まれると思ってなかったので正直ちょっとびっくりしていますが、いろいろコメントありがとうございました。(ツイート等全て拝見しました。) Shift_JISが悪いわけではない(デフォルトのエンコーディング設定の問題)→追記しました UTF-8にはUTF-FSSという仕様でこの問題が回避されている→マジでタメになる知識ありがとうございます OSによってデフォルトのエンコーディング設定が異なるせいで、デフォルト環境での動作がOSにより異なる→なるほど?(調査中) CRLFとLF問題では→なるほど?(調査中) そんな問題何を今更→UTF-8が出てから生まれたからです

    「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita
    sds-page
    sds-page 2023/12/06
    自分が使わなくなっても大手とやるとファイルとかデータベースでShift_JISに合わせなきゃいけなくなって何も考えずコードをUTF-8で書いてるとハマる
  • MySQLのutf8mb4と戦った話 - Uzabase for Engineers

    皆様こんにちは、NewsPicksエンジニアの米澤です。 先日 2023/03/30は、こちらでアナウンスしていた通り、サービスの停止を伴うシステムメンテナンスを実施させて頂きました。 NewsPicksをご利用頂いている皆様には、ご迷惑おかけいたしました。 今回はこのメンテナンスの中で行われたDBテーブルのmigrationについてお話ししたいと思います。 ことの始まり やったこと 方針決め utf8mb4に対応していないテーブルを調べる migrationを作成する 影響範囲を調べる 開発環境でリハーサルを行う メンテナンスの日 最後に ことの始まり NewsPicksではバグの検知にBugSnagを利用しています。 ある時、BugSnagにこんなエラーが通知されてきました。 org.springframework.orm.hibernate4.HibernateJdbcExcepti

    MySQLのutf8mb4と戦った話 - Uzabase for Engineers
    sds-page
    sds-page 2023/04/29
    Shift-JISはダメだな!UTF-8にしとけばいいんだろ!ぐらいの理解だとどこかでやらかす奴
  • キャラ名に「ソ」があると画面がフリーズ Switchの新作ゲームにバグ 制作会社が謝罪

    関連記事 25人のAIが一緒に暮らしたら、自我は芽生えるか? ゲームの中で検証 バレンタインなど勝手に企画 米スタンフォード大学とGoogle Researchに所属する研究者らは、ChatGPTなどで制御したキャラクター25人が1つの町で一緒に生活したらどうなるかを検証した研究報告を発表した。 「サーバに致命的な不具合」のスマホゲー、「修正不可能と判断」でそのままサービス終了 問題発生から2日で ゲームの開発・運営を手掛けるインゲームは、スマートフォンゲーム「戦策三国志」(iOS/Android)の不具合を修正できず、サービスの提供を終了したと発表した。 任天堂「ご迷惑をおかけし申し訳ございません」 「ポケモンSV」アップデート配信 SNSではバグ報告の声多数 任天堂とポケモン社が、「ポケットモンスター スカーレット・バイオレット」の更新データを配信する。新機能を追加した他、いくつかのバ

    キャラ名に「ソ」があると画面がフリーズ Switchの新作ゲームにバグ 制作会社が謝罪
    sds-page
    sds-page 2023/04/15
    本邦においてはいまだにSJISかよという声もあるが欧米製のソフトにはいまだにマルチバイト対応してないのも多々あるので(有名なPythonライブラリにも)
  • UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita

    竈門禰󠄀豆子をMySQL5.6のテーブルにinsertしようとすると正しく格納できず、竈門禰となってしまうケースがあるという話を聞き、調べてみました。 実践 まずは試しにやってみます。 mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) mysql> inse

    UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita
    sds-page
    sds-page 2022/02/02
    Unicodeが全然ユニじゃない問題
  • Unicode 版美乳テーブルを探せ

    美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

    sds-page
    sds-page 2021/04/04
    UTF-8とUTF-8Nで文字化けするの流石にキレていい?Unicodeだって主張してるんだから素直にUnicodeとして受け取れよなに化けてんだよ
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    sds-page
    sds-page 2017/11/13
    Linux系のOSで絵文字使えるから色々やってみたらたまに文字幅が変になる事がある
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
    sds-page
    sds-page 2017/03/13
    兀と⺎も別なのヤバイ
  • MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ

    MySQLUTF-8 で使おうと思ってハマりがちなのは charset utf8 を指定してしまうことです。 MySQLUTF-8 には歴史的事情により utf8 と utf8mb4 の二つあります。 UTF-8 は1バイト〜4バイトで1文字が構成される文字コードですが、MySQL の utf8 は4バイト文字を扱うことができません。ハマりたくなければ utf8mb4 を使いましょう。 utf8 を使ってしまった場合に4バイト文字がどのように扱われるか、自分でもうろ覚えだったのでメモしておきます。 登録 接続が utf8mb4 でカラムが utf8mb4 あたりまえですが、そのまま登録されます。 mysql> insert into utf8mb4 (c) values ('美味しい🍣と🍺'); mysql> select * from utf8mb4; +--------

    MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ
    sds-page
    sds-page 2016/09/07
    全角2バイト半角1バイトの時代に戻りたい
  • 札幌で見たJIS X 0213の文字 - yanok.net

    札幌の中心部、大通公園と札幌駅を地下でつなぐ地下歩行空間を歩いていたら、パフォーマーが芸をしていました。その背後の柱に、JIS X 0213の文字が書かれているのが見えました。これはパフォーマーとは無関係にもともと書かれているものだと思います。次の写真です。 「イランカラㇷ゚テ」と書かれています。これはアイヌ語の挨拶です。写真には写っていませんが、他の柱には他の言語の言葉が書かれています。いろいろな言語が書かれているうちの一つです。 アイヌ語用の片仮名と文字コード この中の小書きの「ㇷ゚」という文字は、もともと広く使われている日の文字コード規格JIS X 0208になく、その拡張規格のJIS X 0213で符号位置が与えられたものです。漢字集合1面の、6区88点にあります。この文字は子音pの後に母音が続かない時に使われるもので、アイヌ語表記には頻出します。拙著『プログラマのための文字コー

    札幌で見たJIS X 0213の文字 - yanok.net
    sds-page
    sds-page 2016/09/02
    アシリパさんもリが小さいんだっけ
  • 不思議な文字 pͪoͣnͬpͣoͥnͭpͣa͡inͥ

    "ダイアクリティカルマーク(英語: diacritical mark)は、ラテン文字等の文字で、同じ字形の文字であるが、発音が区別されるべき場合に文字に付される記号のこと。あえて日語の文字で似た概念を探せば、濁点と半濁点に相当するであろう。" "コンピュータ処理では、ダイアクリティカルマークのついた文字に独立した文字コードを与えているもの(ISO/IEC 8859、Unicode、JIS X 0213など)が多いが、別の方法として、親字の前または後に特殊なコードを置くことによって表記する方法がある。前に置く例としてはISO/IEC 6937(英語版)が、後に置く例としてはUnicodeでCombining Diacritical Marksと呼ばれる一連のコード(U+0300からU+036Fまで)がある。"

    sds-page
    sds-page 2015/10/20
    Unicodeつよい
  • 不正な文字列でiPhoneがクラッシュ、Appleが対応表明

    AppleiPhoneで特定の文字列を含んだメッセージを受信すると、iPhoneがクラッシュするバグがあることが分かった。Appleもこの現象を確認し、対応を表明しているという。 この問題はRedditに寄せられた投稿で発覚した。アラビア語の文字や漢字を組み合わせた特定の文字列を受信したところ、iPhoneの電源が落ち、同じメッセージを別の相手に送るとその相手のiPhoneも落ちたと伝えている。 iMoreやMacRumorsなどのメディア各社が伝えたところでは、iOS 8を搭載したiPhoneのほかiPadApple Watchでも、特定のユニコード文字列を含んだメッセージを受信すると問題が起きることが分かった。特定の文字列が処理できないことが原因で、アプリがクラッシュしたり、システムが再起動したりするという。 不正なメッセージを受信してしまった場合は、誰かにメッセージを送ってもら

    不正な文字列でiPhoneがクラッシュ、Appleが対応表明
    sds-page
    sds-page 2015/05/28
    強いユニコード問題
  • 寿司の絵文字を比較して心を落ち着かせる – プログラミング生放送

    Apple マグロ! iOS や OS X の絵文字GitHub で見られる絵文字もこれみたい。 Google ネタは、玉子と、赤色をオレンジっぽい色で表現している絵文字が多いので、たぶんマグロ。 Android 4.4 (KitKat) 以降や Hangouts の絵文字Windows 巻き寿司! Windows 8.1 以降のカラーをサポートしたフォント、Segoe UI絵文字Microsoftフォントで、印刷物・商用利用などもできるはず。カラーフォントに対応したアプリは少ないと思うけど。 windows 10 Anniversary Update 後は、絵文字が刷新されマグロ登場。 Twitter マグロと巻き寿司。 Twitter絵文字GitHub で、ai データなどをダウンロードできる。CC-BY 4.0 で利用できる。 Copyright 2014 Tw

    寿司の絵文字を比較して心を落ち着かせる – プログラミング生放送
    sds-page
    sds-page 2015/04/21
    雛人形はコレジャナイ感強い
  • iOS絵文字「ソフトクリーム」に秘められた驚愕の事実が発見される - こぼねみ

    あなたはアイスクリームやソフトクリームは好きですか? iOSの絵文字には、さまざまなお菓子と共にあなたの好きなソフトクリームもあります。 あなたの大好きなソフトクリーム。 実は、同じiOSの絵文字で意外なモノとあまりにもそっくりなのです。 ソフトクリームが好きなら、この先は見ない方がいいかもしれません。 ひょっとしたら、ソフトクリームに対するあなたの見方をすっかり変えてしまうかもしれません。 それはあまりに意外なモノであり、普通なら絶対に似てほしくないもののはずです。 そう、あなたかがソフトクリームをこよなく愛するなら・・・。 この先を見るのを止めておいた方が無難です。 ここから先は・・・。 スポンサーリンク Peter Miller氏は驚くべき絵文字の発見をしたとツイートし、次のようなGIFアニメを制作しました。 I made a startling emoji discovery, t

    iOS絵文字「ソフトクリーム」に秘められた驚愕の事実が発見される - こぼねみ
    sds-page
    sds-page 2015/03/17
    ソフトンかな?
  • ASCIIコードの秘密 - ザリガニが見ていた...。

    当はエスケープシーケンスのことを調べていたのだが、その前にASCIIコードについて調べることになってしまった...。文字コードの基として知っているつもりだったASCIIコードについて、あらためて見直してみると、実は当の意味をよく分かっていなかったことに気づいた。 ASCIIコード表 ASCIIコードは、7ビット(2進数7桁)の文字コードであり、全部で128のコードが定義されている。 最も基的な文字コードであり、その他多くの文字コードはこのASCIIコードと互換性を維持している。 00 10 20 30 40 50 60 70 00 NUL DLE SP 0 @ P ` p 01 SOH DC1 ! 1 A Q a q 02 STX DC2 " 2 B R b r 03 ETX DC3 # 3 C S c s 04 EOT DC4 $ 4 D T d t 05 ENQ NAK % 5

  • 1