タグ

文字コードに関するkochizufanのブックマーク (8)

  • MJ文字情報一覧表 変体仮名編(案)の公開 | 文字情報基盤整備事業

    文字情報基盤ワーキンググループ並びに文字情報基盤検討サブワーキンググループでの議論を踏まえ、299文字の変体仮名をまとめたMJ文字情報一覧表 変体仮名編(案)を作成し、公開しました。 MJ文字情報一覧表 変体仮名(案) 一覧表について、2015年6月30日から8月21日まで意見募集を行いました。 多数のご意見ありがとうございました。 意見募集結果(pdf) 頂いたご意見を踏まえ、MJ文字情報一覧表 変体仮名編 Ver.001.01を公開する予定です。さらに同一覧表に基づき、情報規格調査会を通し、変体仮名の文字符号を国際標準とする為の提案を行う計画です。 2015年10月21日のVer.001.01をリリースしました。詳細はこちら。 同一覧表および、変体仮名の標準化に対する考え方については、こちらをご覧ください。

    kochizufan
    kochizufan 2015/07/01
    うおおおこれは熱い
  • 正規化を使いたくても - yanok.net

    あるときJavaプログラムで、入力されたテキストデータに含まれる所謂「全角・半角」の区別を無視したいことがありました。例えば「RAM」という言葉が含まれていたら、所謂「全角」であろうが「半角」であろうがそれは同じ文字なので、重複符号化のせいにすぎないそういう非質的な区別は無視したいわけです。 当ならこれぞまさに正規化処理の出番で、JavaではUnicode正規化が簡単に使えるようになっているのですが、しかしUnicodeの正規化仕様はちょっと使いづらいところがある。 というのは、通常の正規化形式であるNFC, NFDはいずれも、「全角・半角」の区別をそろえてくれないので私の目的の役には立たない。一方、NFKC, NFKDはというと、「全角・半角」をそろえてくれるのはいいのだけど、三点リーダがピリオド3つになってしまうとか、記号類について余計なお節介をしてくれて何がどうなるのか正直私も覚

  • 1.2. Macのターミナルでのjavacコマンドの文字化け - 技術メモ

    Macのターミナルの文字コードはデフォルトでUTF-8になっているが、java内部の文字コードはShiftJISになっているので、javacのエラーメッセージなどが全く読めない。 $ javac Mandelbrot.java Mandelbrot.java:27: ?V???{???????‚????܂???B ?V???{??: ???\?b?h sqrt(double) ?ꏊ : Mandelbrot ?? ?N???X double d = sqrt( xn*xn+yn*yn ); ^ ?G???[ 1 ??

  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
  • ほら貝:文字コード 78JIS誕生秘話

    林大(はやし おおき)氏 国語学者。1913年生れ。東京帝大卒。文部省をへて、1976年から1982年まで国立国語研究所所長。国語審議会の委員として戦後の国語政策に深く関与する。 先駆的な情報処理学会試案 ――林先生は、JIS C 6226-1978(以下、78JIS)の文字セットの資料の一つとなった1971年の「標準コード用漢字表(試案)」(以下、「学会試案」と呼ぶ)の段階から、文字コードにかかわってこられたわけですが、この「学会試案」の策定にあたった「漢字コード委員会」はどんなものだったのでしょうか。資料によると、1969年12月に発足し、毎月一回会合を開き、1971年に「標準コード用漢字表(試案)」を完成したとありますが。 林 あれは情報処理学会規格委員会の和田弘さんから御相談がありまして、若い国語学者に声をかけたんです。国立国語研究所の田中章夫君、野村雅昭君などに集まってもらって、

  • OS X 10.8.2のMail.appで新種の文字化け - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    この項10月5日追記。OS X v10.8.2追加アップデート1.0により、次項以下で言及している文の文字化けは解消された(ローマ数字の「Ⅴ」が「㈸」に化けるのは仕様なので従来どおり)。アップデート後に受信したメッセージについては、文・件名ともに化けない。ただし、受信済みのメッセージについては、アップデート後に文の文字化けは直ったが、件名の文字化けは直らなかった(下図)*1。 OS X 10.8.2のMail.appでは、Windows外字入りのISO-2022-JPを受信すると、メッセージ全体が化けることがある*2。たぶん、下図ピンク地の文字が1つでも含まれていると、メッセージ全体が(まるでソースを表示しているように)化ける。 下図は、Thunderbirdから文に「ローマ数字のⅤ」「ローマ数字のⅥ」と書いたメールを送信し、OS X 10.8.2のMail.appで受信・表示した

    OS X 10.8.2のMail.appで新種の文字化け - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。 SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しかし、WindowsのIBM拡張文字領域とSoftBankの絵文字領域は、もともと衝突しており、共存できない。なので、SoftBank iPhoneのShift_JISでは、IBM拡張文字のうち下図ピンク部分が使えない。 だったらその分は、NEC選定IBM拡張文字のほうを使えばいいじゃないですか、どうせダブってるんだから(下図)。というのが、大ざっぱに言えば、SoftBank iPhoneのMailが用いるShift_JISである。 その外字領域をまとめると、

    SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 文字化け解読ツール「もじばけらった」

    ご利用に関する諸注意 サービスは smkn (From kiki verb) によって、”現状のまま” 提供されるものとします。サービスについては、明示黙示を問わず、商用品として通常そなえるべき品質をそなえているとの保証も、特定の目的に適合するとの保証を含め、何の保証もなされません。事由のいかんを問わず、損害発生の原因いかんを問わず、且つ、責任の根拠が契約であるか厳格責任であるか (過失その他) 不法行為であるかを問わず、smkn (From kiki verb) も寄与者も、仮にそのような損害が発生する可能性を知らされていたとしても、サービスの使用から発生した直接損害、間接損害、偶発的な損害、特別損害、懲罰的損害または結果損害のいずれに対しても (代替品またはサービスの提供; 使用機会、データまたは利益の損失の補償; または、業務の中断に対する補償を含め) 責任をいっさい負いません

    文字化け解読ツール「もじばけらった」
  • 1