タグ

文字コードに関するboyasanのブックマーク (18)

  • リアルタイム文字コード変換/解析ツール

    使い方 調査したい文字を入力してください。文字の種類によって色分けされ、文字コードとともに表示されます。

    リアルタイム文字コード変換/解析ツール
  • JIS第3水準漢字一覧表【全1259字】(JIS X 0213:2004)

    JIS第3水準漢字一覧表【全1259字】(JIS X 0213:2004) JIS漢字のうち、第3水準漢字だけを抜き出した使いやすい一覧表が無く、PDFとかしか無かったので、作りました。 JIS第3水準漢字は全部で1259字あります。めったに使うことはありませんが・・・ テキストエディタにコピペするなりして使って下さい。 漢字コードを直接 html に書きこんでいるので、うまく表示されない場合はOSとかフォントとかの環境がJIS拡張漢字に非対応ということです。(たぶん) (Windows Vista/Mac OS X 以降に同梱のフォントはJIS第3水準漢字に対応済みのようです。) ちなみに人名漢字としてよく使われる「﨑」や「德」はJIS第3水準漢字(それぞれ1面47区82点、1面84区37点)でですが、「髙」(はしご高)はJIS第3水準漢字ではなく、IBM拡張漢字です。 → まぎらわしい

    JIS第3水準漢字一覧表【全1259字】(JIS X 0213:2004)
  • Unicode対応 JIS X 0208 文字コード表

    Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。 文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区~08区 JIS非漢字(各種記号、英数字、かな) 13区~13区 NEC特殊文字(機種依存) 16区~47区 JIS第1水準漢字 48区~84区 JIS第2水準漢字 文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字 文字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

  • 約6万の漢字の文字コードが国際規格に--推進活動は延べ15年

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 情報処理推進機構(IPA)は12月25日、5万8861文字に及ぶ漢字の文字コードの国際規格化が完了したと発表した。国際標準化機構(ISO)が22日に発行したISO/IEC 10646の第5版に盛り込まれ、従来は外字作成などで対応せざるを得なかった漢字をコンピュータで扱えるようになる。 漢字の文字コードの国際規格化は、特に人名や地名などに使われる複雑な漢字の正確な表記をコンピュータで可能にすることを目的に、IPAや内閣官房IT総合戦略室、経済産業省らが2010年9月から推進してきた。実際には、コンピュータで必要な約6万の漢字を洗い出すことを目的とした2002年からの経済産業省の調査事業「汎用電子情報交換環境整備プログラム」がもとになってお

    約6万の漢字の文字コードが国際規格に--推進活動は延べ15年
    boyasan
    boyasan 2017/12/26
    “国際規格化には延べ15年を費やした。”
  • RLO ‐ 通信用語の基礎知識

    英語や現在の日語などは、横書きの際、左から右に向けて記述される。 これに対してアラビア語やヘブライ語などは、右から左に向けて記述する。このような言語のために用意されている制御文字である。 ISO/IEC 8859のうち、アラビア語用のISO/IEC 8859-6には無いが、ヘブライ語用のISO/IEC 8859-8にはRLOが用意されている。 実装により、英字などでもRLOで逆に表示される。これを悪用したファイル名の偽装が相次ぎ、問題となった。 例えば「X[RLO]txt.exe」というファイル名があったとすると、「txt.exe」の部分が逆に表示され「exe.txt」となる。結果、「Xexe.txt」となり、当はEXEファイルであるにもかかわらず、txtファイルであるかのように見えてしまう。 ファイル名にRLOが入ったファイルに実行許可を与えないなどの対策が必要である。

  • 5C問題とは ウェブの人気・最新記事を集めました - はてな

    Shift_JISでは、「ソ」「噂」など一部の字の2バイト目に、0x5C(Shift_JISでは¥記号、ASCIIなどではバックスラッシュ)を使用している。多くのプログラミング言語 (C、Perl、Bourne Shellなど多数) では、この0x5Cをエスケープ文字としている。したがって、ソースコードや文字データの処理においてShift_JISを想定していないプログラミング環境では問題が起こる。この問題は、同じように2バイト目の範囲に0x5Cを含むBig5や、まれではあるがGBKなどの文字コードでも発生しうる。UTF-8では0x5Cを含む文字は\(U+005C)が唯一なのでこの問題は起こらない。 また、0x5C以外についても類似の問題が発生することがある。たとえば、UnixやMS-DOSなどのシェル上で0x7C (Shift_JISやASCIIではバーティカルバー) を含む文字(−、ポ、

    5C問題とは ウェブの人気・最新記事を集めました - はてな
  • 文字コード変換ミスによる文字化けパターンと想定される原因 - drk7jp

    とあるシステムでデータベースから引いてきたデータの表示が文字化けするという不具合がありました。 データベース内のデータとしては文字化けしていない状態で格納されていることはわかっていたので、どこかしらの文字変換で化けていることはわかっています。まずはどの誤変換により文字化けするのか原因切り分けのために、decode/encode の組み合わせによる文字化けパターン一覧を作りました。おかげさまでどのパターンに類するものか判別することができ、無事に改修することができました。 その話はまた別にするとして、今も昔も変わらず文字化けに悩む人は意外と多いと思います。誤変換結果一覧は原因解析の参考になると思い、記事としてまとめることにしました。 文字コード変換ミスによる文字化けパターンを可視化するプログラムと一覧表 まずは誤変換を生成する perl スクリプトです。プログラムはとっても簡単で、「文字化けで

    boyasan
    boyasan 2013/04/09
    ぱっと見でアタリをつける用
  • Twitter時代の文字の数え方 | 配電盤

    入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」(任意の文字からなる0から3文字)のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記:javascript – でBMP以外のUnicode文字をきちんと扱う(404 Blog Not Found) JavaScriptでは、文字列strの長さをst

    boyasan
    boyasan 2013/03/29
    勉強になりました
  • 「突然の死」1行化プロジェクト(しっぱい!) - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    たとえば、こんなの(下図)を……*1 Safariのようなブラウザで見ると、改行が保障されずレイアウトが崩れてしまう(下図)。自分の環境であればスタイルシートで改行を有効にしたりできるのだけれど、他人様の環境はどうしようもない。 そこで、改行を含まない(上下の部品に結合文字を使った)「突然の死」を、いくつか試作してみた(下図)。A案はオリジナルを比較的忠実に再現したものだが、どうも迫力がない。そこで結合文字をさらに重ねて上下に伸ばしたのがB案。オリジナルに似せるのを完全に諦めてインパクトを重視したのがC案。いずれもエディタ上ではそこそこに見えるが、実際にツイートしてみると、どうだろう。 下図はMacTwitterアプリ。A案(中)の不等号が&gtや&ltになってしまうのはTwitterアプリのバグだろうか。C案(上)とB案(下)は、なかなかいいかんじ(?)。 下図はMacのSafari。

    「突然の死」1行化プロジェクト(しっぱい!) - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    boyasan
    boyasan 2012/09/26
    これが「_人人人_> 突然の死 <_      _ Y^Y^Y^Y 」問題か…
  • Maruta

    It seems we can’t find what you’re looking for. Perhaps searching can help. Search…

  • 幽霊文字 - Wikipedia

    幽霊文字(ゆうれいもじ、英:ghost letter)は、JIS基漢字に含まれる、典拠不明の文字(漢字)の総称。幽霊漢字(ゆうれいかんじ)、幽霊字(ゆうれいじ)とも呼ぶ。 河内𡚴原地区(滋賀県犬上郡多賀町)の地名看板。幽霊漢字「妛」は「𡚴」の誤字である可能性が指摘されている。 1978年に当時の通商産業省が制定したJIS C 6226(後のJIS X 0208)では、いわゆるJIS第1・第2水準漢字として6349字が規定された。この漢字集合を「JIS基漢字」と呼ぶ。このとき典拠として次の4つの漢字表に含まれる漢字が採用された[1]。 標準コード用漢字表(試案): 情報処理学会漢字コード委員会(1971年) 国土行政区画総覧: 国土地理協会(1972年) 日生命収容人名漢字: 日生命(1973年、現存せず) 行政情報処理用基漢字: 行政管理庁(1975年) しかし、制定当時は各

  • EC-CUBE 開発コミュニティ - フォーラム

  • EC-CUBE 開発コミュニティ - フォーラム

  • 「●」が小さく見えることがあるのはどうして? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    (ホー先生)Macの画面で「●▲■」の「●」と「■」だけが小さく見えることがあるのはなぜじゃ*1。 「●」と「■」が欧文フォントで表示されているからだよ。たとえばMacのFinderでは、ファイル名は「Lucida Grande優先」で表示される。Lucida Grandeは「●(U+25CF)」や「■(U+25A0)」のグリフを持っているけれど、「▲(U+25B2)」のグリフを持っていない。だから「▲」はヒラギノで表示されて、「●」と「■」だけが小さく見えるんだ。同じ理由で起きる現象としては、三点リーダの位置が下にズレたりすることも、よくあるよね。 Finder以外でもよくあるんじゃが。 Appleのソフトは世界共通の仕様なので、デフォルトは欧文フォントだよ(下図)。 日フォントを指定すれば、この問題は避けられるのか。 うん。Finderでは基的にフォントの変更はできないけどね。そ

    「●」が小さく見えることがあるのはどうして? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    boyasan
    boyasan 2011/04/19
    なんて簡潔でわかりやすい記事だ・・・
  • 空白文字が2種類あるから混乱するのだよ(全角空白じゃないよ)

    空白文字が2種類あることを知らなかったんですよね(^_^;) まず、空白文字についての話の前に、知っておくべきことから。 Javascriptで"a"という文字を表現する方法。 alert("a");//a alert("\x61");//a alert("\u0061");//a これを比較してみる。 alert("\x61" == "a");//true alert("\x61" == "\u0061");//true alert("\u0061" == "a");//true 正規表現ではどうだろう? var ret ret = /\u0061/.test("\x61");//true ret = /\u0061/.test("a");//true ret = /a/.test("\x61");//true ret = /a/.test("\u0061");//true ret =

  • ヒビノアワ: UTF-8のデータベースをmysqldumpすると文字化けする件

    MySQLのバージョンが5.0.22、でもって、データベースの文字コードがutf8_unicode_ci。 これをバックアップしたいなーと思って、mysqldump してみるんだけど、なんか、文字化けしてる。phpMyAdminでもエクスポートするといい感じの文字化け。 これじゃ、バックアップの意味ないじゃん! ってことで、調べてたらogawaさんのところで、発見! $ mysqldump -uUser -pPassword --compact --default-character-set=binary hageDb > hage.sql なるほど、バイナリにするのかー。 あと、latin1でもうまくいくっぽい。 なんにせよ、「--default-character-set」重要ということで。 メモ代わりにエントリ。

  • Dreamweaverで文字コードを変換する手順|情報備忘録

    HOME>情報備忘録>Dreamweaverで文字コードを変換する手順 Dreamweaverで文字コードを変換する手順 文字コードに打たれ弱いイメージがあるDreamweaver。それでも文字コード変更しなければならないときがあるのでしょーがない。 通常ファイルの場合 「修正」-> 「ページのプロパティ」-> 「タイトル/エンコーディング」 -> 「エンコーディング」で変更したい文字コードを選択。「適用」ボタンを押せばOK。 テンプレート適用ファイルの場合 基上記手順をテンプレートファイルで実行し、更新すればOKなはずだがうまくいかない場合があったので自分は下記のようにやっていた。 が、今さっきテストしてみたら上記手順で文字化けることはなく問題なさそう・・・ 上記でうまくいかない場合 「検索/置換」で変更したいファイルの文字コードを置換する。ファイルは開いたままだとテンプレート部分が変

  • 日本語のe-mail、ISO-2022-JP以外のcharsetを使うのは是か非か | スラド IT

    問題をよく考えましょう. 単独で動作するアプリケーションの話ではなく,不特定多数の相手との通信アプリケーション 直接に相手の(文字コードなどの)能力仕様を確認する手順を踏まずに, 仮定(相手が ISO-2022-JP 等を処理できると決めうち)の上でいきなり送りつける (SMTPによる MTA 間のやり取りはEHLO 等で仕様確認して調整する余地があるが, MUA間のやり取りは RFC822,RFC2822,RFC5322 などの仕様で書かれたものを,完全一方通行で送る) (とりあえず 8bit through かどうかはまた別の問題ということで置いておく) さてここで,歴史的に考えるとこんな感じになります. 原始時代: 英語? ローマ字?(私はよく知らない) pre-MIME時代: メッセージには JIS(≒ISO-2022-JP)を使うという プロトコル外の「共通の了解事項」を設定する

  • 1