タグ

文字コードに関するunaristのブックマーク (20)

  • I18N: 令の字にUNICODEのコードが2つあったはなし

    U+FA98 https://t.co/EQfIZ854DD は互換漢字,トラブルのもとです. たとえば, ・Twitterで使うと,U+FA98はU+4EE4に変わります. ・U+FA98とU+4EE4を(Ctrl+Fで)検索するときに同一視するかどうかはブラウザによります. お仕事がちょっと増えた人がいるかもしれません. pic.twitter.com/Ujg5dbXEN2 — Taro Yabuki (@yabuki) April 1, 2019 めでたく、新元号が「令和」となったわけですが、令に「令(U+4EE4)」と「令(U+F9A8)」が有る事がわかりました。とは言っても、基的に後者の方はCJK互換漢字に分類され、U+F900 – U+FA0Bは韓国の文字コード企画KS X 1001との往復変換を可能にするために追加された文字(一部文字はJIS X 0123と共有しているがこ

    I18N: 令の字にUNICODEのコードが2つあったはなし
  • Escape Codec Library: ecl.js

    このページはhttp://nurucom-archives.hp.infoseek.co.jp/digital/にあったものをiswebのサービス終了に伴い伊藤がコピーしたものです。 Shift_JISエンコードやEUC-JPエンコードなども可能な escape エンコード・デコード関数のライブラリ 文字列をすべてのコンピュータで読めるような形式に変換したり、変換されたものを元の文字列にデコードすることができる関数のライブラリです。 ビルトイン関数 escape() , unescape() とは異なり、どの種類のブラウザでも同じ変換結果が得られます。 JISコード変換テーブルを搭載し、従来JavaScriptでは実現が困難であった、Shift_JISコードやEUC-JPコードなどの文字コードとしてのエンコード・デコードも可能となっています。なお、この変換テーブルには、直接漢字は記述せず、

  • プログラミング言語における文字コードの話

    世の中がほぼUnicode前提になってめでたしめでたし。とはいかなかった現実の話。 String型でできる文字列処理とか、ソースコード自体、特に識別子で使える文字とか。 軽くおさらい: Unicode まあいろんなところでいろんな人が書いてると思うのでさらっと概要だけ。 Unicodeは、元々、「65,536文字あれば十分だろ」とかいう幻想の元、2バイト固定長の文字コードとして作られていました。 もちろん足りなくて、ビット数を拡張。基が2バイトのままでこの拡張した分を取り扱えるようにしたのが今のUTF-16で、拡張分は2文字分(4バイト)を使って表現。 この、2文字分使って1文字を表すやつのことをサロゲートペア(surrogate pair: 代理対)と呼びます。 あと、ASCII文字も2バイトになるのを欧米人が嫌って、ASCII文字はASCIIコードのまま、逆に漢字・ひらがな・カタカナ

    プログラミング言語における文字コードの話
  • 日本語文字コード

    フォームメール(mb_send_mail)php ジェネレーター オープンフォトライブラリー自由に画像を登録・紹介できます 文字コード(日語漢字コード表) 日語漢字コード表が、Shift-JIS、EUC-JP、JIS、UTF-8と複数存在する事から、 ホームページ作成・維持管理、データ収集をする上で、文字コードについての多くの諸問題が発生します。 その解決に少しでもお役に立てれば幸いです 文字コード表(実体) シフトJISコード表 Shift-JIS による一覧表 EUCコード表 EUC-JP による一覧表 JISコード表 JIS による一覧表 JIS X 0201 (1976) to Unicode 文字コード表 Shift-JIS による一覧表 JIS X 0208 (1990) to Unicode 漢字コード表 Shift-JIS による一覧表(UTF-8のコードはこちらにあり

  • Shift_JIS系文字一覧イメージとSJIS・MS932・CP943・SJIS2004の違い - instant tools

    語を扱える文字コードにはメジャーなものでUTF-8, Shift_JIS, EUC-JP, UTF-16, ISO-2022-JP(JIS)などがあります。 近年UTF-8を使う傾向が強まっていますが、今でもShift_JISは多用されています。 ところがこの「Shift_JIS」にはいくつかバリエーションがあります。 Shift_JIS系1バイト文字 Shift_JIS系の1バイト文字は、以下のようになっています。00~1F, 7Fは制御文字、20~7Eはアスキー文字です (SPACEはアスキー文字としても制御文字としても扱われることがあります)。 ここはUTF-8でもEUC-JPでもJISでも共通です。 A1~DFは半角カナが割り当てられています。半角カナを(エスケープシーケンス無しで) 1バイトで表現できるのはShift_JIS系文字コードの特徴です。 下位4ビット 012345

  • JavaScriptで文字コード変換ライブラリ作ってみた

    ↓動作サンプルを作りました 文字コード変換 動作サンプル Unicode の変換が可能になりました。 文字コード配列から URLエンコード/デコード が可能になりました。 あと説明とサンプルも少し載せました。。(説明不足でごめんなさい) こないだの 「JavaScriptだけでzipファイルの解凍 - Unzipper.js」が SJIS ファイルとかだと表示で文字化けするので、ついつい。。 動作確認は、zip ファイル解凍のデモページでわかると思います。 zip の中に SJIS や EUC-JP のファイル (ファイル名) がある場合でも UTF-8 表示で化けなければ問題なしです。 zip 解凍デモページ ↑のデモページを開いて、デスクトップなどから zip ファイルをドロップすると 解凍して結果のテキストを表示します。 ※ JavaScript だけで動いていて、どっかのサーバなど

  • http://www.cpa-lab.com/tech/0153

  • A composite approach to language/encoding detection

     Table 4. Korean Character Distribution Table 4.4. General characteristics of the distributional results: In all these four languages, we find that a rather small set of coding points covers a significant percentage of characters used in our defined application scope. Moreover, closer examination of those frequently used code points shows that they are scattered over a rather wide coding ra

  • C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ

    C#(.NET Framework)に限ったことではありませんが、汎用的にテキストファイルを扱うようなアプリケーションを作っていると、よく 特定の文字コードのファイルしか読み出せないのでは困る ⇒文字コードを自動判別し、テキストの内容を取り出したい 読み出したファイルと同じ文字コードでファイルを書き出したい ⇒読み出したファイルの文字コードを知りたい といった場面に出くわします。 ですが、C#(.NET Framework)標準のライブラリではそのような機能は提供されていないため、文字コードを判定するには、 自前で文字コード判定のロジックを実装する 出来合いの外部ライブラリ、Windows版NKF32.dll、ICU4Cなどを利用する IE用の文字コード判別ライブラリ(mlang.dll)を利用する ※COMコンポーネント呼び出し要 のいずれかの方法を取ることになります。 HNXgrepと

    C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ
    unarist
    unarist 2015/12/02
    よさげだけどNuGetにはないのかー
  • Visual Basicの全角キーワード

    Visual Basicでは、BASIC時代からずっとですが、アルファベットの大文字と小文字を区別しないことは皆さまもご存知かと思われます。 で、実は、大文字小文字だけじゃなくて、半角全角も区別しないという。以下のコード、コンパイルして実行することもできるし、Visual Studio上ではちゃんと、Moduleとかの部分が青色(キーワードの色)で表示されます。 Module Module1 Sub Main() Dim x = 10 Console.WriteLine(x) End Sub End Module まあ、今のVisual Studio上では、全角文字でキーワードを打つと、自動補完で打ったそばから半角CamelCaseに変換されていくんで、自動補完に直されるたびにCtrl+Zで元に戻したりしないとこのソースコードを作れなかったりはするんですが。 もちろんRoslynでもいまだ

    Visual Basicの全角キーワード
  • JIS X 0201 - Wikipedia

    JIS X 0201は、日産業規格 (JIS) の制定している文字コード規格で、初版は1969年6月1日の制定であり、現存のJISにおける最も古い文字コードである。規格名称は7ビット及び8ビットの情報交換用符号化文字集合。名称が示す通り、7ビット符号と8ビット符号での運用が予定されている。図形文字の集合を規定するための規格であり、JIS X 0211 (ISO/IEC 6429) で規定される制御文字集合と組み合わせて使用する。 現在の規格番号はJISの部門X(情報処理)の新設に伴って1987年3月1日に変更されたもので、旧規格番号はJIS C 6220。俗称はANKコードで、'ANK'はこのコードの主要構成文字であるアルファベット (Alphabet)、数字 (Numerical digit)、片仮名 (Katakana) の頭文字より来ている。 JIS X 0201はラテン文字用図形

    unarist
    unarist 2015/05/15
    "この区別のため、JIS X 0201の文字をJIS X 0208の文字の半分の幅で表示することが多い。このため、これらの文字を俗に半角文字、特に片仮名を半角カナとよぶ事が多い。"
  • Unicode – ものかの

    結合文字列を合成する処理を改善して、とくにユーザーが扱うテキストデータを直接に合成処理している5つのアプリをアップデートしました。アップデートをおすすめします。 浮紙8(8.4.5) 随所で FILL Id(1.2.1)...

  • Amazon.co.jp: プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESSプラスシリーズ): 矢野啓介: 本

    Amazon.co.jp: プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESSプラスシリーズ): 矢野啓介: 本
  • 文字コード:ほら貝

    文字コード問題を考える 加藤弘一 ◇ 新着案内 ◇ 主な変更履歴              Apr07 2000 ◇ 一太郎で使う異体字タグ         普請中 ◇ インターネットと漢字          Nov11 2004 ◇ 文字コード案内 ──どこから読むか?    Mar30 2000 ◇ 「文字コードから見た住基ネットの問題点」 Aug10 2002 ◇ 「アジアの多言語処理 」         Jun22 2002 ◇ 『図解雑学 文字コード』サポートページ  Aug10 2002 ◇ 『電脳社会の日語』サポートページ   May27 2000 ◇ 二千年紀の文字コード問題        Nov18 1999 「二千年紀の文字コード問題」掲載の経緯 ◇ 「超漢字」の「多国語」と称する機能について Mar26 2000 ◇ 多言語テキスト処理はどこまで可能か    Jun

    unarist
    unarist 2014/12/24
    「図解雑学 文字コード」の著者による文字コード話。1998〜2000年がメイン。
  • Microsoftコードページ932 - Wikipedia

    Template‐ノート:特殊文字に、このページに関する質問があります。(2023年1月) 質問の要約:Template:特殊文字で「Microsoftコードページ932(はしご高)」と書かれている場合があること この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2011年11月) 出典は脚注などを用いて記述と関連付けてください。(2011年11月) 出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日語に関連した文字集合との関係オイラー図 Microsoft コードページ 932(マイクロソフト コードページ 932

    Microsoftコードページ932 - Wikipedia
  • 文字コードの部屋 -- 機種依存文字の歴史

    大きな憂です。なんでもかんでもベンダーの責任にしてしまいがちですが、WindowsMac OS を眺めただけでは、よくわかりません。その前身である MS-DOS と 漢字 Talk までさかのぼることで、ようやく問題の質が見えてきます。 目次 機種依存文字とは何か? IBM とその互換機にまつわる歴史 … IBM 拡張文字 NEC とその互換機にまつわる歴史NEC 特殊文字、NEC 選定 IBM 拡張文字 Microsoft にまつわる歴史 Apple にまつわる歴史Apple 標準システム外字 まとめ 1. 機種依存文字とは何か? 来用意されていない、メーカやユーザが独自に作成した拡張文字を「外字」といい、古くからワープロなどで利用されてきました。近年、パソコン通信・インターネットなどのネットワークが普及することによって、OS を越えた文章のやりとりができるように

  • プレーンテキスト - Wikipedia

    この項目では、コンピュータ上で文章を扱うための文字列の形式について説明しています。暗号技術における暗号化アルゴリズムの入力データについては「平文」をご覧ください。 この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "プレーンテキスト" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2011年4月) 厳密にはASCIIのみ、さらに厳密には7ビットASCIIで構成された文書だけを指すが、パソコンが多言語化してさまざまな文字コードが扱われている現在では、特定の文字コードに準拠したバイナリファイルだと定義できる。ワープロで作成した文章とは違い、文字ごとの色や形状、文章に含まれる図などといった情

    unarist
    unarist 2014/09/05
    "Unicodeでは改行をU+2028で、改段落をU+2029で表している"
  • 文字情報基盤整備事業 | IPA 文字情報基盤整備事業に関するWebサイトです

    「文字情報基盤」成果物を一般社団法人文字情報技術促進協議会へ移管しました ~ 相互運用性のさらなる拡大へ ~ IPA(独立行政法人情報処理推進機構、理事長:富田 達夫)は、文字情報基盤整備事業成果物の今後の一層の普及・活用を図るため、フォント、文字情報一覧表等の提供・保守・活用促進を一般社団法人 文字情報技術促進協議会 (代表理事:小林 龍生)へ信託する契約を締結しました。IPAでは、2007年のIPAフォントの一般公開以来一貫して、環境を選ばず自由に使える日語文字フォントの開発と提供を進めてきました。これらの事業の成果物である、フォント、文字情報一覧表等を一般社団法人文字情報技術促進協議会による管理へ引き継ぐことになりました。一般社団法人文字情報技術促進協議会は、多くのIT、文字フォント関係企業が参加しており、「外字の無い世界」を目指し、文字に関わる相互運用性拡大のために一貫して活動し

    unarist
    unarist 2014/07/14
    IVDへの登録を受けて気づいたが、MJってMoji_Johoの略・・・!?
  • 国際規格 ISO/IEC 10646 の規定に基づく漢字字形データベースへの登録 ~文字情報基盤整備事業で整備された字形を新規に登録~

    I P S J プ レ ス リ リ ー ス I T S C J 情報処理学会 情報規格調査会 2 0 1 4 - 0 6 - 1 0 情報規格調査会 国際規格 ISO/IEC 10646 の規定に基づく漢字字形データベースへの登録 ~文字情報基盤整備事業で整備された字形を新規に登録~ 一般社団法人 情報処理学会 情報規格調査会(東京都港区 委員長:伊藤智)は,一般には Unicodeとしても知られる符号化文字集合の国際規格ISO/IEC 10646 国際符号化文字集合(Universal Coded Character Set: UCS)の規定に基づき,登録機関であるUnicode Consortiumが運用する漢字字 形データベース(Ideograph Variation Database: IVD)へ,新たな漢字字形指示列(Ideograph Variation Sequence: I

    unarist
    unarist 2014/07/14
    Moji_Joho collectionって名前・・・
  • もじもじカフェ 戸籍と住基とマイナンバーの文字コード - ちくちく日記

    もじもじカフェ第38回「戸籍と住基とマイナンバーの文字コード」に参加してきました。 もじもじカフェは「文字と印刷について市民と専門家・業界人がお茶を飲みながら気楽に話し合う」というイベント。 勉強会とかセミナーとは違って「お茶を飲みながら気楽に」というスタイルなので、会場もこぢんまりした喫茶店のようなところで、講師を中心に皆で大きなテーブルを囲んで話をするスタイル。 今回のテーマは「戸籍と住基とマイナンバーの文字コード」京都大学の安岡孝一氏を講師に現在策定が進められているマイナンバー制度などを文字コードの視点から説明してもらいました。 大変面白かったので、いつものようにレポートを。 このレポートは当日の安岡先生の話を私の手書きメモから書き起こしたものです。 聞き落とした部分もありますし、私が聞き間違えている可能性もあります。 大体こんな話だった程度の物と思ってお読みください。 もし何か間違

    もじもじカフェ 戸籍と住基とマイナンバーの文字コード - ちくちく日記
  • 1