タグ

textencodingに関するpenaltyのブックマーク (14)

  • JIS X 0208 の文字コード表

    JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区~08区 各種記号、英数字、かな 09区~15区 未定義(機種依存) (13区 NEC拡張外字) 16区~47区 JIS第一水準漢字 48区~84区 JIS第二水準漢字 85区~94区 未定義(機種依存) (89区~92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。 このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●JIS漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0   、 。 , . ・ : ; ? ! ゛ ゜ ´ ` ¨ 01区 2130 814F A1B0 ^  ̄ _ ヽ ヾ ゝ ゞ

  • JIS X 0213のコード対応表

    JIS X 0213とUnicodeの対応表 JIS X 0213の符号化方式とUnicode (ISO/IEC 10646 UCS)との対応表 (変換表) です。 機械可読なタブ区切りテキスト形式です。 自由に使用・配布・改変等していただけます。 Shift_JIS-2004とUnicodeの対応表 文字付き版: Shift_JIS-2004 / UTF-8 EUC-JIS-2004とUnicodeの対応表 文字付き版: EUC-JIS-2004 / UTF-8 ISO-2022-JP-2004とUnicodeの対応表 JIS X 0213:2004 漢字7ビット符号とUnicodeの対応表 JIS X 0213:2004 漢字8ビット符号とUnicodeの対応表 これらの表は、「JIS-UCS 変換表」にあるJIS X 0213:2000ベースの変換表を元にして、2004年改正を反映さ

  • シフトJIS X 0213文字一覧 8140-8FFF

    シフトJIS X 0213文字一覧 (1/4) 8040-8FFF  9040-9FFF  E040-EFFF  F040-FCFF 新漢字則(JIS X 0213:2004)に戻る トップに戻る

  • http://x0213.org/codetable/sjis-0213-2004-std.txt

    penalty
    penalty 2007/06/08
    jisx0213:2004とUnicodeのマッピング
  • PDF 千夜一夜: 2006年01月04日 アーカイブ

    PDFと文字(15) – CJK統合漢字拡張 UnicodeV4仕様書の付録A Han Unification Historyに漢字統合の歴史について書いてありますが、一般統合漢字の作成は中国、日韓国の関係者を集めたCJK-JRGという研究グループが行って、UnicodeコンソーシアムとISO 10646に提出したものです。 その後、CJK-JRGはISO/IEC JTC1/SC2/WG2の下の作業グループとなり、名前もIdeographic Rapporteur Group (IRG)と変わりました。UnicodeV3以降で統合漢字が拡張されていますが、この拡張作業はIRGが行ったものです。 また1994年にベトナムの規格を追加しています。 次に、Unicode4の仕様書文第11章East Asian Scriptsの統合漢字拡張と互換漢字についての説明を要約してみましょう。 統合

  • PDF 千夜一夜: 2006年02月03日 アーカイブ

    PDFと文字 (40) – Unicode標準形式NFCの問題点 昨日までで、Unicodeの標準形式NFCを使えば結合文字列を合成できそうなことは分かりました。しかし、便利なものには落とし穴もあるもの。NFCにもなにか問題があるに違いありません。 そこで、仕様書を少し詳しく検討してみましたところ、気になる点が出てきました。 (1) 合成除外文字の問題、特に、CJK互換漢字が別の文字に置換されてしまう件。 (2) Unicodeにコードポイントを持たない文字を指定したときの問題。 の二つです。 一方、ハングルの字母(Jamo)で表されたテキストをUnicode標準形NFCにすることで、ハングル合成文字(Johab)に変換できるというメリットもあるようです。 2006年01月18日PDFと文字(26) – ハングルの扱いで、ハングル音節文字(Johab)は字母からプログラムで合成できると書き

  • https://support.microsoft.com/ja-jp/help/827240

  • JIS X 0208 - Wikipedia

    出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。 記事の信頼性向上にご協力をお願いいたします。(2023年11月) オイラー図(JIS X 0208、JIS X 0212、JIS X 0213等の漢字集合) JIS X 0208は、日語表記、地名、人名などで用いられる6,879図形文字を含む、主として情報交換用の2バイト符号化文字集合を規定する日産業規格 (JIS) である。現行の規格名称は7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7-bit and 8-bit double byte coded KANJI sets for information interchange) である。1978年にJIS C 6226として制定され、1983年、1990年および1997年に改正された。JIS漢字コード、JIS漢字、JIS第1第2水準漢

    JIS X 0208 - Wikipedia
  • ISO/IEC 10646 - Wikipedia

    この規格は制定の一歩手前の段階までは、現在の姿とはかなり異なる仕様だった。4オクテットの符号であり、各オクテットをそれぞれ群、面、区、点とする。各面には従来のコントロール領域を避けた0x20 - 0x7Fと0xA0 - 0xFFの範囲に文字を割り当てる。その範囲にISO/IEC 2022に従った構造の各国コード(ISO/IEC 8859やJIS X 0208、GB 2312など)を平行移動してそっくり収容するという、従来のコード系との互換性を最大限に尊重した構成をとっていた。 この案は1990年に国際標準の一歩前の段階のDIS (Draft International Standard) として作成されたが、1991年6月の投票で否決された。その理由は、同じ時期にアメリカの企業群がUnicode仕様を作成したため、同じ目的の規格が2つ作られることを避けることだった。 その後、DIS 106

  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

    波ダッシュ・全角チルダ問題 - Wikipedia
  • 404 Blog Not Found:ajax - 文字化け判定表

    2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表 「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。 結城浩のはてな日記 以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました(←おい)。誰か作って…。というわけで、そっこーで作ったのが以下。 を で表示 漢字、カタカナ、ひらがなの入ったquery。 これはUTF-8で書かれたテスト 文字化けを解決することは 鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー 「Lightweight Languages」カテゴリの最新記事

    404 Blog Not Found:ajax - 文字化け判定表
  • JIS漢字コード:JIS第一・第二水準―文字コード入門―

    JIS漢字コードとは? 日の文字コード規格は、財団法人日規格協会が日工業規格(いわゆるJIS規格)の一つとして選定・公布しています。 正式名称は「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」になります(日規格協会の該当規格情報JIS X 0208の規格表・JIS X 0213の規格表)。もともとはJIS C 6226として制定されましたが、JISの情報部門の新設に伴ってJIS X 0208に規格番号が移動しています。 面区点番号 JIS漢字コードは、94×94のマス目を持つ二つの文字表で構成されています。前者を「第一面」、後者を「第二面」と呼びます。各表のマス目は94の区と94の点に分けられ、それぞれのマス目に一つの文字が収録されます。JIS漢字コードに収録される文字は、全て面・区・点の番号で個別に表現されます。 第1面-1区~7区(非漢字区画) ひらがな・カタカナ・記

  • EBCDIC - Wikipedia

    EBCDIC (英語: Extended Binary Coded Decimal Interchange Code[1]、エビシディック、拡張二進化十進コード[2]) はIBMにより定義された8ビットのコード化文字セットである[3]。ASCII普及前の1963年に、BCD(Binary-coded decimal、二進化十進コード)を拡張する形で作られ、主にIBM系のメインフレームやオフィスコンピュータなどで使用されている[4][5][6]。 IBMのCDRA(Character Data Representation Architecture; 文字データ表現体系)では、EBCDICは符号化方法(Encoding Scheme)の1つと位置づけられている[7]。各国語などの文字集合であるコードページを、EBCDICなどの符号化方式で符号化するが、EBCDICの符号化にもシングルバイト、

    penalty
    penalty 2007/01/18
    エビシディック
  • ASCIIとANK

    「b7」などの「b」はビットを意味します。例えば「b7」は7ビット目という意味です。例えば、「A」のASCIIコードは1000001ですが、これでは人間が覚えにくいので、文字コードは16進数で表現されるのが普通です。「A」のASCIIコードは16進数で「41」で、C言語やPerlなどのプログラミング言語では、「0x41」のように、先頭に「0x」を付けて表します。 ISO/IEC 646 ASCIIは、一部の文字を入れ替えるとヨーロッパ諸国でも使用可能なため、ISO規格「ISO/IEC 646 BCT(Basic Code Table)」となりましたが、その際に一部の文字を変更可能としました。そのため、国によって一部のコードに対応する文字が異なります。 日では、ISO規格は下記のANK(JIS X 0201)になり、16進コードの「5C」および「7E」のみが変更されました。そのため、AS

    penalty
    penalty 2007/01/12
    ascii 制御コード
  • 1