タグ

文字コードに関するtekimenのブックマーク (66)

  • アスキーコード一覧 -- Key:雑学事典

    このページに関するご案内 この文書は Keyから 資料集とリンクを辿ると、当ページ ASCIIコード一覧に辿り着きます。 Site mapよりこのサイトの全体的な構造を把握できます。 索引よりこのサイト内にある任意のキーワードを含んだ文書を探すことができます。 この文書のURIはhttps://www.7key.jp/です。

  • 文字コード掲示板

    372 Unicode => eucJP-ms の対応について <成瀬> 2006/01/22(日) 05:00373 Re: Unicode => eucJP-ms の対応について <森山 将之> 2006/01/25(水) 12:14378 nkf 2.0.6 beta1 / no-best-fit-chars <成瀬> 2006/03/15(水) 23:32 Re: Unicode => eucJP-ms の対応について 成瀬さん、こんにちは。 返事が遅くなり申し訳ありません。 1. U+0080 - U+009F (eucJP-ms の C1集合) 当は、C1集合も変換するのが望ましいのかもしれません。 ただ、vim6 の filencodings 指定のように、列挙されている文字コードでファイルが開けるか否かで、文字コードの自動判定のような事を行う場合は、EUC の C1集合は

  • CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生

    新元号と文字コードの国際標準を巡って 一般社団法人文字情報技術促進協議会:小林龍生(こばやしたつお) 2019年は、平成最後の年として始まり、令和元年として暮れようとしている。論では、新天皇即位に伴う平成から令和への改元に係わる国際符号化文字集合UCS(ISO/IEC 10646:Universal Coded Character Set)(1)とUCSに対応する民間標準規格ユニコード(Unicode Standard)(2)を巡る2つの話題について論じる。 1. 令和の合字について 活版で印刷された新聞や書籍を見ると、しばしば、1字分のスペースに、複数の文字を鋳込んだ活字を目にすることがある。いわゆる合字と呼ばれるもので、リガチャーとも呼ばれる。 ただし、欧文のリガチャーは、羊皮紙の写などで用いられていた複数のアルファベットの簡略筆写法の残滓としての意味合いが強いが、日語活字の合

    CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生
  • Unicode 版美乳テーブルを探せ

    美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

  • 文字化けでよく出てくる漢字の意味を調べて愛でる

    1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。 前の記事:無糖の飲みものに砂糖を入れる > 個人サイト ほりげー インターネットは文字化けと共にある インターネットが普及して20年をゆうに超える。メール、添付ファイル、Webブラウザなど、様々な場面で我々は文字化けに苦しめられてきたし、今でもたまに苦しめられる。「文字が化ける」と書いて文字化け。そこにはお化けみたいで悪いイメージがあるが、それも仕方がない。読めないのだから。必要な情報が読めないのはシンプルに悪いことだ。 DPZの記事を無理やり文字化けさせてみると、こうなる。 でも、一方的に文字化けを避けていては、文字化けと仲良くなれない。文字が化けた先にあるのは文字だ。化ける前の文字ばかり愛していては、化けた後の文字がかわいそうではないか。我々は、化けた後の文字をもっと愛す

    文字化けでよく出てくる漢字の意味を調べて愛でる
  • I18N: 令の字にUNICODEのコードが2つあったはなし

    U+FA98 https://t.co/EQfIZ854DD は互換漢字,トラブルのもとです. たとえば, ・Twitterで使うと,U+FA98はU+4EE4に変わります. ・U+FA98とU+4EE4を(Ctrl+Fで)検索するときに同一視するかどうかはブラウザによります. お仕事がちょっと増えた人がいるかもしれません. pic.twitter.com/Ujg5dbXEN2 — Taro Yabuki (@yabuki) April 1, 2019 めでたく、新元号が「令和」となったわけですが、令に「令(U+4EE4)」と「令(U+F9A8)」が有る事がわかりました。とは言っても、基的に後者の方はCJK互換漢字に分類され、U+F900 – U+FA0Bは韓国の文字コード企画KS X 1001との往復変換を可能にするために追加された文字(一部文字はJIS X 0123と共有しているがこ

    I18N: 令の字にUNICODEのコードが2つあったはなし