タグ

文字コードと文字に関するmn36555023のブックマーク (12)

  • 文字集合の包含関係とテストに使うべき文字 - miauのブログ

    先月あたりから文字コードまわりの調査をしていたので、そのことについて書こうと思ったのですが。もろもろの説明の前提としてエンコーディングに対する説明が必要で、エンコーディングの説明にはその対象となる文字集合についての説明が必要で・・・ということで、まずは文字集合についての概説です。 目的 冒頭に書いたように、私が行った文字コードまわりの調査結果を書くための前提部分の説明が目的ではあるんですが、もうひとつ目的がありまして。 Web を見てまわっていると、いくつかの文字を不適切に選んで「この文字で確認したらうまくいったから大丈夫」というように不十分な調査がなされている事例が多々ありました。せっかく調査結果をまとめてくれているのに不十分なせいで活用できない=同じ調査を再度行う、という残念なことになってしまっているので「今後調査/テストを行う際にどのような文字を抽出すればよいか」という基礎情報的なも

    文字集合の包含関係とテストに使うべき文字 - miauのブログ
  • Shift_JIS文化からUTF-8への移行ガイド - Qiita

    まだまだ場所によってはShift_JIS文化は根強く、2015年が終わろうとしている現在でも、「ようやく我が社もUnicodeでシステムを作ることを考えるっ!」なんてところは多くあるかと思います。 そんな現場で、これまでJavaでShift_JISでシステム構築してきたSIer向けのUTF-8移行ガイドです。 文字長のチェック 文字長の入力チェックはShift_JISの世界では、半角文字は1バイト、全角文字は2バイトなので、以下のようなチェックロジックになっていたかと思います。 if (inputValue.getBytes("Windows-31j").length > 20) { errors.add("hoge", new ActionMessage("errors.maxlength", "ほげ", 10)); } UTF-8ではそれらの文字は、1バイト~3バイトで表されるので、バ

    Shift_JIS文化からUTF-8への移行ガイド - Qiita
  • A Spectre is Haunting Unicode

    In 1978 Japan's Ministry of Economy, Trade and Industry established the encoding that would later be known as JIS X 0208, which still serves as an important reference for all Japanese encodings. However, after the JIS standard was released people noticed something strange - several of the added characters had no obvious sources, and nobody could tell what they meant or how they should be pronounce

    A Spectre is Haunting Unicode
  • 漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社

    きっかけ 以下のツイートで「埼玉埼⽟問題」と康煕部首を知りました。 「埼玉」と「埼⽟」の話。unicodedata.normalize('NFKC', '「埼玉」と「埼⽟」') でいけそう https://t.co/kte0sxDvZT — Haruhiko Okumura (@h_okumura) July 11, 2020 康煕部首とは ⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕ KangXi Radica

    漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社
  • CJK統合漢字 - Wikipedia

    CJK統合漢字(シージェーケーとうごうかんじ、英: CJK unified ideographs)は、ISO/IEC 10646(略称:UCS[1])およびUnicode(ユニコード)にて採用されている符号化用漢字集合およびその符号表である。CJK統合漢字の名称は、中国語(英: Chinese)、日語(英: Japanese)、朝鮮語(英: Korean)で使われている漢字をひとまとめにしたことからきている。 CJK統合漢字の初版であるUnified Repertoire and Ordering第二版は1992年に制定されたが、1994年にベトナムで使われていた漢字も含めることにしたため、CJKV(CJKV統合漢字)と呼ばれることもある。CJKVは、中国語・日語・朝鮮語・ベトナム語(Vietnamese) を表す英語の頭文字である。特にその四つの言語で共通して使われる、または使われて

    CJK統合漢字 - Wikipedia
  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

    波ダッシュ・全角チルダ問題 - Wikipedia
  • Unicode 文字テーブル - すべての Unicode 記号とそのコードを 1 ページに掲載 (◕‿◕) SYMBL

    「矢印、数学記号、絵文字、象形文字、古代の文字を含む、約50万種類の記号が利用可能です。各記号はテーブル内で指定されたセルに配置されています。ユニコード文字の多種多様なバリエーションを探るためには、下にスクロールしてご覧ください。または、右側のブロックナビゲーションを使うと、各文字ブロックがテーブル内で17の面に分けて範囲を占める様子を確認できます。例えば → 矢印 を試してみてください。気に入った文字にマウスオーバーをするとその名前が表示されるか、それをコピーできます。記号の名前をクリックすると、それを研究するための別のページに進むことができます。」

    Unicode 文字テーブル - すべての Unicode 記号とそのコードを 1 ページに掲載 (◕‿◕) SYMBL
  • 文字化けすると糸偏の漢字がよく出てくるのはなぜですか? - 特に、糸偏に「連」(正字体)、糸偏に「雲」、糸偏に「間」(正字体)の... - Yahoo!知恵袋

    偶然ではございません、しっかりとした理由がございます。 少し難しい話になりますが、 UTF-8という文字コードと呼ばれるものをShift_JISという文字コードで読み込んだり表示したときに「縺」や「繧」「繝」となってしまいます。 原因は解釈の違いで、 「あ」という文字は UTFでは「E38182」と解釈しますが、 Shift_JISでは「E381 82**」(JIS番号1-69-65 *)と解釈が異なってしまいます。 この解釈が違った状態で表示出力するとちょうど漢字のバイトコードの最初に2バイト分が「縺」という文字となり、残りのバイトが「*」と表示され、 最終的に「縺*」と表示されます。 「縺ア」や「縺カ」も同じで、残りのバイトを解釈すると半角カタカナに該当するので「ア]や「カ」となって表示されます。 参考: http://dic.nicovideo.jp/a/縺 http://dic.n

    文字化けすると糸偏の漢字がよく出てくるのはなぜですか? - 特に、糸偏に「連」(正字体)、糸偏に「雲」、糸偏に「間」(正字体)の... - Yahoo!知恵袋
  • Unicode一覧表

    Unicode(UTF-8)の文字コード表を出力します。区分名に「*」が付いているものは合成用文字です。 表示: 【使い方】 左肩の区分メニューをクリックすると、その区分にある文字を一覧表で表示します。 一覧表の文字やコード番号をクリックすることで、上記フォームに文字が入力表示されます。 様々な機器で見比べることでフォントの違いを比較することが出来ます。 ブラウザの設定や、OSに組み込まれたフォントの仕様によって表示される文字が異なります。 文字コードを調べたいときは、フォームに文字を入力し、検査ボタンを押してください。 コード表の右上にあるURLをクリックするとURLの後ろに#で始まるハッシュがつきます。そのURLをブックマークすることで、表示の区分を直接開くことが出来ます。 【ご注意】 全コードの出力はかなり大きな表となるため、ブラウザの動作が遅くなったり、動かなくなる場合があります。

  • 一風変わった見た目の文字を簡単にTwitterに投稿できる「PlainStyle」を使ってみた

    ギリシャ文字や筆記体などUnicodeの一風変わった見た目の文字を簡単にツイートできるのが「PlainStyle」です。プレーンテキストの文章を一部分だけ特殊な文字に変えて、インパクトのあるツイートをしたいときなどに役に立ってくれます。 PlainStyle | シャポ庫 http://www.shapoco.net/plainstyle/ ◆使い方 「PlainStyle」にアクセスして、入力フォームにアルファベット文字を入力します。ここでは「GIGAZINE」と入力して、「Default」の隣にある「太字」のボタンをクリック。 入力した「GIGAZINE」の文字が太字に変わります。ここで「Tweet」ボタンをクリックすると…… Twitterの投稿画面が表示されるので、「ツイート」ボタンをクリック 太字で「GIGAZINE」をつぶやくことができました。 「PlainStyle」を使わず

    一風変わった見た目の文字を簡単にTwitterに投稿できる「PlainStyle」を使ってみた
  • 文字化けでよく出てくる漢字の意味を調べて愛でる

    1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。 前の記事:無糖の飲みものに砂糖を入れる > 個人サイト ほりげー インターネットは文字化けと共にある インターネットが普及して20年をゆうに超える。メール、添付ファイル、Webブラウザなど、様々な場面で我々は文字化けに苦しめられてきたし、今でもたまに苦しめられる。「文字が化ける」と書いて文字化け。そこにはお化けみたいで悪いイメージがあるが、それも仕方がない。読めないのだから。必要な情報が読めないのはシンプルに悪いことだ。 DPZの記事を無理やり文字化けさせてみると、こうなる。 でも、一方的に文字化けを避けていては、文字化けと仲良くなれない。文字が化けた先にあるのは文字だ。化ける前の文字ばかり愛していては、化けた後の文字がかわいそうではないか。我々は、化けた後の文字をもっと愛す

    文字化けでよく出てくる漢字の意味を調べて愛でる
  • pͪoͣnͬpͣoͥnͭpͣa͡inͥを支える技術 - Qiita

    pͪoͣnͬpͣoͥnͭpͣa͡inͥの作り方 ぽんぽんぺいんを簡単に作るサイトを作ったのでよかったら使ってみてください。 【ここをクリック】 ponponpain(haraita-i)とは 画像でいうとこんなやつのこと。 今回参考にさせていただきましたが、以下のサイトによくまとまっていると思います。 不思議な文字 pͪoͣnͬpͣoͥnͭpͣa͡inͥ | bison's brain at postachio ぽんぽんぺいん ‐ 通信用語の基礎知識 まあ要するに、不思議な上付き文字を組み合わせて、文字に副題(ルビ)をふろうって感じの遊びのことで、昔流行ったみたいです。 今回はクリックだけで上付き文字を加えられるサイトを作ったのでぜひみんなに遊んでほしいなと思っています。 投稿について UbuntuのChromeだと綺麗に表示されないのですが、Twitterだといい感じになるみたいです。

    pͪoͣnͬpͣoͥnͭpͣa͡inͥを支える技術 - Qiita
  • 1