タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

文字コードに関するhohoho_ho2005のブックマーク (16)

  • (プログラマのための) いまさら聞けない標準規格の話 第1回 文字コード概要編 | オブジェクトの広場

    プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第1回は文字コードの概要編です。 0. はじめに 業務システムを開発する場合、プログラミング言語、フレームワーク、ミドルウェア、業務知識など以外に、共通で必要となる知識があります。文字コード、国際化、日付・時刻の扱い、住所コード、郵便番号、電話番号などの各種コード、…。 連載では、プログラマがシステム開発で必要となる、技術と業務の狭間の共通知識を解説して行きたいと思います。 連載第1回は文字コードの概要編です。コンピュータシステムにおいて、文字情報は文字コードを用いて処理されます。文字コードとは、各文字に対応付けられた数値 (符号) のことです。近年、新規に開発される業務システムでは Unicode が使われることが多いと思いますが、既存システムとの連携など他の文字コードが使用されることもまだま

    (プログラマのための) いまさら聞けない標準規格の話 第1回 文字コード概要編 | オブジェクトの広場
  • 符号化文字集合と文字符号化方式 - 「プログラマのための文字コード技術入門」を読んだ - $shibayu36->blog;

    最近文字コード周りでハマった時に、文字コードというものをそもそもちゃんと分かってないと気づいた。そこで「プログラマのための文字コード技術入門」を読んで勉強してみた。 プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ) 作者:矢野 啓介技術評論社Amazon このはコンピュータにおける文字について体系的にまとめてくれている。ASCIIやLatin1、UTF-8やUnicodeについて、どういう分類で何のために使われているかを知ることができる。また、歴史も合わせて教えてくれるので、今現状起こっている問題(円マークとバックスラッシュ問題とか)がどういう経緯で起こってしまったのかなどを理解できる。 簡単な文章で書かれているので、一度でも文字コードに関係することでハマったことのある人なら、どんどん読めると思う。ただ、符号化文

    符号化文字集合と文字符号化方式 - 「プログラマのための文字コード技術入門」を読んだ - $shibayu36->blog;
  • 全角チルダ問題

    株式会社メルカリ様で行われた第2回CircleCI ユーザーコミュニティミートアップでの資料です。 #circlecijp

    全角チルダ問題
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • なんたら統一文字の面積比の正確な図 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    戸籍統一文字、住基ネット統一文字、登記統一文字に含まれる漢字の数について、面積比が正確になるように図を描いてみた*1。 法務省が戸籍のオンライン手続きのために整理した文字集合が、戸籍統一文字。この戸籍統一文字を拡張した文字集合が登記統一文字であり、拡張部分を登記固有文字と呼ぶ。図にすると、こんなかんじ。 総務省の住民基台帳ネットワーク統一文字(住基ネット統一文字)には、法務省の戸籍統一文字・登記統一文字との互換性はない。図にすると、こんなかんじ。 この図に、JIS X 0208とJIS X 0213も入れてみる。住基ネット統一文字は基的にJIS X 0213ベースだが、「JIS X 0213に含まれていて戸籍統一文字に含まれていない漢字」は、けっこうある。 IPAの文字情報基盤整備事業が対象としているのは、オレンジ色の枠で囲んだ部分。登記固有文字がんばれ。 *1:使っている数字は、『汎

    なんたら統一文字の面積比の正確な図 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 【社内勉強会】文字コード入門 理論編|TechRacho by BPS株式会社

    最近社内で文字ものEPUBを扱う機会が増えてきたため、IVS/IVDやJIS X 0213の会話が飛び交うようになってきました。 そこで理解のベースアップとおさらいのために、今週の社内勉強会は「文字コード入門」を開催しました。 概要 用語と解説 文字集合(Character Set)と文字エンコーディング(Character Encoding Scheme)、符号位置(Code Point)と実際のバイト列の違い 色々な符号化文字集合と含まれる文字 クイズ ブラウザアドレスバーのこの日語、エンコーディングはどれ? 7bit文字エンコーディングはどれ? ASCII互換エンコーディングはどれ? バイト列から文字長を求められるのはどれ? UTF-8の最大バイト数は? 実際に存在する標準規格はどれ? まとめ Webアプリを作る程度では、文字コード関連はよく分からず適当にやっても「なんとなく動く」

    【社内勉強会】文字コード入門 理論編|TechRacho by BPS株式会社
  • モバイルサイトを構築するための文字コード知識 - Y's note

    はじめに 携帯キャリア向けのサイトを作っている時に必ず発生する文字コード問題(主に文字化けやByte数問題)。この記事では文字コード(文字集合、符号化)に対する内容についても触れつつ、モバイルサイト作りで注意すべき点について詳しく記述する。 そもそも文字コードとは 以下では簡単に説明する。 一つずつの文字を表すためのByte列表現であり、Byte列表現と文字の対応関係でもある。 別の言い方をすると文字コードとは各種文字についての符号の番号を独自の順序と計算式で示したByte列表現。 言語の文化と密接な関係を持っており、例えば英語圏、アジア圏でそれぞれ固有の文字コードが制定されるが、コンピュータ上で正常に表現できない言語も多い。 日語を表現する有名な文字コードとしてはISO-2022-JP(JIS)、EUC-JP、Shift_JIS、UTF-8などである。 1バイト系文字コード(シングルバ

    モバイルサイトを構築するための文字コード知識 - Y's note
  • シフトJISの闇を訪ねる旅

    小形克宏 @ogwata 相変わらずシフトJISについて調べているわけだが、先日の文字の学校で狩野さんから「『CJKV』第2版ではシフトJIS関連がばっさり削られているんですよね」との情報を得て、ひょっとしたらと一番最初の版『日語情報処理』(1995年、ソフトバンク)を見てみたら、これが一番詳しい! 小形克宏 @ogwata さすが1995年のだけあって、ベンダーごとの実装差は必要不可欠。新しい版が出たらかといって、古い版を捨てなくてよかった…と書いたところで、Facebook経由で安岡さん曰く「でもミスも多い!」だそうです。しょぼん。 小形克宏 @ogwata そうか、EPSONの98互換機は単純にJIS83だと思っていたけど、符号化文字集合としては78JISにJIS83の追加分を加え、レパートリにJIS83例示字体を採用というややこしい実装なのね。つまりJIS83における追加はサポ

    シフトJISの闇を訪ねる旅
  • Windows 8のIVS実装についてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    関連するエントリのインデックス。タイトルだけでは中身がわかりにくかったりするので、こういう形でまとめておくことにした。基的に、説明は上から順に読んでいただくのがいいかと。 説明(対話形式) MS122とは何か(昔のグリフで出ています) VistaにおけるMS明朝の字形変更(俺のMS明朝がこんなに可愛いわけがない) MS明朝・MSゴシックのIVS実装(人生がときめくWindows 8のIVS実装) メイリオのIVS実装(もし田村ゆかりがメイリオの実装に突っ込んだら) Windows 8のIVS実装一覧表 HTML版 画像版

    Windows 8のIVS実装についてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • テキストファイルの文字コードの変換ツール - 開発の風景 〜KKZのSE日記〜

    Shift-JISからCP930(IBM930)へのテキストファイル変換が必要になったので、Javaでいろいろ試したものの、手続きがめんどくさかったり、マルチバイト文字列とかがうまく変換できなかったり、トラブルが多い(;´∀`)。 Unix環境なら色々と選択肢もあるかと思いますが、Windows環境で手軽にイケる手段が割と少ない。 vbsによる変換ではUTFやSJIS,EUCなどの代表的な文字コード間の変換はできるものの、マイナーな文字コードには対応してなかったりして意外と面倒なんですよね。 んで、Groovyで同じ処理を書いてみました。 // 引数が4つでない場合、Usageを表示 if(args.length != 4){ println "Usage:" println "groovy FileEncodeConverter.groovy inputFile inputCharset

    テキストファイルの文字コードの変換ツール - 開発の風景 〜KKZのSE日記〜
  • 人生がときめくWindows 8のIVS実装 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    皆さんこんにちは、片づけコンサルタントのこんまり先生です。 いきなりの個人名詐称……。 今日は、Windows 8のIVS実装について説明するわよ。 「わよ」? 最初に結論を言っちゃうと、Windows 8のMS明朝・MSゴシックがIVSでサポートしているのは、MS122から「筵」を引いて「濹」を足した122文字ね。 ん? 以前のエントリでも言ったように、Windows Vistaで変更された文字のうち、jp90タグやJIS90互換フォントパッケージによって昔のグリフに戻せる122字を、MS122と呼ぶんだけどね。 MS122はいいんですけど、そこからまた引いたり足したりするんですか? うん。 じぁあまず、マイナス分の「筵」は、何なんですか? MS122のうち「喩」と「筵」については、XPグリフがJIS90の例示と一致しないんだよね。 ホントだー。 だから「喩」と「筵」のXPグリフ(JIS

    人生がときめくWindows 8のIVS実装 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 電書時代の文字コードを考える(ための資料)

    自家製資料いろいろ 文字コード体系(サマリ) JIS文字コード表 JIS X 0213全漢字一覧(1-4水準 10050文字) UTF文字コード表 部首別漢字コード表 Adobe-Japan1のJIS外Unicodeマッピング文字一覧 文字テストEPUB Adobe-Japan1 IVS異体字一覧 Source Han Sansフォント特設ページ 漢字これくしょん 康熙字典EPUB版 Google Notoフォントグリフ一覧(CJK以外) macOS Sierra で最初から入ってる日フォント一覧 Unicode変体仮名フォント **new** 実験ツール 文字コードチェッカー 青空UTF IVS異体字メーカー 顔文字デコーダ Unicodeデコーダ (文字列からUnicodeコードポイントを表示) Unicodeマップ (全Unicodeのマップ。表示できるグリフはフォントに依存しま

  • 昔のグリフで出ています - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    今日はWindows 8のMS明朝における122字のIVS実装について説明しようと思ってたんだけど……。 気が変わったんですか? 話が長くなりそうなんで、詳しいことは後日に回して、今回は説明のカギになる「MS122」という文字集合に焦点を絞って語ってみようかと。 「MS122」ですか? トラック野郎が荷台に貼ってるお茶目なステッカーの「人110」と、ちょっとだけ似てますね。 あー、こないだそれ貼ってるトラック見た見た! 正確には「美人110番の車」な。って、「MS122」と、ひとかけらも似てないだろが! まさかのノリツッコミ。 まず、基を押さえておくとWindows Vistaでは…… 強引な軌道修正。 ……JIS X 0213:2004の例示にあわせる方向で、MS明朝の字形を変更したわけだ。 はいはい。それが122字だったんですね? まあ、落ち着こうぜ。変更された字は、漢字だけでも

    昔のグリフで出ています - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Web技術勉強会 第34回

  • 80〜90年代のシフトJISの諸方言について

    PCの黎明期には、各社がシフトJISにベンダ外字セットを独自に付け加えていたものでした。ついこの間のことだと思っていたら、今それらの機種依存文字の詳細を調べようと思うとなかなか骨なようです。

    80〜90年代のシフトJISの諸方言について
  • 文字コードのお話

    社内勉強会の資料 http://blog.flect.co.jp/labo/2012/10/post-7bb1.htmlRead less

    文字コードのお話
  • 1