タグ

文字コードに関するtksthdnrのブックマーク (18)

  • Unicode―文字コード入門―

    Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、MicrosoftApple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

  • Unicodeについて

    Maxyは、Unicode対応のテキストエディタです。 ところで、そもそもUnicodeって何なのでしょうか。 UnicodeとUTF-8とかUTF-16との関係は? そのあたりのことを簡単に説明していきます。 文字コードとは 日語を扱うには? 文字化け 多言語の混在 Unicodeの誕生 サロゲートペア エンコード方式 BOM そして今… 資料 文字コードとは まずは基中の基だけど、(現在のところ)コンピュータが扱えるのは数値のみという大前提がある。 何をするにも数値をいじるしかない。 きれいなCGも、優雅な音楽も、つまるところ数値なわけだ。 「ここに100を書き込んで、ここに150を書き込んで…」と、コンピュータが必死になっていろんなところに数値を書き込んだ結果としてCGが表示されたり音楽が流れたりするわけ。 そんなわけだから、当然コンピュータ内で文字を表現するにも数値が必要で、

  • サロゲートペア入門

    はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicodeでデータ処理

    サロゲートペア入門
  • UTF FAQ

    Last update: 2014/08/09 (c)2000-2003,2007,2013-2014 seclan. All rights reserved. Homepage: http://seclan.dll.jp/ E-mail: seclan[ここはアトマークに置き換えてください]dll.jp Q. UTF って何? Unicode (または UCS) Transformation Format の略語です。今のところ、UTF-1, UTF-2, UTF-5, UTF-6, UTF-7, UTF-8, UTF-9, UTF-16, UTF-17, UTF-18, UTF-32 があります。しかし、実際使用されているのは、UTF-8, UTF-16, UTF-32 です。 Q. UCS って何? Universal Character Set の略語です。ISO 10646 の文

  • 文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

    UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。 文字コードとは何か? 文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。 この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。 以上!と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。 文字コードの構成要素 文字コードの世界は以下の2つの要素で構成されている。 この違いを意識しておかないと混乱を招くだろう。 (1).文字集合 – 表現したい文字の範囲(”あ”、”い”・・・といった文字の集合体) (2).符号化方式 – 文字集合を構成する個々の文

    文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して
  • Windowsの機種依存文字

    Windowsでは、JIS基漢字(JIS X 0208)コードの保留領域である09区〜15区および85区〜94区の一部、ならびに、JIS漢字の範囲外である95区〜114区の一部に、機種依存文字を配置しています。これらの文字は、このままインターネットで使用してはいけませんが、ユニコードに含まれていれば、文字参照を用いて記述できます。 NEC機種依存文字 PC-9800シリーズなど、NECのパソコンが日で主流だったころに独自に定義されていた文字が13区に割り当てられています。 Windows以外のコンピュータをお使いの方は、画像ファイルでご覧ください。 区点 JIS SJIS +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 13区 2D20 873F

  • 文字化け解読ツール「もじばけらった」

    ご利用に関する諸注意 サービスは smkn (From kiki verb) によって、”現状のまま” 提供されるものとします。サービスについては、明示黙示を問わず、商用品として通常そなえるべき品質をそなえているとの保証も、特定の目的に適合するとの保証を含め、何の保証もなされません。事由のいかんを問わず、損害発生の原因いかんを問わず、且つ、責任の根拠が契約であるか厳格責任であるか (過失その他) 不法行為であるかを問わず、smkn (From kiki verb) も寄与者も、仮にそのような損害が発生する可能性を知らされていたとしても、サービスの使用から発生した直接損害、間接損害、偶発的な損害、特別損害、懲罰的損害または結果損害のいずれに対しても (代替品またはサービスの提供; 使用機会、データまたは利益の損失の補償; または、業務の中断に対する補償を含め) 責任をいっさい負いません

    文字化け解読ツール「もじばけらった」
  • layer8.sh

    This domain may be for sale!

  • データ変換ツール(BASE64, URLエンコード(URLデコード), HEX(16進ダンプ), MD5, SHA-1変換フォーム)

    BASE64, URLエンコード, HEX(16進数ダンプ)等のデータを相互変換するツールです。 MD4, MD5, SHA-1, SHA-256等のアルゴリズムでメッセージダイジェスト/ハッシュ値を取得することも可能です。 使い方の詳しい説明は、このページの下の方をご覧ください。

  • (Linux)viで文字コードを指定してテキストファイルを開く | old_3流プログラマのメモ書き

    wget でダウンロードした html を普通に vi ファイル名 で開くと文字化けしました。 ということで、vi で文字コードを指定してファイルを開く方法です。 ShiftJIS で開く $ vi -c ":e ++enc=cp932" index.html EUCで開く $ vi -c ":e ++enc=euc-jp" index.html UTF8で開く $ vi -c ":e ++enc=utf8" index.html "vi ファイル名" で開いた後に 「:e ++enc=文字コード」 でも構わないみたいですね。 参考: Deginzabi163’s Blog:[覚書]vimでsjisのファイルを開いたら文字化け。対処法は? Greenbear Laboratory - Vim覚え書き:

    (Linux)viで文字コードを指定してテキストファイルを開く | old_3流プログラマのメモ書き
  • iPhone: テキストファイルの文字コードを調べる | mthr Blog+

  • 文字コードに起因する脆弱性とその対策

    4. 徳丸浩の自己紹介 • 経歴 – 1985年 京セラ株式会社入社 – 1995年 京セラコミュニケーションシステム株式会社(KCCS)に出向・転籍 – 2008年 KCCS退職、HASHコンサルティング株式会社設立 • 経験したこと – 京セラ入社当時はCAD、計算幾何学、数値シミュレーションなどを担当 – その後、企業向けパッケージソフトの企画・開発・事業化を担当 – 1999年から、携帯電話向けインフラ、プラットフォームの企画・開発を担当 Webアプリケーションのセキュリティ問題に直面、研究、社内展開、寄稿などを開始 – 2004年にKCCS社内ベンチャーとしてWebアプリケーションセキュリティ事業を立ち上げ • その他 – 1990年にPascalコンパイラをCabezonを開発、オープンソースで公開 「大学時代のPascal演習がCabezonでした」という方にお目にかかること

    文字コードに起因する脆弱性とその対策
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • PHPでマルチバイト対応のtrim関数を作る - hnwの日記

    (2009/06/29)追記4:記事のmb_trim関数が動かない環境があったので、詳細を「PCREはUnicode文字プロパティをサポートするとは限らない」にまとめました。よりポータブルなmb_trim関数も紹介していますので、併せてご覧ください。 追記:「mb_ereg_match('^[\0[:space:]]+$', $str);」で、今回pregで作った正規表現'/^[\s\0\x0b\p{Zs}\p{Zl}\p{Zp}]+$/u'と同一になりました。mb_regex_encoding関数が使える分だけmb_ereg版の方が使い勝手も上です。ちょっとショック。 (2009/02/24 17:00)追記2:もっと簡潔に、「mb_ereg_match('^[\0\s]+$', $str);」でいいことがわかりました。POSIX正規表現風の表記がキモいな、と思っていたので、これは素晴

    PHPでマルチバイト対応のtrim関数を作る - hnwの日記
  • 文字列 → 数値実体参照変換

    入力した「文字列」を数値実体参照の形に変換します。 入力された文字列はサーバに送信されません。 (基的にはローカルで処理されます。) 文字列

  • PHPの文字化けを本気で解決する - ぎじゅっやさん

  • ウノウラボ Unoh Labs: 日本語とPHP

    yamaokaです。 PHPで日語を扱う場合、mbstringモジュールを利用する場合が多いと思います。 日語に特有の機能(カタカナの全角/半角変換など)も備わっていて、とても便利です。 しかし、日以外ではmbstringモジュールはあまり利用されていないようです。 代わりに利用されているのがiconvモジュールで、 最近話題のフレームワーク、symfonyでも 国際化の機能を実現するために内部で利用されています。 iconvモジュールはPHP 5でPHP体に組み込まれました。 別途用意して組み込む必要があるmbstringモジュールと違って、最初から使用できるので便利ですね。 PHPのマニュアルのiconv関数のページを見ると、 いくつかの関数が定義されているのがわかります。 それぞれ、mbstring関数との 対応表を作ってみました。 iconv関数mbstring関数

  • HTMLの特殊文字 : IT用語辞典

    HTMLの文字実体参照 ASCII文字コード 記号・特殊キーの読み方 ギリシャ文字・キリル文字 HTMLで使われる文字実体参照の表記一覧です。OSやWebブラウザの種類によって一部正しく表示できない場合があります。 一般的な記号など 字実体参照数値参照名称・解説 &&&アンパサンド ¦¦¦破断縦線 µµµマイクロ記号 ‰‰‰パーミル ¤¤¤一般通貨記号 €€€ユーロ記号 ¢¢¢セント記号 £££ポンド記号 ¥¥¥円記号 ©©©著作権記号 ®®®登録商標記号 ™™™商標記号 ↑↑↑上向き矢印 →→→

  • 1