タグ

UTF-8に関するSnowCaitのブックマーク (7)

  • 文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

    UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。 文字コードとは何か? 文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。 この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。 以上!と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。 文字コードの構成要素 文字コードの世界は以下の2つの要素で構成されている。 この違いを意識しておかないと混乱を招くだろう。 (1).文字集合 – 表現したい文字の範囲(”あ”、”い”・・・といった文字の集合体) (2).符号化方式 – 文字集合を構成する個々の文

    文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して
  • マルチバイト文字列とワイド文字列 - mkubara.com

    概要 VisualStudio2005になって、今まで書いていた文字列処理関係のコードに対してコンパイルエラーや警告が表示されるようになった方も多いと思います。VisualStudio2005では使用する文字コードが変更となり、従来のマルチバイト文字列(日ではShift-JIS)から、世界標準のワイド文字列(Unicode, UTF-16)へ移ったためです。 このように文字コードはプログラムにおいて重要な位置を占めるものですが、その実態や移行の手法は意外と情報の少ないものでした。今回はこの辺りを記述します。 マルチバイト文字列とワイド文字列 char型とwchar_t型 日Windows上で現在我々の利用する文字コードであるShift-JISは、主に英字を1バイト、日語文字を2バイトで表現するため、マルチバイト文字列と呼ばれます。マルチバイト文字列は1文字が何バイトかを文字ごとに計

  • Visual StudioでデフォルトでUTF-8を使用する方法 - altebute.hatenablog.com

    最近ソースコードの管理にSourceTree+Git環境を導入したのだが、SourceTreeが文字コードを誤認して文字化けが起きたりするので、色々調べた次第。 SourceTreeのデフォルト文字コードをShift_JISにすれば、文字化けは起きない。*1 ソースコードの文字コードに関わらず、.slnファイル等の文字コードはUTF-8なので、デフォルトの文字コードをShift_JISにすると今度はそっちが化ける。 上記の理由から、ソースコードの文字コードをUTF-8にしようと思ったのだが、この方法が中々分からず苦労した。 任意のファイルの文字コード及び改行コードを変更する Visual Studioでファイルのエンコードを変更するには? - @IT エンコーディングと改行 デフォルトの文字コードを指定するための前準備として、とりあえず任意のソースコードの文字コードを、デフォルトの文字コー

    Visual StudioでデフォルトでUTF-8を使用する方法 - altebute.hatenablog.com
  • Visual Studio の UTF-8 BOM と Git の設定で悩まされた話 - しばやん雑記

    ぽちぽちと git を使っていたら、変更したはずのないファイルが変更扱いになっていて悩みました。 Visual Studio で変更してないのに Ctrl+S を押すと git では変更扱いになるの何でだ— しばやん (@shibayan) May 29, 2013 他のリポジトリでは発生していなくて、ある一つのリポジトリだけでこの現象が起きていたので Twitter で呟いたところ、UTF-8 の BOM が原因だと教えてもらいました。 @ishisaka @shibayan 手元のVST4GやTortoiseGitは反応し無いようなので、BOMや改行コードの問題な気が...— Kaoru Nakajima (@kaorun) May 29, 2013 Visual Studio はデフォルトで UTF-8 のファイルに BOM を付けるようになっているので、プラグインを入れて BOM

    Visual Studio の UTF-8 BOM と Git の設定で悩まされた話 - しばやん雑記
  • swfmillでFlash Lite 1のswfを扱えるようにしてみた : DSAS開発者の部屋

    Flashに関連するオープンソースなツールのひとつに、swfmillがあります。swfmillは、swfファイルを解析してxmlファイルに変換したり、逆にxmlからswfファイルを生成することができるツールです。swfmillの使い方についてはいろいろなところで紹介されているので、ここではFlash Lite 1.xのswfファイルをswfmillで扱うときの問題点について紹介したいと思います。 swf内の文字コード FlashはVersion 6からUnicodeに対応しました。Unicode対応前と対応後でswfファイル内の文字エンコードが異なり、対応前はcp932(日語の場合)、対応後はUTF-8になります。 そして、Flash LiteとFlashのバージョン間対応ですが、Flash Lite 1.xはFlash 4がベースになっており、Flash Lite 2.xはFlash

    swfmillでFlash Lite 1のswfを扱えるようにしてみた : DSAS開発者の部屋
  • http://unicus.jp/skmk/archives/498

  • 『BOM付きUTF-8のPHPファイルからBOMだけを一度に削除するスクリプト』

    あまりUTF-8の環境でPHPを動かすということがなかったのではまったんですが、BOM(Byte Order Mark)ありのUTF-8で保存したPHPって動作に問題が出るんですね・・・。 要はBOMの先頭バイトが邪魔をしてPHPスクリプトと認識してくれなかったり、文字化けを起すような弊害が出てきます。 じゃあ、事前にBOM付きのUTF-8をBOMなしのUTF-8に変換すればいいとiconvコマンドで変換しようとしても $ iconv -f UTF-8 -t EUC-JP hoge.php iconv: 位置 0 で不正な入力シーケンスがありました と、iconvコマンドはBOM付きのUTF-8に対応していない模様・・・。 nkfコマンドもうまくBOMを取り除くということが出来ませんでした。 vimコマンドでは :set nobomb として保存することでBOMを取り除くことができます。

    『BOM付きUTF-8のPHPファイルからBOMだけを一度に削除するスクリプト』
  • 1