タグ

utf-8に関するTaROのブックマーク (8)

  • ほぅほぅじょせつ : UTF-8とUTF-8Nの違いによるワナ

    2008年02月27日08:32 カテゴリ UTF-8UTF-8Nの違いによるワナ rubyを書いているのだが、結構意外なところではまって、時間を費やしてしまったのでメモしておく。 どうやらUTF-8にはUTF-8UTF-8Nの2種類がある。それらの違いは、UTF-8ではBOM(Byte Order Mark)と呼ばれる、エンディアンを判定するためのデータが先頭3バイトに書き込まれ、UTF-8Nでは書き込まれないというもの。 (追記20080401:コメントでご指摘をいただいたように、上の表記は適切ではありません。正しくは「UTF-8」では基的にBOMは付与されず、BOMが付与された場合に限り「UTF-8BOM」などの表記を与えて区別するべきであるようです。wikipadia「UTF-8」 来であればすべての表記を変更すべきですが、ここではTerePadがBOMつきのUTF-8を「

    TaRO
    TaRO 2012/11/27
  • XML用語事典 [BOM (Byte Order Mark)]

    BOM (Byte Order Mark) バイト・オーダー・マーク UnicodeのUTF-16などの16bit単位の文字エンコーディングスキームでは、8bit単位でデータを配列する際のエンディアンとして、ビッグエンディアンとリトルエンディアンの両方を許している。そのため、どちらのエンディアンで記述されたデータかを確実に判定するための特別なマークとなる符号として、BOM(Byte Order Mark)が用意されている。 またBOMは、あるテキストがUnicodeで記述されているかどうかを自動判定する手段として使用される場合もある。この目的に使用される場合は、エンディアンが存在するUTF-16だけでなく、エンディアンが存在しないUTF-8のテキストに付加される場合もある。 BOMは、必ずテキストの先頭に付加される。テキストの中間に置かれることはない。BOMの値は、U+ffefと定められて

    TaRO
    TaRO 2012/11/27
  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
  • VimとUTF-8と日本語

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

  • PythonのUnicodeEncodeErrorを知る - HDEラボ

    Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

  • エクセルでCSVに保存してphpMyAdminへインポートする方法 : zontheworld

    エクセル(Excel)で作ったデータを CSV で保存して phpMyAdmin へインポートするために下記の問題を解消する。 1.文字コードをUTF-8にする。 エクセルで CSV ファイル形式に保存すると、文字コードは SJIS になる。MySQLの設定にもよるが、私が使用している環境では基的に文字コードはUTF-8に設定しているので、保存時にUTF-8で保存したい。現状は SJIS で保存されている CSV ファイルの文字コードを UTF-8 に変換して保存しなおしている。 ■下記を参考 100年バリア: ExcelデータをUTF-8CSV(;区切り)で保存する 2.フィールドをダブルクォーテーションで囲む。 phpMyAdmin のフィールドの囲い記号が「ダブルクォーテーション(”)」になっているが、エクセルで CSV ファイル形式に保存してもダブルクォーテーションでは囲ってく

  • nobu417.jp ::: Techlog ::: gVim (MacVim) の .gvimrc

    現時点での .gvimrc の設定内容。 set enc=utf-8 set fenc=utf-8 set fencs=iso-2022-jp,utf-8,euc-jp,cp932 set fileformats=unix,dos,mac colorscheme desert set imdisable set showtabline=2 set guifont=Osaka-Mono:h12 set columns=120 set lines=40 set antialias set transparency=5 syntax on set autoindent set tabstop=4 set number set nobackup 以上、メモ書き。

    TaRO
    TaRO 2010/07/28
  • python utf-8

    なんか、ことあるごとに python で日語が上手く使えなくて 最低限必要っぽい設定すらしてないってことがあります その度にググってるわけですが今回もググりました 内部エンコーディングに使われるエンコードをUTF-8に設定する方法。 とりあえず、ここにある通りに import sys sys.setdefaultencoding('utf-8') って内容のファイルを /usr/lib/python2.?/site-packages/sitecustomize.py 的なものに保存 で、個別のスクリプトに日語書きたかったら PythonUTF-8, shift_jis, euc_jpなど日語を使う方法 にあるように #!/usr/bin/env python # -*- coding: utf-8 -*- っぽいものを書いておけば OK なはず。 で〜、なるべく decode し

  • 1