[B! utf-8] TaROのブックマーク

ほぅほぅじょせつ : UTF-8とUTF-8Nの違いによるワナ

2008年02月27日08:32 カテゴリ UTF-8とUTF-8Nの違いによるワナ rubyを書いているのだが、結構意外なところではまって、時間を費やしてしまったのでメモしておく。どうやらUTF-8にはUTF-8とUTF-8Nの2種類がある。それらの違いは、UTF-8ではBOM（Byte Order Mark）と呼ばれる、エンディアンを判定するためのデータが先頭3バイトに書き込まれ、UTF-8Nでは書き込まれないというもの。（追記20080401：コメントでご指摘をいただいたように、上の表記は適切ではありません。正しくは「UTF-8」では基本的にBOMは付与されず、BOMが付与された場合に限り「UTF-8BOM」などの表記を与えて区別するべきであるようです。wikipadia「UTF-8」　本来であればすべての表記を変更すべきですが、ここではTerePadがBOMつきのUTF-8を「

TaRO 2012/11/27

utf-8

リンク

XML用語事典 [BOM (Byte Order Mark)]

BOM (Byte Order Mark) バイト・オーダー・マーク UnicodeのUTF-16などの16bit単位の文字エンコーディングスキームでは、8bit単位でデータを配列する際のエンディアンとして、ビッグエンディアンとリトルエンディアンの両方を許している。そのため、どちらのエンディアンで記述されたデータかを確実に判定するための特別なマークとなる符号として、BOM（Byte Order Mark）が用意されている。またBOMは、あるテキストがUnicodeで記述されているかどうかを自動判定する手段として使用される場合もある。この目的に使用される場合は、エンディアンが存在するUTF-16だけでなく、エンディアンが存在しないUTF-8のテキストに付加される場合もある。 BOMは、必ずテキストの先頭に付加される。テキストの中間に置かれることはない。BOMの値は、U+ffefと定められて

TaRO 2012/11/27

utf-8

リンク

第4回　UTF-8の冗長なエンコード | gihyo.jp

今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1～4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U＋0000からU＋007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C（\⁠）⁠、0x2F（/）などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。表1　UTF-8でのビットパターン

TaRO 2012/05/21

リンク

VimとUTF-8と日本語

Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

TaRO 2011/11/10

リンク

PythonのUnicodeEncodeErrorを知る - HDEラボ

Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

TaRO 2010/11/08

リンク

エクセルでCSVに保存してphpMyAdminへインポートする方法 : zontheworld

エクセル（Excel）で作ったデータを CSV で保存して phpMyAdmin へインポートするために下記の問題を解消する。１．文字コードをUTF-8にする。エクセルで CSV ファイル形式に保存すると、文字コードは SJIS になる。MySQLの設定にもよるが、私が使用している環境では基本的に文字コードはUTF-8に設定しているので、保存時にUTF-8で保存したい。現状は SJIS で保存されている CSV ファイルの文字コードを UTF-8 に変換して保存しなおしている。 ■下記を参考 100年バリア: ExcelデータをUTF-8なCSV（;区切り）で保存する２．フィールドをダブルクォーテーションで囲む。 phpMyAdmin のフィールドの囲い記号が「ダブルクォーテーション（”）」になっているが、エクセルで CSV ファイル形式に保存してもダブルクォーテーションでは囲ってく

TaRO 2010/09/09

リンク

nobu417.jp ::: Techlog ::: gVim (MacVim) の .gvimrc

現時点での .gvimrc の設定内容。 set enc=utf-8 set fenc=utf-8 set fencs=iso-2022-jp,utf-8,euc-jp,cp932 set fileformats=unix,dos,mac colorscheme desert set imdisable set showtabline=2 set guifont=Osaka-Mono:h12 set columns=120 set lines=40 set antialias set transparency=5 syntax on set autoindent set tabstop=4 set number set nobackup 以上、メモ書き。

TaRO 2010/07/28

vim
utf-8

リンク

python utf-8

なんか、ことあるごとに python で日本語が上手く使えなくて最低限必要っぽい設定すらしてないってことがありますその度にググってるわけですが今回もググりました内部エンコーディングに使われるエンコードをUTF-8に設定する方法。とりあえず、ここにある通りに import sys sys.setdefaultencoding('utf-8') って内容のファイルを /usr/lib/python2.?/site-packages/sitecustomize.py 的なものに保存で、個別のスクリプトに日本語書きたかったら Python でUTF-8, shift_jis, euc_jpなど日本語を使う方法にあるように #!/usr/bin/env python # -*- coding: utf-8 -*- っぽいものを書いておけば OK なはず。で〜、なるべく decode し

TaRO 2010/07/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

utf-8に関するTaROのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第3週）

新サービスベータテスター募集のお知らせ

今週のはてなブックマーク数ランキング（2026年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (9)

utf-8に関するTaROのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第3週）

新サービス ベータテスター募集のお知らせ

今週のはてなブックマーク数ランキング（2026年5月第2週）

公式Twitter

キーボードショートカット一覧

公式Twitter

はてなのサービス

新サービスベータテスター募集のお知らせ