[B! 文字コード] TaROのブックマーク

TaRO id:TaRO

文字コードに関するTaROのブックマーク (15)

いいから聞け！俺が文字コードについて教えてやるよその１（前提知識編） - 谷本心 in せろ部屋
ちょっと久々のJavaネタですが、前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。文字コードとエンコードって違うの？新人くん「では、HTMLの文字コードはUTF-8でお願いします」先輩社員「文字コードじゃなくてエンコーディングでしょ？」新人くん「えっ。あぁ、はい、それで」文字コードとエンコード（エンコーディング）を混同して使ったりすると、ちょっと原理主義的な人に怒られたりするんですけど、大まかに言えば、「文字コード」は文字に割り当てられた「数字」のことで、「エンコード」は文字と数字をマッピングする「方式」のことだと捉えていれば、大きくは外れません。ただ、「文字コード」という言葉は、「数字」「方式」の両方で使われるほか、文字一覧を示す「Charset」という意味で使わ
TaRO 2011/06/17
文字コード
リンク
Mac 環境構築その6 - vim の文字コード設定 [mac]
Mac でも快適に vim7 が使えるようになり，vim7 からは unicode サポートが改善されているとのことなので，これを機に vim のデフォルト文字コードを UTF-8 にしてみた． vim の文字コード設定は少し複雑で，たまに間違って解説しているページも見かけるので，以下にまとめてみよう．まず文字コード設定に関係するオプションは， 'encoding' (短縮名 'enc') 'fileencoding' (短縮名 'fenc') 'fileencodings' (短縮名 'fencs') の3つ．fenc と fencs は名前が紛らわしすぎるので注意． vim は 'enc' で指定された文字コードをデフォルトとし，ファイルを開く時に 'fencs' で指定された文字コードから順番に 'enc' の文字コードへ変換を試み，成功したところでやめる，全部失敗したら変換せずに
TaRO 2011/04/04
vim

設定

文字コード
リンク
Mozillaのコードを切り出してライブラリ化した文字エンコーディング判別ライブラリ「Universalchardet」をjavaにポーティング
Code Archive Skip to content Google About Google Privacy Terms
TaRO 2011/03/24
encoding

java

文字コード
リンク
文字コード変換クラス
きときと - Java - 文字コード変換 Javaでは、文字列は内部UnicodeのStringオブジェクトですが、Byte→String変換が正しく行われなかったときなど、明示的な変換を必要とする場合があります。 Tomcat3.2.xなど、日本語に対応していないServletコンテナを利用する場合などによく使われます。実際の変換には、 String unicodeStirng = new String(shift_jis_string.getBytes("iso-8859-1"), "Shift_JIS"); のようなコーディングがよく参考として挙げられます。しかし、一見何の意味もない"iso-8859-1"などの文字が出てくる。 Javaにおける文字コード変換の詳細を知らなければ分かりにくい。変換文字列が複数ある場合の記述が冗長である。など、不都合が多く、これを定型コー
TaRO 2011/02/28
java

文字コード
リンク
文字コード変換コマンドの nkfの使い方と実例をまとめました。 - それマグで！
Linuxで文字コード変換コマンドする方法 LinuxはUTF8が普通になりました。EUC環境もまだまだ多く文字コード変換が必要になることもあります。文字コード変換コマンド nkf。使い方 nkf オプションファイル [> 出力ファイル]よく使うオプションオプション一覧 -e : EUCコードを出力 -s : Shift-JISコードを出力 -w : UTF-8コードを出力（BOM無し） -g : 自動判別の結果を表示 --overwrite : 引数のファイルに直接上書き覚え方 -w / -W 大文字小文字はペア。入力は大文字、出力は小文字。sjis-> utf8なら、入力-S 出力 -w で -Sw。入力は自動判別で十分で余り使うことがないので最後に書いた。使用例文字コードチェック nkf -g readme.txt UTF8に変換 nkf -w --overwrite
TaRO 2011/02/16
linux

文字コード
リンク
PythonのUnicodeEncodeErrorを知る - HDEラボ
Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ
TaRO 2010/11/08
unicode

python

utf-8

文字コード

プログラミング
リンク
http://www.asahi-net.or.jp/~ax2s-kmtn/character/japan.html
TaRO 2010/10/08
文字コード

文字

web

あとで読む
リンク
新旧字体表 - CyberLibrarian
新旧字体の表です。 2010年に改定された常用漢字表および人名用漢字に収録されている漢字に対し、「角川新字源」における旧字体の収録状況を確認したものです。ただし、旧字体が「角川新字源」に収録されていても、包摂規準に当てはまる等の理由でJISでは新字体と同じコードに包摂されていると見なせるものは除きました。一部の文字はUnicodeの数値文字参照で記述しているため、OSやブラウザのバージョンなどの環境によっては、文字化けする可能性があります。常用漢字表常用漢字表に収録されている漢字の新旧字体371組です。常用漢字表に旧字体が収録されているもの364組(新字「弁」に対して旧字「辨」「瓣」「辯」が存在しているため、新字362字、旧字364字) これらには、「角川新字源」では旧字扱いになっていないものも含まれています。常用漢字表に旧字体が収録されていないが「角川新字源」では旧字が収録され
TaRO 2010/10/08
[[あとで読む]

文字コード

web

旧字体
リンク
日本語と文字コード
コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト（7/8ビット）を基本単位として扱う前提で作られているものが中心です。そのなかで日本語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日本語の文字コードに関する基本を整理しておきます。 JIS漢字コード（情報交換用符号化漢字集合）区点コード JISコード（符号化方式）シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ参考文献、リソース文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード（情報交換用符号
TaRO 2010/10/08
文字コード

文字

encoding

unicode

web

あとで読む
リンク
エクセルでCSVに保存してphpMyAdminへインポートする方法 : zontheworld
エクセル（Excel）で作ったデータを CSV で保存して phpMyAdmin へインポートするために下記の問題を解消する。１．文字コードをUTF-8にする。エクセルで CSV ファイル形式に保存すると、文字コードは SJIS になる。MySQLの設定にもよるが、私が使用している環境では基本的に文字コードはUTF-8に設定しているので、保存時にUTF-8で保存したい。現状は SJIS で保存されている CSV ファイルの文字コードを UTF-8 に変換して保存しなおしている。 ■下記を参考 100年バリア: ExcelデータをUTF-8なCSV（;区切り）で保存する２．フィールドをダブルクォーテーションで囲む。 phpMyAdmin のフィールドの囲い記号が「ダブルクォーテーション（”）」になっているが、エクセルで CSV ファイル形式に保存してもダブルクォーテーションでは囲ってく
TaRO 2010/09/09
文字コード

utf-8

excel

csv
リンク
python utf-8
なんか、ことあるごとに python で日本語が上手く使えなくて最低限必要っぽい設定すらしてないってことがありますその度にググってるわけですが今回もググりました内部エンコーディングに使われるエンコードをUTF-8に設定する方法。とりあえず、ここにある通りに import sys sys.setdefaultencoding('utf-8') って内容のファイルを /usr/lib/python2.?/site-packages/sitecustomize.py 的なものに保存で、個別のスクリプトに日本語書きたかったら Python でUTF-8, shift_jis, euc_jpなど日本語を使う方法にあるように #!/usr/bin/env python # -*- coding: utf-8 -*- っぽいものを書いておけば OK なはず。で〜、なるべく decode し
TaRO 2010/07/27
python

utf-8

文字コード
リンク
文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。
「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ
TaRO 2010/07/12
文字コード

プログラミング

unicode

encoding

あとで読む
リンク
dfltweb1.onamae.com – このドメインはお名前.comで取得されています。
このドメインはお名前.com から取得されました。お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。
TaRO 2010/07/01
encoding

Java

文字コード
リンク
vimエディタで「文字コード、改行コードを変更して保存する。」
vimエディタで、ファイルの文字コード、改行コードを修正、もしくは変更する時の話。ファイルの文字コードや、改行コードを変更する時は、変更したいファイルを開いた状態で、・文字コードの変更 :set fileencoding=文字コード :set fenc=文字コード (上のコマンドの短い形式。こちらでも良い。) :set fileencoding=euc-jp (エンコーディングEUC-JPに変更。) :set fileencoding=shift_jis (エンコーディングSHIFT_JISに変更。) :set fileencoding=utf-8 (エンコーディングUTF-8に変更。) ・ファイルフォーマットの種類の変更 :set fileformat=ファイルフォーマットの種類 :set ff=ファイルフォーマットの種類 (上のコマンドの短い形式。こちらでも良い。) :set f
TaRO 2010/06/05
文字コード

encoding

vim
リンク
日本語環境でのPython (for Python 2.3 or later)
日本語環境でのPython (for Python 2.3 or later) - Pythonで日本語処理を行うために(for Python... 皆さんがPythonを使いはじめるとき、なんと言っても気になるのは「ちゃんと日本語使えるのかなぁ」ということではないかと思います。結論から言えば、現在のPythonは日本語環境で利用可能です。しかし、快適に日本語を使うためには、ちょっとした準備が必要です。ここでは、Python 2.3 を基本に説明を行います。 Python の文字列型まず、Python の文字列型データは 8 ビット透過ですので、文字列の中に文字コードが 0 から 255 までのどんな値が含まれていても処理することが出来ます。 Python の文字列型データに日本語が含まれていても、ビット落ちなどの障害が発生することはありません。いったんデータとして日本語文字列を
TaRO 2010/05/11
python

文字コード

Python 日本語
リンク
1