タグ

文字コードに関するTaROのブックマーク (15)

  • いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋

    ちょっと久々のJavaネタですが、 前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。 今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。 文字コードとエンコードって違うの? 新人くん「では、HTMLの文字コードはUTF-8でお願いします」 先輩社員「文字コードじゃなくてエンコーディングでしょ?」 新人くん「えっ。あぁ、はい、それで」 文字コードとエンコード(エンコーディング)を混同して使ったりすると、 ちょっと原理主義的な人に怒られたりするんですけど、 大まかに言えば、「文字コード」は文字に割り当てられた「数字」のことで、 「エンコード」は文字と数字をマッピングする「方式」のことだと捉えていれば、大きくは外れません。 ただ、「文字コード」という言葉は、「数字」「方式」の両方で使われるほか、 文字一覧を示す「Charset」という意味で使わ

    いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋
  • Mac 環境構築 その6 - vim の文字コード設定 [mac]

    Mac でも快適に vim7 が使えるようになり,vim7 からは unicode サポートが改善されているとのことなので,これを機に vim のデフォルト文字コードを UTF-8 にしてみた. vim の文字コード設定は少し複雑で,たまに間違って解説しているページも見かけるので,以下にまとめてみよう. まず文字コード設定に関係するオプションは, 'encoding' (短縮名 'enc') 'fileencoding' (短縮名 'fenc') 'fileencodings' (短縮名 'fencs') の3つ.fenc と fencs は名前が紛らわしすぎるので注意. vim は 'enc' で指定された文字コードをデフォルトとし,ファイルを開く時に 'fencs' で指定された文字コードから順番に 'enc' の文字コードへ変換を試み,成功したところでやめる,全部失敗したら変換せずに

  • Mozillaのコードを切り出してライブラリ化した文字エンコーディング判別ライブラリ「Universalchardet」をjavaにポーティング

    Code Archive Skip to content Google About Google Privacy Terms

  • 文字コード変換クラス

    きときと - Java - 文字コード変換 Javaでは、文字列は内部UnicodeのStringオブジェクトですが、Byte→String変換が正しく行われなかったときなど、 明示的な変換を必要とする場合があります。 Tomcat3.2.xなど、日語に対応していないServletコンテナを利用する場合などによく使われます。 実際の変換には、 String unicodeStirng = new String(shift_jis_string.getBytes("iso-8859-1"), "Shift_JIS"); のようなコーディングがよく参考として挙げられます。 しかし、 一見何の意味もない"iso-8859-1"などの文字が出てくる。 Javaにおける文字コード変換の詳細を知らなければ分かりにくい。 変換文字列が複数ある場合の記述が冗長である。 など、不都合が多く、これを定型コー

  • 文字コード変換コマンドの nkfの使い方と実例をまとめました。 - それマグで!

    Linuxで文字コード変換コマンドする方法 LinuxはUTF8が普通になりました。EUC環境もまだまだ多く文字コード変換が必要になることもあります。 文字コード変換コマンド nkf。 使い方 nkf オプション ファイル [> 出力ファイル]よく使うオプション オプション一覧 -e : EUCコードを出力 -s : Shift-JISコードを出力 -w : UTF-8コードを出力(BOM無し) -g : 自動判別の結果を表示 --overwrite : 引数のファイルに直接上書き覚え方 -w / -W 大文字小文字はペア。 入力は大文字、出力は小文字。sjis-> utf8なら、入力-S 出力 -w で -Sw。入力は自動判別で十分で余り使うことがないので最後に書いた。 使用例 文字コードチェック nkf -g readme.txt UTF8に変換 nkf -w --overwrite

    文字コード変換コマンドの nkfの使い方と実例をまとめました。 - それマグで!
  • PythonのUnicodeEncodeErrorを知る - HDEラボ

    Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

  • http://www.asahi-net.or.jp/~ax2s-kmtn/character/japan.html

  • 新旧字体表 - CyberLibrarian

    新旧字体の表です。 2010年に改定された常用漢字表および人名用漢字に収録されている漢字に対し、「角川新字源」における旧字体の収録状況を確認したものです。ただし、旧字体が「角川新字源」に収録されていても、包摂規準に当てはまる等の理由でJISでは新字体と同じコードに包摂されていると見なせるものは除きました。 一部の文字はUnicodeの数値文字参照で記述しているため、OSやブラウザのバージョンなどの環境によっては、文字化けする可能性があります。 常用漢字表 常用漢字表に収録されている漢字の新旧字体371組です。 常用漢字表に旧字体が収録されているもの364組(新字「弁」に対して旧字「辨」「瓣」「辯」が存在しているため、新字362字、旧字364字) これらには、「角川新字源」では旧字扱いになっていないものも含まれています。 常用漢字表に旧字体が収録されていないが「角川新字源」では旧字が収録され

    TaRO
    TaRO 2010/10/08
    [[あとで読む]
  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

  • エクセルでCSVに保存してphpMyAdminへインポートする方法 : zontheworld

    エクセル(Excel)で作ったデータを CSV で保存して phpMyAdmin へインポートするために下記の問題を解消する。 1.文字コードをUTF-8にする。 エクセルで CSV ファイル形式に保存すると、文字コードは SJIS になる。MySQLの設定にもよるが、私が使用している環境では基的に文字コードはUTF-8に設定しているので、保存時にUTF-8で保存したい。現状は SJIS で保存されている CSV ファイルの文字コードを UTF-8 に変換して保存しなおしている。 ■下記を参考 100年バリア: ExcelデータをUTF-8CSV(;区切り)で保存する 2.フィールドをダブルクォーテーションで囲む。 phpMyAdmin のフィールドの囲い記号が「ダブルクォーテーション(”)」になっているが、エクセルで CSV ファイル形式に保存してもダブルクォーテーションでは囲ってく

  • python utf-8

    なんか、ことあるごとに python で日語が上手く使えなくて 最低限必要っぽい設定すらしてないってことがあります その度にググってるわけですが今回もググりました 内部エンコーディングに使われるエンコードをUTF-8に設定する方法。 とりあえず、ここにある通りに import sys sys.setdefaultencoding('utf-8') って内容のファイルを /usr/lib/python2.?/site-packages/sitecustomize.py 的なものに保存 で、個別のスクリプトに日語書きたかったら PythonUTF-8, shift_jis, euc_jpなど日語を使う方法 にあるように #!/usr/bin/env python # -*- coding: utf-8 -*- っぽいものを書いておけば OK なはず。 で〜、なるべく decode し

  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。

  • vimエディタで「文字コード、改行コードを変更して保存する。」

    vimエディタで、ファイルの文字コード、改行コードを修正、もしくは変更する時の話。 ファイルの文字コードや、改行コードを変更する時は、 変更したいファイルを開いた状態で、 ・文字コードの変更 :set fileencoding=文字コード :set fenc=文字コード (上のコマンドの短い形式。こちらでも良い。) :set fileencoding=euc-jp (エンコーディングEUC-JPに変更。) :set fileencoding=shift_jis (エンコーディングSHIFT_JISに変更。) :set fileencoding=utf-8 (エンコーディングUTF-8に変更。) ・ファイルフォーマットの種類の変更 :set fileformat=ファイルフォーマットの種類 :set ff=ファイルフォーマットの種類 (上のコマンドの短い形式。こちらでも良い。) :set f

    vimエディタで「文字コード、改行コードを変更して保存する。」
  • 日本語環境でのPython (for Python 2.3 or later)

    語環境でのPython (for Python 2.3 or later) - Pythonで日語処理を行うために(for Python... 皆さんがPythonを使いはじめるとき、なんと言っても気になるのは「ちゃんと日語使えるのかなぁ」ということではないかと思います。 結論から言えば、現在のPythonは日語環境で利用可能です。 しかし、快適に日語を使うためには、ちょっとした準備が必要です。 ここでは、Python 2.3 を基に説明を行います。 Python の文字列型 まず、Python の文字列型データは 8 ビット透過ですので、文字列の中に文字コードが 0 から 255 までのどんな値が含まれていても処理することが出来ます。 Python の文字列型データに日語が含まれていても、ビット落ちなどの障害が発生することはありません。 いったんデータとして日語文字列を

  • 1