タグ

UTF-8に関するdangkicchiのブックマーク (8)

  • Unicode ~UTF-8、UTF-16との違い~(文字コード関連) | 読み物 | ウナのIT資格一問一答

    UnicodeとUTF-8、UTF-16との違いはなんでしょうか? ここでは、あまり詳細にはこだわらず、これらの概念を整理してみたいと思います。 まずUnicode。 これは文字集合です。アルファベットや記号はもちろん、漢字やひらがな、ハングルやヘブライ文字など、世界中で使われている文字を集めたものです。 次にUTF-8とUTF-16。 これらはUnicodeで定義されている一つ一つの文字を、どのように符号化するかという文字符号化方式(エンコーディング)です。 たとえば、Unicodeで定義されている「あ」という文字を、UTF-8とUTF-16で符号化すると下記のようになります(16進数表記)。 Unicodeという一つの文字集合に対して、異なる文字符号化方式UTF-8、UTF-16が存在し、符号化した結果も異なります。 どうしてUnicodeという一つの文字集合に対して、異なる文字符号化

  • / - 海豹日記

    {今年|今月|今週|今日}も何%過ぎました ゆく河の流れは絶えずして、しかももとの水にあらず (鴨長明:荘子) FESTINA LENTE ゆっくり急げ (ローマ帝国初代皇帝 アウグストゥス) 立派にできたのであれば、それは十分早くできたことになる (ローマ帝国初代皇帝 アウグストゥス) 海豹日記 へようこそ このサイトは、個人的な覚書を残しておくサイトです 自分は、よくこんなことをします 何かの困りごとや興味の赴くままに、いろいろ調べる 数か月後に、そのことを忘れてしまって、同じことについていろいろ調べる。しかし、そのうち、数か月前の自分が、同じことを同じように調べていたことに気づく それは不毛なので、覚書を残しておこうというわけです (主人公のアリスに掴まれて、チェス盤のはるかかなたまで持ち上げられたことのあるチェスの王さまが、当時のこと思い出し) 王さま「あの瞬間の恐怖といったら、わ

  • BOM 付き UTF-8のトラブル - yanok.net

    入力としてUTF-8のテキストファイルをとるJavaプログラムでうまくいかないことがありました。 テキスト形式で入力されたデータを処理するプログラムなのですが、ファイル中に存在するはずのデータがないといってエラーになる。 テキストエディタで開いても、ExcelやLibreOffice Calcで開いてみても、ファイルに異常は見当たらないし、問題のデータもきちんと記述されているようにしか見えない。 実はこのエラーの原因は、入力のテキストファイルにBOMが付いていることでした。BOMがどういうものかは『プログラマのための文字コード技術入門』をご覧ください。 Javaで書かれた処理プログラムがUTF-8のテキストを読み込む際に、BOMを消費せずに単なるUnicode文字のように扱うため、1行目のデータの先頭にゴミが付いた状態になっていたのです。それで、見えないゴミ付きのデータになってしまい、意図

  • JavaでUTF-8のBOMに対処する - 万象酔歩

    この記事は「 Javaでファイルオープン:文字コードや追加モードなど」の補助記事です。 JavaでBOM付きUTF-8ファイルを読む 媒体上の文字コード規格、UTF-8には、規格策定者の迷いのため 一時期、先頭に3バイトのBOMと呼ばれる、バイト並び識別マーク を置く仕様がありました。 現在はBOMはまず使われることはありませんが、Windows付属の「メモ帳」という 簡易エディタでUTF-8ファイルをうっかり作成してしまうと、ファイル先頭に BOMが付いてしまいます。 残念なことにJavaではBOM付きのUTF-8ファイルをまともに 読むことができません。 先頭がBOMの場合スキップする方法 対処法は色々考えられますが、ここでは、BufferedInputStreamを被せ、 先頭がBOMの場合スキップし、BOMでない場合先頭まで巻き戻す形を 示します。 import java.io.*

    JavaでUTF-8のBOMに対処する - 万象酔歩
  • programming はじめにプログラム

  • (3キャリア)携帯絵文字抽出正規表現パターン - とあるプログラマの備忘録

    なんだかすごいタイトルだなw 今日絵文字の抽出ロジックを書く機会があったのですが、 思ったより探し物が見つからなかったので記述 間違っていたら教えてください。 ■絵文字領域(docomo) sjis:[\xF8\xF9][\x40-\x7E\x80-\xFC] utf8:\xEE[\x98-\x9D][\x80-\xBF]■絵文字領域(au) sjis:[\xF3\xF4\xF6\xF7][\x40-\x7E\x80-\xFC] utf8:(?:\xEE[\xB1-\xB3\xB5\xB6\xBD-\xBF]|\xEF[\x81-\x83])[\x80-\xBF]■絵文字領域(softbank) sjis:[\xF7\xF9\xFB][\x41-\x7E\x80-\x9B\xA1-\xFA] utf8:\xEE[\x80\x81\x84\x85\x88\x89\x8C\x8D\x90\x9

    (3キャリア)携帯絵文字抽出正規表現パターン - とあるプログラマの備忘録
  • UTF-8絵文字コードの正規表現 - Kimura.Memo

    UTF-8なフォームから送られてくる絵文字UTF-8コード正規表現 (iモード・EZweb・SoftBank・Emobile全部) (?:\xEE[\x80\x81\x84\x85\x88\x89\x8C\x8D\x90\x91\x94\x98-\x9D\xB1-\xB3\xB5\xB6\xBD-\xBF]|\xEF[\x81-\x83])[\x80-\xBF] EZwebの公式UnicodeのUTF-8だけの場合 \xEE[\x91-\x97\xAA-\xAE][\x80-\xBF] 全部ひっくるめると、 (?:\xEE[\x80\x81\x84\x85\x88\x89\x8C\x8D\x90-\x9D\xAA-\xAE\xB1-\xB3\xB5\xB6\xBD-\xBF]|\xEF[\x81-\x83])[\x80-\xBF] でいいか。

    UTF-8絵文字コードの正規表現 - Kimura.Memo
  • UTF-8コード表(1)

    UTF-8の仕組み UTF-8は1~4バイト(初期の定義では6バイトまで)の可変長コード Unicodeスカラ値, UTF-16を含め、詳しい説明は Unicode にあります。 コード カテゴリ 備考

  • 1