タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

encodeに関するtk18のブックマーク (6)

  • JavaScriptで文字コード変換ライブラリ作ってみた

    ↓動作サンプルを作りました 文字コード変換 動作サンプル Unicode の変換が可能になりました。 文字コード配列から URLエンコード/デコード が可能になりました。 あと説明とサンプルも少し載せました。。(説明不足でごめんなさい) こないだの 「JavaScriptだけでzipファイルの解凍 - Unzipper.js」が SJIS ファイルとかだと表示で文字化けするので、ついつい。。 動作確認は、zip ファイル解凍のデモページでわかると思います。 zip の中に SJIS や EUC-JP のファイル (ファイル名) がある場合でも UTF-8 表示で化けなければ問題なしです。 zip 解凍デモページ ↑のデモページを開いて、デスクトップなどから zip ファイルをドロップすると 解凍して結果のテキストを表示します。 ※ JavaScript だけで動いていて、どっかのサーバなど

  • 繝とは (カンとは) [単語記事] - ニコニコ大百科

    繝単語 ニコニコ動画で繝の動画を見に行く カン 2.4千文字の記事 4 0pt ほめる 掲示板へ 記事編集 漢字として関連項目掲示板繝とは、錦模様という意味の漢字である。 文字化けにおける繝 繝は、UTF-8でエンコードされたバイト列を、誤ってShift JISとしてデコードしたときに現れやすい字である。 繝のShift JISにおけるコードはE3 83で、UTF-8でのカタカナのコードの一部(ダ:E3 83 80~ヺ:E3 83 BA)や約物のコード(ヽ:E3 83 BD、ヾ:E3 83 BE)の最初の2バイトに一致する。そのためUTF-8→Shift JISの文字化けで頻出する。 繝に文字化けする文字の一覧 ※ * は後に続く文字によって文字化け後の文字が変化することを表す。 文字化け前 Unicode番号 UTF-8 Shift_JISによる解釈 JIS番号(JIS X 0201/0

    繝とは (カンとは) [単語記事] - ニコニコ大百科
    tk18
    tk18 2014/05/15
    >繝は、UTF-8でエンコードされたバイト列を、誤ってShift JISとしてデコードしたときに現れやすい字である。
  • Perl: 文字コードとutf8フラグについて

    文字コードとutf8フラグ Perl において、「文字コード」と「utf8フラグ」は別物です。文字コードの話の中で utf8フラグが語られるので、同じもののように思っている人も多いかもしれませんが、別物です。いや、たとえば同じものだとしても、別物だと思った方が理解しやすいと思います。 文字コード は文字とコードのマッピングに名前をつけたもので、utf8フラグは、Perlにおける文字列の扱いに付随するフラグのことです。 たとえば、以下のようなソースコードをレガシーな感じに EUC-JP で書いていたとして、 my $euc_str = 'ソースが EUC-JP なのでここは EUC-JP'; $euc_str には EUC-JP の文字列が格納されています。 これを、utf8フラッグド(utf8 flag on)にしてみます。 use Encode; my $euc_str = 'ソースが

    Perl: 文字コードとutf8フラグについて
  • perlのデコードとエンコードについて(1) - メメメモモ

    デコードする ある文字列が何文字あるのかを求めるプログラムを書くとします。 perlにはlengthという関数があるので、これを使って以下の様なプログラムを書きました。 # UTF-8で保存したファイル use strict; use warnings; my $str = 'ハローワールド'; my $length = length $str; print $length . "¥n"; # 21が出力される 「ハローワールド」は7文字なので、「7」という数字が出力されれば嬉しいですね。 でも実際には「21」と出力されてしまいます。 これは「21バイト」を意味します。 「ハローワールド」は、1文字3バイトで表せられるので、「3 x 7 = 21」です。 つまり、perlには、「ハローワールド」は文字列としてではなく、単なるバイト列として認識されてしまっているのです。 perlに「ハローワ

    perlのデコードとエンコードについて(1) - メメメモモ
  • decode(utf8=>$str)とdecode_utf8($str)のちがい - Perl日記

    昨日のエントリで文字化けした件についてもう少し調べてみた。 Devel::Peekで文字化けした文字をダンプしたところ、面白いことがわかった。 UTF-8フラグがついていない文字列のはずなのに、FLAGSの欄に"UTF8"が出ていた。 FLAGS = (PADMY,POK,pPOK,UTF8) # <=これていうか、そもそもそれ(UTF8フラグ)付いてたら、例えdecode(utf8=>$str)でもコケるんじゃね?と思ったのだが、どうやらそうでない場合もあるようだ。 具体的にはASCII文字列をdecodeしたものにencodeされた文字列をくっつけると、UTF8と判定されてしまうようである。 $ cat dump.pl use Devel::Peek; use Encode; use utf8; no utf8; { my $w = "テスト".decode_utf8("2012");

    decode(utf8=>$str)とdecode_utf8($str)のちがい - Perl日記
  • Encodeでラクラク日本語処理 - JPerl Advent Calendar 2009

    こんにちは!ラブプラスとときメモ4の狭間で揺れ動いているxaicronです!! 今日は日でプログラムを書いていたら避けては通れない気がする、Encodeの話をしようと思います! はじめに まず、この記事を読む前に、Perlのバージョンの確認をしてください。以下のようにやればバージョンが表示されます。 % perl -v ここで、5.8.1より下の数字ができてきた方は、Perlのバージョンアップをしてください。5.8.1より下のバージョンでは、Perlの内部文字コードが安定していないので、いい感じになりません。できれば5.8.8以上のバージョンを使いましょう。 それから、文字コードってなによって人も適当にWikiとかで調べてから読んだ方がいいと思います!! Encode.pm Encodeは昔のjcode.plやJcode.pmに代わる、現在の文字コード処理のスタンダードModuleです。

  • 1