タグ

utf-8に関するumiyoshのブックマーク (8)

  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • 日本語の扱いに関して、文字コードとかエンコード方式とか - libnitsuji.so

    Windowsなら(普通にテキストエディタを使用している限りは)文字のエンコード方式なんてまったく気にしないのだけれど、LinuxとかUnixは違う。たぶんMacでもまた事情が違ってくるんだろう。はっきり言ってめんどくさい。そんなことで悩んで時間使いたくない。なんとなくはわかっているのだけれど、「なんとなく」の理解なのでたびたび悩むのだ。もうやだ。まとめてしまおう。 まずは文字コード。文字を数値で表すための決まりみたいなもの。詳しくは以下を参照。 文字コード - Wikipedia つぎはシフトJIS。Windowsで使われてるのはこれ。詳しくは以下。 Shift_JIS - Wikipedia ま、ここまではいい。UNICODEとUTFほげほげの違いがよくわかってない。 UNICODEってのは文字コード。 Unicode - Wikipedia UTFっていうのはUnicode Tran

    日本語の扱いに関して、文字コードとかエンコード方式とか - libnitsuji.so
  • 図解: Perl と Unicode 文字列 - daily dayflower

    id:tomi-ru さんが [http://e8y.net/mag/015-encode/:title] というとてもプラクティカルな [http://search.cpan.org/perldoc?Encode:title=Encode] 入門をお書きになったので,わたしも違う切り口で書いてみたくなりました。 いちおうの基礎(読み飛ばし可) 文字セット, キャラクタセット, 文字集合, 文字集合 - Wikipedia エンコーディング, 符号化方式, 文字符号化方式 - Wikipedia この2つは異なります。とくに知らなくても下記の文書を読むことはできますが,理解しているとためになります。くわしく知りたい人は自習してください。 文字セットの例 Unicode JIS X 0208 ひらがなとかカタカナとか漢字とか ASCII 文字 エンコーディングの例 UTF-8 ISO-202

    図解: Perl と Unicode 文字列 - daily dayflower
  • – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネット(株) が運営する国内シェアNo.1のドメイン登録サービスです。

  • 8bitメールは問題ないのか?

    先ほどのページでは、主要なメールソフト(WindowsMac)でのUTF-8なメールの対応状況を調べてみました。MacOS9.2.2など古い環境で、いわゆる機種依存文字の表示に問題は見受けられたものの、全くUTF-8に対応していないメールソフトというのは、調査した限りでは皆無でした。 しかしながら、皆さんの中には、メールを送信する際はISO-2022-JPを使うという「戒め」の根拠として、「Shift_JISやEUC-JPなどの文字コードは8bitであり、7bitしか通さない仕様のメールサーバ(Mail Transfer AgentでMTAと略されることが多いです。)を通過した場合、最上位ビットの8bit目が落とされて文字化けメールが発生することがある」ということを聞いたことのある方もいらっしゃると思います。8bit目が欠落したり、8bitだからとバイナリーファイル扱いで、Quoted-

  • UTF-8 - Wikipedia

    UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム[1]。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[2]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPl

  • 1