[B! UTF-8] onohirokiのブックマーク

Encode::UTF8Mac - トミールの技術系日記

探したのだけど作っている人がいなかったので、いわゆるutf-8-macと呼ばれるエンコーディングを追加するEncode::Encodingをつくりました。 https://github.com/tomi-ru/Encode-UTF8Mac use Encode; use Encode::UTF8Mac; print Encode::encode('utf-8-mac', '蘄藭づけ'); use Path::Class; for my $entry (dir(".")->children) { my $filename = Encode::decode('utf-8-mac', $entry); } 反応みてPODちゃんと書いたらUPしようと思っている →POD書いた. PODの方が少し整理されているのでわかりやすいかもしれない。 https://github.com/tomi-ru/En

onohiroki 2010/12/21

リンク

http://www.oki-osk.jp/esc/cygwin-23/index.html

onohiroki 2010/10/05

リンク

Perl 5.8.x 以降で BOM を操作するモジュール

Perl では Unicode のファイルを読み込んでも自動的にBOMを削ってくれない。過去に自分でも削ってくれるプログラムも書いた。 (「Perl 5.8.x で BOM を扱う」を参照) 最近、File::BOM というモジュールをCPANで発見した。いつのまにか、ActiveState のPPMのサイトにもアップロードされていた（つまり、バンドルされていないが、CPAN File::BOM で ActivePerl 5.10.0なら ppm install File::BOM とかでインストールできるということ)。何通りかの使い方がある。ファイルを読み込んだとき、Encoding を知りたいのであれば、bom_open 関数が使える。ちなみにこんな感じになる。 use utf8; use open ":encoding(cp932)",":std"; use File::BOM

onohiroki 2009/04/09

perl
UTF-8

リンク

UTF8のBOMを取り除くスクリプト - みずぴー日記

30分プログラム、その554。UTF8のBOMを取り除くスクリプト。 BOMって邪魔ですよね。ASCIIしか書いてないファイルに、なぜか0xFEとか入ってるんですもん。何も考えずにcatでファイルを連結してると、途中にBOMが入ってしまって死にそうになる。というわけで、これを取り除くスクリプトを書いてみよう。ちなみにBOMの付けたい場合は、nkfを使うといいよ。 $ nkf -w8 non-bom.txt > bom.txt 使い方 $ perl bom-strip.pl bom.txt > non-bom.txt ソースコード #! /usr/bin/perl # -*- mode:perl; coding:utf-8 -*- # # bom-strip.pl - # # Copyright(C) 2009 by mzp # Author: MIZUNO Hiroki / mzppp

onohiroki 2009/04/09

perl
UTF-8

リンク

ウノウラボ Unoh Labs: Mac OS X上のUnicode

Firefoxは内部的に変換処理を行うようになっているようです。問題はSafariとOperaですね。選択されたファイルのパスからJavaScriptでファイル名を抜き出してタイトルに設定する部分で、正しく扱えるような文字コードに変換することにしたいと思います。基本的な流れとしては、UTF-8-MAC特有の「U+3099」（COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK）、「U+309A」（COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK）がファイル名に含まれている場合は、その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう（ひらがな・カタカナのみの暫定的な対処に過ぎませんが）。変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。というわけ

onohiroki 2007/09/05

リンク

CharsetConverterの使い方

最新版は2001年12月24日にリリースされたVersion 1.01uです。 1.概要インターネットが広まるにつれて、文字セットの変換という作業を行うことが増えました。パソコン上では、Shift_JIS、UNIXサーバー上では、EUC-JPといった具合です。 CharsetConverterは、文字セットの変換を手軽に行うためのツールです。主な特徴 Shift_JIS、EUC-JP、ISO-2022-JP、Unicode(le)、UTF-8 の相互変換が可能変換先改行コードを CR/LF, LF, CRの三種類から指定可能 Shift_JIS、EUC-JP、ISO-2022-JP では、ある程度の文字セット判別が可能 Unicodeテキストファイルでは、先頭のバイトオーダー判別コードからの判別が可能コマンドラインからの全自動変換機能 2.動作環境 Windows95, Wind

onohiroki 2006/05/17

リンク

UTF-8とUTF16の違いは？

XML文書で使える漢字コードとして、UTF-8とUTF-16というのがありますが、この2つはどのように違っているのですか？使い分ける必要はありますか？回答／富士ソフトＡＢＣ株式会社技術センター 2001/9/14 UTF-8とUTF16の違いを一言でいうと、文字を表現するときの単位が違います。UTF-8は8ビットの可変長マルチバイトで文字を表現し、UTF-16は16ビットの可変長マルチバイトで文字を表現します。それぞれの定義については以下のように少し難しい表現が使われています。 UTF-8 (8-bit UCS Transf ormation Format) UCS-2で定義される文字集合を用いて記述された文字列をバイト列に変換する方式の1つ。１文字を1～6バイトの可変長マルチバイトに変換する。UTF-16 (16-bit UCS Transf ormation Format)： UC