タグ

UTF-8に関するonohirokiのブックマーク (8)

  • Encode::UTF8Mac - トミールの技術系日記

    探したのだけど作っている人がいなかったので、いわゆるutf-8-macと呼ばれるエンコーディングを追加するEncode::Encodingをつくりました。 https://github.com/tomi-ru/Encode-UTF8Mac use Encode; use Encode::UTF8Mac; print Encode::encode('utf-8-mac', '蘄藭づけ'); use Path::Class; for my $entry (dir(".")->children) { my $filename = Encode::decode('utf-8-mac', $entry); } 反応みてPODちゃんと書いたらUPしようと思っている →POD書いた. PODの方が少し整理されているのでわかりやすいかもしれない。 https://github.com/tomi-ru/En

    Encode::UTF8Mac - トミールの技術系日記
  • http://www.oki-osk.jp/esc/cygwin-23/index.html

  • Perl 5.8.x 以降で BOM を操作するモジュール

    Perl では Unicode のファイルを読み込んでも自動的にBOMを削ってくれない。過去に自分でも削ってくれるプログラムも書いた。 (「Perl 5.8.x で BOM を扱う」を参照) 最近、File::BOM というモジュールをCPANで発見した。いつのまにか、ActiveState のPPMのサイトにもアップロードされていた(つまり、バンドルされていないが、CPAN File::BOM で ActivePerl 5.10.0なら ppm install File::BOM とかでインストールできるということ)。 何通りかの使い方がある。ファイルを読み込んだとき、Encoding を知りたいのであれば、bom_open 関数が使える。 ちなみにこんな感じになる。 use utf8; use open ":encoding(cp932)",":std"; use File::BOM 

  • UTF8のBOMを取り除くスクリプト - みずぴー日記

    30分プログラム、その554。UTF8のBOMを取り除くスクリプト。 BOMって邪魔ですよね。ASCIIしか書いてないファイルに、なぜか0xFEとか入ってるんですもん。何も考えずにcatでファイルを連結してると、途中にBOMが入ってしまって死にそうになる。 というわけで、これを取り除くスクリプトを書いてみよう。 ちなみにBOMの付けたい場合は、nkfを使うといいよ。 $ nkf -w8 non-bom.txt > bom.txt 使い方 $ perl bom-strip.pl bom.txt > non-bom.txt ソースコード #! /usr/bin/perl # -*- mode:perl; coding:utf-8 -*- # # bom-strip.pl - # # Copyright(C) 2009 by mzp # Author: MIZUNO Hiroki / mzppp

    UTF8のBOMを取り除くスクリプト - みずぴー日記
  • ウノウラボ Unoh Labs: Mac OS X上のUnicode

    Firefoxは内部的に変換処理を行うようになっているようです。 問題はSafariとOperaですね。 選択されたファイルのパスからJavaScriptで ファイル名を抜き出してタイトルに設定する部分で、 正しく扱えるような文字コードに変換することにしたいと思います。 基的な流れとしては、UTF-8-MAC特有の「U+3099」(COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK)、 「U+309A」(COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK)がファイル名に含まれている場合は、 その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう (ひらがな・カタカナのみの暫定的な対処に過ぎませんが)。 変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。 というわけ

  • CharsetConverterの使い方

    最新版は2001年12月24日にリリースされたVersion 1.01uです。 1.概要 インターネットが広まるにつれて、文字セットの変換という作業を行うことが増えました。パソコン上では、Shift_JIS、UNIXサーバー上では、EUC-JPといった具合です。 CharsetConverterは、文字セットの変換を手軽に行うためのツールです。 主な特徴 Shift_JIS、EUC-JP、ISO-2022-JP、Unicode(le)、UTF-8 の相互変換が可能 変換先 改行コードを CR/LF, LF, CRの三種類から指定可能 Shift_JIS、EUC-JP、ISO-2022-JP では、ある程度の文字セット判別が可能 Unicodeテキストファイルでは、先頭のバイトオーダー判別コードからの判別が可能 コマンドラインからの全自動変換機能 2.動作環境 Windows95, Wind

  • UTF-8とUTF16の違いは?

    XML文書で使える漢字コードとして、UTF-8とUTF-16というのがありますが、この2つはどのように違っているのですか? 使い分ける必要はありますか? 回答/富士ソフトABC株式会社 技術センター 2001/9/14 UTF-8とUTF16の違いを一言でいうと、文字を表現するときの単位が違います。UTF-8は8ビットの可変長マルチバイトで文字を表現し、UTF-16は16ビットの可変長マルチバイトで文字を表現します。 それぞれの定義については以下のように少し難しい表現が使われています。 UTF-8 (8-bit UCS Transformation Format) UCS-2で定義される文字集合を用いて記述された文字列をバイト列に変換する方式の1つ。1文字を1~6バイトの可変長マルチバイトに変換する。UTF-16 (16-bit UCS Transformation Format): UC

  • Life with Cygwin

    沖ソフトウェア株式会社は、沖通信システム株式会社および株式会社沖インフォテックと平成22年10月1日をもって合併いたしました。新会社名は、株式会社OKIソフトウェアとなります。3社が行っております事業は新会社にて従来通り継続いたします。

    onohiroki
    onohiroki 2005/04/22
    Cygwin で行こう
  • 1