[B! Unicode] ouestのブックマーク

Unicodeエスケープシーケンスと文字参照とエンコーディング - (ﾟ∀ﾟ)o彡 sasata299's blog

2010年06月02日09:28 Ruby Unicodeエスケープシーケンスと文字参照とエンコーディング日本語って色んな場面で化けますよね。エンジニアたるものそれをきちんとした表示にしなければ気持ち悪くて夜も眠れませんよね。わかります！わかりますよ！＞＜・・というわけで今回はときどき遭遇する "\\u30c6\\u30b9\\u30c8" みたいなデータ（何て書いたら検索する人が探しやすいだろうか。。\u から始まる文字化け？）をいい感じの表示（人間が読める形）に変換してみたいと思います。色々と調べてみると、これは Unicodeエスケープシーケンスというそうです。 Unicode 文字列リテラル、正規表現、識別子において Unicode エスケープシーケンスを使用することができます。エスケープシーケンスは ASCII 文字 6 文字からなります。それは \u と 4 桁の 16

ouest 2010/06/02

リンク

Perl で半角カナと全角カナの変換をする : Serendip – Webデザイン・プログラミング

Perl を使って半角カタカナと全角カタカナの変換をするスクリプトを、標準モジュールの Encode.pm と Unicode::Japanese と Lingua::JA::Regular::Unicode を使ってそれぞれ変換スクリプトを書いてみる。まずは、標準モジュールの Encode.pm を使った場合。変換を文字コード euc-jp で行うために、変換前と変換後に utf-8 との文字コード変換を行う必要があった。 use Encode; use Encode::JP::H2Z; my $str_z = "Hello Ｗｏｒｌｄ.全角カタカナデス。 12345　６７８９０"; my $str_h = "Hello Ｗｏｒｌｄ.全角ｶﾀｶﾅﾃﾞｽ｡ 12345　６７８９０"; # 全角カナ→半角カナ Encode::from_to($str_z, "utf-8", "euc-j

ouest 2009/06/06

Perl
Unicode

リンク

perl - で全角半角変換をモダンに行う : 404 Blog Not Found

2009年06月06日01:15 カテゴリLightweight Languages perl - で全角半角変換をモダンに行う今ならLingua::JA::Regular::Unicodeが第一選択肢ですが、こういう方法もあるということで。 Perl で半角カナと全角カナの変換をする : Serendip - Webデザイン・プログラミング Perl を使って半角カタカナと全角カタカナの変換をするスクリプトを、標準モジュールの Encode.pm と Unicode::Japanese と Lingua::JA::Regular::Unicode を使ってそれぞれ変換スクリプトを書いてみる。 CORE Moduleのみを使うという縛りをかけています。 #!/usr/bin/perl use 5.008001; use strict; use warnings; use utf8; us

ouest 2009/06/06

Perl
Unicode

リンク

perlの正規表現でUnicodeブロックを使う - (ﾟ∀ﾟ)o彡 sasata299's blog

2009年03月13日07:07 Perl perlの正規表現でUnicodeブロックを使う今日、Unicodeブロックというものを初めて知りました。正規表現で利用できます。例えば、半角英数字もしくは半角記号かどうかをチェックするときには、このように書けるんです。 #!/usr/bin/perl use strict; use warnings; use utf8; use Encode qw(encode_utf8); my $str = "aあ-い0bc〜d９e"; for ($str =~ /./g) { if (/\p{InBasicLatin}/) { print encode_utf8("$_ is latin\n"); } else { print encode_utf8("$_ is not latin\n"); } } \p{InBasicLatin} の部分が半角英

ouest 2009/05/18

リンク

図解: Perl と Unicode 文字列 - daily dayflower

id:tomi-ru さんが [http://e8y.net/mag/015-encode/:title] というとてもプラクティカルな [http://search.cpan.org/perldoc?Encode:title=Encode] 入門をお書きになったので，わたしも違う切り口で書いてみたくなりました。いちおうの基礎（読み飛ばし可）文字セット, キャラクタセット, 文字集合, 文字集合 - Wikipedia エンコーディング, 符号化方式, 文字符号化方式 - Wikipedia この2つは異なります。とくに知らなくても下記の文書を読むことはできますが，理解しているとためになります。くわしく知りたい人は自習してください。文字セットの例 Unicode JIS X 0208 ひらがなとかカタカナとか漢字とか ASCII 文字エンコーディングの例 UTF-8 ISO-202

ouest 2008/06/20

リンク

Unicode対応 JIS X 0208 文字コード表

Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

ouest 2008/06/18

Unicode

リンク

波ダッシュ Unicodeに関連する問題 - Wikipedia

波ダッシュ（なみダッシュ、wave dash[注釈 1]）とは、日本語表記における約物のひとつで、波線「」（はせん、なみせん）を指している。ダッシュ記号（—）の波形であることからそう呼ばれる[注釈 2]。日本語における用法の多くは範囲を示すenダッシュ記号としての用法と長音符としての用法がある。範囲を示す場合、「から」という日本語の約物であり、純然たる日本語である。日本以外ではこのように使用されることはない。なお中国語でもenダッシュの代用又は長音符などとして使われることがある。 Windows XP等における日本語環境下では、表示字形が「」ではなく、波形の反転した「」に変わってしまう問題が発生していた[注釈 3]。これに付随して、波ダッシュの代用として音声記号等として用いられる全角チルダが不適切に使われることがあるため、混乱の元となっている[1][注釈 4]。日本語において範囲を表す

ouest 2008/06/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Unicodeに関するouestのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2025年7月第4週）

今週のはてなブックマーク数ランキング（2025年7月第3週）

今週のはてなブックマーク数ランキング（2025年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス