タグ

utf8に関するmogwaingのブックマーク (16)

  • PHP正規表現:UTF-8の漢字の正規表現は[一-龠々]でOK? - UTF-8の漢字の正規表現を調べていたら、[一-龠々]... - Yahoo!知恵袋

    質問者が挙げた正規表現は、利用者のシステム環境によっては合っているとも 言えますが、どちらかといえば時代遅れな内容となっています。 まず、この正規表現の意味ですが Unicodeが定義している文字コードのうち、統合漢字が定義されている "CJK Unified Ideographs"ブロック[U+4E00 ~ U+9FFF] の全域を指定して、「すべての漢字を指定する」という意図のようです。 このブロックの先頭の文字である[一]はU+4E00で、 末尾に定義されている[龠]がU+9FA0になります。 また、Unicodeでは漢字として扱われていない[々]はU+3005に定義されており 上記範囲の外なので単独で指定しています。 利用環境が、UnicodeでもBMP領域のみ対象とする 少し古いUnicodeの実装水準で扱うなら、これでも十分といえますが、 最新のUnicodeでは、JIS200

    PHP正規表現:UTF-8の漢字の正規表現は[一-龠々]でOK? - UTF-8の漢字の正規表現を調べていたら、[一-龠々]... - Yahoo!知恵袋
  • ATMARK

    133.242.243.6 / HatenaBookmark/4.0 (Hatena::Bookmark; Analyzer)

  • 文字列をUTF8に変換する(UsefullCode.net)

    UsefullCode.net Visual Studio 2005/2008/2010やandroid SDK/NDKでの開発者向けに便利なソースコードを提供 This site provide you with useful source codes under 'USEFULLCODE license'. 文字列をUTF8に変換するにはいくつかの方法がある。今回はATLライブラリに備わるインライン関数「AtlUnicodeToUTF8」を利用した。 AtlUnicodeToUTF8はユニコード文字列をUTF8文字列に変換するためのものだ。そのため変換元の文字列をユニコードビルド/非ユニコードビルドで場合分けし、非ユニコードビルドの場合は一度ユニコードに変換してからUTF8に変換して使う。 ここでは使いやすいようにTCHAR文字列をUTF8文字列に変換する関数を用意した。 依存環境:A

  • Perl で日本語テキストを字種分割

    Perl で日語テキストを字種分割 2008-02-06-2 [Programming] Perl で日語テキストを簡単に字種かたまりに分割できないかな、 と思い、perlunicode を読みながらサンプルプログラムを書いてみました。 対象テキストは UTF-8。 chunker.pl : #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { chomp; my @cs = m/(\p{M}+|\p{N}+|\p{P}|\p{S}+|\p{Z}+|\p{C}+ |\p{Latin}+ |\p{Han}+ |\p{Hiragana}[\p{Hiragana

    Perl で日本語テキストを字種分割
  • Matzにっき(2008-01-09) : Well, I'm Back: String Theory

    << 2008/01/ 1 1. 年賀状 2. ゴビウス 3. [Ruby] ZSFA -- Rails Is A Ghetto 2 1. 新年会 3 4 1. The Mythical 5% 5 6 7 8 1. [言語] Substroke Design Dump 2. [言語] A programming language cannot be better without being unintuitive 3. [OSS] McAfee throws some FUD at the GPL - The INQUIRER 9 1. [言語] Well, I'm Back: String Theory 2. [言語] StringRepresentations - The Larceny Project - Trac 10 1. [Ruby] マルチVMでRubyを並列化、サンと東大

  • Tech Globalization: Unicode Enables Globalization

    グローバリゼーションのテクノロジ Unicodeによるグローバリゼーションの実現 Jonathan Gennick、Peter Linsley Unicodeはすべてをエンコードし、すべてを表す 英字、数字、句読点-すべての文字は、実際にはコンピュータ内で数値として表されます。文字をエンコードするスキームは多数存在します。 コンピュータ・アプリケーションが世界規模で使用されるにつれて、世界中の言語の文字をサポートする必要 性が生じ、単一の統一されたエンコーディング・スキームが必要であることが明らかになってきました。 そのような場合は、Unicode標準を採用してください。 Unicodeは、LDAPでも必要とされるXMLのデフォルト・エンコード方式で、JavaWindows XPなどにより使用される基キャラクタ・セットです。 数年前まで、優秀なプログラマであるためにはASCIIを理解し

  • UTF-16 文字コードを UTF-8 に変換する : 文字コード : SophiaFramework FAQ : BREW C++ プログラミング

    バージョン 4.0.3 以降 SFXTextEncoding::UTF16BEToUTF8() 関数または SFXTextEncoding::UTF16LEToUTF8() 関数を利用することができます。 SFXWideString utf16str("abc"); // 変換したい UTF-16 文字列 SFXAnsiString utf8str; SFXTextEncoding::UTF16LEToUTF8(utf16str, &utf8str); バージョン 4.0.3 以前 UTF-16 文字コードを UTF-8 に変換するには、SFXHelper::wstrtoutf8 関数を使用します。 SFXWideString utf16str("abc"); // 変換したい UTF-16 文字列 SFXAnsiString utf8str; // あらかじめ領域を確保 utf8str.

    mogwaing
    mogwaing 2007/03/26
    相互変換
  • ShiftJIS,Unicode(UTF-8) - プログラマー'sペイジ

    VC++による,ShiftJISコードとUnicodeの変換処理の実装 VC++による,ShiftJISコードとUnicodeの変換処理の実装 ShiftJIS, Unicode(UTF-8) XMLとかJavaとか扱うと,Unicodeという文字コードが頻繁に出てきます. 我々PCユーザーには,ShiftJISコードがなじみ深いのですが, ちょっとUnicodeは避けて通れないなあという気がしてきます. そこで今回は,ShiftJISコードとUnicodeの変換関数をC++で作ってみました. とは言っても,実際にShiftJISとUnicodeの相互変換の処理を実装するのは, かなり大変なので,VisualC++のライブラリ関数の力を拝借しています. Unicodeというコード体系は,いくつかの方法で実際にコード化されています. 例えば UTF-16BE(ビッグエンディアン) UTF-1

    mogwaing
    mogwaing 2007/03/26
    相互変換の方法 実装付き
  • http://d.hatena.ne.jp/lestrrat/20061120

  • UTF-8 - Wikipedia

    * 第1バイトがE0のときに第2バイトが80-9Fの範囲を、または同F0のときに80-8Fの範囲を取るものは冗長な符号化となるため許されない。第1バイトがEDのときに第2バイトがA0以上となるものはサロゲートペアのための符号位置にあたり、また同F4のときに90以上となるものはUnicodeの範囲外となるため、UTF-8ではやはり許されない。 Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する(最少のバイト数で表現するため、yの部分には最低1回は1が出現する)。符号化されたバイト列は、バイト順に関わらず左から順に出力する。 1バイト目の先頭の連続するビット "1"(その後にビット "0" が1つ付く)の個数で、その文字のバイト数がわかるようになっている。また、2バイト目以降はビットパターン "10" で始まり、1バイト目と2バイト目以降では値の範囲が

    mogwaing
    mogwaing 2007/03/11
    文字境界の判別方法
  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

    mogwaing
    mogwaing 2007/01/25
    文字コードについて
  • eXperts Connection|オンカジ 登録ボーナスのセキュリティー

    eXperts Connection はシステム エンジニアやシステム管理者を対象とし、マイクロソフトのサーバー システム製品を中心に情報交換や意見交換を行うコミュニティです。ユーザーとマイクロソフトからなるチームでテーマを厳選して議論し、情報を共有・蓄積していきます。また、エキスパート コネクションは .NET Framework上で作成されており、サイト上でソースコードを公開しています。ソースコードに対する機能追加や修正に関する議論を行うことで、お客様が作成する.NET アプリケーションの参考にすることが可能です。 eXConn Blogsでは 「マイクロソフト社員による個人または部門(チーム)の Blog」 の運用を行っています。 このブログでは、マイクロソフトでの経験を活かした部門チームが、セキュリティエンジニアを目指している未経験者達が今後取るべき資格や、IT業界においてのセキュ

  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

    波ダッシュ・全角チルダ問題 - Wikipedia
  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
  • Mac OSX x zsh で日本語表示 & 入力 : Hasta Pronto.org

    散々悩んだんですが、Mac で zsh を使って日語を表示 & 入力が出来るようになりました。zsh はバージョン 4.3 から UTF-8 に対応したとのことなので、とりあえず使ってみることにします。あと断っておきますが、Mac OSX のデフォルトの TERM は xterm なので EUC-JP じゃないと日語を表示することはできません。ですのでここでは Screen を使うことを前提に話を進めます。 追記: xterm でも UTF-8 で日語表示出来るそうです。 上記は実際日語を表示させたスクリーンショット。ls でも日語フォルダが表示されています。また入力に関してもちゃんと表示出来ています。よく見ると Screen の下のバーで文字化けしてますが... 手順 Terminal の日語設定をする zsh のインストール zsh の日語設定をする 最後に Termin

    mogwaing
    mogwaing 2006/11/28
    zshで日本語表示
  • [を] UTF-8 で半角カナを判定

    UTF-8 で半角カナを判定 2006-11-09-3 [Programming] PerlUTF-8 で半角カナを判定するには、 顔文字みたいな正規表現を使うと良いみたい。 なお、下記では全角になっていますが、「。」「゜」は半角です。 print if /[。-゜]/; 以下、確認スクリプト utf8hankana-test.pl。 begin 755 utf8hankana-test.pl.gz M'XL("+7C4D4``W5T9CAH86YK86YA+71E<W0N<&P`1<_)2L-@$,#Q^SS%9[Q8 ML>0J1H1"]>K!>'()M48-U"A)BP<1M.[5NN];L>[[OFM]F"IXZROX5P\._&!F MF!F8XB(]X7MZB^/JW;87DV+UF4Y]'<SEDR?YP51)O5D3+`](PK>5'_><:-SX MS7L

  • 1