[B! PROGRAMMING][文字コード] webmarksjpのブックマーク

webmarksjp id:webmarksjp

PROGRAMMINGと文字コードに関するwebmarksjpのブックマーク (8)

すべての漢字を取り出す正規表現 - totonのブログ
http://www.unixuser.org/~euske/doc/python/sample.py.html # 日本語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html ［亜-煕］はJIS漢字を検出するときに使う正規表現になります。本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので，すべての漢字を検出するには，[一-龠]を使用してください（龠は音読みで「ヤク」，訓読みで「ふえ」，Unicodeでは「9FA0」にあたります）。追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。
webmarksjp 2008/07/14
perl

python

ruby

形態素解析

文字コード

正規表現

Programming
リンク
daily dayflower - 半角←→全角変換，Unicode::Japanese に未公開機能が…
2008-10-21 追記いまだに（ありがたいことですが）検索で飛んできたりブクマされたりというのがちょいちょいあるので，最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました（→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947）。あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ（そして，たいていのばあい，持つ必要はないのですが），この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく，とても軽量ですので。 2008-10-21 追記おわりウェブアプリを作っていると，ユーザが入力した半角
webmarksjp 2008/07/14
cpan

perl

charset

Programming

*perl

encoding

文字コード
リンク
Perl 5.8.x における日本語コード変換のメモ
Perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。（私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。）漸く最近になって基本的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、本メモは新たにPerl 5.8.x的なPerlスクリプトを書く際に気をつけることをまとめたものであり、基本的には既存のスクリプトにPerl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。（たぶん。）本文冒頭ですが、まず参照先を示しておきます。以下のドキュメント
webmarksjp 2008/07/13
utf-8

文字コード

日本語

programming

perl

unicode

encode
リンク
文字コードの基本文献は？ - もじのなまえ
そういえば日曜日の「もじもじカフェ」、お出でくださった皆様どうもありがとうございました。いつも一番の楽しみは、終わった後の懇親会だったりするんですが、その席である学生さんから「文字コードを勉強するとっかかりになるような文章、ありませんか？」との質問が。ネット上で入手できて、信頼性が高く、しかも読んだ後に次のステップが見えてくるような文章。つまり基本文献ですね。もちろん、ぼくなどの原稿ではダメダメ。しばらく考えて挙げたのが以下のもの。皆さんならどんな文章を挙げますか？漢字・日本語処理技術の発展：漢字コードの標準化（芝野耕司）日本の漢字コードを前史の段階から詳述 JIS X 0221（ISO/IEC 10646）の目指すもの（芝野耕司） ISO/IEC 10646（Unicode)についての基本文献ならこれ文字コードと図書館（芝野耕司）標題にとどまらず、国際規格の歴史を詳述 JIS漢
webmarksjp 2008/07/13
92 CHARSET

*pc

*programming

モ・文字

book

programming

charset

文字コード
リンク
＠IT：Javaの文字化け対策FAQ（1）
質問1： Webブラウザが文字コードを判定する基準は何ですか？解答：HTTPのContent-Typeヘッダですまずは、Webにおける文字コードの扱いをおさらいしておこう。HTML 4.01仕様では、Webブラウザが以下の優先順位で文字コードを決定することを規定している。 HTTPにおけるContent-Typeヘッダのcharsetパラメータ HTML文書内のMETA宣言およびhttp-equiv属性で設定された、Content-Typeヘッダのcharsetパラメータ HTML文書内の各要素のcharset属性 Webサーバが送信するHTTPヘッダの中には、送信内容がどのような素性のコンテンツなのかをWebブラウザに教えるために、以下のようなContent-Typeヘッダを通じてコンテンツのメディアタイプ（下記例ではtext/html）を明示する。これによりWebブラウザは、受信
webmarksjp 2008/07/13
java

文字化け

文字コード

programming

tips
リンク
http://openblog.meblog.biz/article/61959.html
webmarksjp 2008/07/13
90 文字

92 CHARSET

920 unicode

programming

netwatch

unicode

encoding

文字コード

これはひどい

記憶の片隅
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
webmarksjp 2008/07/13
unicode

programming

920 unicode

92 CHARSET

utf-8

文字コード

資料
リンク
Unicode の文字列をソースコードに埋め込む方法 - bkブログ
Unicode の文字列をソースコードに埋め込む方法 Unicode の文字列をソースコードに埋め込む場合、直接 UTF-8 などで文字列を書く方法と、\uXXXX などのようにエスケープして表記する方法があります。後者の方法についてまとめてみました。 \uXXXX 形式の場合 Java, JavaScript, Python, C++, C (C99から) などの多くの言語では \uXXXX という表記 (universal character names) でUnicode の文字を文字列の中に埋め込めます。たとえば、「あいう」は "\u3042\u3044\u3046" となります。 \uXXXX で埋め込んだ文字がどのように解釈されるかは言語や処理系によって異なります。 gcc/g++ の場合、 -fexec-charset オプションで、実際に使う文字セット・エンコーディングを指
webmarksjp 2008/07/13
文字化け

文字コード

プログラミング

js

unicode

programming

*programming

encoding

javascript
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx