タグ

漢字と文字コードに関するwebmarksjpのブックマーク (2)

  • 「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う:phpspot開発日誌

    Information Flow and Stock: [PHP] mb_ereg()じゃない、preg_match_all()に/uをつけるんだ! なので、できる限りpreg系の関数を使いたいわけですが、検索対象や検索パターンに日語が含まれているときは、日語処理に対応したereg系の関数であるmb_ereg系の関数が使われることが多いようです。 以前、「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う方法。 以前はmb_eregによる方法を示しましたが、次の方法の方がうまく動作するようです。 preg_match_all('/[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+/u', $strToSplit, $aMatches); print_r($aMatches); // マッチ結果が全出力 確かに、なぜか取れない漢字があ

  • 2004 JIS をめぐる混乱

    2004 JIS ( JIS2004 )について、問題となる混乱を解説します。 [ 2005.08.12. ] ※ この文書の目的は、誰かを非難または攻撃することではなくて、 世間にある誤解または錯覚をほどくことです。 ★ 「個々の文字をどう使えばいいのか」という 実用的な結論については、 下記のページをご覧ください。 → Open ブログ 「文字使用の指針・まとめ」 このページには、「指針1」「指針2」「指針3」というリンクもあります。 ★ 文書では、学術的 ・理念的 ・原理的 な 話題 を主に扱います。 文書を公開したあとの新しい情報ついては、次のページをご覧ください。 → Open ブログ 「文字規格」 ここには、細々とした話題がいろいろとあります。 「2004 JIS をめぐる混乱」について語ろう。 新しい漢字規格の問題については、2005年7月末にマイクロソフトが方針を示して

  • 1