タグ

文字コードと*PCに関するwebmarksjpのブックマーク (2)

  • 「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う:phpspot開発日誌

    Information Flow and Stock: [PHP] mb_ereg()じゃない、preg_match_all()に/uをつけるんだ! なので、できる限りpreg系の関数を使いたいわけですが、検索対象や検索パターンに日語が含まれているときは、日語処理に対応したereg系の関数であるmb_ereg系の関数が使われることが多いようです。 以前、「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う方法。 以前はmb_eregによる方法を示しましたが、次の方法の方がうまく動作するようです。 preg_match_all('/[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+/u', $strToSplit, $aMatches); print_r($aMatches); // マッチ結果が全出力 確かに、なぜか取れない漢字があ

  • 文字コードの基本文献は? - もじのなまえ

    そういえば日曜日の「もじもじカフェ」、お出でくださった皆様どうもありがとうございました。いつも一番の楽しみは、終わった後の懇親会だったりするんですが、その席である学生さんから「文字コードを勉強するとっかかりになるような文章、ありませんか?」との質問が。 ネット上で入手できて、信頼性が高く、しかも読んだ後に次のステップが見えてくるような文章。つまり基文献ですね。もちろん、ぼくなどの原稿ではダメダメ。しばらく考えて挙げたのが以下のもの。皆さんならどんな文章を挙げますか? 漢字・日語処理技術の発展:漢字コードの標準化(芝野耕司) 日の漢字コードを前史の段階から詳述 JIS X 0221(ISO/IEC 10646)の目指すもの(芝野耕司) ISO/IEC 10646(Unicode)についての基文献ならこれ 文字コードと図書館(芝野耕司) 標題にとどまらず、国際規格の歴史を詳述 JIS漢

    文字コードの基本文献は? - もじのなまえ
  • 1