エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
EUC の正規表現 - Ceekz Logs (Move to y.ceek.jp)
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
EUC の正規表現 - Ceekz Logs (Move to y.ceek.jp)
最近は、ニュース検索に新たな機能を追加しようと試行錯誤しています。 EUC の文字列が文字化けしていな... 最近は、ニュース検索に新たな機能を追加しようと試行錯誤しています。 EUC の文字列が文字化けしていないかどうかをチェックする必要がありました。チェック自体は難しくなく、単に EUC の範囲外の文字が含まれているかどうかを調べればよいのです。 EUC の 1byte 文字は、以下のように表現することが出来ます。というか、すべての ASCII 文字 はこれ。 [\x00-\x7F] しかし、よくよく考えると、この表現には制御文字も含まれているんですよね。なので、このままマッチさせると文字化けを発見することが出来ないわけです。なので、制御文字を除いてマッチさせるのが吉だと思う。 [\x20-\x7E] ということで、僕は、以下のように定義して文字化けが無いかどうかを調べています。 $euc = '[\x20-\x7E]|[\x8E\xA1-\xFE][\xA1-\xFE]|\x8F[\xA1-