タグ

文字コードに関するs00516のブックマーク (7)

  • PHP以外では: 既にあたり前になりつつある文字エンコーディングバリデーション - 徳丸浩の日記(2009-09-14)

    _既にあたり前になりつつある文字エンコーディングバリデーション 大垣靖男さんの日記「何故かあたり前にならない文字エンコーディングバリデーション」に端を発して、入力データなどの文字エンコーディングの妥当性チェックをどう行うかが議論になっています。チェック自体が必要であることは皆さん同意のようですが、 チェック担当はアプリケーションか、基盤ソフト(言語、フレームワークなど)か 入力・処理・出力のどこでチェックするのか という点で、さまざまな意見が寄せられています。大垣さん自身は、アプリケーションが入力時点でチェックすべきと主張されています。これに対して、いや基盤ソフトでチェックすべきだとか、文字列を「使うとき」にチェックすべきだという意見が出ています。 たとえば、id:ikepyonの日記「[セキュリティ]何故かあたり前にならない文字エンコーディングバリデーション」では、このチェックは基盤ソフ

    s00516
    s00516 2009/09/15
    こういうチェック処理入れないと、セキュリティもだけどデータ移行の時に化けたりしてまた苦労する罠(´・ω・`)
  • 絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係

    絵文字の収録をめぐって、国際規格で大論争--「Google提案」を振り返る 皆さんこんにちは、面白くてタメになる(?)文字コード漫談の時間がやってまいりました。2月からとびとびで書いてきた絵文字の報告も、いよいよ今回が最終回。どうかよろしくお付き合いください。 さて、前回はどこまでお話ししたのでしたっけ。日絵文字をUnicodeに収録しようとするGoogleAppleによる提案(以下、主導者の名をとりGoogle提案と略)ですが、去年の12月にパブリックレビューが開始されると、Unicode-MLで時ならぬ非難の嵐が吹き荒れたこと。そこでの反発を一言で言い表すなら、日文化に強く依存する絵文字を単純に国際規格に収録しようとした点にあったこと。 なぜなら国際規格の審議は参加各国の総意で成り立っており、特定の国しか便利に使えない文字を収録することは、当然強い反対をうけるからです。さらに

    絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係
    s00516
    s00516 2009/08/13
    文化的な違いとか出てて興味深いねー
  • 眉毛いろいろ - しろもじメモランダム

    キモすぎなんだけどマジ!誰こいつを流行らそうとしている奴は! 誰だよこいつを面白いって言った奴は出てこいよ!ぶっころしてやるよ俺が! きーめーなまじキモカワイイとか言ってまじで! その顔文字、俺の顔にクリソツなんだよ!そういうタグ要らねぇからこれ! [( ・ิω・ิ)]ってタグは付けるな! [( ・ิω・ิ)]ってタグは付けるな! はてなブックマーク - [( ・ิω・ิ)]ってタグは付けるな! はてなブックマーク - はてなブックマーク - [( ・ิω・ิ)]ってタグは付けるな! え? 別にかわいいと思うんだけど……( ・ิω・ิ) ちなみに眉毛【 ิ】の正体は、U+0E34 の “THAI CHARACTER SARA I”。前にある子音字にくっつき、短母音 [i] を表すらしい。これが半角中黒(U+FF65; HALFWIDTH KATAKANA MIDDLE DOT)の眼【・】と

    眉毛いろいろ - しろもじメモランダム
    s00516
    s00516 2008/09/11
    これがunicode時代のまゆげ
  • サイボウズ株式会社

    サイボウズはクラウドベースのグループウェアや業務改善サービスを軸に、社会のチームワーク向上を支援しています。

    サイボウズ株式会社
    s00516
    s00516 2008/07/18
    ファイルダウンロード処理での要注意なトコ。
  • 機種依存文字とそうでない文字

    機種依存文字とは、インターネットで各人の使用するマシン(ウィンドウズ、マック、UNIX等)によっては読めない文字のことです。よく見かけるのはローマ数字、丸数字などですが、機種の異なるマシンの人には文字化けして見える(読めない)ため、インターネットでは使わないのがマナーです。 また機種依存文字でないにも関わらず、あらぬ疑いをかけられている無実の文字もまた存在します。以下に両方の文字を全部リストアップしました。

    s00516
    s00516 2008/06/23
    文字化けしない漢字、ひらがな、カタカナのみ入力してもらいたい時とかに。 / phpだと→mb_ereg('^[一-龠亜-腕弌-熙ぁ-んァ-ヶー々 \s]+$', $name)
  • http://www.wikiroom.com/asakura/index.php?UTF8

  • 「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う:phpspot開発日誌

    Information Flow and Stock: [PHP] mb_ereg()じゃない、preg_match_all()に/uをつけるんだ! なので、できる限りpreg系の関数を使いたいわけですが、検索対象や検索パターンに日語が含まれているときは、日語処理に対応したereg系の関数であるmb_ereg系の関数が使われることが多いようです。 以前、「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う方法。 以前はmb_eregによる方法を示しましたが、次の方法の方がうまく動作するようです。 preg_match_all('/[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+/u', $strToSplit, $aMatches); print_r($aMatches); // マッチ結果が全出力 確かに、なぜか取れない漢字があ

    s00516
    s00516 2008/06/21
    はしご高みたいな特殊な漢字は取れないみたいだ。(そういうのも取るなら正規表現修正) / 一般的な地名(蝦夷、亜細亜)なんかも取れなかったので…亜-腕、弌-熙の範囲も足すとベストでしょう。
  • 1