[B! unicode] rin51のブックマーク

rin51 id:rin51

unicodeに関するrin51のブックマーク (13)

ファイルシステムとS3でのユニコード正規化の関係を調べてみた2021 - MNTSQ Techブログ
こんにちは、MNTSQでSREとして勤務している中原といいます。プライベートも含めて、技術記事は久しぶりな気がします。がんばります。さて、さっそくですが、日本人にとって、あるいは、韓国の方や中国の方も含めて、コンピュータ上でそれぞれの国の言葉を扱おうとしたときに苦労するのが文字コードです。かつては（あるいは今も）、Shift JIS、EUC-JPなど、OSや環境などによって使われる文字コードが異なり、相互の連携や、同じOSでも設定次第で大いに苦労したものでした（と聞いておりますし、個人でPCを楽しんでいたときには苦しんだりした記憶があります）。そうこうしているうち、多くのOSで標準的な文字コードとしてUnicodeが採用されるようになりました。Windowsでは内部でUTF-16LEを採用しています。Linuxでは、UTF-8を標準とすることが多くなりました。 Unicodeに統一
rin51 2021/03/18
qiitaで見た話題だなーと思ったらその著者だった

S3

unicode

python

aws
リンク
絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
rin51 2018/11/26
unicode

UTF-8

文字コード

emoji
リンク
おまいら絵文字のヤバさに今更気づきましたか
rin51 2014/10/08
unicode
リンク
Ruby1.9でUTF-8の漢字だけ正規表現でヒットさせる - 屑プログラマの憂鬱
1.9.2 :001 > "隣の客は良く柿食う客だ".each_char do |c| 1.9.2 :002 > if c =~ /\p{Han}/ 1.9.2 :003?> puts $& 1.9.2 :004?> end 1.9.2 :005?> end 隣客良柿食客 => "隣の客は良く柿食う客だ" Ruby1.9では正規表現のエンジンがonigurumaに変更になったことで、Character Propertiesが利用できるようになりました。\p{Han}は、漢字*1です。日本語で言えば他にも、\p{Hiragana}, \p{Katakana} があります。参考： Class: Regexp (Ruby 1.9.3) Ruby 1.9 における日本語処理のポイントをまとめてみました - ¬¬日常日記 MODULE.JP - 日本語に絡むUnicodeブロックとスクリ
rin51 2013/04/08
正規表現

UTF-8

ユニコードブロック

unicode

ruby
リンク
Unicodeブロックを利用する - さわだのノート
実家はいまだに携帯電話がまともに通じず、インターネットもないという情報鎖国状態でした。眼は休まったけど、やっぱりネットがないと落ち着きません。さて、前回PerlのUnicode文字列に対する正規表現検索がなにやらちょっと変わった動作をするというお話を書きました。それに関連して、「Unicodeブロック」という機能がPerlの正規表現検索では利用できるようです。「\p{hoge}」と記述することで、Unicodeで定義されている文字のブロックが使えるのだそうです。要するに、漢字やひらがな、カタカナの文字だけにヒットする正規表現が簡単に書けるということです。正直なところ、詳しくは僕もよくわかりません。メタ文字説明 \p{N} 全角・半角数字 \p{LC} 大文字・小文字のある文字（半角・全角両方） \p{Lu} 大文字の文字（半角・全角両方） \p{Ll} 小文字の文字（半角・全角両方
rin51 2013/04/08
perl

正規表現

UTF-8

ユニコードブロック

unicode
リンク
MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)
といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日本語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離
rin51 2013/04/08
perl

Java

正規表現

UTF-8

ユニコードブロック

unicode

.NET
リンク
正規表現で Unicode Block - odz buffer
ref:神様なんて信じない僕らのために - すべての漢字を取り出す正規表現そういや、Python の正規表現エンジンって、named group は使えるけど、Unicode Block は使えないんだっけ？ Perl や Java なら Unicode Block が使える。 use strict; use warnings; use utf8; use Perl6::Say; binmode STDOUT, ':utf8'; my $target = "漢字正規表現亜腕一十百千万億兆京?"; my @patterns = ( qr/[一-龠]/, qr/?p{InCJKUnifiedIdeographs}/, qr/?p{InCJKUnifiedIdeographs}|?p{InCJKUnifiedIdeographsExtensionA}|?p{InCJKUnifiedIdeogr
rin51 2013/04/08
perl

Java

正規表現

UTF-8

ユニコードブロック

unicode
リンク
Unicodeで「漢字」の正規表現 – ものかの
改訂：2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。改訂：2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS（CP932）の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第３・第４水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす
rin51 2010/04/26
正規表現

UTF-8

ユニコードブロック

unicode
リンク
https://www.hi-matic.org/diary/index.cgi?20100203
rin51 2010/02/04
Unicode
リンク
UnicodeとUTF-8の違いは？ - Humanity
という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/
rin51 2009/12/01
Unicode

UTF-8
リンク
プログラミング/小ネタ集/Unicode対応コーディング - ルーチェ's Homepage
概要 † このコンテンツは、C/C++言語でWindowsプログラミングをしていて、かつMFCやATLにある CString クラスを使っていない人くらいにしか実益はないかもしれません。が、内容的に知っておいて損はないことなので書いておきます。概要としては、 LPTSTR 型や TCHAR 型について知り、NT系（Unicode環境）と9x系（非Unicode環境）のどちらにも最適化できるソースコードを書こうというお話です。 TCHAR 型を見たことがなくても、 LPTSTR 型なら見たことがある人も結構いるでしょう。初心〜中級のWindowsプログラマは、大抵は LPTSTR 型と LPSTR 型の違いを特に意識せずにコードを書いています。しかし、この二つの型を混同するのは非常に危険なことです。まずはこれらの型の定義を説明し、 TCHAR 型を用いることでUnicode対応プロ
rin51 2009/09/25
TCHAR

Unicode

文字コード

マルチバイト文字

ワイド文字
リンク
Download Visual Studio 2005 Retired documentation from Official Microsoft Download Center
All Microsoft Global Microsoft 365 Teams Copilot Windows Surface Xbox Deals Small Business Support Software Windows Apps AI Outlook OneDrive Microsoft Teams OneNote Microsoft Edge Skype PCs & Devices Computers Shop Xbox Accessories VR & mixed reality Certified Refurbished Trade-in for cash Entertainment Xbox Game Pass Ultimate PC Game Pass Xbox games PC and Windows games Movies & TV Business Micro
rin51 2009/09/25
TCHAR

Unicode

文字コード

マルチバイト文字

ワイド文字
リンク
絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係
絵文字の収録をめぐって、国際規格で大論争--「Google提案」を振り返る皆さんこんにちは、面白くてタメになる（？）文字コード漫談の時間がやってまいりました。2月からとびとびで書いてきた絵文字の報告も、いよいよ今回が最終回。どうかよろしくお付き合いください。さて、前回はどこまでお話ししたのでしたっけ。日本の絵文字をUnicodeに収録しようとするGoogleとAppleによる提案（以下、主導者の名をとりGoogle提案と略）ですが、去年の12月にパブリックレビューが開始されると、Unicode-MLで時ならぬ非難の嵐が吹き荒れたこと。そこでの反発を一言で言い表すなら、日本の文化に強く依存する絵文字を単純に国際規格に収録しようとした点にあったこと。なぜなら国際規格の審議は参加各国の総意で成り立っており、特定の国しか便利に使えない文字を収録することは、当然強い反対をうけるからです。さらに
rin51 2009/08/13
Unicode

文字コード
リンク
1