View Source unicode (stdlib v6.0.1) Functions for converting Unicode characters. This module contains functions for converting between different character representations. It converts between ISO Latin-1 characters and Unicode characters, but it can also convert between different Unicode encodings (like UTF-8, UTF-16, and UTF-32). The default Unicode encoding in Erlang binaries is UTF-8, which is
Among the new features shipped with Ruby 2.4 is improved Unicode support. Specifically, methods like upcase and downcase work as expected, turning "ä" to "Ä" and back. This made me curious: what other Unicode improvements have been made since 2013 when I read André Arko's blog post Strings in Ruby are UTF-8 now… right?? I tested all of Ruby's string methods, not looking for technical errors but
Elixir and Unicode, Part 2: Working with Unicode Strings This post was adapted from a talk called “String Theory”, which I co-presented with James Edward Gray II at Elixir & Phoenix Conf 2016. In my post on Unicode and UTF-8, I showed you the basis of Elixir’s great Unicode support: every string in Elixir is a series of codepoints, encoded in UTF-8. I explained what Unicode is, and we walked throu
Latest Blog Post: Create Quick JSON Data Dumps From PostgreSQLRead It I am a Chicago-based software developer at Hashrocket, a software consultancy that has me primarily building apps with React, Rails and PostgreSQL. I spend my free-time biking around the city, organizing with The People's Lobby for a better city and world, and playing board games. My other interests include coffee, cats, and coc
Finding New Pastures: Big Nerd Ranch’s Next Chapter News It is with a mix of emotions that we announce the upcoming sunsetting of some key aspects of Big Nerd Ranch and the transition...
指定したファイルをBase64エンコードするプログラム エクスプローラからドロップされたファイルをBase64エンコードします。 Base64エンコードとは、ファイルの内容を印字可能な英数字の羅列に変換するエンコード方式です。 詳しくはWikipediaの記事をご参照ください。 プロジェクトのダウンロード #define UNICODE #pragma comment(lib,"shlwapi") #pragma comment(lib,"crypt32") #pragma comment(linker,"/opt:nowin98") #include<windows.h> #include<shlwapi.h> TCHAR szClassName[] = TEXT("Window"); #define FIXED_FONT ANSI_FIXED_FONT LPTSTR base64enc
Windows環境では AWS Tools for Windows PowerShell が提供されていますが、多くのプラットフォームOSで動作する AWS CLI をWindows環境でも利用したという要望は少なくありません。しかし、Windows版の AWS CLI (AWSCLI64.msi)をインストールして aws s3 ls s3://xxxxx/ 実行したところ、UnicodeWarning が表示される問題に直面しました。 以降では以下のBucketを作って検証しました。 (ルート) ├ root-folder/ │ ├ folder-file-1 │ └ folder-file-2 ├ root-file-1 └ root-file-2 Windows版の AWS CLI の導入 / UnicodeWarning AWSの公式サイトの「AWS コマンドラインインターフェイ
MacOSX で Unicode が全面的にサポートされている。その中で一番分からないのは、ファイル名が UTF8 NFD (Normalization Form Decomposition) で正規化されていることである。詳しく言えば NFD をベースにした微妙に異なるルールらしい(1, 2)。その結果なのか知れないが UTF-8-MAC と呼ばれることが多い。 Linux 界隈でサポートされる UTF8 は NFC で正規化されると言われている。ただし、正規化処理が為された結果ではなく、専ら合成済みの文字のみを扱っている結果として、UTF-8 NFC なんだと思う。 Windows とおんなじ理由と思う。 根拠は全くない。 Linux というより上位のフレームワーク/アプリケーション(Gnome,KDE 等)の扱いの問題なんだと思う。 UTF8 の正規化の問題は、Samba や net
normalizer_normalize を使って Unicode 正規化を行うtransliterator_transliterate を使って Unicode エスケープシーケンスを文字に変換するPHP: Collator を使って文字列の照合を行うPHP: IntlBreakIterator を使って文字数を求めるPHP: IntlBreakIterator を使って1文字単位でコールバックを適用する関数を定義するPHP: IntlCodePointBreakIterator を使ってコードポイントを求めるPHP: ResourceBundle を使って複数のロケールのメッセージを管理する2014年7月20日追記:「濁点」が「半濁点」に誤表記されていたのを修正しました。 2013年6月20日追記:Unicode 正規化によって全角記号が ASCII に変換されることで生み出される脆弱
レボナアート | システム/web/アプリ開発・web/ホームページ制作(埼玉県所沢市) 埼玉県所沢市(入間市・狭山市・川越市・飯能市、東京他)にて、システム開発・設計・構築、アプリ開発、ホームページ・web制作を行っているレボナアートの開発中心メモ・備忘録。
ref:ウノウラボ Unoh Labs: Mac OS X上のUnicode ref:はてなブックマーク - ウノウラボ Unoh Labs: Mac OS X上のUnicode 符号化方式と正規化の問題を激しく混同した解説をどうも。ブックマークコメントをみても正しく問題が伝わっていないように思える。というか、書いた人がきちんと認識してないんじゃないか。 2007年09月04日 omaya omaya 誰が悪いんだろう。 強いて言えば NFD な Unicode の入力に対してまともに動かない Web アプリじゃないかな。 2007年09月04日 mattn mattn macosx, unicode ブラウザのバグだしバージョンで処理しないといけないのかな... ブラウザのバグではない。 しかもややこしいことに、UTF-8で濁点をあらわすコードは「U+309B」(KATAKANA-HIR
前回の記事の続編です。 HFS+ における Modified NFD Apple が OS X でファイルシステムとして採用しているHFS+では,ファイル名を原則としてNFDで分解して保持するようになっています。 2種類の「が」は分解形で統一される たとえば,ユーザが が.txt(「が」はU+304Cの1文字)というファイル名でファイルを保存しても,ファイルシステム上は が.txt(「が」は U+304B U+3099 の合成文字)として保存されます。 実際,が.txt(「が」はU+304Cの1文字)としてファイルを保存した後,Finderでファイル名変更モードに入り,「が」という文字をコピーすると,U+304C ではなく,U+304B U+3099 という2文字がコピーされるのが確認できます。 → か(U+304B) + 結合用濁点(U+3099) がコピーされる CJK互換漢字を置き
■ 「東京Ruby会議05」でUnicode正規化の話を聴いてきた(えっ?) そういえばRegional RubyKaigiに参加するのは初めてだ。今までは「大RubyKaigiの実行委員がRegionalに参加して(ただでさえ少ない参加枠を狭めるのも)申しわけないなぁ」と思って遠慮していたんだけど、今年は予告通りRubyKaigi2011の実行委員からは外れたので、遠慮するこたぁないのだった。というわけで東京Ruby会議05に参加。 場所は渋谷、ECナビの8Fにある「Ajito」という……なんだろう、そのビルに入っている各社の共同スペースみたいな? 趣向を凝らしたいろんな部屋がある、会議&イベントスペースというか。渋谷にこんな小洒落たフロアを持ってるなんて、ネット企業うらやましい! 冒頭は高橋さんによる「Rubyの楽しさ」に関する講演(台本なし、スライドなしの1時間)で、その後、事前に設
ユニコード正規化をすると、半角英数字や機種依存文字などの表記が統一できます。 表記ブレが吸収されることで検索性が高まったり、データの比較なども行いやすくなります。 正規化の手法にはNFD, NFC, NFKD, NFKCがありますが、その中でもNFKCという次のような正規化を行う方法をコードを交えて紹介します。 ウ゛ェ → ヴェ ABC → ABC ① → 1 ㊤ → 上 Ⅲ → III ㌶ → ヘクタール ハンカクカナ → ハンカクカナ ﹣ → - ※ 左辺はU+FE63 Small Hyphen-Minus: 小さいハイフンマイナス - → - ※ 左辺はU+FF0D Fullwidth Hyphen-Minus: 全角ハイフンマイナス 動作環境
HFS+はファイルやフォルダなどのアイテム名をどのテキストエンコーディングで扱っているのでしょうか? Appleは最近までこの情報をドキュメントに記載して公開していたのですが、今はしていません(2016年10月現在)。それでも第三者によるアーカイブがかろうじて残っており、典拠として貴重なのでここに記録しておきます。 2009年時点のFile Systems and Unicode Support 追記:いつのまにかリンク切れしていました。キャプチャを貼っておいてよかった…。 見ての通りUTF-16ですね。インターネット上ではUTF-8-MACであるとの説明が散見されますが間違いです。 HFS+のUnicode正規化形式 Unicode正規化形式はUAX#15で4種類が正式に決められています。HFS+はそのうちのNFDをさらにAppleが改変した特殊な正規化形式を実装しています。アイテム名は
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く