タグ

Rubyとunicodeに関するseuzoのブックマーク (3)

  • 「文字列を文字の列とみなす単純化」ってどういうこと?解説編 - 西尾泰和のはてなダイアリー

    先日 @shyouhei さんのTweetに反応して文字列が文字の列かどうかが言語によって異なるという話をTweetしました。 shyouheiさんの投稿: PythonはどうかしらんがRubyの設計思想は「世の中はシンプルじゃない」だからな。文字列を文字の列とみなす発想その物がすでにRubyからすると過度に世界を単純化しすぎている。 https://twitter.com/shyouhei/status/528106973565165568 もうちょっと言っておくと数値計算で勝ち目のないRubyは文字列処理にめっちゃ注力してるんで。文字列処理こそがRubyの主戦場。そこでRubyが文字列をあえてカタマリで扱ってることにはそれなりの理由というものがある。つまり分解しようとするほうが困りごとが増える。IVSとか。 https://twitter.com/shyouhei/status/528

    「文字列を文字の列とみなす単純化」ってどういうこと?解説編 - 西尾泰和のはてなダイアリー
  • [ruby-dev:40868] Re: revert 1.9 \w limitation to ASCII

    Subject: [ruby-dev:40868] Re: revert 1.9 \w limitation to ASCII From: "NARUSE, Yui" <naruse@ r i j Date: Wed, 31 Mar 2010 10:11:56 +0900 References: 40863 40866 In-reply-to: 40866 成瀬です。 2010年3月31日7:09 Yukihiro Matsumoto <matz / ruby-lang.org>: > まつもと ゆきひろです > > In message "Re: [ruby-dev:40863] Re: revert 1.9 \w limitation to ASCII" > on Wed, 31 Mar 2010 02:39:18 +0900, "NARUSE, Yui" <naruse / aire

    seuzo
    seuzo 2011/09/29
    ruby1.9系の文字クラスの略記法で、非ASCIIを含むかどうか
  • L&#39;eclat des jours(2011-02-05)

    _ OSXのファイル名について教えてもらったこと 昨日の東京Ruby会議で、かわばたさんからNFCとかNFDとかについて教えてもらった。 Unicodeでは、文字の合成がサポートされている。たとえば「か」と濁点「゛」は合成することもできるし、「が」という1つの文字で登録もされている。しかし「あ」と濁点を組み合わせた1つの文字は登録されていない。でも「あ」と「゛」を組み合わせた「あ゛」も作れる。作った場合にどう表現するかはフォント(描画エンジンかも知れないな)に依存する(日語よりも、おそらくウムラウトとかを使う欧州言語のほうで意味を持つ仕様だと思う)。 ということは、「が」という文字が実際には登録されている「が」という1つの文字なのか、それとも「か」+「゛」なのかは、特に文字列の比較をする場合には問題となりうる。人間としては等価として扱いたいが、コンピュータとしてはかたや1文字、かたや2文

  • 1