この前「Rubyのエンコーディング」という記事を書いたのですが、それをネタに 8/25 の NSEG で発表しました。 Rubyのエンコーディング from Masahiro Tomitaこの中で、エンコーディングが原因で予期しないところで落ちてしまうことが結構あるという話もしたんで... 続きを読む
# Blocks-5.1.0.txt # Date: 2008-03-20, 17:41:00 PDT [KW] # # Unicode Character Database # Copyright (c) 1991-2008 Unicode, Inc. # For terms of use, see http://www.unicode.org/terms_of_use.html # For documentation, see UCD.html # # Note: The c... 続きを読む
Background data for Proposal for Encoding Emoji Symbols L2/09-027R Date: 2009-Feb-06 Authors: Markus Scherer, Mark Davis, Kat Momoi, Darick Tong (Google Inc.) Yasuo Kida, Peter Edberg (Apple Inc.) The carrier symbol images in this file point ... 続きを読む
スマートフォン時代の絵文字の取り扱い方は? 既存のサービスを持っているところは現状維持が妥当とは思いますが、これから新規にサービスを立ち上げようとする場合はどのようにするのが良いでしょうか? 方法は、 Unicode6.0標準をそのまま使用する Unicode6.0... 続きを読む
Unicode 6.0絵文字対応Encode::JP::Emoji 0.60をリリース(Perl) << 作成日時 : 2010/10/24 19:56 ブログ気持玉 0 / トラックバック 0 / コメント 0 今月10月11日 に Unicode Version 6.0 がリリースされたのに対応して、 川崎がメンテしている Perl モジュール... 続きを読む
The images in this file point to images on other sites. The images are only for comparison and may change. See the chart legend for an explanation of the data presentation in this chart. Symbol ID Symbol Name & Annotations DoCoMo KDDI SoftBan... 続きを読む
正規表現で漢字の範囲指定をする場合、シフトJISでは [亜-熙] になるのですけど、それでは Unicode ではどうするかが悩ましいところです。 [一-龠]([x{4E00}-x{9FA0}])にしている例を見かけますが、これは実のところ Unicode ...Unicodeで「漢字」の正規表現 ... 続きを読む
といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して... 続きを読む
The requested blog was not found -- unless you requested that of Dan Kogai (小飼 弾). まずは改めて検証してみましょう。 https://gist.github.com/dankogai/5079930 確かにその通りになっています。Unicode::UTF8はEncodeはおろかPerl組み込みのutf8::dec... 続きを読む
こんにちは @sonots です。 Ruby の invalid byte sequence in UTF-8 例外を encode("UTF-8", "UTF-8") で回避するのはおかしいよ、という話をします。 Ruby 1.9 でUTF-8的に正しくないバイト列がある文字列を扱っていると、正規表現マッチや gsub といったメソ... 続きを読む
Ruby on Rails v3.2.11 Class ActiveSupport::Multibyte::Chars < Object activesupport/lib/active_support/multibyte/chars.rb Chars enables you to work transparently with UTF-8 encoding in the Ruby String class without having extensive knowledge a... 続きを読む
注意 本内容は、自身で著作権を有するDVDをAppleTVで再生する場合のみ参考ください。 手順 ffmegはhomebrewで最新版に上げておきます。手元のバージョンは0.11.1でした。 $ffmpeg ffmpeg version 0.11.1 Copyright (c) 2000-2012 the FFmpeg developers built o... 続きを読む
I have recently seen a few URIs containing the query parameter "utf8=✓". My first impression (after thinking "mmm, looks cool") was that this could be used to detect a broken character encoding. So, is this a better way to resolve potential ... 続きを読む
冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech Perl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 現状やってること * utf8 フラグを全く考慮せずに書き、文字化けした時点で 1. use utf8 つけたりはずした... 続きを読む
参照中のページ:HOME > About > 日記? > 【JavaScript】 JavaScriptで urlencode() する方法。 JavaScript でURLエンコードする方法を何度も何度も調べてる気がするので、いい加減メモる。 groundwalker.com さんが、詳しく比較してくださっている。 エンコー... 続きを読む
Ruby 1.9 から文字列や正規表現オブジェクトはそれぞれエンコーディング(いわゆる文字コード)を保持するようになりました。たとえば 0xB1 0xB2 という2バイトは EUC-JP エンコーディングでは「渦」、SHIFT_JIS エンコーディングでは「アイ」という文字になります... 続きを読む
一度整理したかったんだけど…思った以上に魔窟でした orz 大分とメモ書きなところもあるので、適当に脳内補完しつつ読んでみてください。「理屈はえぇから設定みせろや」な場合(…まぁエンジニアとして妥当な姿勢かどうかには果てしなく疑問が残るところではあ... 続きを読む
00:37超久しぶりの更新 大丈夫生きてます。色々あって今iPhoneアプリを作っていてそのアプリで絵文字を使いたくて結構はまったので、対応したメモを残しておく。ユーザーがDBに突っ込んでくるテキストに絵文字が入っていてrailsとDBはmysqlを使ってる。 Mysql2... 続きを読む
Character encoding auto-detection in Ruby. This library is a port of the auto-detection code in Mozilla. It means taking a sequence of bytes in an unknown character encoding, and attempting to determine the encoding so you can read the text. ... 続きを読む
NokogiriNokogiri で Nokogiri::HTML.parse(open(url)[, url[, encoding]]) 等と 文字コードを指定したい場合 文字列で指定するわけだが、どのような文字列を使えば良いのか?ソースを読むと、Nokogiri::HTML::Document.read_memory で LibXMLを呼び出している... 続きを読む