タグ

unicodeに関するkminoruのブックマーク (13)

  • Unicode HOWTO

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

    kminoru
    kminoru 2008/05/21
    pythonのunicode
  • 文字コード入門

    コンテンツ一覧 インデックスページ←いまここ コンピュータ上での数値の扱い コンピュータで文字を扱うには? ASCIIとJISローマ字 JIS漢字コード:JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字 中国の文字コード 台湾の文字コード Unicode 大規模文字集合 参考資料(書籍) ページを作るにあたって参考にした書籍です。 川俣晶『パソコンにおける日語処理文字コードハンドブック』技術評論社 芝野耕司編『JIS漢字字典』日規格協会 漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版 小池和夫/府川充男/直井靖/永瀬唯/『漢字問題と文字コード』 太田出版 1999 安岡孝一/素子『文字コードの世界』 東京電気大学出版局 1999 ユニコード漢字情報辞典編纂委員会編 『ユニコード漢字情報辞典』 三省堂 2000 小林/安岡/戸村/三上編 bi

  • http://www.ajisai.sakura.ne.jp/~dindi/chrc/ref/wincode2.txt

    kminoru
    kminoru 2008/03/24
    文字コード関連
  • ҉←「文字の流れを左右逆にする特殊文字」のトリック : 亜細亜ノ蛾 - Weblog

    この文字は何? 2007-08-31T14:53:00+09:00 追記 某ブックマークサイトからお越しの皆様へ。おかげで、色々な情報を知ることができました。ありがとうございます! 下の「種明かし?」に追記しました。何となく種明かしになったのでは、と。まぁ、ムダ知識程度にお楽しみください。トラックバック先に有益な情報があるので、そちらもどうぞ。 ‫‬‭‮‪‫‬‭‮҉ はてなブックマーク経由で、上の不思議な記号のことを知りました。──フォントによっては見えなかったり、?や□になっていると思いますが、実際は「, で丸を描いたような記号」です。 どう不思議かは、下のフォームに文字を入力してみると、すぐわかるかと。この記号を消さないように、何か入力してみてください。 環境によると思いますが、入力した文字の流れが左右反対になります。とくに、日本語入力中でも反対になるのにビックリ(Windows XP

    ҉←「文字の流れを左右逆にする特殊文字」のトリック : 亜細亜ノ蛾 - Weblog
    kminoru
    kminoru 2008/03/07
    文字の流れが反転。なににつかえるんだろ。。タグでもあるよね。<bdo dir=rtl">hogeho</bdo>ってやれば右から左にながれる
  • azito.com

    This domain may be for sale!

    kminoru
    kminoru 2007/08/21
    stringとunicode型によって、ただのバイト列にして取得するか、unicodeにデコード/エンコードするかのちがいが大きい
  • Unihan Database Lookup

    About the Unihan Database Lookup Tool The lookup interface on this page provides online access to property data in the Unicode Han (Unihan) database for individual ideographs via the “Lookup” button and text field above. Simply enter the four- or five-digit hexadecimal code point for the desired ideograph into the text field, or copy and paste the ideograph into it, then click the “Lookup” button.

    kminoru
    kminoru 2007/08/08
    unicode文字列検索
  • Python で日本語を扱う基本をまとめてみるメモ(その1) - 猫(=・ω・=)顔 1.0β

    久々の Python ネタ! (=´ω`=)ノ 1ヶ月ぐらいかけてようやくこの: 速効!Pythonプログラミングバージョン2.5対応 作者: 上平哲出版社/メーカー: 秀和システム発売日: 2007/04/27メディア: 単行購入: 1人 クリック: 29回この商品を含むブログ (15件) を見るを読み終えた! 「EUC とか UTF とかのエンコーディング方法をキチンと処理するための Python の正しいお作法ってどうなの?」というのが知りたくてヨドバシの書籍コーナーでいろいろ物色してこのを選んだのだが、それがとても丁寧にかかれてて良かった。日語に関してだけじゃなく、全般的に例が多くて丁寧。言語仕様からこういう結果になる、という説明じゃなく、こう書くとこういう理由でこう動く、という事例オリエンテッドな感じで Python 初心者な自分には読みやすかったっす。 っつーことで、以

    Python で日本語を扱う基本をまとめてみるメモ(その1) - 猫(=・ω・=)顔 1.0β
    kminoru
    kminoru 2007/08/08
    よくまとまってていいよー。すばらしす
  • Python プログラミング

    C++ のクラスと Python のクラス C++Python の大きな違いは、前者がコンパイラ向け、 後者がインタプリタ向けの言語であるということ。あたりまえだけど。 C++ では「クラス」はあくまで、ヘッダファイルなどでの「定義」であって、 コンパイラにかけるときには、実際にその定義されたコードが実行される ことはない。これもあたりまえ。 一方、Python はインタプリタなので、「クラス」文はいきなり実行されている。 もうちょっと具体的に言うと、: 1: class foo(object): 2: def bar(self): 3: print 'Hello, world!!' 4: 5: x = foo() 6: x.bar() 上記のような Python のプログラムがあったとき、C++ の感覚だと、 5行目から実行されているような気がする。で、foo() で foo クラ

    kminoru
    kminoru 2007/07/12
    日本語関連のはなし。なにが正しいのやら。。。
  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

    波ダッシュ・全角チルダ問題 - Wikipedia
    kminoru
    kminoru 2007/07/05
    ややこしーなー
  • Pythonと日本語表示と文字コード 其の弐 - Cassiopeiaの日記

    ここのところは前回と一緒で。 (WindowsXPにココから "Python 2.5.1 Windows installer" をインストールした環境でテストしています。) まずは、あなたが書いたコードはutf-8で保存する。そして、そのコードの先頭には以下を記入する。 # -*- coding: utf-8 -*- あなたはエディタに何を使っていますか? 秀丸、メモ帳、vim、meadow、或いは Python Scripter、eclipse ? いずれにしてもファイルを保存する時のエンコードはutf-8にすべし。 今日はもうちょっといじくってみる。 # -*- coding: utf-8 -*- jstr = "パイソン" kstr = "パイソン" print jstr print kstr if jstr == kstr: print "same" else: print "no

    Pythonと日本語表示と文字コード 其の弐 - Cassiopeiaの日記
    kminoru
    kminoru 2007/07/05
    unicodeとutf-8について。utf-8はunicodeのエンコーディング方式の一つ
  • Universalchardet - やる気向上作戦

    universalchardet / juniversalchardet Mozillaのエンコーディング判別ライブラリであるuniversalchardetを切り出して、Cライブラリ化してみた。さらにJavaにもポーティングしてみた。エンコーディング判別なのにcharacter set detectorとはこれいかに。 C版はLinux/Windowsに対応。Linuxでのインストールは make && make install で。autoconfなどという高尚なものは使っておりません。 文字コードの変換はこちら EncodingConversion Related Works jchardet (Java,旧バージョンのchardet) juniversalchardet(Java,universalchardetのJavaポート) Universal Encoding Dete

    kminoru
    kminoru 2007/03/28
    GJ!C#版ないんか?
  • シフトJISを捨てられるか? - 記者のつぶやき:ITpro

    これまで,Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで,Windows XPのときと文字の形が変わったり,Unicodeでしか扱えない文字があったりするという話題だ。今回は,エンコーディングについて考えてみたい。 これまでの記事でも書いてきたが,文字処理とエンコーディングに関する問題は,何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など,既存のWindowsでも同様だ。例えば,「鴎」の旧字である「シナカモメ」は,Unicodeでしか扱えない文字だが,Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには,アプリケーション・ソフトが,文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に,文字情報が無くなってしま

    シフトJISを捨てられるか? - 記者のつぶやき:ITpro
    kminoru
    kminoru 2007/03/12
    DANさんの記事と見比べてそろそろまとめるかな?
  • VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る

    「『JIS X 0213』の基的な考えは,必要な漢字を使いたくても使えなくて困っている人たちを助けることだった」。こう語るのは,京都大学人文科学研究所附属漢字情報研究センター助教授の安岡孝一氏。1997年以来JISの委員としてJIS規格の文字コード(「JIS X 0213」や「JIS X 0213:2004」など)の策定にかかわってきた安岡氏に,最近の文字コードの変遷や,Windows VistaにおけるJIS X 0213対応に関する見解を聞いた。 ──JIS X 0213の概要や,それが2004年に改訂された経緯などを教えてほしい。 安岡氏:過去に使われていた文字集合「JIS X 0208」や「JIS X 0212」には,日の地名で使われている文字が抜けているなど,重要な文字の不足がありました。ただしこの問題は,そこに住む地元の人は困っていても,日全体で見るとほとんどの人が困って

    VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る
    kminoru
    kminoru 2006/12/26
    文字コードと文字セットについて
  • 1