[ 2005-October-01 20:15 ] Tim Bray describes why Unicode and UTF-8 are wonderful much better than I could, so go read that for an overview of what Unicode is, and why all your programs should support it. What I'm going to tell you is how to use Unicode, and specifically UTF-8, with one of the coolest programming languages, Python, but I have also written an introduction to Using Unicode in C/C++.
Unicode HOWTO¶ Release: 1.12 This HOWTO discusses Python’s support for the Unicode specification for representing textual data, and explains various problems that people commonly encounter when trying to work with Unicode. Introduction to Unicode¶ Definitions¶ Today’s programs need to be able to handle a wide variety of characters. Applications are often internationalized to display messages and o
Trac0.11.2.1.ja.1で、Iniadminプラグインを利用しようとすると、特定のメニューで、以下のようなエラーが表示された。 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 4: ordinal not in range(128) pythonではよくあることのようなのだが、pythonでのデフォルトの文字コードがutf-8ではなくasciiとして認識されているのが問題である。 このエラーが出た場合は、何も考えず、/usr/lib/python2.4/site-packages/の直下に、以下の内容で、sitecustomize.pyというファイルを作成すること。 import sys sys.setdefaultencoding("utf-8") これによって、全てのpythonプログラ
環境 この記事の内容は、Ubuntu 6.10, Python 2.4で確認しました。 現象 ユニコード文字列をstr関数に与えると、UnicodeEncodeErrorが発生します。 $ python Python 2.4.4c1 (#2, Oct 11 2006, 21:51:02) [GCC 4.1.2 20060928 (prerelease) (Ubuntu 4.1.1-13ubuntu5)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> s = u'ほげ' >>> str(s) Traceback (most recent call last): File "", line 1, in ? UnicodeEncodeError: 'ascii' codec
【1】 文字列コード問題との戦い Pythonに限った話ではないのですが、 日本語を取り扱うコードを書いていると やっかいなエンコーディングトラブルに遭う事は少なくないでしょう。 エンコーディングトラブルとは コンパイラ・インタプリタがソースコードを解釈できない。 画面表示が化ける。 意図した入力ができない。 エンコード・デコード時にエラーがでる。 正しいファイル名のつもりなのにファイルが見つからない。 出力させたファイルの中身が読めない。 などといった現象を基本としていろんな問題を引き起こします。 問題のすべては「コード変換」に発生します。 実際の文字列が何のエンコーディングで、 渡す先が何のエンコーディングを期待しているか? それらを確認して合致させるように変換をするということが基本です。 【2】 「Python日本語版が必要」というのは誤解 P
ウルドゥー語テキストweb版の表示フォントについて 片岡弘次監修・堀江弘道著『ウルドゥー語』は、2006年度文部科学省「特色ある大学教育プログラム」選定、「アジア理解教育の総合的取り組み」事業の刊行物シリーズNo.13として刊行されましたが、本テキストの刊行にあたって、両氏がこだわったことの1つに「書体」がありました。 パーキスターンにおいては、ウルドゥー語はナスタリーク(Nastaliq)体と呼ばれる美しい書体(左図)が一般的に用いられ、新聞や雑誌などの印刷物はもちろんのこと、街の看板や垂れ幕、テレビのテロップに至るまでナスタリーク体が使用されています。目にする文字のほとんどがナスタリーク体で書かれてあるのですから、ウルドゥー語を勉強するとナスタリーク体に触れる機会も必然的に多くなります。また、一般的な筆記についても、普段我々が使用している筆記用具でナスタリーク体に準じた書き方(その美し
Summary This annex describes specifications for the positioning of characters in text containing characters flowing from right to left, such as Arabic or Hebrew. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a normati
時々、WindowsでMeadowを使っているのですが、今日たまたまUTF-8のファイルを編集しないといけない仕事があったのですが、いつもはMacでやったり、Eclipseでやったりするのですが、Windowsでちょっとファイルを確認したり編集するのに、面倒なのでMeadowでUTF-8のファイルを読めるように設定しました。 1.最新のsetup-ja.exeをダウンロードして実行 2.インストールするパッケージで、mule-ucsを選ぶ 3..emcsに以下を記述 (require 'un-define) (require 'jisx0213) ※(set-language-environment "Japanese")よりも前に書く これで、MeadowでちゃんとUTF-8のファイルが開けるようになりました。
*は連続した文字列を表すので"a*"は"a","aaaaa","aaaaaaaaaaaaaaaaaa"に対応します
How to Convert Text to Unicode Code Points How to Convert Text to Unicode Code Points The process for working with character encodings in Python, or converting text to Unicode code points at any point in time, can be incredibly confusing, complex, and convoluted – especially if you aren’t particularly familiar with the Unicode language to begin with. Thankfully though, there are a lot of tools (an
This article introduces a number of basic concepts needed to understand other articles that deal with characters and character encodings. Unicode Unicode is a universal character set, ie. a standard that defines, in one place, all the characters needed for writing the majority of living languages in use on computers. It aims to be, and to a large extent already is, a superset of all other characte
HOME > 電算 > Python と文字コード Python と文字コード Python で行き当たりばったりに日本語処理をしてきたが、これではいかんと思っていくらかまとめてみた。(当然、このメモには間違いや誤解があろうと思う) 「python は『abc』を使うのが基本で『あいう』を使うのが例外だ」と考えると、「あいう」に対してできないことが多すぎて難しく見える。しかし、「『あいう』に対して使えるようなやり方なら『abc』にも問題なく使えて、ただ、『abc』には特権的に無作法な書き方が許されているのだ」と考えれば、ずっと簡単に理解できるように思う。 まとめ ユニコードは「文字コード」(バイト表現と文字の対応関係)ではない utf-8 は「文字コード」である Python の unicode 型は「文字コード」にとらわれない型で、CPU やメモリ上で用いられる Python の str
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く