[B! Unicode] urza358のブックマーク

Find all Unicode Characters from Hieroglyphs to Dingbats – Unicode Compart

U+2295 is the unicode hex value of the character Circled Plus. Char U+2295, Encodings, HTML Entitys:⊕,⊕,⊕, UTF-8 (hex), UTF-16 (hex), UTF-32 (hex)

urza358 2019/11/23

Unicode

リンク

JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか（MySQL6なら対応したそうだ）。数値文字参照で全部書いてみた。（パッチのあたっていないWindowsXPなどでは表示されないです。）𠀋𡈽𡌛𡑮𡢽𠮟𡚴𡸴𣇄𣗄𣜿𣝣𣳾𤟱𥒎𥔎𥝱𥧄𥶡𦫿𦹀𧃴𧚄𨉷𨏍𪆐𠂉𠂢𠂤𠆢𠈓𠌫𠎁𠍱𠏹𠑊𠔉𠗖𠘨𠝏𠠇𠠺𠢹𠥼𠦝𠫓𠬝𠵅𠷡𠺕𠹭𠹤𠽟𡈁𡉕𡉻𡉴𡋤𡋗𡋽𡌶𡍄𡏄𡑭𡗗𦰩𡙇𡜆𡝂𡧃

urza358 2018/07/09

Unicode

リンク

Unicode, UTF についてひっかかったので色々メモ - Qiita

もう文字コードはおなかいっぱいなのですが... Unicode と UTF の違い Unicode : 符号化文字集合 UTF : 符号化方式符号化文字集合と、符号化方式についてはこちらを参照 -> 本当は怖くないCP932 文字セットの切り替えなしに、世界中の文字を単一文字集合として扱う符号化文字集合規格 21ビットの範囲(0x00000〜0x10FFFF) 各文字の位置は先頭に U+ をつけて表す( Unicodeコードポイントと呼ぶ) 例えば 🗿 ならば U+1F5FF UTF-8, UTF-16, UTF-32 の違い UTF-32 Unicodeコードポイントをそのままつかった符号化方式 21ビットだと切りが悪いので、32ビット UTF-16 1文字16ビット元々、unicodeは16ビットの固定長として開発されたため、最初はUTF-16が、unicodeの唯一の符号化

urza358 2018/07/09

リンク

７.２ ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験

文字コードについて調べたことや実験したこと，テストプログラム，データファイルなどを随時掲載する予定です．ただし筆者の理解不足や誤解により誤りがあるかもしれませんので，ご利用は自己責任で．このページの主な更新は Blog でお知らせします．表示確認ブラウザ：FireFox 22.0，IE8．０．目次シフトJIS Shift_JIS と Windows-31J (CP932) の違いシフトJIS ２バイト文字の判定謎の検索ワード集 (シフトJIS編) 「Shift_JIS(SJIS，Windows-31J，CP932) ３バイト文字」「Shift_JIS(SJIS，Windows-31J，CP932) サロゲート(ペア)」「UTF-8 4バイト文字 Shift_JIS(SJIS，Windows-31J，CP932) 変換」「Unicode(UTF-8，UTF-16) か

urza358 2018/07/09

リンク

Python2で文字列を処理する際の心掛け - Qiita

日本語を扱うPythonプログラマ(with Python2)にとっての最大の天敵(過言)、UnicodeEncodeError。昨日横の人がその餌食となり、その解決の手助けをしているうちに自分の中でPython2での文字列処理の方向が少し整理できた。(近いうちにPython3バージョンもまとめたい) 個人的結論バイト文字列/ユニコード文字列のどちらを扱っているかを常に意識しておく。 (基本的に)プログラム内ではユニコード文字列を扱い、標準入出力とやり取りする際(ex. print)にはバイト文字列に変換する。バイト文字列とユニコード文字列バイト文字列は特定のエンコード方式(ex. utf-8)でエンコードされており、リテラルでは'あいう'のように表現する。一方、ユニコード文字列はUnicodeのコードポイントを並べたものであり、リテラルではu'あいう'のようにuをつける。 (py

urza358 2017/04/26

リンク

Python2のstr/unicodeとencode/decode - Qiita

２種類の文字列 Python2には文字列が2種類ある。ここではその2つを str文字列および unicode文字列と呼び、これらをまとめて文字列と呼ぶ。公式ドキュメントでも用語があまり統一されていないので、とりあえずこう呼ぶことにする。先に言っておくと、基本的にunicode文字列を使うべき。 str文字列 '...' リテラルで生成されるオブジェクト UTF-8, Shift-JISなどの符号化方式によって各文字を符号化して得られるバイトを並べたもの 1文字が複数バイトで表現されることもある str文字列そのものは、符号化に使われた符号化方式の情報をもたない符号化方式を知るには基本的に片っ端から試すらしい対話環境で 'あいう' と入力すると、 \x で1バイトずつ区切られたバイト列が返る

urza358 2017/04/24

リンク

python2.xでの日本語(マルチバイト文字)問題を一掃する！(その１) — ExSoft

python2.xを使い始めて、必ずと言って良いほど遭遇するのが日本語(マルチバイト)関連の問題です。ネットで同様のケースを調べて、あまり理解をせずに、対処療法的にその場の問題を回避している人も多いように思いますが、一度腰を据えて理解すれば、それほど難しくないですし、python以外の言語にも応用ができます。マルチバイト問題については、概念だけではなく、実際に手を動かし、目で確かめる(文字コードそのものを見る)事が重要です。今回は、python2.xで遭遇する文字コード関連のエラーを実際に発生させ、その理由を理解した上で対処を行ってみましょう。文字コードの定義ケース１ [ 再現 ] pythonスクリプトファイルのencodingをcp932にし、以下を記述します。 ustr = u'い' [ 現象 ] SyntaxError: Non-ASCII character '\x8

urza358 2017/04/24

リンク

Pythonでの日本語処理：Unicode型と文字列型 - 思い立ったら書く日記

Pyhton の XML/HTML パーサ・ライブラリ BeautifulSoup を使って、Google の検索結果を整形する Python スクリプトを書いたところ、Python の日本語処理で UnicodeEncodeError、UnicodeDecodeError ではまった。いい機会なので、Python で日本語処理に関して、自分なりに整理してみる。この記事は Windows での Python 2.5.1 で動作確認している。Python 3.x では改善しているかもしれないので、この記事を読む方はご注意を。Python 3.x については時間があれば確認したい。というより、早くバージョンアップしなさい！という感じですが。 [2009.09.22 追記] Python 3.0 で Unicode まわりがかなり修正かかっていました。この記事を読む方は、Python 2.5.

urza358 2017/04/24

リンク

PythonのUnicodeEncodeErrorを知る - HDEラボ

Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

urza358 2016/09/02

リンク

http://japan.internet.com/developer/20051004/27.html

urza358 2012/08/14

リンク

Unicode設定

UTF-8化を行うには、Tera Termの「Setup[設定]」メニューから「General[全般]」を選び、「Language[言語]」を "UTF-8", "Japanese" および "Korean" のいずれかへ変更します。 Language 設定が UTF-8 の時は Japanese に比べて以下の機能を使わなく(使えなく)なります。 JIS, EUC, SJIS 等の UTF-8 以外の文字コード ISO/IEC 2022での日本語文字セットの指示 TTXKanjiMenu プラグイン Languageに "Japanese" と "Korean" のいずれかを選んだ場合、次に「Setup[全般]」メニューから「Terminal[端末]」を選択すると出る "Terminal setup[端末の設定]" ダイアログの「Kanji(receive)[漢字-受信]」および「K

urza358 2012/03/24

Unicode

リンク

Unicode対応 JIS X 0208 文字コード表

Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

urza358 2012/03/23

リンク

プログラミング/小ネタ集/Unicode対応コーディング - ルーチェ's Homepage

概要 † このコンテンツは、C/C++言語でWindowsプログラミングをしていて、かつMFCやATLにある CString クラスを使っていない人くらいにしか実益はないかもしれません。が、内容的に知っておいて損はないことなので書いておきます。概要としては、 LPTSTR 型や TCHAR 型について知り、NT系（Unicode環境）と9x系（非Unicode環境）のどちらにも最適化できるソースコードを書こうというお話です。 TCHAR 型を見たことがなくても、 LPTSTR 型なら見たことがある人も結構いるでしょう。初心〜中級のWindowsプログラマは、大抵は LPTSTR 型と LPSTR 型の違いを特に意識せずにコードを書いています。しかし、この二つの型を混同するのは非常に危険なことです。まずはこれらの型の定義を説明し、 TCHAR 型を用いることでUnicode対応プロ

urza358 2011/02/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

Unicodeに関するurza358のブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス