[B! unicode] crayzicのブックマーク

An Unicode vendor-specific character table for japanese (日本語のUnicodeベンダ依存文字表)

crayzic 2011/02/16

unicode

リンク

ハイフンマイナス - Wikipedia

ハイフンマイナス (hyphen-minus) あるいはアスキーハイフン (ASCII hyphen) は、ラテン文字とともに使われる記号 (-) であり、通常は半角幅の横棒である。約物のハイフン (‐) や演算記号のマイナス (−) の意味で使われる記号である[1]。ASCII、JIS X 0201などのISO/IEC 646系の文字コードや、ISO-8859-1などのISO/IEC 8859系の文字コード、UTF-8などのUnicode系の文字コードにおいて0x2Dの符号位置を持つ文字である。概要[編集] ハイフンマイナスはタイプライター等の記号として入力が可能であった横棒の意味として、演算等で用いる（二項および単項）演算子のマイナスの用途と、欧文等で単語区切りに使用する約物のハイフン、単語途中での改行時に使用するソフトハイフン、区切りを表すダッシュなどの複数の意味で使用されていた。

crayzic 2011/02/16

unicode

リンク

Unicodeの似た文字を整理してみた - y-kawazの日記

XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。分かりやすいよう、青は文字化けなし、黄

crayzic 2011/02/16

unicode

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

crayzic 2011/02/06

unicode

リンク

Oracle Java Technologies | Oracle

Java Is the Language of Possibilities Java is powering the innovation behind our digital world. Harness this potential with Java resources for student coders, hobbyists, developers, and IT leaders.

crayzic 2011/02/06

unicode

リンク

native2asciiもどき

public class Test_native2ascii_2 { public static void main(String[] args) { String s = "てすと123 てすと"; System.out.println(dump(s)); } static String dump(String value) { StringBuilder sb = new StringBuilder(); for (int i = 0; i < value.length(); i++) { String s = Integer.toHexString(value.codePointAt(i)); if (4 <= s.length()) { sb.append("\\u" + s); } else { sb.append(value.charAt(i)); } } return sb.

crayzic 2011/02/06

unicode

リンク

サロゲートペア入門

はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日本語漢字の数が増えました。従来、12238字（Windows XP）だったのが13145字（Windows Vista）になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです（Windows XPまでは一部サポート）。またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。対象読者 Unicodeでデータ処理

crayzic 2011/02/06

unicode

リンク

Unicode CLDR

Some of the companies and organizations that use CLDR are: Apple (macOS, iOS, watchOS, tvOS, and several applications; Apple Mobile Device Support and iTunes for Windows; …) Google (Web Search, Chrome, Android, Adwords, Google+, Google Maps, Blogger, Google Analytics, …) IBM (DB2, Lotus, Websphere, Tivoli, Rational, AIX, i/OS, z/OS, …) Meta (Facebook, Messenger, WhatsApp, …) Microsoft (Windows, Of

crayzic 2010/12/28

リンク

Unicodeを使用した多言語データベースのサポート

6 Unicodeを使用した多言語データベースのサポートこの章では、Oracleデータベース環境でのUnicodeの使用方法について説明します。この章の内容は、次のとおりです。 Unicodeの概要 Unicodeの内容 Unicodeソリューションのデータベースへの実装 Unicodeの事例複数言語サポートのためのデータベース・スキーマ設計 Unicodeの概要同じアプリケーションやデータベース内で多数の異なる言語を処理することは、長い間複雑で困難な処理でした。既存の文字エンコーディングの制約を克服するために、1980年代の後半、複数の組織がグローバル・キャラクタ・セットの作成に着手しました。グローバル・キャラクタ・セットの必要性は、1990年代中頃に入り、World Wide Webの発展とともにますます大きくなりました。インターネットの普及によってビジネスの形態が変化し、グロ

crayzic 2010/11/11

リンク

ExcelでUTF-8エンコーディングされたCSVファイルを開く方法 - 小さい頃はエラ呼吸

photo credit: gonzalo_ar via photopin cc はじめにこのエントリでは、ExcelでUTF-8エンコーディングされたCSVファイルを開く方法を紹介します。 Excel VBAのプログラミングのツボとコツがゼッタイにわかる本―最初からそう教えてくれればいいのに!Excel2007/2003対応posted with amazlet at 12.12.23立山秀利秀和システム売り上げランキング: 1,346 Amazon.co.jp で詳細を見る結論以下のような３つの方法があります。拡張子をcsvからtxtに変更してから開く。 CSVファイルをBOMつきのUTF-8ファイルに保存しなおしてから開く。 CSVファイルの保存形式をANSIに変更してから開く。 ExcelはCSVファイルをShift_JISで開こうとする Excelは、CSVファイル

crayzic 2010/09/23

リンク

Unicode - 似た文字同士にご用心 : 404 Blog Not Found

2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだで、元のテキストファイルの全角ハイフンを「od -t x1」で見てみると「ef bc 8d」と「e2 88 92」の２種類が混じっていました。前者は「\p{Hyphen}」にマッチするのですが後者はダメ。まあ原因は分かったので、前処理でバイナリ置換して解決しました。で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI

crayzic 2008/05/03

リンク

UCS-2とUTF-8

最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例

crayzic 2007/08/10

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

unicodeに関するcrayzicのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス