タグ

unicodeに関するcrayzicのブックマーク (12)

  • An Unicode vendor-specific character table for japanese (日本語のUnicodeベンダ依存文字表)

  • ハイフンマイナス - Wikipedia

    ハイフンマイナス (hyphen-minus) あるいはアスキーハイフン (ASCII hyphen) は、ラテン文字とともに使われる記号 (-) であり、通常は半角幅の横棒である。約物のハイフン (‐) や演算記号のマイナス (−) の意味で使われる記号である[1]。ASCII、JIS X 0201などのISO/IEC 646系の文字コードや、ISO-8859-1などのISO/IEC 8859系の文字コード、UTF-8などのUnicode系の文字コードにおいて0x2Dの符号位置を持つ文字である。 概要[編集] ハイフンマイナスはタイプライター等の記号として入力が可能であった横棒の意味として、演算等で用いる(二項および単項)演算子のマイナスの用途と、欧文等で単語区切りに使用する約物のハイフン、単語途中での改行時に使用するソフトハイフン、区切りを表すダッシュなどの複数の意味で使用されていた。

  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • Oracle Java Technologies | Oracle

    Java Is the Language of Possibilities Java is powering the innovation behind our digital world. Harness this potential with Java resources for student coders, hobbyists, developers, and IT leaders.

  • native2asciiもどき

    public class Test_native2ascii_2 { public static void main(String[] args) { String s = "てすと123 てすと"; System.out.println(dump(s)); } static String dump(String value) { StringBuilder sb = new StringBuilder(); for (int i = 0; i < value.length(); i++) { String s = Integer.toHexString(value.codePointAt(i)); if (4 <= s.length()) { sb.append("\\u" + s); } else { sb.append(value.charAt(i)); } } return sb.

  • サロゲートペア入門

    はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicodeでデータ処理

    サロゲートペア入門
  • Unicode CLDR

    Some of the companies and organizations that use CLDR are: Apple (macOS, iOS, watchOS, tvOS, and several applications; Apple Mobile Device Support and iTunes for Windows; …) Google (Web Search, Chrome, Android, Adwords, Google+, Google Maps, Blogger, Google Analytics, …) IBM (DB2, Lotus, Websphere, Tivoli, Rational, AIX, i/OS, z/OS, …) Meta (Facebook, Messenger, WhatsApp, …) Microsoft (Windows, Of

  • Unicodeを使用した多言語データベースのサポート

    6 Unicodeを使用した多言語データベースのサポート この章では、Oracleデータベース環境でのUnicodeの使用方法について説明します。 この章の内容は、次のとおりです。 Unicodeの概要 Unicodeの内容 Unicodeソリューションのデータベースへの実装 Unicodeの事例 複数言語サポートのためのデータベース・スキーマ設計 Unicodeの概要 同じアプリケーションやデータベース内で多数の異なる言語を処理することは、長い間複雑で困難な処理でした。既存の文字エンコーディングの制約を克服するために、1980年代の後半、複数の組織がグローバル・キャラクタ・セットの作成に着手しました。グローバル・キャラクタ・セットの必要性は、1990年代中頃に入り、World Wide Webの発展とともにますます大きくなりました。インターネットの普及によってビジネスの形態が変化し、グロ

  • ExcelでUTF-8エンコーディングされたCSVファイルを開く方法 - 小さい頃はエラ呼吸

    photo credit: gonzalo_ar via photopin cc はじめに このエントリでは、ExcelUTF-8エンコーディングされたCSVファイルを開く方法を紹介します。 Excel VBAのプログラミングのツボとコツがゼッタイにわかる―最初からそう教えてくれればいいのに!Excel2007/2003対応posted with amazlet at 12.12.23立山 秀利 秀和システム 売り上げランキング: 1,346 Amazon.co.jp で詳細を見る 結論 以下のような3つの方法があります。 拡張子をcsvからtxtに変更してから開く。 CSVファイルをBOMつきのUTF-8ファイルに保存しなおしてから開く。 CSVファイルの保存形式をANSIに変更してから開く。 ExcelCSVファイルをShift_JISで開こうとする Excelは、CSVファイル

    ExcelでUTF-8エンコーディングされたCSVファイルを開く方法 - 小さい頃はエラ呼吸
  • Unicode - 似た文字同士にご用心 : 404 Blog Not Found

    2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心 後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ で、元のテキストファイルの全角ハイフンを「od -t x1」 で見てみると「ef bc 8d」と「e2 88 92」の2種類が混じっていました。 前者は「\p{Hyphen}」にマッチするのですが後者はダメ。 まあ原因は分かったので、前処理でバイナリ置換して解決しました。 で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI

    Unicode - 似た文字同士にご用心 : 404 Blog Not Found
  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

  • 1