タグ

Unicodeに関するriocamposのブックマーク (9)

  • Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo

    Unicode のコードポイントを指定して文字を得たり、逆にある文字のコードポイントを調べたり、ということをする機会は結構多いと思います。 が、Ruby でそれをやる方法をぐぐってもあまり上位に情報が出てこないなー、と思ったので簡単にまとめておきます。 Unicode コードポイントとは そもそも Unicode コードポイントとは何か。 Unicode というのは世界中の文字が集められた文字集合であり、Unicode に収録されている文字には順番に番号が振られています。 この番号のことをコードポイントといいます。 あるコードポイントが指す文字を表現するときに "U+" という文字の後ろに 16 進数表記のコードポイントを書いて表すことがあります。 例えば、コードポイント 0x3041 が指す文字 (ひらがなの 「あ」) を U+3041 と書いて表します。 各文字とコードポイントの関係は

    Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo
    riocampos
    riocampos 2018/09/22
    そうかpack/unpackじゃなくても\uで始まるunicodeリテラルで済ませると楽なんだな。んで波括弧を使えば、スペース挟んで複数文字分のコードも連続して書ける、と。
  • ダイアクリティカル付き文字辞典 - 世界の特殊文字ウィキ

    世界の特殊文字ウィキ ラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。 トップページページ一覧メンバー編集 ダイアクリティカル付き文字辞典 最終更新: qvarie 2011年02月02日(水) 14:16:11履歴 Tweet 補助記号であるダイアクリティカルマークを使用する拡張文字のデータベースです。 そのダイアクリティカルマークが使用される言語を簡単にまとめます。 公式 ユニコード未登録のダイアクリティカルマーク合成字母の公式は、 【字母, 合成可能ダイアクリティカルマーク】 0259 + 0300 → LATIN SMALL LETTER SCHWA WITH GRAVE ə + ◌̀ → ə̀ ə̀(ライブドアウィキの場合全部半角にするとユニコード字形に変化するため、記号類は全角) の順です。 HPでユニコードの文字を使

    ダイアクリティカル付き文字辞典 - 世界の特殊文字ウィキ
    riocampos
    riocampos 2014/07/05
    補助記号(ダイアクリティカルマーク)の種類別文字ページへのリンク。
  • 拡張ラテン文字辞典 - 世界の特殊文字ウィキ

    世界の特殊文字ウィキ ラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。 トップページページ一覧メンバー編集 拡張ラテン文字辞典 最終更新: qvarie 2019年02月09日(土) 21:57:18履歴 Tweet 【拡張文字辞典】カテゴリです。 拡張ラテン文字を取り上げます。 古今東西のラテン系拡張文字をまとめるのが目的ですが、フォントの都合上、字母表示がないものもあります。 部首別にまとめてあります。 パソコン上を字形を確認するには、ブラウザではFirefox、フォントではQuiviraかにしき的フォントが必要です。 ダイアクリティカル付き字母の系統は【ダイアクリティカル付き文字辞典】を参照してください。 文字見の画像掲載はしばらくお待ち下さい。 取り上げるもの ユニコードに収録されている字母。 ユニコードに未収録のもので使用されたことのある

    拡張ラテン文字辞典 - 世界の特殊文字ウィキ
    riocampos
    riocampos 2014/07/05
    アルファベット別の拡張文字ページへのリンク。
  • 文字(ラテン特殊文字) - CyberLibrarian

    ダイアクリティカル・マーク 主なダイアクリティカル・マーク(Diacritical Mark = 補助記号)をご紹介します。ダイアクリティカル・マークは、ラテン文字等において、発音を区別すべき文字に付される補助記号です。 なお、ここで紹介しているダイアクリティカル・マーク付き文字は、主な言語で使用されるものを抜粋しています。 索引: アキュート ( ́ ) 上ドット ( ˙ ) 上フック ( ̉ ) 上リング ( ̊ ) オゴネク ( ˛ ) キャロン ( ̌ ) グレーブ ( ̀ ) サーカムフレックス ( ̂ ) 下コンマ ( ̦ ) 下ドット ( ̣ ) ストローク ( / ) セディラ (̧) ダイエレシス ( ̈ ) ダブルアキュート ( ̋ ) チルド ( ̃ ) ブリーブ ( ̆ ) ホーン ( ̛ ) マクロン ( ̄ ) アキュートアクセント(Acute Accent)

    riocampos
    riocampos 2014/07/05
    Unicodeのダイアクリティカル・マーク付き文字の紹介。代用の指針もあるのがありがたい。
  • アクセント付き文字の変換表(アクセント分解)

    注:下の表の文字コードはUnicodeです。正しく表示されない場合はブラウザの「エンコード」を Unicodeにしてください。 何これ? アクセント付き文字を和文中で表記するための実用的な手段です。 もっと詳しく これは「基ラテン文字のみによる拡張ラテン文字Aの分解表記法」(SeNoLEBLO: Separative notation of Latin Extended-A characters by Basic Latin characters only)です。通称は「アクセント変換表」です。 ASCIIコード(とUnicode)の 128番以前は「基ラテン文字」と呼ばれ、世界中のほとんどのコンピュータで表記できます。 欧文や日語ローマ字表記ではアクセント記号つきの文字があります。これはASCIIコード(とUnicode)の 128番以降の「拡張ラテン文字」ですが、日語の文字コー

    riocampos
    riocampos 2014/07/05
    『アクセント付き文字を、多言語をサポートしない、和文のプレーン テキスト中で表現するための表記方法(アクセント分解)の提案です。例えばフランス語のthéâtreを〔the'a^tre〕と 表記できます。』
  • 文字コードについて

    2003-11-03 文字コードについて PCというものが世の中に登場して来たとき(8ビットCPUだった)には、 半角文字しか扱うことができなく、日製のPCは、この頃から厄介な 半角カタカナというものもあった。 当時のPCでは、ワープロのソフトもなく、ワープロ(という装置)は 机の形をしていた機械だった。 今では、意識することなくPCで日語を扱うことができるようになったが、 それでも、気をつけていないと、漢字が化けるなどの問題がある。 メモ帳で色々な文字コードを保存 Windows2000のメモ帳を使い下記の4種類の文字コードを試してみた。 ANSI Unicode Unicode big endian UTF-8 メモ帳でそれぞれの文字コードで保存してテキストファイルを作成する。 ファイルの内容は「abcあいう」という文字列が書いてあり、 そのファイルをHEXダンプした。 ANSIの

    riocampos
    riocampos 2014/06/26
    UCS-2からUTF-8への変換表が載っている。
  • Unicode spaces

    This document lists the various space characters in Unicode. For a description, consult chapter 6 Writing Systems and Punctuation and block description General Punctuation in the Unicode standard. This document also lists three characters that have no width and can thus be described as no-width spaces. The third column of the following table shows the appearance of the space character, in the sens

    riocampos
    riocampos 2014/06/04
    スペースだけで、なぜこんなにたくさん種類があるのやら…。
  • hachi8833の記事一覧|TechRacho by BPS株式会社

    hachi8833 Twitter: @hachi8833、GitHub: @hachi8833 コボラー、ITコンサル、ローカライズ業界、Rails開発を経てTechRachoの編集・記事作成を担当。 これまでにRuby on Rails チュートリアル第2版のコンテンツ監修、Railsガイドのコンテンツ作成を担当。 かと思うと、正規表現の粋を尽くした日語エラーチェックサービス enno.jpを運営。 実は最近Go言語が好きで、Goで書かれたRubyライクなGoby言語のメンテナーでもある。 仕事に関係ないすっとこブログ「あけてくれ」は2000年頃から多少の中断をはさんで継続、現在はnote.comに移転。Amazonウィッシュリスト: https://bit.ly/32aAmiI

    hachi8833の記事一覧|TechRacho by BPS株式会社
    riocampos
    riocampos 2013/10/22
    正規表現のUnicode文字プロパティを解説する連載記事。「正規表現」だけでもヘヴィーなのにさらに「Unicode」。詰んでる感じですねw
  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
    riocampos
    riocampos 2009/12/11
    新常用漢字表に含まれる「𠮟」はUnicodeしかもUTF-8/16のみ。WinXPやOSX 10.4では扱えない。/『「許容字体」として「叱」を認めてほしい、と陳情』すべきでしょうね。
  • 1