タグ

文字に関するnagasamaのブックマーク (20)

  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • NDL書誌情報ニュースレター37号

    2016 年 2 号(通号 37 号) NDL 書誌情報ニュースレター 目 次 ウェブ環境に適した新しい書誌フレームワーク:BIBFRAME (収集・書誌調整課 柴田洋子) 1 欧米国立図書館の RDA 適用状況に関する調査報告 (国内資料課 吉家あかね) 7 世界の RDA の取組みのいま(8)―中国 (関西館 アジア情報課 齊藤まや) 13 世界の RDA の取組みのいま(9)―スペイン語圏(イベロアメリカ諸国を中心に) (国内資料課 鎌倉知美) 17 文字コード講座 第 3 回(完)―文字コードあれこれ (関西館 上綱秀治) 23 おしらせ:全国書誌データ・レファレンス協同データベース利活用研修会を開催します (収集・書誌調整課) 29 おしらせ:平成 28 年度遠隔利用者アンケートにご協力ください (収集・書誌調整課) 31 おしらせ:雑誌記事索引データに記録する著者等の数を増やし

  • 文字色のコントラスト比を確認したら、リンクテキストの色を修正することになった – mzmjp.net::blog

    このブログの文字のコントラスト比を確認する作業を行ったので、その作業メモをつけておきます。今回、この作業を行った結果、リンクテキストの色を変更することになりました。 きっかけ アクセシビリティがテーマの Accsell という Podcast をいつも聞いています。iTunes で登録してあるので、更新があると知らないうちに iPhone に入ってて便利。YouTube のチャンネルも開設されています。 で、ふと Accsell のサイトにアクセスしようと思ったけど、スペルが思い出せなかったので、出演者の一人である植木さんの名前で検索してみました。こうすれば辿りつけるだろうと。 すると、Accsell のサイトを見つける前に、植木さんが出てる動画を見つけました。ちょっと気になったので、視聴。 URL : 植木真の仕事環境 [67WS10周年記念] – YouTube 動画内では、タイトル通

    文字色のコントラスト比を確認したら、リンクテキストの色を修正することになった – mzmjp.net::blog
  • https://support.microsoft.com/ja-jp/help/170559

    すべての Microsoft 製品 Microsoft 365 Office Windows Surface Xbox セール サポート ソフトウェア Windows アプリ OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画テレビ番組 法人向け Microsoft Azure Microsoft Dynamics 365 Microsoft 365 Microsoft Industry データ プラットフォーム Power Platform 法人向けを購入する Developer & IT .NET Visual Studi

  • スペースの使い分け

    さまざまなスペース 英語などアルファベットを使う言語は、単語と単語の間に空白スペースが入り、それによって単語を区分けします。一方、漢字と仮名で綴られる日語は、句読点とともに漢字をうまく使うことで、空白なしに単語の区切りを読み手に伝えることが可能です。ただし、日語で空白スペースが使われないというわけではありません。 通常の文章中に空白が使われることはあまりありませんが、一覧表などで項目を分けるためにスペースが利用されることは少なくありません。また、特別な処理で空白スペースが必要になることもあります。たとえば、数学の組版では記号や数字の間に微妙なアキを入れる処理をしますし、普通の文章中でも特殊な記号などがあるとその前後にアキが入るということは珍しくないのです。 日語で空白スペースを入力する場合、一般には、日語1文字分の幅を持つ2バイトの“全角スペース”(和字間隔)と、欧文など1バイト

    nagasama
    nagasama 2015/10/14
    空白の種類。
  • Amazon.co.jp: 世界の文字と記号の大図鑑 ー Unicode 6.0の全グリフ: ヨハネス・ベルガーハウゼン (著), シリ・ポアランガン (著), 小泉均 (監修): 本

    Amazon.co.jp: 世界の文字と記号の大図鑑 ー Unicode 6.0の全グリフ: ヨハネス・ベルガーハウゼン (著), シリ・ポアランガン (著), 小泉均 (監修): 本
  • Unicode正規化 用語の混乱について 第4.2版 – ものかの

    初版 2010/4/5 第2版 2013/5/10 誤解を修正。全面的に書き直し。 第3版 2014/7/13 なるべく分かりやすく全面的に書き直し。 第4版 2015/5/20 さらに分かりやすく全面的に書き直し。 第4.1版 2015/5/27 まだ分かりにくいと不評なので書き直し。 第4.2版 2015/5/27 さらに分かりやすく調整。 Unicode正規化の考え方自体はとてもシンプルです。でも、よく知ろうとしていろいろ調べると、用語がハイコンテキストすぎて、混乱してワケがわからなくなります。日で一般的に見られる用語を図にしてみましょう。 混乱するのはどこだと思いますか? “合成済み文字” と “合成文字” の2か所です。どちらも言葉として同じ意味です。それなのに、異なった状態を表す用語として無理矢理に使い分けようとしています。ここから、以下のような奇妙な文章ができあがります。

    Unicode正規化 用語の混乱について 第4.2版 – ものかの
  • UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 

    UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 
  • 文字化けに関するトラブルに強くなる【実践編】

    補助文字(追加文字)とサロゲートペア 最後に、UnicodeにおけるJIS X 0213サポートにおいて注意すべき補助文字(追加文字)、サロゲートペアと呼ばれる概念について説明しておきます。 先に説明したとおり、Unicodeに含まれる文字は、「U+xxxx」という形式のコードポイントで管理されています。 コードポイントの範囲はさらに2つに分類されています。1つは、U+0000~U+FFFFの範囲を指す基多言語面(BMP:Basic Multilingual Plane)、もう1つは、U+10000~の範囲を指す補助(追加)多言語(SMP:Supplementary Multilingual Plane)です。 JIS X 0208のすべての文字は基多言語面に割り当てられていますが、JIS X 0213で追加された文字は、基多言語面と補助(追加)多言語面のいずれかに割り当てられていま

    文字化けに関するトラブルに強くなる【実践編】
  • SQL Semantics and LOBs

  • PDF 千夜一夜: PDFと文字 (34) - Unicodeの結合文字

    ラテンアルファベット、アラビア文字を初めとして、世界の文字にはひとつの文字の上下、あるいは左右に別の文字または記号をつけて発音の変化や声調の変化を表すものが数多くあります。 これらの文字はUnicodeでは結合文字(Combining Character)と言われています。結合文字とはプレーンテキストの文字列を表示・印刷・PDFにするとき、文字列の中で先行する基底文字にくっついて図形的にひとつの塊になる文字ということができるでしょう。 結合文字には次のようなものがあります。 ・アラビア文字のHarakat: 2006年01月22日PDFと文字 (30) – アラビア文字Harakatの結合処理 ・ラテンアルファベットのダイアクリティカルマーク:2006年01月26日PDFと文字 (33) – ラテンアルファベット ・キリルアルファベットのダイアクリティカルマーク:例えば、ロシア語のやは、基

  • Moji-Joho collectionのIVD 登録について

  • 文字列処理の比較 | Let's POSTGRES

    FORCIA, Inc. 板垣 貴裕 PostgreSQLSQL から利用できる関数 (以下、SQL関数) を豊富に提供しています。 今回は文字列の処理に注目して、SQL関数と、プログラミング言語の標準ライブラリが提供する機能を比較してみます。 比較対象のプログラミング言語は JavaJavaScript です。 PostgreSQL での文字列型の使い方全般に関しては、「文字列処理と日語全文検索」も参照してください。 全般的な比較 SQL, Java, JavaScript すべて、文字列は変更不可能なオブジェクトです。 また、空文字と null は異なることも、すべての言語で共通しています。 違いとしては、文字のインデックス (添字, 文字の位置) の表現方法があります。 SQL関数では、最初の文字のインデックスは 1 です。 一方、Java, Java Script で

  • IVSのセレクタ文字判別用のクラスを作ってみた

    とあるChar型の中の文字がIVSセレクタ文字列なのか判別するためのクラスを作ってみました。 System.Globalization.TextElementalEnumeratorではちゃんとセレクタ文字列も判別して動作するようなので、大抵の方は困らないんだろうと思いますが、ちょっと特殊なケースだとString中の1文字や特定のChar型の文字がIVSのセレクタ文字かどうかの判別が必要になったりする場合があるかもしれないので作ってみましたという感じです。 全体のコードはいつも通りGitHubで公開しています。 https://github.com/ishisaka/IvsUtility namespace OpcDiary { /// /// IVSセレクタ文字列用のユーティリティクラス /// public static class IvsUtility { //日の漢字の異字体セレ

    IVSのセレクタ文字判別用のクラスを作ってみた
  • 検討体制 | 文字情報基盤整備事業

  • DDBM_特集2_4-1001(SQL Server)

    DB Magazine 2010 January の文字コード 徹・底・研・究特 集 1 RDBMS 文字コードの基礎  SQL Serverで使用できる文字コードを説明 する前に、その前提となる知識(文字コードと Windowsでの文字コードの扱い)を説明する。  「文字コード」とは、コンピュータ上で文字を表 現するために、符号化文字集合を特定の文字 符号化方式によって符号化したデータ列のこと である。図1は、文字が文字コードに対応付け されるまでの過程を表わしたものである。図1の 文字コードとは ように世界中には多くの文字があるが、特定の 国や言語で必要となる文字は限られる。そのた め、まず規格に含める文字の集まりと順番を定め る。この文字の集まりと順番を定義したものを 「符号化文字集合(以下、文字集合)」と呼ぶ。 日で利用される代表的な規格は表1に示すと おりである。  一方、コ

  • 第3回 運用検討サブワーキンググループ | 文字情報基盤整備事業

  • untitled

    Adobe-Japan1-6 Unicode — : Unicode Adobe-Japan1-6 Adobe Systems : PDF CID OpenType/CFF Adobe-Japan1-6 vs. Unicode — Character codes in Japan Koichi Yasuoka Author Abstract: In Japan we use so many kanji variants to describe the names of people and the names of places. Since proper nouns are out of the scope of Joyo-Kanji (daily use kanji characters in Japan), the kanji glyphs used in Jinmei-yo-Kan

  • Vista の字形変更122字とは?

    ではなぜ、実際の字形変更と違う資料を作成したのでしょうか? JIS X 0213 追補1 との関連を意図的に曖昧にしているように見えますが、なぜJIS X 0213 追補1 との対照関係を断ち切ったのか、その真意は不明です。 「MSゴシック明朝JIS04字形とJIS90字形.pdf」では、「(*)は字体差」という注記のものが96字あります。しかし、「JCS調査委員会成果報告書」の「字体差」とは異なり、根拠も示されていないため、何らかの典拠があるのか、誰かの私見に基づくものなのかもわからず、何を意図した注記なのか不明です。 (字形変更96字説はこれが根拠でしょうか) また、「(+)はMS書体固有」という注記のものも2字ありますが、字形に特異な点は見あたらず、「筵」は追補1で字形変更されたもの、「喩」は追補1にはないものです。従来の書体が例示字形と異なっていたともとれますが、筆押さえの有無など

  • IMEパッドでUnicodeの異体字セレクタを利用する―Office IME 2010を使いこなすを使いこなす―

    IVSとは何か Unicodeでは、複数の異なる字形を一つに包摂して扱っています。 これによって、文字表がシンプルになる等のメリットがあったのですが、分野によっては包摂された文字を別個のものとして扱いたいという要望も存在しました。 その問題を解決するために、Unicodeが制定した仕組みがIVS(Ideographic Variation Sequence)になります(Unicodeテクニカルリポート37)。 簡単に言えば、IVSとは、プレーンなテキストデータとして異体字を使えるようにする仕組みです。 元々、IVSの仕組みは、モンゴル文字(ウイグル文字で書かれたモンゴル語)を表記するために制定されたものです。 モンゴル文字は、その使われる場(語頭・語中・語尾)によって字形が変化する文字です。その機能を実現し、なおかつ同じ文字が異なる文字として文字表に収録されるのを防ぐために、通常の文字+V

  • 1