タグ

文字コードに関するworks014のブックマーク (405)

  • TeXユーザの集い 2014 今週末開催! - TeX Alchemist Online

    今週末「TeXユーザの集い 2014」が開催されます! TeXユーザの集い2014を開催します! 日付:2014年11月8日(土)全日予定 会場:青山学院大学 青山キャンパス 17号館 5階 17511教室 http://t.co/dVd23xtnOp— TeXユーザの集い2014 (@texconf14) 2014, 6月 20 昨年の TUG 2013 では講演する立場でしたが,今年は実行委員という立場を務めております。 渋谷の青山学院大学青山キャンパスで行いますので,興味のある方はぜひお越しください! 講演後の懇親会は既に申し込みを締め切ってしまっておりますが,講演体の部分は事前申し込みは不要で,直接会場にお越しいただければ大丈夫です。 「TeXには興味はあるけど詳しくないので……」などと尻込みされる必要は全くありません。TeXに詳しくなくても大丈夫。むしろ,講演題目を見れば分かる

    TeXユーザの集い 2014 今週末開催! - TeX Alchemist Online
    works014
    works014 2014/11/06
    …「講演本体の部分は事前申し込みは不要」…
  • こくちーずプロ - 無料で使えるイベント・セミナーの告知・集客サービス

    個人から法人まで幅広い主催者の方にご活用いただいています。 イベント主催者8万人以上 チケット販売550万枚以上

    こくちーずプロ - 無料で使えるイベント・セミナーの告知・集客サービス
  • 文字コード地獄秘話 第2話:聖母マリアよ、二人を何故別々に? | ALBERT Engineer Blog

    はじめに 二人を最初から一つにしておけば、何も問題など起こらなかったのだ。 一つのものを二つに分けたその時から、長い物語が始まる。 おや?また会いましたね。どうも、文字コードおじさんです。 もう半年近くも前になりますが、前回の投稿はだいぶ反響があったようで驚いております。ありがとうございます。 今回も文字コードネタですが、Unicodeにおける結合文字列を取り上げてみようと思います。 高度に発達した文字コードは地獄と見分けがつかない 次の画像はTwitterの投稿フォームですが、おかしな点があります。わかりますか? そうです。4文字しか入力していないはずなのに 5文字分とカウント されていますね。おかしいと思いませんか?あなた? 改行とかスペース入れてるんじゃねーだろうな?とか言わないで下さいね? さらに次の画像を見てみてください。 こちらは4文字とカウントされていますね。先のものとは一体

    文字コード地獄秘話 第2話:聖母マリアよ、二人を何故別々に? | ALBERT Engineer Blog
  • U+FFFF以上の文字ってなんや → サロゲートペアってなんや → Spring Web Services が言うことを聞きません! とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ

    表題のような感じなのですが、これまで理解が曖昧だったUnicodeとか何とかが今までよりわかったのでメモ。 尚、こちらのサイトを非常に参考にさせていただきました。 Unicodeについて コードポイントとは 文字コードとは 今日覚えた単語その一。Unicodeに限らず、文字をコンピュータ上で表現する際、1つの文字に1つの数値を対応させるわけですが、この文字に対応する数値をコードポイントというそう。 いままでASCIIコードとか呼んでました。 そして、文字と数値の割り当てのルールのことを「文字コード」と言うんだそうです。 Unicodeとは から UTF-XXは何が違うんじゃ という話へ Unicode誕生 文字コードが乱立したため、あるコードポイントで表現される文字が、文字コードによって、てんでばらばらという状況に。 ややこしいから、ひとつの統一した文字コードをつくろう! ということで「U

    U+FFFF以上の文字ってなんや → サロゲートペアってなんや → Spring Web Services が言うことを聞きません! とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ
  • 電子行政における第3・第4水準漢字

    JIS X 0213 for e-Government Koichi YASUOKA ( 606-8265 47) Center for Informatics in East Asian Studies, Institute for Research in Humanities, Kyoto University (47 Kitashirakawa-Higashi-Oguracho, Sakyo, Kyoto 606-8265 JAPAN) 2014 8 JIS X 0213 3 4 1, 2) 3 3, 4) 3 5) 303 2,136 3,000 3,000 JIS 1 JIS 2 3,000 3,000 1 2 2,136 6) 1 2 2,132 4 ( ) 3 5) 1,022+22 7) 姸 幷 42 3 3,000 1 2 3,000 8) 3,000 8) 3,000

  • http://www15.atpages.jp/sa2700v/index.htm

  • 人名用漢字と第1・第2水準漢字に対する妄想 | yasuokaの日記 | スラド

    『新しい常用漢字と人名用漢字』の読者から、榎並利博の「電子行政における使用漢字の問題」(情報管理, Vol.57, No.5 (2014年8月), pp.298-306)を読んでほしい、との御連絡をいただいた。正直いって、去年10月の「電子行政における文字コードと外字について」(行政&情報システム, Vol.49, No.5, pp.60-66)から、またさらに病状が悪化していて、もはや手が付けられない。私(安岡孝一)の日記で指摘した点(これとかこれ)が治ってないばかりか、新たな妄想まで湧いている始末だ。特に以下の文章。 JISは経済産業省,住基ネット統一文字は総務省,戸籍統一文字は法務省と縦割りになっており,さらに常用漢字・人名用漢字・表外漢字は文部科学省の管轄である。つまり,国の統一基準がなく,そして今後も統一化される見込みがない。デファクトスタンダードとしてJIS第1水準・第2水準が

  • 漢字これくしょん -Unicode BMP編-

    UnicodeのBMP面にある漢字28,001文字をひたすら並べたEPUBファイルです。漢字の表示は、リーダのフォントに依存します。 Unicodeのコードポイントと、JISの面区点コード、Adobe-Japan 1のCIDコードも併記しました。EPUBリーダの検索機能で、文字コードDBとして使うこともできます。 iBooks for iPadでの表示例。以下のようなページが延々1,700ページ続きます。 漢字を選択して辞書を引くことができます。iOSでは、中国語辞書をインストールしておくとよいでしょう。 EPUBファイルをダウンロードして、お好みのEPUBリーダでご覧ください。iBooks/Kobo/Kinoppyの各リーダーで確認しています。 少々重いファイルなので、リーダーによっては不具合が発生する可能性もあります。 OSXのiBooksでは、最初の読み込み時に重くなることがあります

    漢字これくしょん -Unicode BMP編-
  • 全角チルダ問題

    株式会社メルカリ様で行われた第2回CircleCI ユーザーコミュニティミートアップでの資料です。 #circlecijp

    全角チルダ問題
  • デジタル・フォレンジックにおける漢字コード | yasuokaの日記 | スラド

    『行政情報処理用漢字コードの現状』(日経ITpro、2014年6月30日~7月4日)の読者から、絹川博之の「日語処理の歴史的経緯と日語処理解析性能評価分科会設置の趣旨」(IDFコラム, 第314号, 2014年6月5日)を読んでほしい、との連絡をいただいた。デジタル・フォレンジック研究会が日語処理解析性能評価分科会を設置するにあたり、デジタル・フォレンジックにおける日語処理の概要を論じた文章らしいのだが、だとすると内容が変だ。たとえば、シフトJISとEUCに関する以下のくだり。 シフトJISは、左端ビットが‘0’の時ASCIIコードを、‘1’の時2バイトコードとして漢字を最大8836字収容可能であり、EUCは、3バイト可変で最大14637字(=8836+5801)収容可能であるが、いずれも収容文字の拡張が不可能なコード系であった。 シフトJISの2バイトコード部分は、設計当初から(

  • 行政情報処理用漢字コードの現状

    官庁や自治体における、いわゆる行政情報システムでは、一風変わった漢字コードが用いられている。人名や地名に必要な漢字を、それぞれの省庁が思い思いの形で、情報システムに搭載してきたためだ。 特集では、これら行政情報処理用漢字コードのうち、現在かなり大きなシェアを持つ「住民基台帳ネットワーク統一文字」「戸籍統一文字」「入国管理局正字」という3つの漢字コードの現状をお伝えする。 併せて、これらを理解するためのベースとなる「JIS X 0213」と「JIS X 0212」を第1回で解説するとともに、3つの漢字コードを一体に統合すべく構築されつつある「文字情報基盤」を最終回で扱う。 目次

    行政情報処理用漢字コードの現状
    works014
    works014 2014/06/30
    …行政情報処理用漢字コードの現状 @nikkeibpITproさんから
  • 【第619回】「1バイト文字」「2バイト文字」という死語? : イジハピ!

    2014年06月12日23:47 【第619回】「1バイト文字」「2バイト文字」という死語? カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) 一昨日ブログに書いた「スマートウォッチ」のことを調べていたら、「Pebbleというスマートウォッチは、英語のような1バイト文字しか表示できず、日語のような2バイト文字は表示できないので注意」と書かれたブログがあった。 この言葉はもうあまり使われていないと思っていたので、アレと思った。 昔のパソコンは、英語はASCII(7ビット)、フランス語やドイツ語のような西欧特殊文字はISO 8859-1(8ビット)を使っていた。 8ビットの情報(2進数8桁)は、最大0から255までの256種類の数値に割り当てられる。 これにASCIIではアルファベット小文字、大文字を合わせて52文字、アラビア数字が0から9で1

    【第619回】「1バイト文字」「2バイト文字」という死語? : イジハピ!
  • 2014.05.27 文字情報技術の最新動向 - JEPA

    現在、政府では、戸籍、住民基台帳、児童・生徒の名前などについて、大規模な文字情報技術の改革が推進されています。この最新動向をご紹介するとともに、出版分野に与える影響もご紹介しました。 日時: 2014年5月27日(火) 13:30-15:30(受付開始13:00) 場所: 飯田橋:研究社英語センター 地図 料金: 2000円(JEPAおよび文字情報技術促進協議会 会員社は無料) 主催; 日電子出版協会(JEPA) / 文字情報技術促進協議会 参加者: 119名 ■登壇者 内閣官房 政府CIO補佐官 平健二氏 IPA 独立行政法人 情報処理推進機構 技術部 国際標準推進センター長 田代秀一氏 文字情報技術促進協議会 理事 小林龍生氏 (JEPAフェロー) 文字情報技術促進協議会 字形共有基盤活用部会 部会長 田原恭二氏(凸版印刷) 文字情報技術促進協議会 事務局長 田丸健三郎氏 (日

  • 【第604回】包摂と文字概念 : イジハピ!

    2014年05月22日23:40 【第604回】包摂と文字概念 カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) ネタがないので、おなじみのことを改めて書く。 今日は包摂と文字概念である。 包摂と文字概念 コンピューターやネットの中で、あらゆる情報は数値に変換されている。 この数値をコード(code 符号)と言う。 文字は文字コードという符合に変換されている。 ざっと言えば、コンピューターやネットで使うために文字に番号を振ったものである。 Unicodeという文字コードシステムで言うと、「A」という字にU+0041、「a」という字にU+0061という番号が振られている。 U+のあとに、4桁または5桁の16進数が付く。 この番号をUnicodeスカラー値、または、Unicodeコードポイントと言う。 稿では単にコードポイントと言う。 実際にパ

    【第604回】包摂と文字概念 : イジハピ!
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • 大漢和7705「昼」と13886「昼」は別字なのか | yasuokaの日記 | スラド

    一昨昨昨日と一昨昨日と一昨日と昨日の私(安岡孝一)の日記の続きなのだが、では、大漢和辞典の7705「昼」と13886「昼」は別字なのか。7705は部首が尸、13886は部首が日、であること以外には、これら「昼」と「昼」には違いが見られず、どちらも「晝」の異体字である。その意味で7705と13886は、同形異字なのかどうかすら判然とせず、あるいは同字が別部首にダブって掲出された可能性も考えられる。 JIS X 0208は1997年改正で、35区75点に「M7705」と「M13886」を両方とも掲げており、これらを区別することはできない。一方、戸籍統一文字は、087550と156080に、これらを別々に収録している。ただし156080は、大漢和13886と微妙に字体が違っていて、むしろ常用漢字表の「昼」に近い。台湾のCNS 11643は、3-2C37「昼」の部首が尸だが、もう一方は含まれていな

  • 大漢和13928「書」と14294「書」は別字なのか | yasuokaの日記 | スラド

    『IVS vs UCS』(東洋学へのコンピュータ利用, 第24回研究セミナー(2013年3月15日), pp.75-90)の読者から、大漢和辞典の13928「書」と14294「書」は別字なのか、という趣旨の御質問をいただいた。13928は「𦘙」の省画、14294は「𦘠」の省画だということになっている。大雑把に異体字を考えると、13928の方が「𦘙・晝・書・昼」のグループで、14294の方が「𦘠・書」のグループということなので、まあ、同形異字と呼ばれるヤツだ。その意味では別字とも言えるが、だからといって、文字コード上かならずしも別々に扱うべきというわけでもない。 JIS X 0208は1997年改正で、29区81点「書」に、「M13928」と「M14924」を両方とも挙げた。つまり、29区81点は、大漢和13928と14924の両方を包摂していて、これらを区別しないということだ。これ

  • 電書時代の文字コードを考える(ための資料)

    自家製資料いろいろ 文字コード体系(サマリ) JIS文字コード表 JIS X 0213全漢字一覧(1-4水準 10050文字) UTF文字コード表 部首別漢字コード表 Adobe-Japan1のJIS外Unicodeマッピング文字一覧 文字テストEPUB Adobe-Japan1 IVS異体字一覧 Source Han Sansフォント特設ページ 漢字これくしょん 康熙字典EPUB版 Google Notoフォントグリフ一覧(CJK以外) macOS Sierra で最初から入ってる日フォント一覧 Unicode変体仮名フォント **new** 実験ツール 文字コードチェッカー 青空UTF IVS異体字メーカー 顔文字デコーダ Unicodeデコーダ (文字列からUnicodeコードポイントを表示) Unicodeマップ (全Unicodeのマップ。表示できるグリフはフォントに依存しま

  • 文字と文書

    この文書は、MacOS X上で、上山大輔氏の開発したテキストエディタmi、および、浅海智晴氏の開発した文書処理システムSmartDocを使用して作成しています。これらのソフトを開発し、無償で利用させて下さっている両氏に深く感謝致します。

  • JIS X 0208と重ね打ちの思惑 - yanok.net

    JIS X 0208は元々、重ね打ちによって、コード表にない図形文字を表現することがある程度想定されていたようです。 その代表的な存在は83年改正で追加された2区94点「大きな丸」(LARGE CIRCLE)です。今ではこのような名称になっていますが、元々は合成用の丸として、数字と重ねることで①等の丸付き数字を表現することが意図されていたようです。これは通常の白丸とは別区点にあり、より大きなサイズで普通はデザインされていると思います。 ただ、そのような思惑であったとしても、具体的にどうすれば合成できるかは明らかでなかったし、実際にもそのようなことはできなかったので、JIS X 0208の1997年改正では明確に否定されました。「8. 合成文字の取扱い」において、全ての図形文字は前進を伴う文字(spacing character)であること、また、制御文字のBACKSPACEやCARRIAG