タグ

ブックマーク / yanok.net (123)

  • 仮名合字・合略仮名の文字コード - yanok.net

    合字とは 合字というものがあります。複数の文字を組み合わせて一文字となったものです。欧文の「Æ」のような文字はどこかで見たことがある人が多いでしょう。いうまでもなくAとEの組み合わせです。ドイツ語の「ß」も「ss」を表す合字です。合字を英語ではligatureといいます。 漢字にも,「麻呂」を組み合わせて一字になった「麿」や,「久米」の「粂」等の合字があります。 仮名文字にも合字があります。今日,通常の文章には用いられませんが,昔のものには見ることができます。こうしたものは仮名合字や合略仮名と呼ばれます。 ここではそれらのうち,現在符号化されているものについて文字コードをまとめてみます。 仮名合字の文字コード 文字読みJIS X 0213UnicodeUnicode文字名Unicodeブロック ゟより1-2-25U+309FHIRAGANA DIGRAPH YORIHiragana ヿコト

  • なぜ『プログラマのための文字コード技術入門』の改訂新版にはSKKと Emacsの話が入っていないのか - yanok.net

    拙著『[改訂新版] プログラマのための文字コード技術入門』(技術評論社,2018)についての感想で,初版にAppendixとして入っていたSKKとEmacsによるJIS X 0213対応の話が無くなっていることを惜しんでくれているものがありました。 これは初版執筆時に著者(私だ)がEmacsとSKKを使ってEUC-JIS-2004のプレーンテキストとして原稿を書いていたことを紹介し,当時の一般的な日本語入力環境が抱えていた問題点をこれによって解消できることを説明したものです。 当時の日本語入力環境というのは,おおまかにいえばJIS X 0208の第1・第2水準漢字に制約されており,それ以外の文字は入力できないか,できたとしても単漢字変換や文字パレットのような使いにくい方式によるしかないというものでした。そういう状況を改善し,現代日で使われている文字は第1・第2水準漢字に限らず,分け隔てな

  • 札幌で見たJIS X 0213の文字 - yanok.net

    札幌の中心部、大通公園と札幌駅を地下でつなぐ地下歩行空間を歩いていたら、パフォーマーが芸をしていました。その背後の柱に、JIS X 0213の文字が書かれているのが見えました。これはパフォーマーとは無関係にもともと書かれているものだと思います。次の写真です。 「イランカラㇷ゚テ」と書かれています。これはアイヌ語の挨拶です。写真には写っていませんが、他の柱には他の言語の言葉が書かれています。いろいろな言語が書かれているうちの一つです。 アイヌ語用の片仮名と文字コード この中の小書きの「ㇷ゚」という文字は、もともと広く使われている日の文字コード規格JIS X 0208になく、その拡張規格のJIS X 0213で符号位置が与えられたものです。漢字集合1面の、6区88点にあります。この文字は子音pの後に母音が続かない時に使われるもので、アイヌ語表記には頻出します。拙著『プログラマのための文字コー

    札幌で見たJIS X 0213の文字 - yanok.net
  • JISの幽霊漢字が大正時代の新聞にあったように見えたという記事 - yanok.net

    JIS X 0208の幽霊漢字についてTwitterで興味深いツイートを見ました。 大正十二年の幽霊文字 - ことばマガジン:朝日新聞デジタルhttps://t.co/djVExrVN3o 朝日新聞の縮刷版検索に「彁」が見えた話 pic.twitter.com/1RhHtyWFyB — ひめ@女体化したい (@sarasvati635) 2017年11月18日 朝日新聞デジタルの記事で、JIS X 0208の出所不明の幽霊漢字「彁」らしく見える文字が大正12年の印刷物に見えたという話です。 内容について詳しくは記事(2011/09/05付)そのものを読んでいただければ良いのですが、備忘として概要をかいつまんで紹介しておきたいと思います。 JIS X 0208の幽霊漢字とは JIS漢字コード規格JIS X 0208にはいくつか出所不明の漢字が含まれていて幽霊文字と俗に呼ばれています。拙著『プ

  • Unicode Standardの元号の説明の問題は変わっていなかった - yanok.net

    生前譲位の報道でUnicode仕様書の元号の問題を思い出す 天皇陛下が生前譲位される御意向という報道が出回り、様々な意見や憶測が飛び交っています。その中には譲位がなされれば行われるであろう改元についてのものもあります。これで私が思い出したのはUnicode仕様書の中の元号の説明が微妙に間違っている件です。 Unicode Standardの元号の説明が間違っているように見える (2012年9月) 平成は1989年1月8日から始まりましたが、Unicode Standardの説明では1月7日としており1日ずれています。昭和や大正もなぜか同じく1日ずれています。アメリカ時間でもないのでしょうが、不思議な現象です。 Unicodeの最新版ではどうか? 上の記事を書いた時はUnicode 6.1だったのですが、現行の最新版ではどうかとチェックしてみました。 先日Unicode 9.0が発表されまし

  • UTF-16 が単に Unicode と呼ばれることがある理由 - yanok.net

    Windowsのメモ帳でテキストファイルを保存するときに文字コードを選択できますが、その選択肢では「Unicode」と「UTF-8」が並列に置かれています。これに違和感を持つ人も少なくないでしょう。このことを強い調子でけなしている文章をネット上で見かけたので、ちょっとこの件について書いてみましょう。 実はここで「Unicode」と言っているのはUTF-16のことです。現在多くの人は、「Unicodeの符号化方式としてUTF-16やUTF-8がある」ものと理解しているでしょう。拙著でもそう説明しています。するとWindowsのメモ帳の開発者はUnicodeを分かっていないのでしょうか。いえ、そうとも限りません。 過去の経緯 Unicodeは元々、16ビット固定長の文字コードとして開発されました。ASCIIが7ビットで1文字を表すのと同じように、Unicodeは16ビット版のASCIIですよ、

  • 「数学ガール」中文繁体字版で気付いた「函」の第1画 - yanok.net

    以前、「函館」の「函」の字の第1画について書いたことがありました。活字だと第1画の横線が右端まで行ったところで一旦筆を上げて真ん中あたりから第2画を始めるような格好なのが普通ですが、手書きだとここを離さずにつなげて書くのをよく見かけるという話です。函館では当の手書きだけでなく、看板などにもよく見ます。 函館の文字 (2014/5/6) さてこれに関係して、一見関係なさそうな下のツイートが目にとまりました。 中文繁体字版 結城浩『数学ガールの秘密ノート/丸い三角関数』《サイン無料プレゼント》 數學女孩秘密筆記:圓圓的三角函數篇 応募〆切は2016年1月19日(火)です。 https://t.co/XoNfWhlD8H pic.twitter.com/alBvYNOPVV — 結城浩 (@hyuki) 2016, 1月 9 結城浩さんの人気シリーズ「数学ガール」の一冊、『数学ガールの秘密ノ

  • 著作権侵害サイトをGoogle検索で出なくする方法 - yanok.net

    ネット上の著作権侵害という問題 文章や写真などの著作物には著作権がありますが、他人の著作物を勝手にコピペして利用する著作権侵害をしているサイトも世の中にはあります。ひとが様々な手間暇やお金やノウハウを使って作り出した著作物を勝手に自分の商売に使うのは権利の侵害であり法律問題になります。 ネットの検索で出てきた文章や写真をコピペして自分の資料やウェブサイトに勝手に使うことはもちろん著作権侵害を引き起こします。東京オリンピックのエンブレムの問題が話題になった際、エンブレムのデザインそのものだけでなく、資料に使った写真がネット検索で出てきたものを勝手にコピーしたものだったという点も問題になったのは記憶に新しいところです。 私自身の体験としても、自分が撮影した写真を「旅行キュレーションメディア」なるウェブサイトに勝手に転載されたことが何度もあります。もちろん著作権侵害です。こうしたサイトには見つけ

  • 箱根駅伝で楽しむ文字コード - yanok.net

    発端は1月2日、箱根駅伝の最中の @mashabow さんのこのツイートでした。 箱根駅伝の区と区点番号の区をかけて何かおもしろいこと言おうとしたんですけど特に思いつかなかったので代わりにどなたかお願いします — mashabow (@mashabow) 2016, 1月 2 そこで思い付いたのが以下の一群のツイートです。幸いご好評をいただいたので、少し解説を添えてここにご紹介しましょう。 「それではここで1区を走る選手をご紹介しましょう。1番目の選手は、おっと姿が見えません。和字間隔です」 — Yano K. (@yanok) 2016, 1月 3 1区1点、和字間隔、いわゆる全角スペースです。Unicodeに対応する文字名はIDEOGRAPHIC SPACE。この字はASCII相当のSPACEとの重複符号化とはされていません。理由は確か、ISO/IEC 2022の枠組みでSPが現れ得る

  • 上質な言葉読み物『辞書編纂者の、日本語を使いこなす技術』 - yanok.net

    飯間浩明『辞書編纂者の、日語を使いこなす技術』(PHP新書)を読みました。著者は三省堂の国語辞典の編纂に携わっている方です。 言葉の話というと「この言い方は正しい、正しくない」という議論を思い浮かべる人がいるかもしれませんが、書はむしろそういう「こう言ったら間違い」みたいな短絡的な話には距離を置いています。 また逆に「最近はみんなこう言っているからこれでいいんだ」みたいな(私に言わせれば)乱暴な話とも少し違います。 私の見方では、書の特徴は、言葉の使い方が状況に照らして理にかなっているかどうかを吟味していることだと思います。もっとも、あまりかしこまったものではなく、全体的に穏やかなトーンが印象的で好ましく感じられます。 連載をまとめたものなので言葉についての様々なテーマを扱っているのですが、中でも『「普通のことば」が味わい深い』というくだりはなかなか真似できない、すぐれた観察力による

  • 何もしていないうちから「お疲れ様です」と言われる - yanok.net

    ここ何年か、若い人からの仕事のメールが「お疲れ様です」という書き出しで始まるものが目立つので不思議に思っていました。そういえば、朝一番であっても「おはようございます」でなく「お疲れ様です」と声をかけてくる人もいます。最近ようやく、この現象がなぜ起こっているのか分かってきました。 どうやら学生同士の間で「お疲れ様」という挨拶が流行っているようです。Twitterを見ていたら、大学の先生をしている人が、学生からのメールが「お疲れ様です」で始まっているので、「疲れるのはこれからだよ」と愚痴をこぼしているというのを見かけました。 飯間浩明「辞書編纂者の、日語を使いこなす技術」(PHP新書)に、著者が大学で講義したときのエピソードが記されていました。講義が終わって学生たちが教室から出て行くときに「お疲れ様でした」と言われたというのです。こういうときには「お疲れ様」というものではないという説明をした

  • 「プログラマのための文字コード技術入門」EPUB版販売開始! - yanok.net

    拙著「プログラマのための文字コード技術入門」の電子書籍版、既に提供済のPDF版に加えて、EPUB版の公開が開始されたようです。 プログラマのための文字コード技術入門 | Gihyo Digital Publishing ... 技術評論社の電子書籍 PDFが先行して販売されていましたが、EPUBはUnicode特有の問題のために時間がかかっていたようです。 書の原稿はJIS X 0213にある文字だけを使っているのですが(EUC-JIS-2004で書いたので当然)、Unicodeで符号化したときにアプリケーションの処理で問題になりそうな点として、サロゲートペアの必要な文字、結合文字の必要な文字、互換漢字、という3つが挙げられます。今回のEPUB (のアプリケーション)では主に結合文字の箇所で問題があったのではないかと思います。そういうところはまさに書が扱っている文字コードの問題です。

  • Windows 7 のIMEの「繫」がおかしい - yanok.net

    Windows 7に添付のIMEで、JIS X 0213:2004で追加された「表外漢字UCS互換」10文字のうちのひとつ「繫」(第3水準、面区点位置1-94-94)の扱いがおかしいように見えます。 これは表外漢字字体表への対応のためにJIS X 0213の例示字形を変更しようとしたところISO/IEC 10646 UCS (Unicode)との対応に問題を生じるために追加された符号位置で、第1水準1-23-50の「繋」に対する「印刷標準字体」と呼ばれるものです。目を凝らしてみると左上部分の形が少し違うのが分かると思います。私は目が悪いのでこういうのは苦手ですが...。 Windows 7のIMEではこの字を入力できるのですが、「繁」と混同されているのか、「はんえい」と打鍵して変換キーを押すと「繫栄」なんてのが出てきたりします。 そんな言葉ないよねえ、とぐぐってみたら個人ブログや質問サイト

  • 波ダッシュ問題はなぜ『文字コード技術入門』の第8章にあるのか - yanok.net

    Unicode 8.0では、U+301C WAVE DASH (波ダッシュ)の例示字形が変更されて、JIS X 0208/0213の1面1区33点の例示字形と同様の形になるそうです。UnicodeコンソーシアムのウェブサイトのBETA Unicode 8.0.0から確認することができます。 波ダッシュがシフトJIS等のJIS系の符号化とUnicodeとの間の変換で文字化けを生じるケースがあることは、拙著『プログラマのための文字コード技術入門』第8章で説明しました。Unicode仕様書の例示字形は問題の一部でしかありませんが、これが是正されることは良いことだと思います。 さて、上記『文字コード技術入門』は全8章とAppendixとからなりますが、波ダッシュ問題について記しているのは編の最後である第8章です。この位置に置かれていることには理由があります。 それは、この問題をきちんと理解するた

  • 表外漢字UCS互換の憂鬱 - yanok.net

    下記のページに、「主権を?奪されて」というくだりがあって、頭の中で警報音が鳴り始めました。 中国はなぜ平気で他人のものを「奪う」のか 専門家が読み解く (NEWSポストセブン) 「?奪」の「?」はHTMLソースから既に疑問符になってしまっています。何かが文字化けしてこうなってしまったのでしょう。 何が起こったのか想像する 前後の文脈から考えて、これは「剥奪」でしょう。もっといえば、「剝奪」だったのではないかというのが、私の想像です。何をいっているか、お分かりでしょうか。 「剥」と「剝」、両者は同じ字ですが、形の違いがあるのに気付いたでしょうか。左上の部分が「ヨ」のような形か「互」の上の横線が無いような形かどうかの違いです。 前者はJIS第1水準漢字(面区点位置1-39-77)ですが、後者はJIS第3水準(面区点位置1-15-94)、それも、JIS X 0213の2004年改正(JIS200

  • JIS X 0221:2014が出ています - yanok.net

    今年の6月20日付けで、JIS X 0221:2014、標題「国際符号化文字集合(UCS)」が出ていました。 この規格はISO/IEC 10646に対応する国内規格です。対応するISO規格と技術的内容が一致している(identical)と説明されています。ISO/IEC 10646は、Unicodeに対応するISOの国際規格です。 何度か改正されている規格ですが、この改正版はISO/IEC 10646:2012と対応しています。 ISO/IEC 10646:2012は、一部のISO規格を無料でダウンロードできるサイトFreely Available StandardsからPDF版を入手できます。英語が苦にならなければこちらをどうぞ。なおこちらでは2013年に発行されている追補1 (Amendment 1:2013)もダウンロードできます。 一方、同じ内容を日語で読めるJIS X 0221

  • その CSS の word-break: break-all は必要ですか - yanok.net

    最近、ウェブページで、英単語の途中で行を折り返していたり日語の禁則処理が効いていなくて句読点が行頭に来るようなものを見かけることが多いように思われて、気になっていました。 あるときなど、英語の "use" という短い単語の途中で改行されていて異様でした。なぜこんな表示になってしまっているんだろう。 どうやら、CSSの word-break: break-all という指定が問題のようです。 この指定があると、単語の境界のスペースとは無関係に、右端に来たときに何でもかんでも改行してしまうようです。 例えばYahoo! Japanの検索サイトでもこの指定が見受けられて、そのせいでか検索結果のサマリーでは英単語が途中でちょん切られてしまっています。また、ブログサイトでもこうした指定を見かけました。 おそらく、普通の単語ではない、URLみたいな長い長い文字列がきたときに右端で改行されるようにとい

  • 函館の文字 - yanok.net

  • 「ツ」が笑顔に見えることを理解する簡単な方法 - yanok.net

    片仮名の「ツ」が笑顔に見えるとして、外国で絵文字のように使われているということが少し前に話題になりました。私も見たことがあります。日でキリル文字なんかが顔文字の一部に使われたりするのと同じ現象ですね。 でも、片仮名だと、私たちは無意識のうちに文字として見てしまうので、笑顔といわれてもすぐには分かりにくい。これが目で、口角がこう上がっているように見えて、と、理屈として考えないとなかなか納得しにくいでしょう。 ところがこの前、東京の地下鉄に乗っているときに偶然、ああそうか、やっぱり笑顔なんだなあ、と思ったことがありました。窓ガラスに反射した文字がこう見えていたのです。 「四ツ谷」駅でのことでした。

    「ツ」が笑顔に見えることを理解する簡単な方法 - yanok.net
  • 被災自治体の寄付受付窓口 - yanok.net