文字コードに関するmojiuraのブックマーク (80)

  • 【検索】渦巻き絵文字は「台風」ではなく「まいった」、バイドゥが調査 

    mojiura
    mojiura 2010/01/05
    絵文字検索の会社が絵文字の意味分析をしている。素晴らしい研究と思う。
  • ワープロの絵文字 | yasuokaの日記 | スラド

    SHARP書院WD-A521のマニュアル「WD-A521/A541/A551 日語ワードプロセッサ取扱説明書(文書編)」を読んでいたところ、文字コードの記号一覧のところに、絵文字が160種類ほど収録されているのを見つけた。絵文字の中にマル金とマルビが含まれていることから、あるいは1984年頃にデザインされた可能性が考えられるが、WD-A521それ自体は1990年11月の発売だ。だとすると、これより古い書院にも、絵文字が搭載されているのかもしれない。 ただ、ワープロのマニュアルは、どこの図書館を探しても所蔵がない。SHARPも、既に当時のマニュアルは破棄してしまっており、全く在庫がないようだ。だとすると、個人蔵のマニュアルを探すことになるのだけど、全く雲をつかむような話で…。この日記を読んだ方で、手元に古いワープロ(書院に限らない)のマニュアルをお持ちの方は、ぜひ文字コードのページを調べて

  • テプラの絵文字 | yasuokaの日記 | スラド

    ワープロの絵文字の読者から、KING JIMのテプラPROを教えていただいた。取扱説明書をざっとチェックしてみたところ、現時点ではSR550が収録文字数が最も多いようだ。それにしても、絵文字だけで1066字も収録されてるなんて、中はどんな文字コードになってるんだろ?

    mojiura
    mojiura 2010/01/04
    なるほど、たしかに、テプラにも絵文字がありますね。絵文字、奥深し。
  • InDesign CS4で「※」や「×」が恐い - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS4で「※」や「×」などの文字が、「和字」であるように振る舞ったり、「欧文用文字」であるように振る舞ったりする。Adobeに問い合わせ中の事例で、再現性が環境に依存する可能性があるのだけれど、とりあえず、わたしの環境における挙動をメモ。 InDesign CS4で「環境設定>組版>CIDベースの文字組みを使用」をオフ、「段落>文字組み」は「行末約物半角」とし、テキストフレームに以下のようなテキストを入力する。 あ±1 あ×1 あ÷1 あ§1 あ※1 あÅ1 あ†1 あ‡1 あ¶1 これを一度保存して開き直したものが下図。「あ」の後ろに和欧間のアキが入っており、「※」などの記号類は欧文用文字として扱われている。 これだけでもCS3との非互換性が問題なのだが、さらに面倒なことに、テキストを編集することによって記号類の属性が変化することがある。下図は、1行目の「±」の前の「あ

    InDesign CS4で「※」や「×」が恐い - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/11/20
    こういった末端のところで挙動に「ぶれ」があるのに、全体的にはそれなりの信頼性で動いているのが、なんだか不思議。MS の Windows に似てきた。
  • 古琴記譜

    一 . 文字譜 : 『文字譜』是唐代以前琴家使用的記譜方法,即用文字詳細記述弦序、徽位和演奏指法,相當複雜。但不直接記音高和節奏,舉例如下:「耶臥中指十上半寸許案商,指中指雙牽宮商,中指急下,與構俱下十三下一寸許住末商起,指散緩半扶宮商,指挑商又半扶宮商,縱容下無名於十三外一寸許案商角、於商角即作兩半扶挾挑聲一句。」(摘自《碣石調.幽蘭》譜第一段第一句) 《碣石調幽蘭.第五》『文字譜』 因此往往記錄一首短小的琴曲,卻有厚厚的琴譜。到目前為止,世上最古老的琴譜——唐代人手抄卷子《碣石調.幽蘭》,即為『文字譜』,這也是唯一僅存的『文字譜』。此譜曾東傳日數百年而無人能識,原件現存於日東京國立博物館,視為日的國寶級收藏,彌足珍貴。(有關《碣石調.幽蘭》的詳細介紹,可見主頁中的《幽蘭專題》) 二 . 減字譜 : 『減字譜』相傳為唐代曹柔據文字譜簡化、縮寫而成。減字譜的每一字塊為 由漢字縮

    mojiura
    mojiura 2009/10/21
    古琴譜の文字譜や減字譜のこと。中国語を読めなくてもなんとなくわかったような気になれる。
  • ヤ行の「エ」 - ziomの日記

    mojiura
    mojiura 2009/10/07
    みなさん、よく見てるなあ。
  • Snow Leopardの文字ビューアはどこが変わったのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Leopard以前の「文字パレット」は、Snow Leopard(Mac OS X 10.6)では「文字ビューア」になった。でもファイル名は「CharacterPalette.app」。Mac OS Xにおける「パレット」と「ビューア」の定義の違いって何なのだろう。 Leopardの文字パレットは一般的なアプリケーションのウインドウと同様、Spacesにおいて単一の操作スペースに表示されるため、操作スペースを切り替えると置き去りにされてしまい不便だった。文字ビューアはすべての操作スペースに(同時に)表示される。 文字ビューアでは「説明とコード」と記された検索フィールドが追加された(括弧内追記。いま自宅のLeopardマシンで確認したら、これ、Snow Leopardの新機能じゃないですね。「説明とコード」というテキストが表示される点は新しくて、そのせいで新機能かと早とちりしました。言い換え

    Snow Leopardの文字ビューアはどこが変わったのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/09/23
    これは便利そうだ。Mac 欲しい。
  • InDesignにおけるJIS04基準フォントのウマヤ化け問題 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS4で「厩」を入力・選択し、字形パネルをダブルクリックしてCID+13647に置換。フォントは(たとえば)小塚明朝Pr6N。そのウェイトを変更してみる。と、CID+13412に化ける(下図)。 このグリフ化けのおもしろい点は、cmapテーブルもaaltテーブルも共通だと思われるフォント間で(ウェイトの違いのみで)化けていること。以下、化ける理屈(推測)について、大雑把に述べる。 InDesignにおけるaalt(すべての異体字)タグを利用したグリフ置換のメカニズムは、cmapテーブルまたはaaltテーブルが異なるフォント間では、基的にうまく機能しない。実際、InDesign 2では、いろいろ化けていた。 CS以降のInDesignでは、Adobe-Japan1-4とAdobe-Japan1-5のcmapテーブルの違いおよび2系統存在するaaltテーブルの違いへの対策が

    mojiura
    mojiura 2009/09/17
    文字の太さ(ウェイト)を変更するだけで、文字化けが発生する件。もうこうなってくると「技術」というより「努力と根性」のフィールドに突入してると思う。個人的には「努力と根性」の世界は嫌いじゃないけど。
  • 祖・ネ且・示且 - 明窓浄机 YAMAMOMO

    2009-09-08 當山日出夫 小形さんの「もじのなまえ」にさっそくアクセスして、資料を見る。小熊さん、小形さんに感謝。 http://d.hatena.ne.jp/ogwata/20090908 許容字体の表示法、これは理解できるのだが、そうすると、「祖」はこれでいいのだろうか。 まず、確認しておくのは、今回の、「新常用漢字表(仮称)」には、「しめすへん」の字は無い、ということ。 印刷標準字体(表外漢字)では、「しめすへん」「しょくへん」「しんにゅう」が、三部首許容となっている。このうち、「しんにゅう」の「謎」などが、大問題になっていることは、周知のことである。 ところで、「しめすへん」については、最新の表示法、試案(「表」のページ見)、において、 ネ且(示且) の形式で、( )によって、康煕字典体をしめすとなっている。 はたして、このあつかい、印刷標準字体との整合性は、問題ないだ

    祖・ネ且・示且 - 明窓浄机 YAMAMOMO
    mojiura
    mojiura 2009/09/14
    「まず、確認しておくのは、今回の、『新常用漢字表(仮称)』には、『しめすへん』の字は無い、ということ」→え、そうだったんですか!?
  • 第7回 Unicodeからの多対一の変換[前編] | gihyo.jp

    文字コードが引き起こすセキュリティ上の問題として、もっとも興味深いもののひとつである、Unicodeから他の文字コードへの「多対一の変換」で引き起こされる問題点について、今回と次回で説明します。 ご存じのとおり、Unicodeには非常に多数の文字が収録されていますが(現在最新版のUnicode 5.1.0では100,713文字が収録されているそうです⁠)⁠、Unicodeから他の文字コードへの変換においては、互換性や可読性の維持のためか、複数のUnicodeの文字が他の文字コードでは単一の文字に変換されることがあります。 この「多対一」の変換が、開発者も想定していなかったような問題を引き起こす原因となることが多々あります。 具体的な例として、Windows上でのUnicodeからの変換について説明します。 Windows上でのUnicodeからShift_JISへの変換 Windows上で

    第7回 Unicodeからの多対一の変換[前編] | gihyo.jp
    mojiura
    mojiura 2009/09/14
    SQL のこととか「CON」のこととかは実はよくわかってないのですが、文字コードのところは勉強になりました。
  • InDesign CS4におけるIVSとOpenTypeタグのあやしい関係 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS4はUnicodeのIVS(異体字シーケンス)をサポートしている。IVSは、親字に続けてU+E0100などの特殊な文字(異体字セレクタ)を入力することで、たとえば下図のようにグリフを指定するメカニズムである。 同様のグリフ指定は、もちろんOpenTypeタグでも可能である(下図)。 では、1つの文字にIVSとOpenTypeタグで競合する指定を行ったらどうなるのだろう。U+990C「餌」を例として試してみた結果が、下図。横軸がIVS、縦軸がOpenTypeタグ。IVSの指定が顕在化しているものを青地、OpenTypeタグの指定が顕在化しているものを緑地で示した。白地は両者の指定が一致しているもの。 この例では、異体字セレクタがU+E0101またはU+E0102ならIVS優先、そうでなければOpenTypeタグ優先、というように見える。しかしInDesign CS4は、

    InDesign CS4におけるIVSとOpenTypeタグのあやしい関係 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/09/10
    「などと書きながら思うのだが、ここまで複雑化したものをまともに運用することが可能なのだろうか」とのこと。大賛成。
  • Emacs 23でEUC-JIS-2004: 文字符号化blog

    少し前に、Emacs 23が正式にリリースされました。 まだよく触っていないのですが、Windowsマシンにダウンロードしてみました。 設定方法がよくわからないまま適当にぐぐって (set-default-font "IPAゴシック") としてみたら、EUC-JIS-2004のテキストがちゃんと表示されました。素晴らしい。 と思ったのもつかの間、Unicodeで結合文字の必要な25文字(鼻濁音用のかきくけことか)は正しく表示できていないことが判明。何が悪いのか分かりませんががっかりです。 これでは常用することはできません。多分どこか設定すれば正しく表示できるのだと思いますが、何をどうすればいいのか見当がつきません。 ああ、Unicodeがたった25文字くらいけちけちしなければこんなことで面倒な思いをせずにすんだのに、と思わずにいられないのですが、思ってもしようがないですね。

    mojiura
    mojiura 2009/09/09
    鼻濁音の仮名など 25 文字について「ああ、Unicodeがたった25文字くらいけちけちしなければ」とのこと。たしかにおっしゃるとおりで。まあ「けち」なことをしたわけでもないとは思いますが……。
  • 〓 - Ryusei’s Notes (a.k.a. M59のブログ)

    http://d.hatena.ne.jp/mandel59/20090904/1252071738の答え 同じ名前のファイルが存在しているように見える。 これはそれぞれ 「ほげほげ.txt」(NFD、「げ」は U+3051 U+3099 というシーケンス*1) 「ほげ​ほげ.txt」(ZERO WIDTH SPACEが含まれている*2​) 「ほげほげ.txt」(NFC、「げ」は単一のコードポイント U+3052) となっている。 Mac OS X標準のファイルシステム HFS+ ではファイル名がNFDで正規化されるが*3、Linuxのファイルシステムでは正規化は行わない。 *1:結合文字シーケンスにフォントが対応していなければ「け゛」みたく表示されるかもしれない。ここでは、IPAフォントを結合文字シーケンスも表示出来るように改造したものを使っているので、「フォントを弄った」というのも

    〓 - Ryusei’s Notes (a.k.a. M59のブログ)
    mojiura
    mojiura 2009/09/07
    プログラムの実装をする人は、今後ますます大変なことになりそう。
  • アポストロフィの悩み | Okumura's Blog

    何でもいいから英語の単語に「痴」を付けてGoogleで検索してみる。例えば「he痴」でもいい。うまく見つからなければ,例えば Shakespeare痴 Got A Gun を見てみる。英語のサイトなのに何でこう「痴」が多いのか(うまく「痴」に見えないなら,ブラウザのデフォルトのエンコーディングをシフトJISにしてみてください)。 答え:Windows-1252(CP1252)のアポストロフィは 0x92 であり,これにs(0x73)が付くと 92 73 となり,これはシフトJISで「痴」になる。つまり,「He's」が「He痴」に化けるページはアポストロフィをWindows-1252でエンコーディングし,エンコーディング指定をしていないのでシフトJISで表示してしまったのである。書いた人はLatin-1(ISO 8859-1)のつもりかもしれない。 アポストロフィは '(0x27)でいいの

    mojiura
    mojiura 2009/08/31
    知りませんでした。そういうものなのでしょうか。
  • “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」: 第3部 印刷文字から符号化文字へ第7回 『議員氏名の正確な表記』と人名表記の位相文字

    ● 書体の違いを規定する常用漢字表「明朝体活字と筆写の楷書との関係について」 前回は漢字字体の歴史をさかのぼることで、『議員氏名の正確な表記』(以下『正確な表記』)が「書体の違い」を無視してしまっていることを指摘した。しかし、このような事細かな漢字字体の歴史を、誰もが知っているはずもない。そのような中で衆議院事務局が書体の違いを無視してしまったとしても、それは仕方のないことではないだろうか? それが違うのだ。もう27年も昔から、これは数ページの簡単なルールにまとめられている。それが他ならぬ常用漢字表の「字体についての解説」だ。この中の一節「明朝体活字と筆写の楷書との関係について」では、以下のように書かれている。 字体としては同じであっても、明朝体活字(写真植字を含む。)の形と筆写の楷書の形との間には、いろいろな点で違いがある。それらは、印刷上と手書き上のそれぞれの習慣の相違に基づく表現の差

    mojiura
    mojiura 2009/08/24
    礼儀を重んじることにより異体字が発生してしまう話。「位相」という概念。知りませんでした。勉強になります。
  • “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」: 第1部 漢字小委員会の考え方と審議状況第2回 審議に使われた多くの頻度調査

    ● どのようにして文字使用の実態を把握するのか 前回、常用漢字表の目的は〈一般の社会生活において、現代の国語を書き表す場合の漢字使用の目安〉だと書いた。よく誤解されるが、常用漢字表は手紙や日記、メモなどの個人的な文書、小説や歌などの芸術表現、アカデミックな専門分野などは対象外だ。では何が対象かというと、よく説明に使われるのが「広場の言葉」という言い方。外からは見えない建物の中などでなく、人々が集まるオープンな「広場」、そんな場所でコミュニケーションをする際に使う共通の漢字。私なりに言えば「最大公約数」という言い方になろうが、その「目安」を規定したのが常用漢字表だ。 前回で述べたような「書記環境の大きな変化」とは、まさにこの「広場」の質的な変化を意味するからこそ常用漢字表は改定されようとしている。では具体的にどのように変化したのか? それを科学的なデータとして把握できなければ、どのように改定

    mojiura
    mojiura 2009/08/24
    漢字頻度数調査。アスキーアートの「蠶」の話や、「葛藤」「藤棚」「藤色」以外はほとんど固有名詞の「藤」の話など。
  • 印刷標準字体 - 書籍編集者の校正日記

    印刷標準字体とは「明治以来,活字字体として最も普通に用いられてきた印刷文字字体であって,かつ,現在においても常用漢字の字体に準じた略字体以上に高い頻度で用いられている印刷文字字体(後略)」(国語審議会 2000年12月8日答申)だそうだ。つまり、最も一般的かつ、たくさんつかわれている活字、ということになる。 印刷標準字体を認定(?)した(正しくは表外漢字字体表を作成した)国語審議会では『漢字出現頻度調査』なるものを行ったらしい。1997年(平成9年)と2000年(平成12年)というから、ほんの最近のことだ。凸版印刷、大日印刷、共同印刷の三社が組版で使用した漢字の頻度順位や、読売新聞の紙面で使用された漢字の頻度が元データとなったそうだ。 実際につかうことで、その字が「字体表」に載るって、考えてみたらすごいことじゃない? 広辞苑の第六版に新しいことばが入るのもそう。私たちがつかうことで、それ

    印刷標準字体 - 書籍編集者の校正日記
    mojiura
    mojiura 2009/08/24
    「実際につかうことで、その字が『字体表』に載るって、考えてみたらすごいことじゃない?」とある。確かににすごい。反面ちょっと怖い。本当に載せる前には(広辞苑と同程度くらいには)慎重な議論が必要と思う。
  • 『活字印刷の文化史』について - もじのなまえ

    このが出たのはゴールデン・ウィークの頃ですから、もう3ヵ月を過ぎますか。来であれば共著者の一人として、書を紹介し、広く勧めるべきところでした。 活字印刷の文化史 作者: 張秀民,大内田貞郎,豊島正之,鈴木広光,小宮山博史,宮坂弥代生,佐賀一郎,劉賢国,孫明遠,内田明,小形克宏,府川充男出版社/メーカー: 勉誠出版発売日: 2009/05/04メディア: 大型 クリック: 42回この商品を含むブログ (13件) を見る 書の全般的な紹介は、先日公開された、編者の小宮山博史さんの文章があります。 漢字・仮名活字の世界史的位置づけ―『活字印刷の文化史』 こうして読むと、あらためてこのの凄味といったものが分かり、またそのようなに場違いな原稿を書いてしまったのではという自責の念にとらわれます。 書収録の原稿は、昨年INTERNET Watchで連載した“情報化時代”に追いつけるか? 

    『活字印刷の文化史』について - もじのなまえ
    mojiura
    mojiura 2009/08/24
    これは読まなくては、と思った。が 10,290 円。まずは財布と相談。
  • 冒頭(ぼうとう): 言葉拾い

    文章や談話のはじまりの部分。前置き。 日経の「春秋」覧で、 「冒」という字は、頭巾のたぐいを深くかぶり目だけを出している姿を表しているそうだ。 それがかぶとをつけて進撃する格好にも見え、無頓着に行動することを指した。との記事を目にしました。 記事は、「冒険」「流行性感冒」をあげ、新型インフルエンザ対応のことで結んでいます。 その後に目にしたのが「冒頭」でした。 「ぼうとう」はよく使っていたはずですが、「冒」の字だったことに気づかされました。 「冒」 ボウ・モウ・おか-す・おお-う 目におおいをかぶせたさまで、おおう意。 1、おおう 2、おかす 3、むさぼる 「冒頭」は「頭をおおう」という解釈でしょうか。 そこから“前置き”という意味になる道筋が知りたかったのですが、見つかりませんでした。 「冒頭」の反対語はという質問の回答はありました。 「冒頭」は文章だけには限らないので、 文末・終末・末

    mojiura
    mojiura 2009/08/24
    末尾に「尚、『涜』は1983年にJISが作った略字です」とあるけど、本当でしょうか? なんとなく JIS がやっちゃう以前にもこの字体は存在していて、JIS は追認しただけ、と思うのですが……。あとで調べようと思う。
  • 顔文字は文字なのか

    mojiura
    mojiura 2009/08/14
    顔文字の起源。MZ80-K とか、懐かしい。