タグ

ブックマーク / srad.jp (196)

  • 入管外字ef89は「平」の異体字なのか | yasuokaの日記 | スラド

    在留カード等に係る漢字氏名の表記等に関する告示(平成23年12月26日法務省告示第582号)の別表第二に掲載されているef89は、どう見てもU+5E73「平」に統合されるべき文字なのに、どうして私用文字エリアにデカデカと掲載されているのか、という主旨の御質問をいただいた。それは、端的に言えば、別表第二の外字を捨てるためだ。 この別表第二に載っているのは、入国管理局のコンピュータで使われていたいわゆる入管外字で、今年7月に「とりあえず廃止」された。ただ、そうは言っても、入国管理局周辺のあちこちのコンピュータに残っているため、↑の告示の別表第四にしたがって、在留カードの正字に置き換えるよう強制しているわけだ。実際、別表第四では、ef89を5e73に置き換えるルールが示されていて、つまりは、入管外字を捨てるために、あえて告示に載せたわけである。でも、それでもe479なんかは捨てきれなかったわけで

    sassano
    sassano 2012/12/21
  • 「沢」の新字体は旧陸軍が決めたわけではない | yasuokaの日記 | スラド

    旧陸軍が決めた?「沢」の字体 「沢」と「澤」の表記について、「新しい常用漢字と人名用漢字」(安岡孝一著)で面白い話を見つけました。前述のように、当用漢字表で「沢」の字体が決まりましたが、それより6年前の同15年に、旧陸軍が兵器に使える漢字を1235字に制限した「兵器名称用制限漢字表」を作成しました。兵器に難しい漢字が使われ、新兵が読み書きできないという問題を解消するための漢字表ですが、その中で「澤」が「沢」に変えられたというのです。 そんなことを書いた覚えはない。『新しい常用漢字と人名用漢字』の9ページにも書いた通り、兵器名称用制限漢字表の略字84字は、「読み書きを容易にするために臨時国語調査会所定の略字を」採用したものだ。「沢(澤)」も、臨時国語調査会の『常用漢字新辞典』(三省堂編輯所、昭和7年9月)の略字が、兵器名称用制限漢字表にも採用された、と、正確に書いておいたはずだ。

    sassano
    sassano 2012/11/26
  • U+20F96は誰が提案したのか | yasuokaの日記 | スラド

    『日の文字とUnicode』第5回(大修館書店WEB国語教室、2012年7月25日)で私(安岡孝一)が書いた以下の文章に関して、複数の方から御質問があった。 この「コード表」のU+20F96を見る限り、「原規格符号」は「UCS2003」と「T4-4932」なので、「U」のアメリカ・カナダと「T」の台湾が提案したのであり、中国は無関係なのではないか、という御質問だ。…しまった。いや、その、「UCS2003」というのは、ISO/IEC 10646:2003の規格票に使われていた字形、という程度の意味で、いわゆる「U」ソースではない。その意味では、私が第4回で書いた

    sassano
    sassano 2012/07/27
  • 二次史料のみに基づく「歴史」 | yasuokaの日記 | スラド

    手を入れようかとも思ったのだけど、何かパラレルワールドの歴史を読んでるかのような不気味さで、どこから手を付けていいかわからない。 とは書いたものの、つい「要出典」を貼ってしまった。いや、その、どうにも我慢ならなかったのだ。そうしたところ、あまり信頼できない二次史料を持ち出されて「出典」にされてしまったので、私自身、多少憤慨してしまった。 でも、よく調べてみると、これは私が大人げなかったことに気づいた。日語版Wikipediaでは、一次史料を使わないことが推奨されているのだ。端的にはここにあるとおり。 一般に、ウィキペディアの記事は一次資料に基づくべきではなく、むしろ一次資料となる題材を注意深く扱った、信頼できる二次資料に頼るべきです。ほとんどの一次資料となる題材は、適切に用いるための訓練が必要です。特に歴史についての主題を扱う場合がそうです。 (中略) それゆえ一般的に、「一次資料」は注

    sassano
    sassano 2012/07/19
  • 「トキ」の合字は漢字か非漢字か | yasuokaの日記 | スラド

    住基統一文字のAD1Bは漢字なのか非漢字なのか、という趣旨の御質問をいただいた。カタカナの「トキ」の合字なので、非漢字とみなすべきだろう、というのが私(安岡孝一)個人の意見だ。ただ、カタカナの「トモ」の合字は、UnicodeではU+2A708(𪜈)と漢字あつかいだし、「トキ」も「トモ」も講談社『新大字典』(1993年3月)に掲載されているので、住基統一文字としてはAD1Bを漢字とみなしているのだろう。 しかしそれならば、住基統一文字303Dは、カタカナの「コト」の合字だが、こちらはU+30FF(ヿ)に収録されていて、Unicodeでも非漢字あつかいだ。また、住基統一文字B159も、かなり悩ましい。「志」に濁点がついているように見えるが、あるいは点が2つなのかもしれない。さて、これらは漢字なのだろうか、非漢字なのだろうか。

    sassano
    sassano 2012/05/18
  • 現代社会学者の考えるQWERTY配列 | yasuokaの日記 | スラド

    丹羽敏行・河宮信郎・白井英俊の「キーボードの文字配列の改良研究」(中京大学現代社会学部紀要、第5巻、第2号 (2012年3月)、pp.165-183)を読んでみたところ、ノッケから以下の文章があって、かなりカチンと来た。 現行の「QWERTY配列」は英文タイプのキーボードを踏襲したもので,文字の使用頻度と整合しない不合理なものである(安岡・安岡,2008)。このことは周知であるが,世界中のユーザーが現行配列によくなじんでいるので,その変更に対しては(たとえ合理的な改善であっても)強い拒否反応がはたらく。 ふざけるな。私たち(安岡孝一と安岡素子)は『キーボード配列 QWERTYの謎』(NTT出版、2008年3月)において、QWERTY配列が「不合理」だなどと一度も書いていない。誤読するのは読者の勝手だが、論文で著書を参照するのなら、私たちの著書のどの部分を根拠として、QWERTY配列が「不合

    sassano
    sassano 2012/05/01
  • 日本人プログラマーについての記事が Hacker News で話題になった

    東京住まいの外国人プログラマーが日人のプログラミング世界について記事を書いて (Jawaad Mahmood 氏のブログ記事)、その記事が Hacker News で取り上げられて、話題になった。 "My hypothesis is that a lot of Japanese companies produce little new because they have people solving solved problems over and over again." 以下、拙訳。(*) がついているところは訳していて意味がくみ取れなかった部分なのでコメント頂ければ幸い。誰か Hacker News へのコメントも要約してくれると助かる。 昨日、コーヒーを飲みながらアール氏とアキバに関する話題やらボードゲームやビジネスについて話していた。まじめな話題としてはプログラミングについて、

    日本人プログラマーについての記事が Hacker News で話題になった
    sassano
    sassano 2011/09/30
  • 10年間解けなかったタンパク質解析問題、ゲーム化により3週間で解かれる | スラド

    たんぱく質の解析をゲーム化したツール「Foldit」で、科学者たちが10年間解けなかったプロテアーゼを出題してみたところ、ゲーマーたちが、たった3週間で解いてしまったらしい(AFPBBニュース)。 Folditの開発者の1人は「コンピューターがまだ苦手にしている空間推論の能力が人間には備わっている」「ゲームというものは、コンピューターと人間の力を結集するための枠組みを提供する」などと言っているようだが、人間である科学者がこれまで解けなかった問題をゲーマーが解いてしまったんだよね。それならコンピュータと人間を比較するより、なぜゲーマーが解けたのかを検討する方が有意義だと思うのだが……。

    sassano
    sassano 2011/09/20
  • 明治時代のキラキラネーム | yasuokaの日記 | スラド

    宮武外骨の『奇態流行史』(半狂堂、大正11年7月)を読んでいたところ、「讀めない字の名」(p.96)の以下の部分が気になった。 果は康煕字典や玉篇などから、人々の讀めない字を撰り出し、それを我子の名に付けて、お父さんは學者であつたらしいと、後の人にも評されやうといふツモリで、普通の字引にも活字にもない難字を用ゐる事がはやり、それが明治三十年前後には最も甚だしく行はれた

    sassano
    sassano 2011/07/29
  • UCSにない通用規範漢字 | yasuokaの日記 | スラド

    思うところあって、朱一星の『漢字の国際コード規格をどう考えるべきか』(京都外国語大学研究論叢, 76号(2011年1月), pp.211-223)を読んでみたのだが、文字コード規格に対する現状認識に誤りが多く、かなりひどいシロモノだった。中でも『通用規範漢字表(征求意見稿)』(2009年8月12日)に関する以下のくだりは、特にひどい誤りが書かれていたので、ここに晒しておくことにする。 該当簡化字が存在しないため,「簡化字総表」また「印刷通用漢字字形表」に準じて新規に生成するであろう(例示は全て繁体字)。 上記一覧表は筆者がネットで公開された情報に基いて作成したもので,対応簡化字は最終的な確定字体ではないが,それでもかなりの確率で次のことが言える。… 6文字は今までの簡化字との整合性からすれば,新たに簡化字が生成されることになる。 中国は,前世紀から一貫して文字整理の努力を行ってきた。それと

    sassano
    sassano 2011/07/14
  • 稼ぐプログラマーの給料は? | スラド

    Application Development Trendsでは、稼ぐプログラマーが一体くらい貰っているのかを取り上げている。記事によると少なくとも米国においてはプログラマーが30万~40万ドル(約2400万~3200万円)稼ぐということも、ない話ではないらしい。なお、ソースの見つけられた最高額はゴールドマンサックスの元従業員Sergey Aleynikov氏の120万ドル(約9700万円)。同社で開発に携わっていた彼の名は、その後ソースコードを盗んだ産業スパイ容疑で起訴されたことで記憶に残っているところだろうか。

    sassano
    sassano 2011/06/04
  • IPAmj明朝フォント(検証版)公開 | yasuokaの日記 | スラド

    文字情報基盤構築に関する研究開発事業の成果物として、IPAmj明朝Ver.000.01が公開された。実は私(安岡孝一)自身は、このフォントの公開にかなり抵抗したのだが、「検証版」ということで押し切られてしまった。 ただし、このIPAmj明朝Ver.000.01だが、現時点では、U+24112に入るべき「𤄒」がU+3D95に収録されていたり、U+2975Cに入るべき「𩝜」がU+29778に収録されていたりと、まだまだバグが残っている。どうしても使いたい人は、あくまで「検証版」だということをキモに命じて使ってほしい。

    sassano
    sassano 2011/05/19
  • 5月16日 SIGSLP/SIGNL@東大まとめ | aitoの日記 | スラド

    途中から入場。 (3) 文書上の潜在トピックを捉える事象の検討とその応用(お茶の水女子大) LSIやPLSIにおける「単語」を「イベント」(単語列など)に拡張した潜在意味解析。実行が大変そうだ。イベントとして,係り受けがある単語(名詞と述語,任意の自立語)の組,文内で共起する自立語の組などいくつかを検討。トピック推定はLDA。楽天トラベルのレビューを対象にした文書検索課題で評価。結論としては,接続詞などで文を区切り,係り受けがある単語間の共起を使うのが良いとのこと。また,要約課題での評価では,係り受けのある単語の組のうちヒューリスティックに種類を選んだものが良い性能だった。 (4) 多言語トピックモデルによる言語横断リンク検出(神戸大) 江口研。多言語トピックモデルであるCI-LDA,SwitchLDA,CorrLDAの性能比較。CI-LDAは2つの言語が同じトピックを共有するモデル,Sw

    sassano
    sassano 2011/05/17
  • パスポートのヘボン式ローマ字 | yasuokaの日記 | スラド

    RōmajiかRōmaziかの読者から、パスポートのローマ字がヘボン式なのはなぜなのか、という趣旨の御質問があった。それは端的に言えば、GHQ統制下における「旅券発給申請書」には、ヘボン式ローマ字を用いるよう定められていたからだ。たとえば、昭和26年12月1日外務省令第26号「一般旅券発給申請書等の様式に関する省令」の第1号様式には、以下の注意書きがある。

    sassano
    sassano 2011/02/16
  • 「璽」はめったに見ない漢字なのに、どうして常用漢字なのですか? | yasuokaの日記 | スラド

    前田富祺の『常用漢字最新ハンドブック』(明治書院、平成23年1月)を読んでいたところ、質問6の「璽」はめったに見ない漢字なのに、どうして常用漢字なのですか?に対する以下の【答え】が気になった。(p.31) 「璽」は「ジ」と読み、この字には印、印形、玉などの意味があります。たしかに日常生活で目にすることのあまりない字ですが、これは、憲法に使われている漢字です。憲法は全日国民が読めるということが前提なので、憲法に使われる漢字は、すべて常用漢字表に入れて、読めるようにする努力目標としています。同じように普段あまり目にすることがないけれど常用漢字表に入っている「朕」(チン)という字も、憲法に使われている字です。「朕」は天皇が用いた一人称代名詞で「私」という意味です。「璽」も「朕」も、天皇が憲法を公布した文書の中に使われています。「璽」は「御璽」として出てきますが、天皇の印形、印が押されていること

    sassano
    sassano 2011/02/12
  • UnicodeのLOVE HOTEL | yasuokaの日記 | スラド

    Unicode 6.0で導入されたU+1F3E9「LOVE HOTEL」が、ちょっとアレなのではないか、というご意見をいただいた。いや、それ、私(安岡孝一)が導入したわけじゃなくて、auのEzWeb絵文字492番とか、softbank絵文字E501とかが、ISO/IEC 10646に収録されつつあるので、Unicodeもサポートしたっていうだけのことなんだけど。 ただ「LOVE HOTEL」っていう文字の名前が、ちょっと国際的にアレなのは、確かにそうだったりする。けど、でもじゃあ、どういう名前ならいいのか、私には正直わからなかった。それに、分類も「Building and map symbols」じゃなくて、実は「Romance symbols」なんじゃないか、っていう気がするし…。

    sassano
    sassano 2011/02/03
  • GHQが導入した当用漢字 | yasuokaの日記 | スラド

    昨日付の日経済新聞(第44902号)をチェックしていたところ、和久井康明の「漢字の使用制限を撤廃せよ」(朝刊p.5)というインタビューが、目に止まった。 国語審議会が当用漢字表を答申したのは昭和21年11月5日。当用漢字表が次官会議に持ち込まれたのが11月11日。閣議に持ち込まれたのが11月12日。内閣告示が11月16日。実は、当用漢字表はGHQを通っていない。 『米国教育使節団報告書』(昭和21年3月30日)を読めばわかる通り、GHQの方針は日語のローマ字化だった。漢字制限どころか仮名も捨てて、ローマ字で日語を表わせ、というのだ。でも、国語審議会は、この報告書に先立つこと4ヶ月、昭和20年11月27日には、標準漢字表の再検討に着手していて、あくまで漢字制限の方向に突き進んでいく。この結果GHQは、昭和21年11月16日の当用漢字表内閣告示に対し、沖縄における当用漢字表の告示を許可し

    sassano
    sassano 2011/02/01
  • 漢字が廃止されても漢字コードは無くならない | yasuokaの日記 | スラド

    『UnicodeのIVSがもたらすメリットとデメリット』の読者から、ここのTogetterの「議論」を読んでみてほしい、と連絡があった。昨日の「出版物のUnicode化推進セミナー」に関連したモノらしいが、発表をちゃんと聞いてない上に「議論」があまりに低レベルで呆れかえった。 だって、たとえ漢字を廃止したとしても、漢字コードは無くならない。IVSだって無くならない。そもそも文字コードってのは、現在の文字を伝えるだけじゃなくて、過去の文献をデジタル化しておくためにもある、っていうか、実際のデータ量はもちろん過去の方が多い。わかりやすい言い方をすれば、過去に漢字で書かれた文献やブログや「つぶやき」なんかが全てこの世から消え去らない限り、漢字コードは無くならない。 とは言え、ここのTogetterで「議論」してる連中は、『文字符号の歴史 欧米と日編』の「おわりに」なんか読んでないだろうし、IS

    sassano
    sassano 2011/01/28
  • ニーチェのIBMタイプライター | yasuokaの日記 | スラド

    ネットサーフィンしていたところ、佐々木中のインタビュー『ニーチェを搾取し、ビジネス書を売りさばく今の出版界は死すべきか?』(日刊サイゾー, 2010年12月20日)の以下の部分に笑い転げた。 ニーチェは、意外にも新しいものが好きで、彼はIBMの初めての商用タイプライターを注文しているんです。彼はピアニストだったから、文章を弾きたいというのがあったんじゃないですか。 ないと思う。ニーチェのタイプライターにも書いたが、ニーチェが注文したのはMalling-Hansen Skrivekuglenで「IBMの初めての商用タイプライター」なんかじゃない。というか、IBMがElectromaticを買収するのは1933年6月20日で、ニーチェの死から30年以上も後の話だ。それともニーチェは、1934年発売の「IBMの初めての商用タイプライター」を生前に注文していた、とでも言うのだろうか?

    sassano
    sassano 2011/01/05
  • 「馬へんに匃」のUCS | yasuokaの日記 | スラド

    「馬へんに匃」(大漢和番号44666)がデータ処理上、必要となったのだが、この字がISO/IEC 10646規格票のどこにもない。そんなはずはないだろう、とUnicodeをチェックしてみたら、U+2989Bにある。じゃあ、ISO/IEC 10646のU+2989Bはどうかと言うと、中が「人」ではなく「㐅」になっている。 こういうワケのわからないことになってしまっているのは、康煕字典が「馬へんに匃」の中の「人」を、あやまって「㐅」に作ってしまったからだ。実際、JTC1/SC2/WG2/N3593では、2989Bのところに、これら2字が併記される形となっている。でも、この2字をUCSで統合するのは、そもそもちょっと無理があったんじゃないだろうか…。

    sassano
    sassano 2010/12/09