タグ

ブックマーク / srad.jp/~yasuoka (17)

  • 多言語解析ツールspaCy 2.2.2がリリース | yasuokaの日記 | スラド

    spaCy 2.2.2がリリースされたとの連絡をいただいたので、早速、私(安岡孝一)の手元のCygwin(64bit)にインストールしてみた。今回のspaCy 2.2.2では、GPUの自動サポートとか、色々なところが改良されてるのだが、私個人としてはCygwin(64bit)再サポートがうれしい。ここ1年ほどCygwinにはインストールできなくなっていたのが、やっと何とかなったわけだ。ただ、さすがに素のままのCygwin(64bit)では無理で、python37-devel、python37-pip、python37-cython、python37-numpy、python37-wheel、gcc-g++、git、swigをcygwin.comから入れて置く必要がある。結構、手間だと思うものの、これらをちゃんと準備しておけば

    makoto15
    makoto15 2019/11/10
  • 地名表記における「英語またはローマ字」 | yasuokaの日記 | スラド

    表記する言語は日語と、英語またはローマ字の2か国語が基で、必要に応じて、韓国語と中国語を加えた4か国語にするとしています。 国土地理院の平成28年達第10号『地名等の英語表記規程』(2016年3月29日)に従うと、こういう「英語またはローマ字」という表現にせざるを得ないのだろうが、「日語と」「ローマ字」って「2か国語」なんだろうか? ちなみに『地名等の英語表記規程』では、母音の長短を基的に区別しないので、たとえば「江北駅」と「湖北駅」がどちらも「Kohoku Station」になってしまって見分けがつかない。すなわち「八丁堀駅」は「Hatchobori Station」だが、そのくせ「新潟駅」は「Niigata Station」だったりする。まあ、日人の考えた「英語表記」なので、こういうものなのかもしれないが。

    地名表記における「英語またはローマ字」 | yasuokaの日記 | スラド
  • 『日本・中国・台湾・香港・韓国の常用漢字と漢字コード』と『文字コードの世界』 | yasuokaの日記 | スラド

    日付で、私たち(安岡孝一・安岡素子)の『日中国台湾・香港・韓国の常用漢字と漢字コード』(京都大学未踏科学研究ユニット・学知創生ユニット・人文科学研究所、2017年3月)が、無事に発行された。まずは、めでたい。 実は、このは、私たちの『文字コードの世界』(東京電機大学出版局、1999年9月)の第5章「常用漢字と漢字コード」を、最新のものにアップデートしたい、という意図のもとに書かれた。なので、元々は「日中国台湾韓国」を予定していた。その後、執筆中に、香港を入れる必要性を感じたことから、いったんは「日中国台湾韓国・香港」としたのだが、どうも坐りが悪く、最終的に「日中国台湾・香港・韓国」としたものである。表組も、最初は日中台韓だったものを、いったん日中台韓香にして、最後は日中台香韓に組み直した。 はずだったのだが、まだp.81に日中台韓香が残っている、との御指摘を

    『日本・中国・台湾・香港・韓国の常用漢字と漢字コード』と『文字コードの世界』 | yasuokaの日記 | スラド
  • 日本製紙連合会の考えるA判の起源 | yasuokaの日記 | スラド

    紙のサイズはどのように決まっているのですか? 普段何気なく使っている「A4」、「B5」などの紙のサイズ。どのような基準で決められているのでしょうか。A判は19世紀末にオストワルドというドイツの物理学者によって提案され、もともとドイツ国内の規格でしたが、現在では国際規格サイズになっています。このドイツの規格で決まっているA判の基A0判は、縦横の長さの比が「1:√2」で面積が1㎡となっています。このA0判の長い方の辺を半分にする度にA1、A2、A3、A4・・・となり、数字が大きくなっていくに従って面積は小さくなっていきます。 A判を考案したのは、Friedrich Wilhelm Ostwaldではない。「A判の起源」にも書いたが、Ostwaldが提案した紙のサイズは、1cm×1.41cmを基として、1.41cm×2cm、2cm×2.83cm、2.83cm×4cm、…と倍々にしていくもので

    日本製紙連合会の考えるA判の起源 | yasuokaの日記 | スラド
    makoto15
    makoto15 2017/02/02
  • 「÷」を除算記号として使っている国々 | yasuokaの日記 | スラド

    世界195ヶ国の中で、日を含め3ヶ国しか使っていない算数記号があります。それは、“÷(割る)”。 私たち日人にとっては子どもの時からお馴染みですが、実は世界のほとんどの人は知らない謎の記号なんです! 日以外で使っている国は、イギリスとアメリカ。「結構、大国じゃん」と思うかもしれませんが、しょせん世界中の3ヶ国です。 以前、私(安岡孝一)が初等教育(算数)の教科書を調査した限りでは、少なくとも中国韓国・タイ・インド・トルコは「÷」を使っていたのだけど。「しょせん世界中の3ヶ国」って、当に事実?

    「÷」を除算記号として使っている国々 | yasuokaの日記 | スラド
  • GHQによる日本語のローマ字化 | yasuokaの日記 | スラド

    一昨日の朝日新聞夕刊be東京版「昭和史再訪 当用漢字の告示『楽に読み書き ローマ字化阻む』」を読んでほしい、との連絡を複数いただいた。読んでみたのだけど、まあ、新聞紙面のせいもあって、かなり大雑把な内容だった。特に、GHQやCIEの「日語ローマ字化政策」に関して書かれた以下の部分は、かなりヒドイので、筆者の宮坂麻子には悪いが、ここに晒しておく。 終戦で事態は一変する。45年9月、占領軍が道路標識や駅名などをローマ字で書くよう指令したのだ。漢字に詳しい阿辻哲次・京都大教授(61)は「アメリカ教育使節団は、漢字は書き言葉としては全廃しいずれ音標文字へ転換すると報告した。ローマ字へ変えたかったのだ」という。 引用後半の『米国教育使節団報告書』(1946年3月30日)に関しては、確かに日語のローマ字化をかなり強く主張しており、阿辻の主張そのものは正しい。ただしそれは、引用前半のSCAPIN-2

    makoto15
    makoto15 2013/01/28
  • 「沢」の新字体は旧陸軍が決めたわけではない | yasuokaの日記 | スラド

    旧陸軍が決めた?「沢」の字体 「沢」と「澤」の表記について、「新しい常用漢字と人名用漢字」(安岡孝一著)で面白い話を見つけました。前述のように、当用漢字表で「沢」の字体が決まりましたが、それより6年前の同15年に、旧陸軍が兵器に使える漢字を1235字に制限した「兵器名称用制限漢字表」を作成しました。兵器に難しい漢字が使われ、新兵が読み書きできないという問題を解消するための漢字表ですが、その中で「澤」が「沢」に変えられたというのです。 そんなことを書いた覚えはない。『新しい常用漢字と人名用漢字』の9ページにも書いた通り、兵器名称用制限漢字表の略字84字は、「読み書きを容易にするために臨時国語調査会所定の略字を」採用したものだ。「沢(澤)」も、臨時国語調査会の『常用漢字新辞典』(三省堂編輯所、昭和7年9月)の略字が、兵器名称用制限漢字表にも採用された、と、正確に書いておいたはずだ。

    makoto15
    makoto15 2012/11/26
  • 在留カードの「正字」と戸籍の「正字」 | yasuokaの日記 | スラド

    先週10月24日、共立女子学園で開催された全国連合戸籍住民基台帳事務協議会合同研修会において、以下の要望が東京都から提出された、との御連絡をいただいた。 戸籍事務における、改正住基法施行後の中国簡体字等に対応する日の正字による記載の取扱いについて通達等の発出を要望する。 改正住民基台帳法が年7月9日施行され、漢字圏の外国人の住民票における漢字氏名の表記が認められ、原則在留カード等により正字で記載し、中国簡体字等は正字に変換して記載することとされた。戸籍事務においても、中国簡体字は対応する日の正字で記載することとされているが、改正後の住民基台帳事務の正字への変換ルールと異なるため、混乱が生じている。戸籍事務における中国簡体字に対応する日の正字の特定については、中日辞典等で簡体字に対応する繁体字を調査してその文字と字形並びに字義が同一の文字が日の正字であればその文字と判断し、対

    makoto15
    makoto15 2012/11/05
  • 任天堂社長の考えるQWERTY配列 | yasuokaの日記 | スラド

    そもそも、キーボードのアルファベットの配列は、左上からQ、W、E、R、T、Yと並んでいるので「QWERTY(クワーティ)配列」と呼ばれてますけど、これは昔の手動式タイプライターが、レバー状の活字をポーンと押し出してタイプする構造でしたので、たくさんのレバーが絡まないようにするためにあえて速く打てないようにつくられた配列だと言われているんです。 そう「言われている」のを気で信じているのなら、そんな製品を売るなよ。と、以前、ブラザー工業の時もコメントしたのだが…。今回、任天堂は、社長みずからがこのガセネタを広めたい、ということなのだろう。まあ、社長が『キーボード配列QWERTYの謎』のまえがきすら読んでないのはともかくとして、任天堂という会社は、インタビュイーの3人も含め、このガセネタを誰一人として指摘できない体質の会社なのだろうか。

    makoto15
    makoto15 2011/04/25
  • 安岡孝一の日記: YEN SIGN問題縁起

    tarosukeの日記にもコメントしたのだが、YEN SIGN問題の歴史的経緯は、あまり知られていないように思える。そもそも、情報処理学会コード標準化委員会が1965年1月28日に完成した文字コード案では、「¥」は0x24に収録する予定だった。ところが、1966年4月のISO/TC97/SC2 + CCITT/GM ALPパリ会議において、ISO 7ビットコード最終案の0x24は「$」に固定されてしまい、1967年12月22日にISO R 646として制定された。やむをえず日側は0x5Cに「¥」を移し、JIS C 6220として1969年6月1日に制定した。一方アメリカは、1970年10月のISO/TC97/SC2ロンドン会議において、ISO R 646の0x5Cを「\」にするよう要求してきたが、日はこれに反対、ISO 646の1973年7月1日改正においても、0x5Cを国内使用箇所と

  • LATIN SMALL LETTER DOTLESS I WITH DOT ABOVE | yasuokaの日記 | スラド

    ひなまつりの白酒を呑んでいたところ、突然「U+0131 U+0307」と「U+0069」が等価なのかどうか、気になり始めた。どっちも「ı̇」と言えば「i」なのだが、もし、これらを等価だと認めた場合、さらに「U+0069 U+0307」をどうするのか、という問題が現れる。 しかもこの問題は、トルコ語を扱う際にかなり先鋭化する。何せ「I」の小文字が「ı」で、「İ」の小文字が「i」なのだから、これらの文字の名前をLATINスクリプトの中に押し込めること自体、どだい無理があるのだ。でも「LATIN CAPITAL LETTER DOTLESS I WITH DOT ABOVE」じゃあ、正直ワケわかんないな…。

  • 漢字が廃止されても漢字コードは無くならない | yasuokaの日記 | スラド

    『UnicodeのIVSがもたらすメリットとデメリット』の読者から、ここのTogetterの「議論」を読んでみてほしい、と連絡があった。昨日の「出版物のUnicode化推進セミナー」に関連したモノらしいが、発表をちゃんと聞いてない上に「議論」があまりに低レベルで呆れかえった。 だって、たとえ漢字を廃止したとしても、漢字コードは無くならない。IVSだって無くならない。そもそも文字コードってのは、現在の文字を伝えるだけじゃなくて、過去の文献をデジタル化しておくためにもある、っていうか、実際のデータ量はもちろん過去の方が多い。わかりやすい言い方をすれば、過去に漢字で書かれた文献やブログや「つぶやき」なんかが全てこの世から消え去らない限り、漢字コードは無くならない。 とは言え、ここのTogetterで「議論」してる連中は、『文字符号の歴史 欧米と日編』の「おわりに」なんか読んでないだろうし、IS

    makoto15
    makoto15 2011/02/01
  • 人名用漢字の「龍」 | yasuokaの日記 | スラド

    ヴィスタの文字セットのコメントにも書いたが、人名用漢字の「龍」は、左上の第1画が「丨」ではなく「一」(Adobe-Japan1風に言えば、CID=3966ではなくCID=14087)である。『人名用漢字別表』(昭和26年5月25日内閣告示第1号)以来、最新の人名用漢字(平成16年9月27日法務省令第66号)に至るまで、官報に示された字体は、一貫して「一」となっている。一方、JIS X 0208で例示されている「龍」の字体は、左上の第1画が「丨」である。JIS C 6226 (昭和53年1月1日制定)以来、JISは「丨」で一貫している。この違いがどこから来たのか、ちょっと調べてみた。 昭和26年5月14日に国語審議会が発表した『人名漢字に関する建議』の「別紙」は手書きのガリ版刷であり、そこでの「龍」の左上の第1画は「丶」に近いものであった。この「別紙」がそのまま内閣告示の原案(昭和26年5月

  • 中国新聞の考えるタイプライター | yasuokaの日記 | スラド

    タイプライターは英語で「typewriter」ってつづるんだけど、一度キーボードで打ってみてごらんよ。ある秘密が隠されていることに気づくはずさ。 やってみたかい? そう、アルファベットが並んでいる横列3行のうち、一番上の行にある文字だけで全部入力できちゃうんだよ!タイプライターのセールスマンが、お客さんの前でカッコよく「typewriter」って入力して見せるための工夫、という説もあるんだ。すごいよね、そんな理由でキーの配置を決めちゃって、それが100年以上もみんなに使われているなんて。 1875年12月16日付けの『The Nation』には、タイプライターの一面広告が掲載されているのだが、見ればわかるとおり「The "Type-Writer."」とデカデカと書かれている。当時のセールスマンは、ハイフンの入ったこの「The "Type-Writer."」という広告と共に、タイプライターを

    makoto15
    makoto15 2010/09/27
  • JIS X 0212-1990とJIS X 0213:2004 | yasuokaの日記 | スラド

    とあったので、さすがにギョッとなった。そんなこと、私、語ってないぞ。『JIS X 0212とJIS X 0213』(京都大学大型計算機センター第64回研究セミナー報告, 2000年3月24日, pp.19-46)にも書いたとおり、JIS X 0212-1990の文字のうち3144字程度はJIS X 0213:2000に含まれていない。ここで「程度」と書いたのにはわけがあって、「嶲」「殩」「瓯」「籩」「鳦」などのように、JIS X 0212とJIS X 0213で包摂関係がないにもかかわらず、Unicodeが共有されているというヤヤコシイ字があるからだ。さらには、JIS X 0213:2000とJIS X 0213:2004との間で追加された10字のうち、「瘦」と「繫」の2字がJIS X 0212に含まれているが、「瘦」の方はJIS X 0212と微妙に字体が違う、というヤヤコシサだ。こうい

  • 安岡孝一の日記: JIS X 0213:2004で追加された10字

    それは,先の字体の変更ではなく,追加となった10文字だ。具体的には次の通りである。 倶 剥 叱 呑 嘘 妍 屏 并 痩 繋 これらの文字の正字を使うと,これまで使っていた略字とは別のキャラクタ・コードになる。検索などが面倒になるだけでなく,これらの文字を使ってWindows Vistaで作った文書を,JIS2004に対応していない既存のWindowsで開くと,「・」や「■」などで表示される恐れがある。 最初の8字(俱・剝・𠮟・吞・噓・姸・屛・幷)については、確かに表示が化ける可能性は否定できないが、瘦と繫の2字は大丈夫なはずだ。というのも、これら2字はJIS X 0212に収録されていたので、Microsoftは日語版Windows 98以降、表示に関してはサポートしてきたからだ。つまり、まずいのは「JIS X 0213:2004で追加された10字」などではなく、「JIS X 0213

  • yasuokaの日記 | スラド

    2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。 !pip install transformers !test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip !test -d model-ver2 || unzip model-ver2.zip from transformers import pipeline f

  • 1