サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
srad.jp/~yasuoka
私(安岡孝一)の8月21日の日記で公開したudkanbunを改造して、UniDicのMeCab辞書と、UDPipeのjapanese-gsdモデルが読めるようにした。これをさらに「Chamame2UD.py」と機能統合して、手元に辞書がある場合はローカルで高速に、ない場合はWeb APIを叩くことで低速に、動作するよう書き直してみた。unidic2udというpython3モジュールとして、PyPIからリリースしたので、ぜひ使ってみてほしい。インストールは、とりあえずは % python3 >>> import unidic2ud >>> ja=unidic2ud.load("gendai") >>> s=ja("笑顔で彼は座った") >>> print(s) # text = 笑顔で彼は座った 1 笑顔 笑顔 NOUN 名詞-普通名詞-一般 _ 5
大漢和番号14404「⿰月𡬶」を眺めていたのだが、何とも得体の知れない漢字だ。姓に使う漢字らしいのだが、私(安岡孝一)自身は実際の用例を見たことがない。この漢字が、戸籍統一文字162110を経由して、文字情報基盤MJ037911に収録されたのはいいのだが、そこでU+2339F「𣎟」と統合されてしまっている。ツクリが「𡬶」と「尋」で微妙に違っているのだが、本当に統合してしまっていいんだろうか。うーむ。
昨日の日記で書いた「Z80で、Bレジスタに0~99の整数が入っている時に、10で除算した商をHレジスタに、余りをAレジスタに返す」という問題だが、51/512≒1/10で商を先に求める方法において、上位4ビットと下位4ビットを逆転する、という途方もないアイデアをいただいた。ちょっと書いてみよう。 78 LD A,B C6 20 ADD 20H 80 ADD B 80 ADD B 1F RRA 4F LD C,A 0F RRCA 0F RRCA 0F RRCA 0F RRCA 81 ADD C 3F CCF 99 SBC C E6 0F AND 0FH 67 LD H,A 87 ADD A 87 ADD A 84 ADD H 2F CPL 07 RL
一昨日の日記で書いた「Z80で、Bレジスタに0~99の整数が入っている時に、10で除算した商をHレジスタに、余りをAレジスタに返す」という問題だが、余りをDAAで先に求めて、その後に商を求める方法を、改良できてしまった。 78 LD A,B 0F RRCA 0F RRCA 0F RRCA 27 DAA 87 ADD A 27 DAA 4F LD C,A 78 LD A,B E6 07 AND 07H 91 SUB C 27 DAA E6 0F AND 0FH 4F LD C,A 90 SUB B 67 LD H,A 0F RRCA 84 ADD H E6 0F AND 0FH 67 LD H,A 79 LD A,C 商を求める部分の演算
本日付で東洋英和女学院から、Carl Fr. Leofflerなる人物の「Nietzsche fuer Karl Barths Theologie 2」と題するタイプライター原稿(3ページ分)が発表された。一見すると、ブラザー工業のタイプライターで打たれた体裁に見えるのだが、正直、何とも気持ち悪い。以前、「Brother Valiant JPI-121」でも書いたが、ブラザー工業のタイプライターにはドイツ語配列モデルがあったので、ウムラウトを打たない理由がないのだ。また、印字の文字幅が「Brother Valiant」にしては広い(気がする)ので、あるいは「Brother Deluxe」かとも思ったのだが、だとすると、数字の「1」を小文字の「l」で代用する理由がわからない。それに加えて、アラインメントが揃いすぎている。機械式タイプライターは、その設計上、どうしてもアラインメントに「遊び」を
リクルートMegagon LabsがGiNZA日本語UDモデル(Ver.1.0.1令和版)をリリースしたので、私(安岡孝一)の「SVGによるUniversal Dependencies可視化ツール」に繋いでみることにした。GiNZA日本語UDモデルは、spaCy上での日本語自然言語オープンソースライブラリで、pip3とpython3があれば % pip3 install 'https://github.com/megagonlabs/ginza/releases/download/v1.0.1/ja_ginza_nopn-1.0.1.tgz' % python3 >>> import spacy,urllib.parse,webbrowser >>> from spacy.lang.ja_ginza.cli import token_line >>> h="http://kanji.zin
私(安岡孝一)の昨日の日記の複数の読者から、「令和」の典拠は日本古典なのか漢籍なのか、という趣旨の御質問を複数いただいた。いや、その、漢文(古典中国語)って本質的にコピペ文化なので、どれが典拠とか普通はわからないと思う。 試しにKanripoで「令和」を文字列検索してみると、こんな感じ。古いところだと、『撰集百縁經』卷一の佛説法度二王出家縁に「能令和解」という用例があるらしい。この用例における「和」は「知」の別体なのではないか、とする説があるものの、とりあえず、私が返り点を打つなら「能令㆑和㆑解」あたりだろうか。 一方で、『萬葉集』卷五の「初春令月、氣叔風和」には、たぶん返り点が要らないと思う。その点では、まあ『萬葉集』の方が、日本人好みなんじゃないかなぁ…。
「パソコンのキーボードは,なぜABC順・五十音順ではないのですか」の読者から、NTT西日本のチエネッタの記事「キーボードの配置のルーツとキーの役割を知ろう」(ネットのいろは、vol.21、2019年3月28日)を読んでほしい、との御連絡をいただいた。読んでみたのだが、QWERTY配列に関するガセネタが並べ立てられていて、かなり閉口した。 不規則なQWERTY配列になった理由って何? ではなぜこのような不規則な配置になったのでしょうか。確実な根拠のある理由はわかっていないようですが、諸説あるうちのいくつかを下記にまとめました。 タイプライターのセールスマンが顧客に対してプレゼンテーションを行う際に素早く美しく「typewriter」と打鍵を披露できるようにしたものだという説(最上段のキーのみで全ての文字の入力が可能) 早く打ちすぎるとタイプバーが絡まるため、敢えて打ちにくい配列にした説 ER
私(安岡孝一)が調べた限りでは、これら7つのvocabularyは、ワークゲートの求人情報から取られたものだ。濁点が落ちている上に、漢字との間にムリヤリ「語境界」が入れられているため、かなり探しにくかったのだが、以下の文の一部だろう。 お問い合せからご連絡ください。 お仕事探しにはどんどんワークゲートを利用してください♪ この条件の求人/求人情報以外にも 検索するとあなたにもっとマッチした求人/求人情報もみつかっちゃうかも。 求人情報ならワークゲートへ! ワークゲートの求人はすべて募集中。
私(安岡孝一)の一昨日・昨日の日記の読者から、このツイートをお教えいただいた。ちょうど手元に工藤拓『形態素解析の理論と実装』(近代科学社、2018年9月)が届いて、ざっと読み始めたところだったのだけど、そっちはとりあえずおいといて、私個人としては、BERTの事前学習モデルに古典中国語(Classical Chinese)がほしい。ただ、現時点では「We do not plan to release more single-language models」らしいので、やるなら自分でやらねばならない、ということのようだ。 古典中国語のWikipediaは正直アテにならないので、事前学習の元ネタとしては、まあ、四書五経を中心とした古典群ということになる。kanripoで言えば、周易・尚書・毛詩・禮記・春秋左傳・孟子・論語あたりから始めて、適宜、テキストを拾ってくることになるだろう。ただ、古典中国
『漢文の依存文法解析と返り点の関係について』(日本漢字学会第一回研究大会(2018年12月1日)発表予定)の発表準備をしていたところ、返り点程度ならGoogleのBERTを使えば打てるのではないか、という趣旨の御意見をいただいた。まあ、打てるかもしれないな、と思って、ここ5日間ほどBERT-Baseの2つのモデルと戯れてみたが、現時点での私(安岡孝一)の感触では、漢文の返り点はBERTの適用事例としては、かなり難しいのではないかと思える。 そもそもMultilingualモデルにもChineseモデルにも、古典中国語(Classical Chinese)が含まれておらず、いずれのvocab.txtもちょっとつらい。しかも不思議なことに、Chineseモデルのvocab.txtに「しにはとんとんワークケートを」なんていうvocabularyが含まれていて、どうなってるのかイマイチわからない。
一昨日・昨日の日記を読み返しながら、イキオイ余ってPaethの回転行列を、Z80で汎用的に実装してしまった。IXレジスタにx座標の256倍を、IYレジスタにy座標の256倍を、HLレジスタに-tan(θ/2)の16384倍を、DEレジスタにsinθの16384倍を、それぞれ符号付整数で入れて呼び出すと、θだけ回転(ただし-2π/3≦θ≦2π/3)した結果がIX,IYレジスタに返ってくる。 06 03 LD B,3 DD E5 PUSH IX FD E5 PUSH IY E5 PUSH HL CB 40 BIT 0,B D9 EXX C1 POP BC D1 POP DE E1 POP HL 20 01 JR NZ,+3 EB EX DE,HL CB 21 SLA C CB 10
昨日の日記の読者から、Alan W. Paethの「A Fast Algorithm for General Raster Rotation」(Proceedings Graphics Interface '86 / Vision Interface '86 (May 1986), pp.77-81)という論文をお教えいただいた。以下の3つの三角行列の積で回転行列をシミュレートする、という優れモノで、かなり速い上に誤差が小さい。
昨日の日記に対して、計算誤差はどうしたのか、という趣旨の御質問をいただいた。私(安岡孝一)の記憶が確かなら、何もやってなかった気がする。どのくらい誤差が出ていたのか、ちょっと確かめてみよう。 画面中心を(0,0)とするxy座標系において、cosθ=127/128, sinθ≒1/8の回転行列を用いて「手抜き」回転をおこなう。対象とするCPUがZ80なので、IXレジスタにx座標(上位8ビットが符号付整数、下位8ビットが256を分母とする分数)を、IYレジスタにy座標を入れることにすると、当時の私が組んだプログラムは、だいたい以下のような感じである。 DD E5 PUSH IX FD E5 PUSH IY E1 POP HL 7C LD A,H 2F CPL 57 LD D,A 7D LD A,L 2F CPL CB 2A SRA D 1
ネットサーフィンしていたところ、このtweetで35年ほど前の悪行がバラされてしまっていたので、当時の記憶を辿りつつ、ざっと書いてみようと思う。 画面中心を(0,0)とするxy座標系において、適当な微小角度θで回転をおこないたい。θの値は、まあ何でも良くて、とにかく見た目が「回って」いる雰囲気を出したい。ただ、対象とするCPUがZ80なので、乗算は自分で実装するしかなく、そのあたりの「手抜き」を考える。 微小角度θにおいてcosθは1に近い値なので、ここの実装を簡単にすべく、とりあえずcosθ=1-2-kとしてみる。そうすると、sin2θ=2(1-k)-2-2kとなるので、小さい方の項を捨てれば、だいたいsinθ≒2(1-k)/2。つまり、kが奇数なら実装が簡単となり、たとえばk=7なら、cosθ=127/128, sinθ≒1/8となる。 HLレジスタのHレジスタに符号付整数、Lレジスタ
秋田県立図書館で『読売新聞』をチェックしていたところ、8月17日朝刊(東京/秋田版、第51223号)p.2に「名前 漢字絞り込み」という記事を見つけた。8月16日夕刊の記事のダイジェスト版のようだが、ダイジェストしすぎて、一部が誤報と化している。特に以下の部分。 ただ、氏名に使われている約6万文字のうち、日本工業規格(JIS)でコード化されたのは1万50文字しかなく、多くの自治体は「外字」と呼ばれる特別な文字を作ってデータ入力している。 その「1万50文字」が、JIS X 0213の第1・第2・第3・第4水準漢字のことだとすると、JIS X 0212やJIS X 0221を無視するのは、かなりヒドイと思う。「坥」とか「珵」とかJIS X 0212でコード化されてる漢字を、見たことが無いのだろうか。あるいは「髙」とか「𠮷」とか「乭」とか、JIS X 0221でコード化されてる漢字を、見たこ
昨日の『読売新聞』夕刊(東京版、第51222号)のトップに「電子行政 名前の漢字集約」という記事を見つけた。 政府は、行政の電子手続きに使う氏名の漢字を現行の約6万文字から、約1万文字に絞り込む方針を固めた。オンライン化を加速するためだ。たとえば、インターネットを使った納税などで氏名を記載する場合、渡边の「边」は「辺」と表記することにする。全国の自治体も足並みをそろえる必要があり、近く指針を公表する。
私(安岡孝一)の8月8日の日記に関連して、『民事月報』のバックナンバーをあさっていたところ、第5巻第10号(昭和25年10月)p.56に「戸籍の届出及び記載に関する夏時刻の表示方について」(昭和25年9月7日民事甲第2384号民事局長通達)を見つけた。 夏時刻法(昭和二十三年法律第二十九号)第二條第二項の規定によつて、九月の第二土曜日は二十五時間をもつて一日とされているところ、同日の第二十五時間目中に発生した事件について戸籍の届出及び戸籍の記載に関する時刻の表示方につき疑義を生じている向があるようであるが、この表示は「午後十一時何分(夏時刻)」の振合によることに一定した(なお同日の第二十四時間目までの時刻の表示及び同日の第二十五時間目を終つたとき翌日の午前零時と表示することについては、他の日におけると同じである)。從つて、今後は出生及び死亡の各届出書に記載する事件の発生時分並びに死亡に関す
ネットサーフィンしていたところ、『東京五輪終わっても「サマータイム」恒久的運用へ』(スポーツ報知、2018年8月8日)という記事に、面白いことが書いてあるのを見つけた。 ◆夏時間への切り替え方 導入初日を4月の最初の日曜日とした場合は午前2時に2時間進め午前4時に合わせる。夏時間が始まる日曜日は1日が22時間になる。10月最後の日曜日をサマータイムが終わる日とした場合は午前4時に2時間戻し午前2時に合わせる。この日は1日が26時間となる。 いや、それは、かなりマズイことになると思う。現在の日本の法令は、そのほとんどが「一日」を「二十四時間」だと仮定していて、しかも、同じ時刻が二度存在しないことを、大前提としているからだ。たとえば、戸籍法施行規則第二十一条第七号。
私(安岡孝一)の『パソコンのキーボードは,なぜABC順・五十音順ではないのですか』の読者から、安田洋祐の『経済学で読み解く「働き方」と「イノベーション」』を読んでほしい、との御連絡をいただいた。読んでみたのだが、またもやQWERTY配列に対するガセネタがバラ撒かれていて、かなり閉口した。 皆さんが普段使うキーボードはQWERTY型のキー配列です。しかし、この配列は実はタイピングに向いていません。タイプライター時代に文字のハンマーの絡みを起こさないよう、よく使うアルファベットキーを離したため、このような配置になったと言われています。では、なぜ改善されなかったのか。ユーザーもメーカーも、その状態から抜けるインセンティブがなかったからです。 『「ECONOトリビア」QWERTY記事顚末記』でも明らかにしたが、よく使う「E」と「R」のキーは、QWERTY配列において隣り合っている。離れてなどいない
Ken Lundeの「Adobe-Japan1-6 Is Expecting!」(CJK Type Blog, 2018年7月20日)を読みながら、13年前にKenに送ったメールのことを思い出したので、忘れないうちに今日の日記に書いておこうと思う。JIS X 0212-1990の漢字のうち、38-11「殩」にあたる字体は、Adobe-Japan1-6に含まれていない。よく似た字体としてCID=16923があるのだが、上の部品が「歹」ではなく「歺」なので、異体字ではあるものの字体が異なっている。34-43「暀」もCID=17749と微妙に異なっているし、38-68「汴」もCID=16928と微妙に異なっている。 ただ、今回のAdobe-Japan1-7は、どうやら「元号」の追加だけにとどまりそうな気配である。「near-identical twins」って書いてあるところを見ると、横組用と縦
私(安岡孝一)の『パソコンのキーボードは,なぜABC順・五十音順ではないのですか』の読者から、Mariana Mazzucatoの『デジタル経済を独占するグーグルやフェイスブックと私たちはどう付き合うべきか』(MIT Technology Review、2018年7月7日)を読んでみてほしい、との御連絡をいただいた。読みかけてみたのだが、いきなりQWERTY配列に対するガセネタが書かれていて、とても有料の部分まで読む気になれなかった。 キーボードのQWERTY配列は、タイプライターの機械式アームがぶつかって絡まるトラブルを減らすために、わざと非効率的に設計された。この特性はもはや現在のキーボードには無関係だが、人々はそんなことにはお構いなく、まだQWERTY配列のキーボードを使っている。 タイプライターに「アーム」という機構が導入されたのは、1893年発売の「Daugherty Typew
ネットサーフィンしていたところ、呉智英の『「暴走万葉仮名」の分析に計量社会学者は立ち上がるべき』(NEWSポストセブン、2018年7月2日)という、ワケのわからない記事に行き当たった。タイトルからして計量言語学と計量社会学を混同している上に、中身はもっとワケがわからない。 1951年、日本の戸籍に子の名前として記載できる漢字が定められた。当初は100文字に満たない漢字しかなかったが、徐々に増加、現在は800文字超ある。 「子の名に使える漢字」のことを言いたいのだろうが、1951年5月25日の時点だと、当用漢字表1850字、当用漢字字体表1850字、人名用漢字別表92字が「子の名に使える漢字」となっていた。ちなみに、2017年9月25日現在で2999字になってるんだけど、「現在は800文字超ある」って何の話だろう? ところで、私には吉川のような計量社会学者にこそ調査研究してもらいたいテーマが
私(安岡孝一)の2017年12月21日と2018年3月2日の日記の読者から、シャルコ・アンナの『外国人が目を丸くした日本の「絵文字」の豊かさ』(BEST T!MES、2018年6月6日)を読んでみてほしい、との御連絡をいただいた。読んでみたのだが、絵文字の歴史に関して書かれた以下の部分が、どうも気になった。 1993年に図2のスマイリーフェイスを含めて、100個以上の絵文字がUnicode1.1の「その他の記号」というブロックに登録されると、ワードの「記号と特殊文字」から選んで打てるようになりました。 Unicodeの「Miscellaneous Dingbats」に、☺☻☹を含む106字が収録されたのは、1991年10月のUnicode 1.0だったりする。でも、この「ワード」って、何のことだろう? この時点でのMS-Wordは、まだUnicode対応しきれてなかったはずだけど?
『大漢和辞典』を読んでいて、検字番号4890「地」に「ヂ」という音を、見つけた。そう言えば、私(安岡孝一)が多感な少年期を過ごした岸和田は、「だぢづでど」と「ざじずぜぞ」が、発音上あまり対立していない地域だったように思える。「地震」と「自信」の発音が同じなのは、まあ、よくあることだと思うのだが、「臀部」と「全部」の発音が同じなのは、今にして思うと少しマズイ気がする。「道理」と「草履」の発音も聞き分けにくく、そのせいか「草履」のことを「雪駄」と呼ぶことも多かった。ただ、私が高校に進学した1980年代頃には、「だでど」と「ざぜぞ」は、発音が少しずつ対立していったような気がする。それでも、いまだに「ぢづ」と「じず」の発音は、分離していないと思われる。
『大漢和辞典』を読んでいて、検字番号41297「関」に「クワン」という音が示されているのを、見つけた。ちなみに「カン」という音は示されていない。実は、私(安岡孝一)の祖母の一人は、合拗音「くゎ」と直音「か」を対立させて発音する人で、火事(くゎじ)と家事(かじ)を自然に言い分けていたのが、子供心にも不思議だったのだ。ただ、祖父の発音にそういう対立は無かった(気がする)ので、あるいは祖母だけだったのかもしれない。なお、『大漢和辞典』では、検字番号18850「火」には「クワ」という音が、検字番号7169「家」には「カ」「ケ」「コ」という音が、それぞれ示されている。
昨日付で参議院の文教科学委員会に付託された「著作権法の一部を改正する法律案」だが、授業目的公衆送信補償金のところが、私(安岡孝一)個人としては問題になりそうだ。とりあえず、改正後の第35条を見てみよう。 (学校その他の教育機関における複製等) 第三十五条 学校その他の教育機関(営利を目的として設置されているものを除く。)において教育を担任する者及び授業を受ける者は、その授業の過程における利用に供することを目的とする場合には、その必要と認められる限度において、公表された著作物を複製し、若しくは公衆送信(自動公衆送信の場合にあつては、送信可能化を含む。以下この条において同じ。)を行い、又は公表された著作物であつて公衆送信されるものを受信装置を用いて公に伝達することができる。ただし、当該著作物の種類及び用途並びに当該複製の部数及び当該複製、公衆送信又は伝達の態様に照らし著作権者の利益を不当に害す
京都大学など複数の大学が、Orario社の告訴・告発を検討していることが、本日、明らかになった。罪状は、偽計業務妨害ないし威力業務妨害。京都大学は昨年5月、 ECS-ID及びパスワードを入力して学内情報システム内の情報を取得するアプリを使用する行為は、全学情報システム利用規則第8条(1)及び(4)に抵触します。 との告知をおこない、Orario社に対し非公式アプリ「Orario for 京大」の配布をやめるよう働きかけたが、同社がこれを無視したことから、告訴・告発を検討するに至った。新入生(特に未成年者)の無知に付け込んで、学内情報システムを安全運営する業務を恒常的に妨害しており、偽計業務妨害ないし威力業務妨害にあたるとしている。一方、Orario社の芳本大樹代表は『日経コンピュータ』のインタビューに対し、
「ECONOトリビア」QWERTY記事顚末記の読者から、グレアム・ロートンの『NewScientist起源図鑑』(ディスカヴァー・トゥエンティワン、2017年12月)の「なぜ私たちはQWERTY配列のキーボードを使い続けるのか?」(pp.214-217)を読んでみてほしい、との御連絡をいただいた。読んでみたところ、歴史的経緯に微妙な間違いが散見されて、あちこち私(安岡孝一)には納得がいかなかった。 QWERTY配列のキーボードが世界に飛び出すきっかけになった場所は、1866年にアメリカのミルウォーキーにあった小さな作業場だ。そこでは、クリストファー・レイサム・ショールズという編集者が一山当てることを狙って、ある発明の研究を始めていた。それは、本のページ番号を自動でふる機械である。
次のページ
このページを最初にブックマークしてみませんか?
『yasuokaのページ | スラド』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く