タグ

ブックマーク / srad.jp/~yasuoka (114)

  • 書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド

    私(安岡孝一)の2016年2月26日の日記の読者から、近江龍一・西原陽子・山西良典の『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)という論文を読んでほしい、との御連絡をいただいた。読んでみたのだが、書写言語研究におけるサンプルデータの重要性を全く理解していない論文で、正直、頭が痛くなった。 研究では猥褻な表現に関する文を集めるために,pixivに投稿されているR-18小説を用いた.R-18小説に分類される小説の中から,2016年10月のウィークリーランキングTop10の小説を選択し,分析に用いた. そんな偏ったサンプルデータ10で、まともな結果が出るわけが無いだろう。しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書

    書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド
    ardarim
    ardarim 2017/05/26
    バッサリ斬られてて笑ったww
  • Orarioに対する営業妨害と非識別加工情報 | yasuokaの日記 | スラド

    私(安岡孝一)の昨日の日記は、Orarioに対する営業妨害だ、との御意見をいただいた。まあ、そうだろう。来月30日以降Orarioが、学生の所属大学、所属学部・学科、性別、卒業年度、登録時間割の匿名加工情報を、第三者に販売営業するつもりなら、私の昨日の日記はOrarioに対する営業妨害だ。Orarioのプライバシーポリシーにおいて、「(4)統計データの作成および当該データの第三者への提供」の具体的利用態様がどうなっているか見てみよう。 当社は、左に記載の情報を以下の目的のために利用します。 ・左記情報を利用者が識別できないように加工した上で、利用者の利用形態等の統計データを作成するため。 当社から右記情報に関する統計データの提供を受けた第三者は、当該情報を以下の目的のために利用します。 ・当社または第三者の商品またはサービスの広告の開発または提供のため ・マーケティング調査、統計、分析のた

    Orarioに対する営業妨害と非識別加工情報 | yasuokaの日記 | スラド
    ardarim
    ardarim 2017/04/20
    サービス提供側(大学)が止めろって言ってるんだからorarioはどうやっても筋悪にしかならない。指摘の通りちやんと認定取ればいいのにしないのは裏があると受け取られても仕方がない。
  • Re: 人名用漢字と第1・第2水準漢字に対する妄想 | yasuokaの日記 | スラド

    『情報管理』2014年8月号掲載の榎並利博「電子行政における使用漢字の問題」に対し、私(安岡孝一)なりのコメントというか反論を、「電子行政における第3・第4水準漢字」というショートペーパーにまとめて『情報管理』に投稿した。そうしたところ、今日づけで「不採録」の通知をいただいた。 『情報管理』に、どの論文を採録し、どの論文を採録しないかは、もちろん、『情報管理』誌の編集委員会の専権事項だし、何かと事情もあるのだろう。でも、ちょっとくやしい。くやしさのあまり、他誌に再投稿という考えが一瞬アタマをよぎったが、そんな悪い考えをアタマから払拭すべく、ここに公開して荼毘に付すことにした。ぜひ読んでほしい。 なお、榎並利博のこの論考(および先行文献)は基的な部分で誤りを含んでいる、と、私は今も考えている(これとかこれとかこれとかこれとかこれ)。読者諸氏(あるいは各誌編集委員会)においては、こういう非論

  • 鍋島藩における和文モールス符号 | yasuokaの日記 | スラド

    確かにこの「主婦」のおっしゃる通りで、武雄市には、もう蘭学館は不要だと思います。同様に、武雄市には、もう武雄鍋島文庫は不要なので、他機関に移管すべきでしょう。 とコメントしたところ、なぜ武雄鍋島文庫にそうまで粘着するのか、という趣旨の御叱正をいただいた。私(安岡孝一)が「粘着」しているとすれば、それは武雄鍋島文庫だけではなく、いわゆる「大」鍋島文庫全体だと思う。 『文字符号の歴史 欧米と日編』(共立出版、平成18年2月)の図1には、「日初の和文モールス符号」というキャプションを打ってある。実は、この図を『江戸』大正7年12月号で発見した際に、私が最も気にしたのは、これが当に「日初の和文モールス符号」なのかどうかだった。この和文モールス符号は、安政2年7月2日(1855年8月14日)の浜御殿での実験で、小田又蔵と勝海舟が使ったものだから、もちろん、かなり初期のものであるのは間違いない

    ardarim
    ardarim 2013/03/26
    あー…なんか安岡氏も巻き込まれたのか…災難だな
  • 常用漢字は「外字」なのか | yasuokaの日記 | スラド

    榎並利博の『電子行政における外字問題の解決に向けて』(富士通総研経済研究所研究レポート, No.400, 2013年2月)を読んでほしい、とアチコチから連絡をいただいた。読んでみたのだが、2010年の『常用漢字表』改定にまつわる議論を全くフォローしておらず、そのために、正直かなり頓珍漢な内容となっている。それを端的に示しているのが、【追補2】の以下の文章だろう(p.41)。 時代に即して合理的に物事を考え、外字問題を解決していくのは、来国語審議会の役割ではないだろうか。国語審議会の存在意義が問われていると言っても良いだろう。 存在意義も何も、国語審議会は2000年12月に、『表外漢字字体表』の答申をもって解散した。いまさら存在意義とか言われても、読者は困惑するばかりだろう。こういう調子なので、文化審議会国語分科会が答申した『改定常用漢字表』も全く理解しておらず、その結果、以下のようなわけ

  • 「馬へんに匃」のUCS | yasuokaの日記 | スラド

    「馬へんに匃」(大漢和番号44666)がデータ処理上、必要となったのだが、この字がISO/IEC 10646規格票のどこにもない。そんなはずはないだろう、とUnicodeをチェックしてみたら、U+2989Bにある。じゃあ、ISO/IEC 10646のU+2989Bはどうかと言うと、中が「人」ではなく「㐅」になっている。 こういうワケのわからないことになってしまっているのは、康煕字典が「馬へんに匃」の中の「人」を、あやまって「㐅」に作ってしまったからだ。実際、JTC1/SC2/WG2/N3593では、2989Bのところに、これら2字が併記される形となっている。でも、この2字をUCSで統合するのは、そもそもちょっと無理があったんじゃないだろうか…。

    ardarim
    ardarim 2010/12/09
    なんでこうなっちゃったんだろ。http://www.kangxizidian.com/kangxi/1436.gif
  • PRI 167のIVD登録完了 | yasuokaの日記 | スラド

    PRI 167のIVD登録が完了したという連絡をいただいた 。ざっとチェックしてみたところ、Adobe-Japan1と住民基台帳ネットワーク統一文字とで全く別々のIVSを付与する、という、かなりシビレル結果となっている。たとえば以前書いた「邊」に関しては、こんな感じ。 住基908A(U+908A U+E0108) CID+6929(U+908A U+E0100) 住基BD45(U+908A U+E0109) CID+14236(U+908A U+E0102) 住基BD5E(U+908A U+E010E) 住基BD5F(U+908A U+E010D) 住基BD60(U+908A U+E010C) 住基BD61(U+908A U+E010B) CID+20234(U+908A U+E0107) 住基BD62(U+908A U+E010A) 住基BD6A(U+908A U+E0110) CID

    ardarim
    ardarim 2010/11/30
    今後も誰も調停する人がいないまま野放図に登録されて行っちゃうのだとしたらきついな…。
  • 戸籍統一文字の「降」とIVS | yasuokaの日記 | スラド

    新しいIVDをチェックしていたのだが、やはり、かなりヤヤコシイ点があるようだ。たとえば、戸籍統一文字の「降」。 戸籍統一文字の「降」には、472040と472620と472650がある。一方、新しいIVDの「降」ガラミは以下のとおり。 964D E0100; Adobe-Japan1; CID+2033 964D E0101; Adobe-Japan1; CID+13447 964D E0102; Hanyo-Denshi; JA2563 964D E0103; Hanyo-Denshi; KS472040 472620を「U+964D U+E0102」、472040を「U+964D U+E0103」で表すのはいいとして、では472650を「U+964D U+E0101」で表すのは正しいのか間違いなのか。それとも近い将来において、472650がたとえば「U+964D U+E0104」に追加

  • 復帰(CR)と改行(LF) | yasuokaの日記 | スラド

    Steve Ouallineの『C実践プログラミング』(オライリージャパン、1998年6月)を読み直していたところ、テレタイプのCR(Carriage Return)とLF(Line Feed)について、かなり妙なことが書いてあるのに気がついた(pp.220-221)。 はるか昔、暗黒の時代であったBC (Before Computers、コンピュータ以前)に、Teletype Model 33という名前の魔法の装置がありました。この驚くべきマシンは、モータからできているシフトレジスタ、ローター、さらにレバーとバネだけでできているキーボードROMを備えていました。このテレタイプは、キーボード、プリンタ、紙テープの読み取り器/穿孔器を備えていました。そして、モデムを通して1秒間に10文字という驚嘆すべき速度で電話回線にメッセージを送信していきました。 しかし、このテレタイプには問題がありまし

  • 呪怨ちゃんの出生届 | yasuokaの日記 | スラド

    人の名前にはそぐわないとして、かつて人名用漢字候補から外された「賭」「怨」「尻」など34の漢字が、30日内閣告示される改定常用漢字表で“復活”する。 常用漢字は人名に使えるため、1993年に「悪魔」という名の出生届が出て騒動になった例のように、「想定外の名前」を警戒する声も出ている。 うーん、萎・咽・淫・怨・苛・潰・骸・顎・股・喉・乞・痕・挫・斬・餌・𠮟・嫉・腫・呪・尻・脊・腺・狙・唾・綻・溺・妬・賭・罵・剝・膝・蔑・賂・弄の34字…。でも半年前に、私(安岡孝一)が「呪怨ちゃん」をネタにした時には、まあ、役場が受理を一旦保留すりゃいいんじゃないの、ってのが、私個人の結論だったんだけど、それじゃダメなのかしら? 1993年、長男の名を「悪魔」とする出生届が出された東京都昭島市。神山達夫市民部長(60)は今回の34字復活に、「人名に使われる可能性が考慮されていない」と困惑する。 「悪」「魔」

  • 住基コードの「與」 | yasuokaの日記 | スラド

    思うところあって、住民基台帳ネットワーク統一文字の「與」をまとめてみた。 8207 (U+8207) ADCE ADCF ADD0 ADD1 ADD2 ADD5 (U+2B74C) ADD6 ADD9 ADDC ADDD ADDE B8FE (U+2B7CB) B8FF B900 B901 B902 B903 B904 並べて見ると結構カオス。 これらの「漢字」は、2006年11月27日付のJTC1/SC2/WG2/IRG N1251で、CJK Extension Dへの追加が提案されたものだ。しかし、今月11日リリースのUnicode 6.0では、結局、U+2B74CとU+2B7CBの追加にとどまっている。確かにADCEを「漢字」としてISO/IEC 10646に追加するのは非常に難しそうだけど、だとしたらどうやって、こういう字を一般にも使えるようにしていったらいいんだろ…。

  • 改定常用漢字表の「摂」 | yasuokaの日記 | スラド

    改定常用漢字表をチェックしなおしていたところ、「摂」の字体がどうも気になった。右上の「耳」の5画目が突き出ていないのだ。常用漢字表でも当用漢字字体表でも「摂」の「耳」は突き出ていたので、今回の改定常用漢字表で字体を敢えて変更したということなのだろう。 確かに、常用漢字表の「敢」「厳」「最」「撮」「取」「趣」「職」「聖」「摂」「恥」「聴」「聞」の中では、「耳」が突き出るのは「摂」だけだったから、この機会に字体を合わせてしまおうという意図はわからなくもない。でもそれって、当に大丈夫なのかしら?

  • 改定常用漢字表の「斎」 | yasuokaの日記 | スラド

    改定常用漢字表をチェックしなおしていたところ、「斎」の字体が気になった。中の「示」の横画が左右にくっついておらず、「齐」の中に「示」が浮き上がって見える。これに対し、常用漢字表の「斎」は、中の「示」の横画がいずれも左右にくっついており(戸籍統一文字の151020と同様)、かなり見た目が違う。そもそも、常用漢字表の「斎」は、当用漢字字体表や当用漢字表以来、ずっと使われてきたものなのだが、今回の改定常用漢字表で字体を変えようというのだろう。 「齐」の中に「示」が浮き上がって見える「斎」は、実は、戦前の標準漢字表で示されていた字体で、そこから石井明朝体経由で『大漢和辞典』やJIS C 6226規格票に入り込んだ。その結果、平成明朝体を含む現代の日フォントの多くが、常用漢字表とは微妙に異なる「斎」のデザインを採用している、というのも、また事実だったりする。この事実を素直に受け入れて、改定常用漢

  • 「樹」の中の「壴」の上部は「土」か「士」か | yasuokaの日記 | スラド

    「樹」の真ん中の上の部分は、戦前の標準漢字表では「土」に作っていたものが、戦後の当用漢字字体表では「士」になってしまった。この結果、現代でも「樹」のこの部分は、微妙にバラバラだったりする。JIS X 0208規格票の平成明朝体は「土」に作るが、一方、改定常用漢字表は「士」派だ。もちろん、この部分は基的に「十」の下に「豆」なのだから、「土」でも「士」でもないというのが現実なのだが、でもどっちかで作りたいというのも人情だろう。 ちなみに、住民基台帳ネットワーク統一文字では、6A39とB39Eに、これらの文字をあえて分離して収録している。ただ、これらをちゃんと見分けて運用しているのかどうかは、かなり疑問だったりする。

  • 住基コードの「邉」と「邊」 | yasuokaの日記 | スラド

    思うところあって、住民基台帳ネットワーク統一文字の「邉」と「邊」に対して、現時点でのIVDがどう対応しているか、チェックしてみた。 9089 (U+9089 U+E0100) BD27 (U+9089 U+E0105) BD29 BD2A (U+9089 U+E0102) BD2B BD2C (U+9089 U+E010A) BD2D BD38 BD47 BD49 (U+9089 U+E0109) BD4A BD4B BD4C (U+9089 U+E010E) BD4E BD4F BD50 BD64 (U+9089 U+E0103) BD65 BD69 BD73 908A (U+908A U+E0100) BD45 (U+908A U+E0102) BD46 BD51 BD5E BD5F BD60 BD61 (U+908A U+E0107) BD62 BD63 BD6A (U+908A

  • 「害」の4画目と6画目はどちらが短いのか | yasuokaの日記 | スラド

    そこまで細かい点を気にしなくてもいいと思うのだが、現状のIVDが、4画目の方が短い「害」をU+5BB3 U+E0100に、6画目の方が短い「害」をU+5BB3 U+E0101に、それぞれ分離しているため、やはり微妙に気になる。 不幸の始まりは当用漢字字体表で、「害」の4画目と6画目のどちらが短いのか、一目ではわからない。これに拍車をかけたのが常用漢字表で、あろうことか、左半分は6画目の方がへこんでいるのに、右半分は同じ6画目が出っ張っている。この混乱はフォントの世界にも波及していて、たとえば、石井明朝の「害」は6画目を短く作るが、平成明朝の「害」は4画目が短い末広がり風だ。ヒラギノ明朝はW3とW6とで違っている。今回、改定常用漢字表は6画目の方が短い「害」を示したので、今後はU+5BB3 U+E0101の方に収束していくのだろう。 ちなみに「実」にも同じ問題があるはずなのだが、そもそも現状

    ardarim
    ardarim 2010/10/14
    なんというメタエントリw
  • 改定常用漢字表の「摯」 | yasuokaの日記 | スラド

    改定常用漢字表をチェックしなおしていたところ、「摯」の字体がどうも気になった。「丸」の右側がCID=5020っぽく見える。表外漢字字体表のNo.400「摯」はCID=20264なので、微妙に字体を変更したということだ。 ちなみに、JIS X 0213の1-57-85「摯」の例示字体は、表外漢字字体表と同じくCID=20264だ。だとすると、今回、常用漢字表の改定に合わせて、JIS X 0213の例示字体も変えなきゃいけないのかしら?

  • 人名用漢字改正案のパブリックコメント | yasuokaの日記 | スラド

    常用漢字表の改定に伴う戸籍法施行規則の一部改正に対するパブリックコメントが、今日から11月2日までおこなわれている。端的には、人名用漢字から129字を削除して5字を追加し、「彌(弥)」「曾(曽)」「瘦(痩)」を別表の二に移すだけの改正で、常用漢字表の改定にのみ対応するという方針だ。しかも、新旧の条文対照すらついていないので、「餌」「遡」「遜」「謎」「」の許容字体を出生届に書けるのかどうかハッキリしないし、あるいは「龍」の一画目を変更するつもりがあるのかどうかイマイチわからない。まあ、今回は法制審議会に諮問していないので、最低限の対応で済ませるということなのだろう。

  • 中学校学習指導要領の一部改正案 | yasuokaの日記 | スラド

    中学校学習指導要領の一部改正案に対する意見募集が、今日から10月31日までおこなわれている。常用漢字表への196字追加に関連して、中学校学習指導要領の「国語」で習うべき漢字の字数を増やす、というものだ。具体的には、現在 (第1学年) 小学校学習指導要領第2章第1節国語の学年別漢字配当表に示されている漢字に加え,その他の常用漢字のうち250字程度から300字程度までの漢字を読むこと。 (第2学年) 第1学年までに学習した常用漢字に加え,その他の常用漢字のうち300字程度から350字程度までの漢字を読むこと。 (第3学年) 第2学年までに学習した常用漢字に加え,その他の常用漢字の大体を読むこと。 となっている中学校学習指導要領を (第1学年) 小学校学習指導要領第2章第1節国語の学年別漢字配当表に示されている漢字に加え,その他の常用漢字のうち300字程度から400字程度までの漢字を読むこと。

  • 文字情報基盤構築のフォント公募 | yasuokaの日記 | スラド

    経済産業省の『平成22年度電子経済産業省推進費(文字情報基盤構築に関する研究開発事業)に係る委託先の公募』に関して、この3週間というもの、あちこちから私(安岡孝一)のもとに質問があった。いいかげん、同じことばかり答えるのも飽きてきたので、今までに答えた内容を、ざっと、ここにまとめておくことにする。 事業は、(1)文字情報基盤の将来像や課題を整理するための調査研究と、(2)この調査研究を進める上での調査の素材となるフォントの整備の2つの内容により構成される。

    ardarim
    ardarim 2010/09/02
    公募案を作るようなお役人さんたちはここまでの見識は持ち合わせてないってだけなのかな。ないから作ろうみたいな単純な話だと思ってるのかもしれない。