タグ

ブックマーク / srad.jp/~yasuoka (6)

  • 書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド

    私(安岡孝一)の2016年2月26日の日記の読者から、近江龍一・西原陽子・山西良典の『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)という論文を読んでほしい、との御連絡をいただいた。読んでみたのだが、書写言語研究におけるサンプルデータの重要性を全く理解していない論文で、正直、頭が痛くなった。 研究では猥褻な表現に関する文を集めるために,pixivに投稿されているR-18小説を用いた.R-18小説に分類される小説の中から,2016年10月のウィークリーランキングTop10の小説を選択し,分析に用いた. そんな偏ったサンプルデータ10で、まともな結果が出るわけが無いだろう。しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書

    書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド
    mobanama
    mobanama 2017/05/26
    "インターネットでお手軽にサンプルデータを拾ってきたい気持ちは、まあ、理解できなくもないが、それでも研究を始める前に、そのサンプルデータの妥当性を検討しておくべきだ"
  • 二次史料のみに基づく「歴史」 | yasuokaの日記 | スラド

    手を入れようかとも思ったのだけど、何かパラレルワールドの歴史を読んでるかのような不気味さで、どこから手を付けていいかわからない。 とは書いたものの、つい「要出典」を貼ってしまった。いや、その、どうにも我慢ならなかったのだ。そうしたところ、あまり信頼できない二次史料を持ち出されて「出典」にされてしまったので、私自身、多少憤慨してしまった。 でも、よく調べてみると、これは私が大人げなかったことに気づいた。日語版Wikipediaでは、一次史料を使わないことが推奨されているのだ。端的にはここにあるとおり。 一般に、ウィキペディアの記事は一次資料に基づくべきではなく、むしろ一次資料となる題材を注意深く扱った、信頼できる二次資料に頼るべきです。ほとんどの一次資料となる題材は、適切に用いるための訓練が必要です。特に歴史についての主題を扱う場合がそうです。 (中略) それゆえ一般的に、「一次資料」は注

    mobanama
    mobanama 2012/07/20
    "一次史料を適切に用いることのできない人間が、二次史料の信頼性を判断できるわけがないだろう。その結果、当該項目の「出典」が、信頼できるのかすらわからない二次史料のオンパレードになってしまっている"
  • 鉄道院のヘボン式ローマ字採用 | yasuokaの日記 | スラド

    鉄道博物館ライブラリーで『鉄道公報』をチェックしていたところ、第1312号(大正5年12月21日)のpp.1212-1213に「驛名假名文字及羅馬字ニ就テ」という注意事項を見つけた。ざっと読んでみたところ、駅名標や切符に使う仮名やローマ字を定めたものだった。ローマ字は完全にヘボン式で、「撥音m,p,b,ノ前ニハm其他ハnヲ用ユルコト」なんて但し書きがついている。つまり1916年12月21日のこの時点で、駅名標のローマ字はヘボン式に統一されたということだ。 しかし、だとすると、私(安岡孝一)が『NかMか』(漢字と文化, 第9号 (2006年11月), pp.5-8)に書いた 1927年4月20日,鉄道大臣に就任した小川平吉(1870-1942)は,この混乱に終止符を打つべく,同年7月2日付の達571号で,駅名標のローマ字を「ヘボン式」と定めた。実は同年4月7日の達296号で「ヘボン式」の採用

    mobanama
    mobanama 2011/06/03
    "『鉄道公報』ry第1312号(大正5年12月21日)のpp.1212-1213に「驛名假名文字及羅馬字ニ就テ」という注意事項""駅名標や切符に使う仮名やローマ字を定めたもの""ヘボン式に統一"へー。
  • なぜ十二支の戌は第2水準漢字なのか | yasuokaの日記 | スラド

    子丑寅卯辰巳午未申酉戌亥のうち、なぜ戌だけが第2水準漢字なのか、という質問をもらった。まあ、偶然と言えば偶然なのだが、ざっと歴史を追ってみることにしよう。 『標準名づけ読』(婦女界社、1940年12月)の500字には、十二支のうち子丑寅卯辰巳午酉亥が含まれていて、未申戌がなかった。一方『当用漢字表』(国語審議会、1946年11月)には、子午未申が収録されていた。すなわち、『標準名づけ読』と『当用漢字表』を合わせると、十二支のうち子丑寅卯辰巳午未申酉亥の11字が含まれていたわけだ。この結果、1951年5月の『人名用漢字別表』内閣告示により、戌を除く11字は子供の名づけに使えるようになった。JIS C 6226-1978は、当用漢字と人名用漢字を全て第1水準漢字に収録するという方針で設計されたことから、子丑寅卯辰巳午未申酉亥は第1水準漢字となり、戌だけが第2水準漢字となってしまったわけであ

    mobanama
    mobanama 2011/06/01
    "戌は全く要望がなかった字である。すなわち、だれも戌を、子供の名づけに使いたいと思わなかったわけだ。その結果、戌は現在も人名用漢字に含まれていない"ほほう。
  • 漢字とマッカーサーと毛沢東 | yasuokaの日記 | スラド

    GHQが導入した当用漢字の読者から、リービ英雄の『我的日語』(筑摩書房、2010年10月)を読んでほしい、と連絡があった。読んでみたところ、日中国の漢字施策に関して、かなり奇妙な内容が書かれていた。(p.147) しかし、日人は中国の簡体字を笑うことはできない。日の当用漢字も、一種の簡体字であり、別の歴史の痕跡が、おのずとある。素直にそれとつきあえば、読み手として、歴史の衝撃を覚えざるをえないと思う。 北京の軍事博物館に行ったとき、近代戦争展示室の展示物に、一九四四年の新聞記事があった。繁体字だった。そのときまで、文字は共通していた。「戦前」の日の漢字と「解放」前の中国の漢字が、同じだった。千五百年間、同じだった。それが、日ではGHQのマッカーサー、中国では毛沢東、ふたりのMによって変わってしまった。 だったら、アジア歴史資料センターに行って、『兵器名称用制限漢字表』も見てみ

    mobanama
    mobanama 2011/06/01
    "遅くとも17世紀には日本と中国の漢字はかなり離れてしまっていて、それが戦後に漢字施策という形で表面化した、というだけのことだ。「千五百年間、同じだった」などというのは、漢字の歴史を知らないヤカラの幻想"
  • 安岡孝一の日記: 「QWERTYはわざと速く打てないように」伝説の日本上陸

    霊犀社2にもコメントしたが、日でいちばん最初に「QWERTYはわざと速く打てないように決められた」と公に言及したのは、坂村健の『TRONキーボードについて』(bit, Vol.19, No.1 (1987年1月), pp.83-90)の以下の部分だと、私は考えていた。 初期のタイプライタは機構が稚拙で,印字速度が速くなると印字棒がすぐ絡むという問題があった.これを解決するように試行錯誤で決められた――つまり速く打てないように決められたのが現在の配列である.この配列は,下から三段目の左から“Q” “W” “E” “R” “T” “Y”とキーが並んでいることからQWERTYキーボードと呼ばれている. ところが先日、都立中央図書館で、坂村健より以前の日での言及を見つけてしまった。うーむ、とりあえず、『世界発明物語』(日リーダーズダイジェスト, 1984年2月)の「タイプライター」の項(pp

    mobanama
    mobanama 2007/08/29
    『英語圏において最初に「わざと速く打てないように」と言い出したのは、Robert Parkinsonの『The Dvorak Simplified Keyboard: Forty Years of Frustration』(Computers and Automation, Vol.21, No.11 (November 1972), pp.18-25)だと考えられる』 ガセとまでは…
  • 1