タグ

ブックマーク / srad.jp/~yasuoka (10)

  • Re: Unicodeの絵文字のルーツ | yasuokaの日記 | スラド

    私(安岡孝一)の2017年12月21日と2018年3月2日の日記の読者から、シャルコ・アンナの『外国人が目を丸くした日の「絵文字」の豊かさ』(BEST T!MES、2018年6月6日)を読んでみてほしい、との御連絡をいただいた。読んでみたのだが、絵文字歴史に関して書かれた以下の部分が、どうも気になった。 1993年に図2のスマイリーフェイスを含めて、100個以上の絵文字がUnicode1.1の「その他の記号」というブロックに登録されると、ワードの「記号と特殊文字」から選んで打てるようになりました。 Unicodeの「Miscellaneous Dingbats」に、☺☻☹を含む106字が収録されたのは、1991年10月のUnicode 1.0だったりする。でも、この「ワード」って、何のことだろう? この時点でのMS-Wordは、まだUnicode対応しきれてなかったはずだけど?

    gazi4
    gazi4 2018/06/07
    https://internet.watch.impress.co.jp/www/article/970925/skyw.htm ただ、ドコモ以外はeメールに絵文字を送信できない規格にしてた気がするので、初めてインターネット上にバラまいたのがドコモという可能性はある/コメ欄に筆者登場
  • Re: 書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド

    一昨日の日記の読者から、松谷創一郎の『立命館大学の研究者による「pixiv論文」の論点とは──“晒し上げ”批判はどれほど妥当なのか』(Yahoo!ニュース、2017年5月27日)を読んでほしい、との御連絡をいただいた。読んでみたのだが、この記事の問題意識が、私(安岡孝一)にはサッパリ理解できなかった。特に以下の部分。 私には、そうは思えない。少なくとも、近江龍一・西原陽子・山西良典の『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)は、人工知能の研究者というコミュニティを代表している論文ではなく、それを「理工系」の「領域」などと一括りにするのは、あまりに議論が雑すぎる。また、

    Re: 書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド
    gazi4
    gazi4 2017/06/02
  • 戸籍統一文字046350はUnicode 10.0のどこに行ったのか | yasuokaの日記 | スラド

    私(安岡孝一)の一昨日の日記の読者から、戸籍統一文字046350はUnicode 10.0に収録されたのか、という趣旨の御質問をいただいた。収録されたのはされたのだが、ちょっとヤヤコシイことになっている。JTC1/SC2/WG2/IRGの原案では、戸籍統一文字046350をU+865F「號」に統合しようとしていたのだが、日の抵抗にあって、結局、戸籍統一文字046110と統合した上で、U+2D239に収録することになった(cf. JTC1/SC2/WG2/IRG N2088)。ところが、Unicode 10.0(ドラフト)のCJK Extension Fでは、U+2D239にJMJ-057174だけが示されていて、JMJ-057183は示されていない。この結果、戸籍統一文字046110がU+2D239に収録されているのは確かだが、戸籍統一文字046350がどこに行ったのかは、一般の人たちに

    戸籍統一文字046350はUnicode 10.0のどこに行ったのか | yasuokaの日記 | スラド
    gazi4
    gazi4 2017/06/02
  • 著作権法における「引用」と「技術の開発又は実用化のための試験の用に供するための利用」と「情報解析のための複製等」 | yasuokaの日記 | スラド

    昨日の日記の読者から、「引用」は「著作権法第三十二条」であって「著作権法第三十条の四」ではない、という御指摘をいただいた。実を言うと私(安岡孝一)個人は、近江龍一・西原陽子・山西良典の論文『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)が、引用要件を満たしているとは考えていない。だから、昨日の日記で「著作権法第三十条の四」と書いたのだ。当該論文を少し見てみよう。 10個の小説の中に文は全部で7,009文あった.そのうち猥褻な表現に関する文は3,199文あった.クラス1に分類された文は615文,クラス2に分類された文は575文,クラス3に分類された文は8文,クラス4に分類された文は2,130文であった.いずれにも分類されないものはなかった.なお,同時に2クラス以上に属する文もある

    著作権法における「引用」と「技術の開発又は実用化のための試験の用に供するための利用」と「情報解析のための複製等」 | yasuokaの日記 | スラド
    gazi4
    gazi4 2017/05/31
  • キラキラネームにおける人名用漢字の総画数 | yasuokaの日記 | スラド

    私(安岡孝一)の昨日の日記に対して、総画数のデータもおかしいのではないか、との御指摘をいただいた。山西良典・大泉順平・西原陽子・福淳一『人名の言語的特徴の分析に基づくキラキラネーム判定』(日感性工学会論文誌、2015年10月9日)の当該部分を見てみよう。 キラキラネームは,一般的な人名よりも漢字の総画数が多い傾向にある. (中略) 漢字の総画数の値を算出するためには,総画数を集めたデータベースを用いる.データベース内には13,389個の漢字についての画数が収録されている.画数の収集には漢字の画数をまとめたWebページ2を参照した. 2 http://rtk.art.coocan.jp/cjk/stks/ など 常用漢字表が2136字、人名用漢字表が862字なのに、どうして「13,389個の漢字」が収録されてるんだ、というのは、1月12日の日記でも指摘したところだ。さらに、この論文が参照

    キラキラネームにおける人名用漢字の総画数 | yasuokaの日記 | スラド
  • 書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド

    私(安岡孝一)の2016年2月26日の日記の読者から、近江龍一・西原陽子・山西良典の『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)という論文を読んでほしい、との御連絡をいただいた。読んでみたのだが、書写言語研究におけるサンプルデータの重要性を全く理解していない論文で、正直、頭が痛くなった。 研究では猥褻な表現に関する文を集めるために,pixivに投稿されているR-18小説を用いた.R-18小説に分類される小説の中から,2016年10月のウィークリーランキングTop10の小説を選択し,分析に用いた. そんな偏ったサンプルデータ10で、まともな結果が出るわけが無いだろう。しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書

    書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド
    gazi4
    gazi4 2017/05/26
  • キラキラネームにおける人名用漢字の異体字 | yasuokaの日記 | スラド

    私(安岡孝一)の1月12日の日記に対し、不要な異体字は現実の処理において使われないはずだから異体字を多目に準備する分には問題ないはず、という趣旨の御意見をいただいた。山西良典・大泉順平・西原陽子・福淳一『人名の言語的特徴の分析に基づくキラキラネーム判定』(日感性工学会論文誌、2015年10月9日)の当該部分を、もう一度みてみよう。 キラキラネームには異体漢字が含まれることが多い.異体字とは,常用漢字と同様に使用可能であり読むことは可能であるが,形が異なっている漢字を指す.例としては,「愛來(あいら:女)」の「來」,「愛凜(あめり:女)」の「凜」が異体漢字にあたる. (中略) このとき,異体字の判定には,異体字を収集したデータベースを用いる.このデータベースは著者のうち1名がWebページ1を参照して作成した.データベースには1,332個の異体字を収録している. 1 http://wwwa

    キラキラネームにおける人名用漢字の異体字 | yasuokaの日記 | スラド
    gazi4
    gazi4 2017/05/26
    ここも「著者のうち1名」か
  • 新たな元号は常用漢字に限るべきか | yasuokaの日記 | スラド

    2016年8月10日の日記の読者から、新たな元号は常用漢字表の範囲に収めるべきだ、との御意見をいただいた。いや、それ、私(安岡孝一)に言われても困るのだが、だとすると可能性があるのは「日愛」「才屋」「才及」「日音」「木奇」「口因」「欠」「音員」「口貝」「日央」「言永」「馬尺」「豊色」「日王」「木黄」「小意」「月意」「力口」「女家」「革化」「言果」「虫文」「我」「小毎」「木戒」「糸会」「土鬼」「木皆」「言皆」「小既」「木既」「木市」「才広」「木各」「車交」「口赤赤」「才舌」「車害」「金兼」「月干」「甚力」「土甚」「木官」「小貫」「小感」「官」「舟監」「金監」「王元」「山支」「糸己」「車九」「言己」「走己」「夫見」「才軍」「光軍」「木幾」「馬奇」「才支」「才疑」「牛義」「言義」「口契」「言吉」「月却」「口及」「糸及」「王求」「糸合」「才巨」「才処」「言牛」「足巨」「口今」「馬区」「才屈」

    gazi4
    gazi4 2017/01/12
  • 新たな元号はJIS X 0213に入るのか | yasuokaの日記 | スラド

    いつか遠い未来に新たな元号が決まったとして、それはJIS X 0213に収録されるのか、という趣旨の質問をいただいた。現在、1-13-77「㍾」、1-13-78「㍽」、1-13-79「㍼」、1-13-63「㍻」がJIS X 0213に収録されているので、これに新たな元号が追加されうるのか、という疑問である。私(安岡孝一)個人の意見としては、かなり難しそうだと思う。というのも、これらの『国内実装互換文字』は、以下のような経緯で選定されたからだ(JIS X 0213:2000解説p.511)。 4.4.12 国内実装互換文字 この規格では,過去の資産との互換性を維持するため,国内のパーソナルコンピュータなどで広範に実装されていた1面13区のJIS外字については,非漢字の選定の規準の適用を除外することととし,JIS X 0208と重複しているものを除いた73文字を,面区点位置を保存して採録するこ

    新たな元号はJIS X 0213に入るのか | yasuokaの日記 | スラド
    gazi4
    gazi4 2016/08/10
  • 文部科学省の考えるコンピュータの歴史 | yasuokaの日記 | スラド

    文部科学省が公表した「諸外国におけるプログラミング教育に関する調査研究」(大日印刷、平成27年3月)が、あまりにブッ飛んでいて爆笑した。特に「はじめに」の第一文。 1942年、今日の電子計算機の原型の一つが、ペンシルバニア大学ムーアースクールのJ.P.エッカート、J.W.モークリーによって論文としてACM(Association for Computing Machinery)に発表され、1945年には弾道計算用の実用機ENIAC(Electronic Numerical Integrator and Computer)が開発された。 いや、もう、どこから突っ込んでいいやら。とりあえず、ACMの設立は1947年で、Journal of the ACMの発行開始は1954年。一方、エッカートが1942年に発表した文書となると、たとえば「Light Modulating Method and

    gazi4
    gazi4 2015/06/12
  • 1