タグ

ブックマーク / okumuralab.org/~okumura (31)

  • 「視覴」の謎

    ChatGPTが「視覴」という新語を発明したらしいことをフガクラさんのツイート(2023-06-08 08:51:02 JST)で知る。 すでに「視覴」は、いくつかの最近書かれたWebページで使われていた。ChatGPTで生成されたページらしい。ざっと検索して見つけたページを列挙しておく。いずれも最近作られたか修正されたページである(1件だけ2020年のページがあるが、最近修正されたものかどうか不明)。 映像・音声編集におけるノーマライズの重要性!(2023-05-11)「視覴的・聴覚的な一貫性」「視覴的な効果を最大化」「視覴的な混乱を避け」(2回)なお、このページは現在消えて視覴とは?AIChatGPT)が出力した新しい言葉なのか?(2023-06-08)にリダイレクトされ、「弊社では、2023年3月より用語集作成に際しAIライティングの試験運用を行っておりますが、この度、「視覚」の誤

    ardarim
    ardarim 2023/06/12
    どうしてこんなことに… 「どうやら「覚」の前半と「聴」の後半が交差してくっついたみたいである。」 文字単位ではなくオクテットごとの出現確率で処理しているの…?
  • データ集約は手作業でなく情報技術を使おう | Okumura's Blog

    震災関係の情報公開にいろいろ問題があることはすでにこのブログで何回か指摘している。以下はTwitterで@parasite2006さんに教えていただいたことを私の責任でまとめて私見を加えたもの。 まず検査機関が出したデータを自治体がきれいなPDF形式で報告する。次の例は青森県健康福祉部保健衛生課の8月29日の文書: ところが産地が青森県のはずが宮城県になってしまっており,検査機関が横浜検疫所のはずが青森県原子力センターになっている。さらに「流通品」は「と畜場」の間違い。手作業でまとめた際の誤記のようである。この例では検査結果(ND)そのものは正しいが,なかには放射性物質が検出されたのにNDと誤記したケースもあったという(現在は訂正済み)。 さらに,厚労省の担当者に間違いを指摘する手段が電話とファクスしかなく,指摘してもなかなか直らないことがあるようだ。 こういうきれいに罫線を引いた報告書を

  • データは自動処理可能な形で提供してほしい | Okumura's Blog

    今回の大震災に伴う原発事故であちこちで放射線の強度が公開されているが,多くはPDF形式で,数値が取り出しにくく,ひどいものは印刷してからスキャンした画像PDFである。いくつか重要なものはExcel/CSV化してとりあえず http://oku.edu.mie-u.ac.jp/~okumura/stat/data/ で公開しているが,もともと機械可読(自動処理可能)な形で提供してほしい。しかも,時間をかけてワープロできれいに罫線を引いて手打ちするのではなく,測定値を実時間で提供する仕組みを作ってほしい。なお,このようなデータ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい。 一番重要なデータは東京電力が提供する福島第一・第二原子力発電所のモニタリングの結果である。以前はプレスリリースからたどるのがわかりやすかったのでこのページをチェックしていたが,「3月18日福島第二原子力発電

    ardarim
    ardarim 2011/04/06
    こういう発想はお役人とかにはないんだろうな→『線量率計がTwitterで位置情報付きで「20μSv/hなう」などとつぶやくようにすれば,モニタリングカーに積んで走るだけでデータがだれでも実時間収集できる』
  • ソフトバンクの棒グラフ | Okumura's Blog

    そうか。 縦軸を書いてないから、イメージでいいんですね。 こりゃまた失礼しました>ソフトバンクのみなさま こんどから、このグラフを授業で見せて、 「縦軸がないグラフらしいイメージ」の例として使おう。

    ardarim
    ardarim 2010/11/05
    グラフ風のイラストか… 直してみた、があまりにひどくて唖然とする→http://yfrog.com/gvi7jg
  • PDFのフォント制限は無意味 | Okumura's Blog

    情報処理学会全国大会の原稿送信要項には,原稿(PDF)の日フォントWindowsではMS明朝またはMSゴシック,Macでは細明朝または中ゴシック・平成明朝または平成角ゴシック,英字フォントはArial,Century,Times,Times New Roman,Helvetica,Symbolに限定するように書かれている。TeXではこれだけに限定することは至難の業である。ちょっとした数式を書けば数式用フォントが使われてしまう。そもそもなぜ「これ以外のフォントを使用されると,DVD-ROMを利用する環境によっては文字化けや表示エラーを起こすことがあります」なのか理解ができない。 情報処理学会の研究報告原稿(PDFファイル)作成についてには,LaTeXのスタイルとWordのテンプレートが用意されており,PDFファイルには必ずフォントを埋め込むよう指示がある。この「必ずフォントを埋め込む」

    ardarim
    ardarim 2010/03/12
    ↓「貼り紙禁止と書いてある貼り紙」みたいなもんですなww
  • 世論調査のウソを数学で見抜く | Okumura's Blog

    Slashdot の Math Indicates Pollster Is Forging Results からのリンク,特に Strategic Vision Polls Exhibit Unusual Patterns, Possibly Indicating Fraud を少し読んでみた。 世論調査会社 Strategic Vision の調査結果の末位の数字(0〜9)の度数分布は 562, 431, 472, 490, 526, 599, 533, 639, 676, 616 である。一様分布からのずれをχ2検定してみると p 値はほぼ 0 であり,でっちあげの数字である可能性がある。 ところが,2008年の上院や大統領選の世論調査の末位の数字の分布は 560, 563, 619, 620, 672, 673, 644, 642, 652, 609 であり,これも一様分布からかなり

    ardarim
    ardarim 2009/10/07
  • アポストロフィの悩み | Okumura's Blog

    何でもいいから英語の単語に「痴」を付けてGoogleで検索してみる。例えば「he痴」でもいい。うまく見つからなければ,例えば Shakespeare痴 Got A Gun を見てみる。英語のサイトなのに何でこう「痴」が多いのか(うまく「痴」に見えないなら,ブラウザのデフォルトのエンコーディングをシフトJISにしてみてください)。 答え:Windows-1252(CP1252)のアポストロフィは 0x92 であり,これにs(0x73)が付くと 92 73 となり,これはシフトJISで「痴」になる。つまり,「He's」が「He痴」に化けるページはアポストロフィをWindows-1252でエンコーディングし,エンコーディング指定をしていないのでシフトJISで表示してしまったのである。書いた人はLatin-1(ISO 8859-1)のつもりかもしれない。 アポストロフィは '(0x27)でいいの

    ardarim
    ardarim 2009/08/27
    よくある話。ブラウザも「痴」でシフトJISと勘違いしちゃうケースがあるのかね。
  • クレジットマスター | Okumura's Blog

    > 100回も試せばあたるし、、、カードナンバーと有効期限の組み合わせだけで処理できるところが*たくさん*あるという話でしょう。 さすがに100回も試すのは大変でしょう。同一IPアドレスから連続して試せるのは数回に限定しているのが普通でしょうから、充分な間隔を置いて100回試すのはかなり大変ですよ。もし、チェックしていなかったら、問題外だし、DDOS攻撃みたいなものになりますし。 来なら、カード発行会社とオンラインで接続して、そのカードが有効か否か確認して、さらに発行会社による何らかの認証があるのが妥当では? カードの不正使用はそれなりに頻度が高い犯罪なので、無効になっているカード番号も少なくないはずですし。 数年前、不正使用らしき請求があったとカード発行会社から確認の電話を受けて、カードを再発行してもらった覚えがあります。カード番号が変更になるので、そのカードで支払っていた様々なサービ

    ardarim
    ardarim 2009/07/27
    マスコミなどでは特殊な計算式などとまことしやかに言われているが、どうせその程度だと思ってた。やっぱりそうなのか…。悪用される前提が無い前時代システムを引きずってしまってるんだろうな。
  • 膨張色,収縮色 | Okumura's Blog

    明るい暖色系の色は膨張色,暗い寒色系の色は収縮色。これは色彩検定の類では常識。実教『最新情報A』p.4にも「暖色は大きく、寒色は小さく感じさせる」とある。ところが膨張色・収縮色に相当する英語 "expansive color" "contractive color" でググっても日中韓のページばかり出てくる。統計グラフの色で挙げた論文も Cleveland and McGill (1983) を挙げながら HCL (hue-chroma-luminance) の C と L だけ一定にすればいいような書き方がしてある。円グラフや帯グラフで色相の差がどれくらい効くのだろう?

  • 減っているのに増えているように錯覚するグラフ | Okumura's Blog

    度胸がすごい。 一番上に、この怪しいグラフをもってくる度胸がすばらしいですね。 2番めとか3番めならもっと錯覚しやすそうなのに。

    ardarim
    ardarim 2009/07/08
    「2年連続全国No1」の看板は一番酷いが、棒の長さ自体も09年度だけ水増し気味じゃないか? 作った奴はこれはグラフではない、イメージです、とか言いそう。
  • データ視覚化サイトの日本語版があったらいいな | Okumura's Blog

    生徒・学生にグラフの描き方を教えるのにまず使うのは Excel だろう。しかしこの Excel というソフト,チャートジャンクの発生源だ。もっとましなものはないのか。私は昔は gnuplot を使っていたが,最近は統計計算を含めて R を使っている。凝ったものなら Asymptote(→ ベクトルグラフィック言語Asymptoteで日語が通る!)で描けばよい。でも学生に教えるのはたいへん。 そこで登場するのが,以前 ロシア総選挙の不正を示唆するグラフ で紹介した Swivel などのデータ視覚化サイトだ。日語はあまりうまく通らないようだが,日にもよく使っているかたがおられる。 Inside Swivel: Graphing によれば,Ruby の Gruff や,R,gnuplot も検討したが,結局 ploticus + Ruby に落ち着いたとのこと。 このようなデータ視覚化・グ

  • Em-NetとTwitter | Okumura's Blog

    Em-Netテレビにちょこっと写った感じでは,まるで学生が作ったようなシンプルな画面のインスタントメッセンジャーっぽいものだ。メッセージは1分以内に届くらしい。こんなものでも国が発注したものだからきっと目の玉が飛び出る値段なんだろう。簡単にオフラインにできるようで,どこかの県でオフラインにしたまま気がつかなかったので国からのメッセージが受け取れなかったという。オフライン状態だと画面が赤くなるといった親切設計にすべきだろう。まだEm-Netを導入していない市町村へは県庁からファクスを送るというが,Em-Netの部屋からファクスの部屋まで走るよりNHKのほうが早いようだ。 これならTwitterで十分ではないか。なんて考えていて,自分はまだTwitterユーザでないことに気づき,早速登録する。TwitterPodも入れた。これで麻生さんがTwitterに書き込んでくれれば飛翔体のニュースは1

    ardarim
    ardarim 2009/04/06
    「まるで学生が作ったようなシンプルな画面」「こんなものでも国が発注したものだからきっと目の玉が飛び出る値段なんだろう」
  • MITが今度は全教員の学術論文をオープンアクセスに | Okumura's Blog

    MIT のトップニュース: MIT faculty open access to their scholarly articles。全学教授会で満場一致で決定。今後はすべての学術論文をオープンアクセスとする(具体的にはMITのDSpaceに掲載する)。 今までは学術論文は高価かつ入手困難な学術誌に掲載されるだけで,一般の人が容易にアクセスできるものではなかった。インターネットを使えばほとんど金をかけずに全世界に情報発信できる時代になったことと,税金で研究した結果に納税者がアクセスできないのはおかしいという意識の変化などにより,学会や学術出版社は次第に譲歩し,論文そのものあるいは著者稿を,場合によっては一定の猶予期間の後に,ネットで公開することを認めるところが増えた。これがいわゆるグリーンなジャーナルであり,ここを見ればどの学会・出版社がどういう条件で論文の公開を認めているかが一覧できる。

  • 言葉の乱れ | Okumura's Blog

    「インターネットとメール」(ウェブとメールの意),IP(IPアドレスの意)などは古典的だが,最近はUSB(USBメモリの意)というのが目につく。先日も某所で「ウィルス対策が施されたUSB」または「書き換えを防止するためのスイッチがついているUSB」を使えというお触れ書きを目にした。

    ardarim
    ardarim 2009/03/03
    用語の本来の意味を知らずに伝言ゲーム的に広まるからだろうなあ。インターネット(する)とかも市民権を得てしまった気がするし(個人的にはすごく気に食わない)
  • 選挙中にブログ更新して逮捕される日本という国 | Okumura's Blog

    Re: see also 3年 20週前 see also 3年 20週前 興味がない、といっても価格設定、そもそも電子化されていない 3年 20週前 Re: ImageMagick/convert -lat 3年 26週前 ImageMagick/convert -lat 3年 26週前 せっかくの高木貞治プロジェクトも、TPP参加で公開停止です 3年 26週前 古いエントリーへのコメントとなり恐縮ですが: グラフ軸の( 3年 38週前 デジャブ(笑) 3年 40週前 解析概論の演習問題について 3年 41週前 なるほど 3年 47週前

    ardarim
    ardarim 2009/01/29
    No, We Can't... とりあえず現役の議員を全員総入れ替えするくらいしないとこの国でCHANGEはないだろうな。小泉さんが自民党と言わず日本の政治全体をぶっ壊してくれればよかった
  • センター試験「情報関係基礎」 | Okumura's Blog

    平成21年度センター試験,家ではまだ問題が公開されていないが,予備校やメディアで公開されている。情報関係基礎だけでもコメントを書こうとしているが,なかなか時間がない。 情報関係基礎の表紙でオフトピながら気になるのが「いずれか1問を選択し,解答しなさい。」のインデント。平成17年度までは2行の左端が同じであったが,平成18年度から1行目だけ1文字インデントするようになった。奇異に見えるが,どうしてこうなったのだろう。 第1問 問1は n 進数の問題。数学では n 進法と教えるのに,情報では n 進数と教える。 第1問 問2,コンピュータ上で負の整数を扱う場合に用いられる表現の一つは「補数」しか選択肢がないが「2の補数」は教えないのだろうか。また,「文字コード」とは,文字に対応づけられた番号なのだろうか,対応関係なんだろうか。 残りはどなたかコメントお願いします。 [追記] 教えていただいた

    ardarim
    ardarim 2009/01/21
    そもそも「文字」も「文字コード」も意味があいまいすぎる(厳密な技術用語とは言えんでしょう)。強いて英語で言うならcodepoint(s)かcharacter setあたりの意味か。つhttp://blogs.adobe.com/typblography/2008/08/character_set_terms.html
  • iTunesで買った曲に個人情報が入っているのは既知のこと | Okumura's Blog

    Slashdot | iTunes DRM-Free Files Contain Personal Info って,既知のこと。strings や hexdump -C で簡単に確かめられる。 00000000 00 00 00 20 66 74 79 70 4d 34 41 20 00 00 00 00 |... ftypM4A ....| 00000010 4d 34 41 20 6d 70 34 32 69 73 6f 6d 00 00 00 00 |M4A mp42isom....| ... 0002d490 61 74 61 00 00 00 01 00 00 00 00 6f 6b 75 6d 75 |ata........okumu| 0002d4a0 72 61 40 65 64 75 2e 6d 69 65 2d 75 2e 61 63 2e |ra@edu.mie-u.

    ardarim
    ardarim 2009/01/15
    そもそもメールアドレス単体では個人を特定できる情報ではないので個人情報ではないという意見もある。
  • PISA「盗難事件」問題ほか

    国際学力調査-文部科学省からリンクされている問題例(PDF:1,342KB リンク切れ アーカイブ)の最後に次のような「盗難事件に関する問題(PISA2000年調査及び2003年調査問題)」があります。 盗難事件 あるTVレポーターがこのグラフを示して、「1999年は1998年に比べて、盗難事件が激増しています」と言いました。 このレポーターの発言は、このグラフの説明として適切ですか。適切である、または適切でない理由を説明してください。 これは省略棒グラフを使って違いを不適切に強調したものです。グラフから数値を読み取るのは微妙ですが,それぞれ508,516だとしましょう。この違いは統計的に有意でしょうか。 盗難事件が1998年に起きる確率も1999年に起きる確率も等しいという帰無仮説を立てて,Rで検定してみましょう: > 508+516 [1] 1024 > binom.test(508,

    ardarim
    ardarim 2008/12/19
    マスゴミはわかってて印象操作のために使ってる可能性があるからたちが悪い。
  • どうして新聞は散布図を使わないか | Okumura's Blog

    このブログでは日教組票と学力:図示などいろいろ散布図を描いてマスコミのデータ解釈の誤りを指摘してきたつもりだが,マスコミはなかなか散布図を使ってくれない。これに関してNew York Timesのグラフィックス担当者がおもしろいことを言っていることをたまたま昨日見つけた(Infovis keynote: Matthew Ericson - information aesthetics):NYTが散布図を使わないのは,読者が散布図を理解できないためだ。多くの人は横軸を時間だと思ってしまう。NYTでも2004・2006年の選挙結果の比較に散布図を描いたことがあった(右図)が,ボツになった。 だから散布図は使うな,ではなく,教育者としては,だから散布図を学校で教えよう,という方向に話を持っていきたい。 NHK高校講座 | 数学基礎 | 第14回 統計 (1) ~データの見方~ では「散布図(相関

    ardarim
    ardarim 2008/12/19
    グラフって数字がずらりと並んだ表に比べ「一目で分かるようにする」為のものだから、見方を教えられないと理解できないようなグラフっていうのもなぁと思ったり。わかりやすいグラフの描き方を教えるべきかも。
  • 文科省・防衛省のオンライン申請も終了 | Okumura's Blog

    オンライン申請システムの停止に関する意見募集について(内閣官房),とうとう文科省と防衛省のオンライン申請システムも,利用がほとんどないので,終了の方向でパブコメを12月2日まで受け付けている。文部科学省オンライン申請を読めば,一般の人なら引いてしまう。Windows専用(しかもXP SP1まで)だし。なぜもっと単純にできないのだろう。

    ardarim
    ardarim 2008/11/27
    最初からやる気がなかったんだろうな。メンテもしたくないからわざと使えないような作りにしたとか。電子行政は流行らないというのを既成事実化したかったのか。