タグ

ブックマーク / okumuralab.org/~okumura (95)

  • 「竈門禰󠄀豆子」をLaTeXで

    鬼滅の刃」のヒロイン「竈門禰󠄀豆子」(かまどねずこ)の「禰󠄀」は,「禰」(U+79B0)+異体字セレクタ(U+E0100 VARIATION SELECTOR-17)でできている(→ UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた)。これをLaTeXで出せるか。 使ったのは普通の TeX Live 2021 で,Mac 上でテストした。ドキュメントクラスは何でもいいが,platex・uplatex・lualatex のどれにも対応する jlreq にしてみた。 \documentclass{jlreq} \begin{document} 竈門禰󠄀豆子 \end{document} まず platex してみよう。 l.4 竈門禰^^f3^^a0^^84^^80 豆子 ? 異体字セレクタでエラーになってしまう。 uplatex では処理できた。

  • 全国学力テストの都道府県別正答率

    2017年8月28日に,平成29年度全国学力テスト(正確には「全国学力・学習状況調査」)の結果が国研のこのページで公開された。 今年は,都道府県ごとの競争を煽らないために,都道府県別平均正答率は整数に丸めて公開された。しかし,実際には小数点以下の勝った負けたが行われている。確かに全体としては整数に丸めた値しか公表されていないが,都道府県別のファイルには小数第1位までちゃんと書かれており,さらに度数分布まで公開されているので任意精度で平均正答率を求めることができる。 詳しい情報が書かれているのは,このページからリンクされているExcelファイル群である。とりあえずこれらを全部ダウンロードしてみよう(これはRではなくUNIXのコマンドである): wget -m -np -w 5 http://www.nier.go.jp/17chousakekkahoukoku/factsheet/17pre

  • 猛暑日の増加

    [2018-07-20] as.POSIXct() を as.Date() に変えました。 東京管区気象台の東京における雷日数や真夏日等の日数の変化というページを見ると,猛暑日(日最高気温35℃以上)の日数が1876年以来著しく増加していることがわかる。ところが,平均気温を見ると,地球温暖化・都市化の影響で徐々に増加しているが,激しく変わっているようには見えない。平均ではなくて猛暑日の日数を見るべきであるという議論もある。しかし,「猛暑日」(日最高気温35℃以上)や「真夏日」(日最高気温30℃以上)のような分布の裾の日数は,何℃で切るかによって印象が大きく異なる。気温変化を誇張することにならないか。 「東京」の観測地点は2014年12月2日に約900m離れた地点に移転している。詳しくは「東京」の観測地点の移転について(PDF,2014年11月14日,気象庁観測部)を参照されたい。 東京の日

  • 大阪市における特別区の設置についての投票

    2015年5月17日,大阪都構想の住民投票が行われたが,賛成694844,反対705585の僅差で,大阪市の存続が決まった。 区ごとの開票結果 区ごとの有権者数・投票者数 区ごとの期日前投票・不在者投票者数(前回2011年の市長選挙時の値も参考として挙げられている) これらのデータの冗長な部分を除いたすべてを osaka2015.csv として置いておく(文字コードはUTF-8)。Rでの読み込みは次のようにしてできる。 osaka = read.csv("http://okumuralab.org/~okumura/stat/data/osaka2015.csv") これだけでもいろいろグラフが描けるが,やはり区ごとの年齢構成が重要である。 大阪市市政 年齢別推計人口 このデータはExcelだがやや自動処理がしにくい。Hiroaki Yutaniさん(@yutannihilation)がC

  • TeX を使ってみよう(閉店)

    TeX を使ってみよう(閉店) Cloud LaTeX や Overleaf をお使いください。 奥村晴彦

  • Excel使うな:2010版 | Okumura's Blog

    このブログにExcel使うなを書いてから4年近く経つ。Excel 2010についての続報を書きたかったのだが,なかなか材料が集まらない。 Guy Mélardが Computational Statistics and Data Analysis に “On the accuracy of statistical procedures in Microsoft Excel 2010” と題するペーパーをサブミットしたが,rejectされたという。PDFが彼の研究業績のページからリンクされている。結論として,Excel 2010の統計関数のいくつかは大幅に改善されたが,Data Analysis Toolpakは変わらず,統計グラフも改善されていないという。 一方,The American Statistician - Volume 65, Issue 4にはKellie B. Keelin

  • XMLデータの扱い方

    [2015-04-21追記] Hadley Wickham の xml2 パッケージが CRAN に入りました。Parse and process XML (and HTML) with xml2 | RStudio Blog 参照。 [2015-12-30追記] 久しぶりにページを更新しようと思ったら,鯖江市の人口XMLはまったく内容が変わっていました。とりあえず新しいXMLデータの扱い方のページを作りましたので,そちらをご覧ください。 XMLとは XMLはExtensible Markup Language(拡張可能なマーク付け言語)の略称です。構造をもつデータを表現するための一種の言語です。 鯖江市がXMLなどを使ったオープンデータの公開を始めました: 福井県鯖江市>データシティ鯖江(XML,RDFによるオープンデータ化の推進) ここではこのデータをRで読んで使う方法を解説します。

  • HTMLとCSS

    2021年1月28日付でW3CのHTML5シリーズはすべて廃止され,1月29日付のHTML Review Draftが新たにW3C Recommendationになりました。これは業界団体WHATWGのHTML Living Standardのこの時点でのスナップショットであり,事実上HTML標準はWHATWGのHTML Living Standardに統合されることになります。このサイトでも今後はHTML5という番号付きの記述をやめて,HTMLに統一していきます。 目次 はじめての「ホームページ」?(前口上) はじめてのHTML アップロード(三重大学での実習専用) はじめてのCSS いろいろなタグ HTMLの色指定 リンク 画像 表 スタイルシート セクションに番号を自動で付ける 二段組もどき 二段組もどき 2 二段組もどき 3 三段組もどき 携帯端末への配慮 ロボットを排除するには

  • データ集約は手作業でなく情報技術を使おう | Okumura's Blog

    震災関係の情報公開にいろいろ問題があることはすでにこのブログで何回か指摘している。以下はTwitterで@parasite2006さんに教えていただいたことを私の責任でまとめて私見を加えたもの。 まず検査機関が出したデータを自治体がきれいなPDF形式で報告する。次の例は青森県健康福祉部保健衛生課の8月29日の文書: ところが産地が青森県のはずが宮城県になってしまっており,検査機関が横浜検疫所のはずが青森県原子力センターになっている。さらに「流通品」は「と畜場」の間違い。手作業でまとめた際の誤記のようである。この例では検査結果(ND)そのものは正しいが,なかには放射性物質が検出されたのにNDと誤記したケースもあったという(現在は訂正済み)。 さらに,厚労省の担当者に間違いを指摘する手段が電話とファクスしかなく,指摘してもなかなか直らないことがあるようだ。 こういうきれいに罫線を引いた報告書を

  • グラフの描き方

    的な考え方 棒グラフは比例尺度の量を表すのに用い,棒の長さ(面積)が量に比例するように描くのが基。一つだけずば抜けて大きい値があるときに棒の上のほうで省略線を用いることはあるが,下を省略して全体の長さを切り詰めることは好ましくない。例えば気象観測データについては,雨量は比例尺度であるので棒グラフで表してもよいが,気温は(絶対温度でない限り)間隔尺度であり,棒グラフは使えない。 折れ線グラフは,両軸とも間隔尺度以上であるのが基。0点から始める必要はない。特に時系列データについてよく使われる。 円グラフは全体における割合を表すにはよいが,全体との比較ではなく個々の値どうしの比較には棒グラフがよい。いわゆる3次元(3D)円グラフは,錯覚を利用して特定の部分を大きく見せるためのもので,一般には用いない。 円グラフは複数回答のアンケート結果の図示には絶対に用いない。 色分けして凡例を付けるの

  • 学生は電子書籍にあまり興味がない? | Okumura's Blog

    Twitterに,学生は「みんな驚くほど電子書籍に関してネガティブな反応」「買ってる人も当然ながら皆無」といったツイートが流れていた。確かに電子書籍は読んだあとブックオフにも売れないし…。 うちの学生が今年1月にうちの大学生83人に対して行ったアンケートの結果は次の通りである。回答者の学部や学年は不明。 あなたは電子書籍を利用したことがありますか?→はい24,いいえ59 「はい」→ どの端末で利用しましたか?(複数回答可)→パソコン7,ガラケー18,スマホ3,iPad 1(iPadは貸してもらって使ったとのこと) 電子書籍を購入したことはありますか?→ある9,ない15 電子書籍をこれからも(利用したことのない人はこれから)利用したいと思いますか?→とても利用したい12,やや利用したい49,どちらでもない16,あまり利用したくない3,全く利用したくない3 政府は「2020年に全ての小・中学生

  • 福島県・東電の実時間放射線モニタを早く再開してほしい | Okumura's Blog

    福島県原子力センターが福島県のあちこちに設置するモニタリングポストは,放射線量がネットで実時間監視できるようになっていたが,震災のため3月12日で止まっていた。来ならばすぐに復旧しなければならないはずのものが,3ヶ月も放置され,ようやく6月10日に修理された: NHKニュースのキャッシュ:放射線量観測システム復旧へ ところが,それから1週間たつのに,ネットで公開されているのは3月12日12:00時点で止まったままである。 東電もこのページの左下「モニタリングポスト測定値」のアイコンをクリックすると敷地境界上の8地点のモニタリングポストの表示がわかるようになっていたが,これも3月11日14:40で止まったままである。 これらがネットで再公開されれば,もし新たな爆発が起こっても,住民はいち早く状況を知ることができる。いっこうに修理されない,あるいは修理されたはずなのに公開されないのは,なぜだ

  • データは自動処理可能な形で提供してほしい | Okumura's Blog

    今回の大震災に伴う原発事故であちこちで放射線の強度が公開されているが,多くはPDF形式で,数値が取り出しにくく,ひどいものは印刷してからスキャンした画像PDFである。いくつか重要なものはExcel/CSV化してとりあえず http://oku.edu.mie-u.ac.jp/~okumura/stat/data/ で公開しているが,もともと機械可読(自動処理可能)な形で提供してほしい。しかも,時間をかけてワープロできれいに罫線を引いて手打ちするのではなく,測定値を実時間で提供する仕組みを作ってほしい。なお,このようなデータ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい。 一番重要なデータは東京電力が提供する福島第一・第二原子力発電所のモニタリングの結果である。以前はプレスリリースからたどるのがわかりやすかったのでこのページをチェックしていたが,「3月18日福島第二原子力発電

  • 空集合の記号 | Okumura's Blog

    @munepixyz さんが「空集合を \emptyset ではなく、「\phi」と入力してくるTeX原稿が結構ある。なんでやろう? #TeX」とつぶやいておられたので,ちょっと調べてみた。 まず,Unicodeの ∅ (EMPTY SET, U+2205) は,多くのフォントでは円+斜め45度の線の字形だが,ゼロ+斜線の字形もある。 TeX以前のをいくつか調べてみた。 『岩波数学辞典』第3版はϕ(ファイ)に近い字形:

  • 自炊 その後 | Okumura's Blog

    自炊(を自分でスキャン)についてはすでに書いたが,卒論で電子書籍を取り上げている学生もいるので,少しまとめておく。 2010年7月に裁断機と新しいScanSnapを買ってから半年経った。それ以来,スキャンした文書は453件。サイズの度数分布は次のとおり。 このうち小さいものは会議資料やパンフ類。小さい,例えば表紙を合わせて108ページしかない『ひと目でわかる最新情報モラル』は14Mバイトほど。これ以上のもの194件のメディアンは46Mバイト。 ずっと前のScanSnapはよく紙詰まり・2重送りを起こしたが,最新のS1500はこういったトラブルが非常に少ない。たまにグラビア誌などで紙詰まりが発生することはある。また,糊の部分の裁断が十分でないと,紙と紙がくっついて,2重送りを起こすが,超音波センサが見つけてくれる。いずれにしても,トラブルがあればほぼ確実に止まるので,気づかない失敗はまず

  • 高木貞治の数学書を入力・公開するプロジェクト | Okumura's Blog

    今年は高木貞治の没後50年で,著作権が切れる年である。すでに青空文庫では入力作業が始まっている。 しかし青空文庫では数式を含んだは難しい。そこで,LaTeX形式で入力して公開できないものか。作業場・公開場所としてはWikibooksWikisourceが便利である。数式もLaTeX形式で入力すれば表示できる。 そんなことをつぶやいていたら @jin_in 先生がさっそくWikibooksWikisourceに解析概論の目次を作ってくださった。これに沿ってお好きなところから入力していただければありがたい。作業予定のところはとりあえず「ここやります」でも最初の数行でも入れていただければ重複が防げる。 解析概論以外の,例えば初等整数論講義なども,同様に進めることができるだろう。 [訂正]当初Wikibooksとしていましたが,Wikisourceを使うべきだとご指摘いただき,引っ越しました。

  • 国会図書館のデジタル化 | Okumura's Blog

    月刊ニューメディア11月号に,国立国会図書館のデジタル化作業を受託した会社の一つ,(株)ムサシの現場が紹介されていた。 使用するのはCCDカメラ搭載オーバーヘッドスキャナ「PS5000C MKIILab」(コニカミノルタ)。まったく同じかどうかわからないが,コニカミノルタのブックスキャナーのページにあるものは195万円。 フォーマットについては,ムサシの説明では,400dpi,保存用はJPEG2000,提供用はJPEGで,それぞれBlu-ray,HDDに入れて納入。図書館側の説明では,明治期のものは2値400dpiで,保存用はTIFF,提供用はJPEG2000。大正期のものは256階調350dpi,JPEG2000。いずれも閲覧時にJPEGに変換する。 国立国会図書館は全蔵書3600万点,うちデジタル化が必要なもの1000万点。2009年度補正予算で127億円がついたので90万冊に取り組ん

  • またもや相関関係と因果関係が混同されている | Okumura's Blog

    幼稚園出身の子の正答率、高い傾向 全国学力調査(朝日),学力テスト:正答率、保育所より幼稚園? 関係者に戸惑い(毎日),憂楽帳:保育園?幼稚園?(毎日),幼稚園出身が学テ好成績の傾向 データ取り扱いに波紋も(47NEWS),保育所に通った子どもより幼稚園に通った子どものほうが小6,中3ともに正答率が高い。 記事の中では家庭環境や家計などの要因を示唆していても,題名から受ける印象は異なる。特に毎日の憂楽帳は,「今回の結果に戸惑い、納得できないという人は少なくないはずだ。では、どうすればいいのか。早く答えを見つけないと。しわ寄せを受けるのは、子どもたちなのだから」と締めくくっており,誤解を煽っているようにも聞こえる。 元データを探したら,国立教育政策研究所の「平成22年度 全国学力・学習状況調査 結果概要・集計結果」についてというページの最初のPDFのp.18にあった。基線が0でない棒グラフだ

  • [改訂第5版]LaTeX2e 美文書作成入門・付録I「LaTeX2e による多言語処理」サポートページ

    Last Update: 2012-08-12 [改訂第5版]LaTeX2e 美文書作成入門 付録I「LaTeX2e による多言語処理」サポートページ 奥村晴彦『[改訂第5版]LaTeX2e(ラテック・ツー・イー)美文書作成入門』(技術評論社,2010年7月,ISBN978-4-7741-4319-4,2色刷,DVD-ROM付,3180円+税)のうち,付録I「LaTeX2e による多言語処理」(pp.355–390)に関するサポートページです. (文責:安田,黒木,栗山) 『[改訂第5版]LaTeX2e 美文書作成入門』全体のサポートページはこちら 文のサポート(共通) p.367 ptexlive については,現在の最新版(ptexlive-20100711)ではまだBabel未対応ですが,北川さんのスクリプトを使用することによってBabel対応版にアップデートできます.e-pTeX

  • Appleは日本語組版が苦手? | Okumura's Blog

    最近,電子書籍(EPUB,HTML5/CSS)がらみで日語組版についての議論があちこちで行われている。TeX Forumでも鎌田先生がkoTeXは日語LuaTeXへの先導役になるか?で書いてくださっている。鎌田先生からはその後Twitterでもいろいろお教えいただいた。 和文組版の話は拙著[改訂第5版]LaTeX2e 美文書作成入門の第13章にも少し書いてあるが,Asian TeX Conference 2008の私のスライドから少し切り貼りして復習しておく。 Macの画面がWindowsより美しい理由の一つはヒラギノ書体にあるが,Pagesなどでヒラギノ明朝で横書きするとなぜかしっくりこないと鎌田先生は嘆かれる。PagesやKeynoteの画面をよく見たら,縦組用の文字が横組に使われている! ヒラギノ明朝は縦組と横組でかなの字形がかなり違う。[2010-07-25追記:下のコメント「