読売新聞の13日朝刊の記事で報道された、12の行政機関のWebサイトで、Google Analyticsが使われおり、且つ、広告機能がOnになっていたという件。 官僚の皆さん、ご愁傷様です。 読売新聞の記者さんは、結構、痛いポイントを突いていて、海外の行政機関のWebサイトのアクセス解析は、オープンソースのhttps://matomo.orgや、その有料版を使ってオンプレミスで構築しているところが多いんですよ。 某省庁については、私がそのことを指摘して、Google Analyticsからmatomoに乗り換える事になってます。 Google Analyticsを省庁のWebサイトで利用する上での3つの議論この件は、以下の3つの議論が絡みます。 ・「政府のWebサイトへのアクセス解析データは誰のものか?」という、データというデジタル資産の所有権に関する議論 ・「政府のWebサイトへのアクセ
Q.なぜ分散は、単純な差(偏差の絶対値)ではなく、差の2乗を計算するのか? A.分散を最も小さくする点が平均値だから。(単純な差を最も小さくする点は中央値となる。) “分散”というキーワードは統計学の基礎中の基礎であり、どんな教科書にも“平均”の次くらいに載っていることがらです。 しかしながら、いきなり登場する“分散”の意味が分からず、統計学の入り口で挫折する人は少なくありません。 偏差の2乗の平均、つまり、各値と平均との差の2乗の平均を分散といい、 分散の平方根の正の方を標準偏差という。 統計で、ちらばりを表すものとして、標準偏差や分散が多く用いられる。 -- 高校の教科書(啓林館)より. 教科書にはこのように書かれているのですが、これで分かった気になるでしょうか。 ・なぜ、差の2乗を計算するのか? ・差そのものであってはいけないのか? ・なぜ、分散と標準偏差の2種類があるのか? 最後の
NTT東日本とAI(人工知能)ベンチャーのAI insideは1月23日、ディープラーニングを使って帳票内容を読み取るOCR(光学文字認識)サービス「AIよみと~る」の提供を始めた。データ入力業務などを自動化するRPA(ロボットによる業務自動化)サービス「おまかせRPA」と合わせて提供することで、紙書類のデータ入力などを手作業で行うバックオフィス業務の効率化をサポートする。 紙帳票に記載された内容をスキャナーで読み取り、デジタルデータ化したものをAIよみと~るで検出する。AI insideが開発したAI基盤「Neural X」の学習アルゴリズムを使ったディープラーニング技術と、ゆがみ・傾き補正機能を組み合わせることで、手書き文字も含めたトライアルでは96%以上の認識率を実現したという(NTT東日本調べ)。欄外にはみ出た数字、訂正印、2行にわたって折り返して記載された住所なども、AIが内容を
エクセルでCSVを保存? 変換? CSVファイルをエクセルで開くと壊れる?? 仕事でCSVファイルを扱うことがあります。しかし、「CSVの意味」を本気で教えてくれる人はなかなかいません。それは、「CSV」を本質的に理解するには、その前提となる知識が必要で、仕事中にそんな面倒くさい説明をするヒマがないからです。 今回は、本当にCSVのことを知りたいのに誰も教えてくれないとお悩みの初心者の皆さんのために、CSVとは何か、を徹底的に解説します。 「リスト形式とCSV」完全マスターシリーズ(この記事は第2回です) 8個の基本パターンで完全習得「リスト形式」の教科書 本気で理解したい初心者のためのCSV勉強会資料 CSVファイルとExcelの関係を本気で理解するための確認テスト10問 初心者のためのCSV取り込み事例演習教材(勉強会資料) 初心者が「CSVで保存してアップ」を理解するのは意外と難しい
ホテルを直前に予約する時に人気のあるHotel Tonightというサービスを提供しているスタートアップがこちらシリコンバレーにあります。そこでデータ分析のチームを率いているAmanda Richardsonが、スタートアップがデータを使うときによく犯す間違いをこちらの"The Four Cringe-Worthy Mistakes Too Many Startups Make with Data"という記事の中で4つにまとめていますが、今日はそちらを紹介したいと思います。これらはもちろんスタートアップに限らず、どのようなサイズの会社でも、とくに新しいデータ分析のプロジェクトを始める時によく見られる失敗パターンだと思いますが、こちらの記事では間違いだけでなく、逆にこうすればいいという提案も最後にわかりやすくまとめられているので、是非参考にしてみて下さい。 それでは、以下抜粋です。 間違い1
サービス概要 本サービスは、日本郵便のWebサイトで公開されている郵便番号データを再配信するサービスです。 LZH形式ではなく、ZIP形式でダウンロード可能 ダウンロードしたらすぐに使える「加工済バージョン」も公開中 郵便番号データが更新されたらメールでお知らせ 郵便番号検索機能をWebサービスで利用可能 日本郵便のWebサイトで公開されている郵便番号データを、ZIP形式で圧縮しています。 ZIP形式に標準で対応しているOSであれば、LZHの解凍ソフトなしで郵便番号データをご利用いただけます。 ※解凍後のCSVファイルの仕様については、日本郵便のWebサイトをご確認ください。 ※差分データは、1つの圧縮ファイル中に「新規追加データ」と「廃止データ」を含んでいます。 ※公開しているデータは、「読み仮名の促音・拗音を小書きで表記するもの」になります。
社会調査データアーカイブ "RUDA" へようこそ! 立教大学の社会調査データアーカイブ "RUDA"(ルーダ)は、貴重な公共財産である社会調査データを収集・整理・保管し、学術的な二次分析といった研究目的での利用、および授業での教育利用のために、広く公開していくことを目的としています。 RUDAは、立教大学社会情報教育研究センター(CSI)によって運営されています。社会情報教育研究センターのRUDAに関する説明はこちらをご覧ください。 立教大学RUDAの特徴 社会科学の個人研究者や研究者グループによる調査データにとくに力を入れています。 全国調査だけでなく、地域調査のデータを充実させています。 あらゆる社会科学的な調査データを幅広く扱います。 お手持ちのデータがある方は、ぜひあなたのデータをRUDAにご寄託ください。 経済学・経営学・社会学・社会心理学・政治学・政治心理学・法学・法社会学・
本データベースは,「社会・意識調査データベース作成プロジェクト」Social and Opinion Research Database Projectにより構築されました。主に,日本社会学会会員により実施された社会調査に関する情報を収集・蓄積しております。 社会・意識調査データベース作成プロジェクトは,学術的な目的でこれらの情報を活用できるように出版物や資料等を提供しております。本ページでは提供者から許可が得られた情報を掲載し、社会調査・社会統計の基本サイトの一つとなることを目指しております。 SORDとは "Social and Opinion Research Database"の略です。札幌学院大学社会情報学部創設の1990年と同時にスタートし、日本社会学会に所属する学者が行った社会調査(主としてサーベイ調査)の概要情報を集約することを目的に発足しました。社会学会の会員に対して郵送
このセミナー、冒頭の渋谷 直正さん(日本航空 旅客販売統括本部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大の数学
日々、いろんな海外メディアの情報を追っているのですが、改めて日本におけるメディア関連データで気になるものを足下から整理しようと思い、調べてみました。 1. スマートフォンの所有率 (出典:ビデオリサーチインタラクティブ | プレスリリース) 昨年の時点でガラケーの所有率をスマホが上回っていたようですが、今年はさらに差が広がっていますね。特に女子学生(85.2%)、男子学生(78.3%)のスマートフォン所有率が高いとのことです。タブレットもじわじわ増えています。 2. スマートフォン加入者数 総務省によれば、日本にはインターネット利用者数が9652万人いるようです。また、IDC Japanの2013年~2017年の国内スマートフォン加入者数予測によれば、2014年には6277万人に、2015年には約7000万人がスマホを持つことになりそうです。 3. スマートフォンの利用場所とシーン ヤフー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く