『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
世界の三面記事・オモロイド 海外の珍奇な事件、事故、人間模様を伝えます。 検索フォーム Entries 黒人シリアルキラーの出現率は白人の2倍:殺人鬼1800人のデータ解析から Tweet Meeting of the serial killers [アメリカ発] 筆者は猟奇殺人に興味を持っていて、時たま、それ専門のサイト(crimelibrary.com他)を訪問したり、ユーチューブでテレビのドキュメンタリーもの(特に『A&E Biography』は秀逸)を見たりする。そういったサイトやドキュメンタリーでは、ジェフリー・ダーマー、テッド・バンディ、ジョン・ウェイン・ゲーシー等、知名度の高いシリアルキラー(連続殺人犯)を特集したものが多い。それぞれ、彼らの生い立ち、人物像、犯罪、受けた刑罰に至るまで詳しく解説している。 なので、個々の人物に関する情報はネットからでも多く得られるのだが、彼ら
クラウド・ITインフラ AWS、Azure等の主要クラウドサービスをはじめ、ネットワークサービスや自社データセンターを含め、マルチプラットフォーム上でお客様のビジネスに最適なITインフラ環境を提供することが可能です。 クラウド・ITインフラ AWS、Azure等の主要クラウドサービスをはじめ、ネットワークサービスや自社データセンターを含め、マルチプラットフォーム上でお客様のビジネスに最適なITインフラ環境を提供することが可能です。 AWSソリューション Amazon Web Servicesをお得に活用できる請求代行サービスをはじめ、導入・移行支援から、運用・監視、プロフェッショナルサポートまで、ワンストップでご提供します。
NTTは2月18日、ビッグデータの分析を通じて人・モノ・情報の流れを近未来予測し、先行的に制御することで、混雑時の人や交通の流れの最適化することを目指す研究開発「himico」を開始すると発表した。研究は、2020年の東京オリンピック開催を見据えたもので、ビッグデータ分析の関連技術を集めたNTTの「機械学習・データ科学センタ」を中核として行っていくという。 プロジェクトの中核技術としてNTTが開発を目指す「時空間多次元集合データ分析」は、多次元の軸で「時間」と「空間」を考慮することで、過去における一定期間のデータから人、モノ、情報などの流れに対する時間と空間の影響パターンを学習し、数時間程度先の近未来における事象の発生時期と場所を予測。 これを雑踏における人の動きに適用して、近未来の混雑を予測する。そして、予測に基づいて複数の誘導シナリオをシミュレーションし、そのシナリオの中から最も混雑が
機械学習エンジニアやデータサイエンティストが、一番最初に行う作業をご存知でしょうか?会社や組織から課題を与えられた場合、最初に行うのが「探索的データ解析」と呼ばれる作業です。 探索的データ解析、英語ではExplanatory Data Analysis(略してEDA)とは、データの特徴を探求し、構造を理解することを目的としたデータサイエンスの最初の一歩です。 探索的データ解析は機械学習のタスクの一番最初のフェーズで、まずはデータに触れてみて、データを視覚化したり、データのパターンを探したり、特徴量やターゲットの関係性/相関性を感じるとるのが目的です。 より高度な機械学習のモデルの構築をしたり、難解な問題を解決する際には、特徴量エンジニアリング(英語でFeature Engineering)を必要することが多々あり、その際に深いデータの知識と理解が求められます。 問題を解決する前に、どのよう
このところよく耳にする「ビッグデータ」というバズワード。よく聞くんですけど理解があいまいというか、データ解析してなんかするんだろなくらいしかわかってなかったので(つまりほとんどわかってなかったので)、一冊読んでみました。 『ビッグデータの正体』は、ビッグデータについて初めて本格的に論じたベストセラーです。ビッグデータとは何ぞやというところから、未来の犯罪が予測できてしまうといった将来社会に及ぼす影響まで、事例を中心に体系的にまとめられていました。 ビッグデータが社会にもたらす最大の影響が「高い精度で未来を予測できるようになる」ところです。最近ではAmazonの「予測出荷特許」の登録が話題になりましたね。これはユーザが商品を購入する前に、それを予測して商品出荷を開始してしまう、というものです。 アマゾン、注文前に商品を予測出荷する特許を取得(CNET japan, 2014/1/21) 今回
一般化線形モデル (generalized linear model; GLM) を簡単に紹介するペイジです 一般化線形混合モデル (GLMM) については GLMM 参照 一般化 (generalized) ではない一般線形モデル (general linear model) も GLM とよばれることがあります 端的に言うと,一般線形モデル (正規分布モデル) は一般化線形モデル (他の分布も OK) の一部です [もくじ] GLM の特徴 ネット上の GLM の解説 GLM を推定計算する R の関数 雑 書籍 GLM の特徴 データのばらつきが二項分布やポアソン分布のときにも使える (その他,正規分布やガンマ分布の場合も) 「世の中は何でもかんでも正規分布でいいんだ」といったまちがった考えかた (まちがった統計モデリング) から脱出するときに有用でしょう link 関数を指定するこ
今回のソリューション:【GoogleBigQuery/グーグルビッグクエリ】 Webサービスやネイティブアプリの運用者を常に悩ませてきたのが、アクセスログの管理・解析の手法だ。これまで様々なデータベースが世の中に登場してきたが、共通して言えたのは、データ量が増えれば増えるほど解析スピードが鈍化するということだった。 それに対処するためサーバーに高額な投資かけると、結果的に管理コストが膨らむことも課題であった。 そこに革命を起こしたのが、 Google Cloud Platform が提供するビッグデータ解析サービス「Google BigQuery(以下、BigQuery)」だ。BigQueryを使うと、数テラバイトのデータに対しても僅か数秒で SQLクエリを実行することができる。 とにかく高速で、しかも安い。Googleの革命的な大量データ分析用テクノロジーを存分に活かしたサービスだ。 「
※「4バック以上」の人数には、「6バック以上」「8バック以上」「10バック以上」の人数も含まれています。同様に「6バック以上」には「8バック以上」「10バック以上」、「8バック以上」には「10バック以上」の人数が含まれています。 鬼計算では、発売当初、「3バックの壁」の存在が聞こえてきましたが、女性6706人のうち約52%、男性9204人のうち約74%の方が3バックの壁を越えていました。 年代ごとに解析をすると、20代と30代の方の成績が圧倒的に良く、50代以上になると3バックの壁を越えることができたのは約3分の1の方々しかいませんでした。自分の成績が同じ年代の方と比較して、どの程度に位置するのかをデータより読み取っていただくと、励みになるかもしれません。 統計的には全体の5%以下は、普通ではないとみなしますので、8バック以上に進んでいる皆さんは、普通じゃない皆さんです。10バック以上に到
情報通信研究機構(NICT)のセキュリティ基盤研究室と筑波大学は2018年7月18日、三重大学で教授を務める山田芳司氏の協力の下、医療データを暗号化したまま解析する技術「まぜるな危険準同型暗号」を用い、同暗号方式の性能を実証したと発表した。暗号化した医療データを復号せずに、解析対象データかどうかを判別できる。例えば個人の遺伝情報と病気の罹患(りかん)情報との統計的な関連性を、データを暗号化したまま安全に解析できといった利点があるという。 個人のプライバシーを保護した上で医療データを新たな治療法の開発などに活用しようとした場合、プライバシー保護の手段としては暗号化が有効だ。暗号化したデータに対して加算や乗算が可能な準同型暗号技術を利用したデータ解析技術の開発が進んでいる。 ただしデータを暗号化すると、そのままでは解析対象のデータかどうかを判別できなかった。判別するには復号する必要があり、プラ
米国Tableau Softwareは、iPad向けに個人用データビジュアライゼーションアプリ「Vizable(ビザブル)」を発表した。 Tableauは、法人向けビッグデータ解析ツールの開発や提供で知られており、日本でも導入企業が拡大しているが、あえて個人向けにデータ解析ツールを開発したのはなぜなのか。Tableau Softwareでモバイル・成長戦略部門のバイスプレジデントを務めるデイヴ・ストーリー氏の来日に合わせて話を聞いた。 国の統計データから家計簿まで、あらゆるデータをビジュアル化する --まず、Vizableの概要について教えてください。 Vizableは、データから簡単にビジュアライゼーションができるiPadアプリです。CSVやExcelのスプレッドシートをVizableで開くと、数秒でビジュアライゼーションして、ピンチやスワイプ、ドラッグなどの直感的な操作で、データをさま
クラウド・ITインフラ AWS、Azure等の主要クラウドサービスをはじめ、ネットワークサービスや自社データセンターを含め、マルチプラットフォーム上でお客様のビジネスに最適なITインフラ環境を提供することが可能です。 クラウド・ITインフラ AWS、Azure等の主要クラウドサービスをはじめ、ネットワークサービスや自社データセンターを含め、マルチプラットフォーム上でお客様のビジネスに最適なITインフラ環境を提供することが可能です。 AWSソリューション Amazon Web Servicesをお得に活用できる請求代行サービスをはじめ、導入・移行支援から、運用・監視、プロフェッショナルサポートまで、ワンストップでご提供します。
最近のデジタルカメラのほぼすべてが対応しているExifという画像形式に含まれる情報を解析して表示するツールです。例えば撮影時の明るさ。フラッシュの有無、焦点距離などいろいろな情報が写真以外に含まれています。これらの拡張子はJPGで普通のJPEGと同じように扱うことが出来ます。またほぼすべてのメーカー独自情報の解析も可能です。 Exif以外にもEOS/DやKodakのプロフェッショナル向けデジタルカメラに採用されているTIFF/EPフォーマット。日本新聞協会のNSK-TIFF。Xerox社のFAX向け規格TIFF-FXなどにも対応しています。 そのほか、Photoshop6でExifファイルをPSD形式で保存した場合にPSD内に保持されたExif情報や各種CCDRAW形式やQuicktimeMovieなどにも対応します。 URLから直接Exifを開く機能の追加 URLの直接ドラックをサポート
1月13日(金)にPalo Altoで行われたJTPAのギークサロンに参加してきた。今回は参加者がラップトップ持ち込みでコーディングしていくハッカソン形式で、会場入りする前までにHadoopが使える環境を自前で用意しておく必要があった。 前編では、Hadoopを使って計算処理をするための準備として、EC2上にHadoopクラスタを構築する方法を紹介した。後編では実際にギークサロンで手を動かしてやったことを中心に紹介していこう。 WordCount.java – 最初のサンプルコード Hadoop Tutorial / Module4: MapReduceで紹介されているWordCount.javaを使って、EC2上のHadoopクラスタで処理をさせてみる。いわゆる"Hello, wolrd!"的なサンプル。 まずはEC2上のUbuntuにSSHでログインして、Hadoopのクラスタを立ち上
人材獲得に力をいれはじめたSlack、データ解析のPalantirや元Facebookメンバーをエグゼクティブクラスに登用 <ピックアップ>Slack Hires New Execs From Facebook and Palantir チーム向けメッセージングツールのSlack。日本でも人気なSlakですが、いよいよIPOか?といった話題も浮き上がっていました。28億ドル評価のSlackですが、人材のリクルートにも力をいれています。 CSO(chief security officer)として登用されたGeoff Belknap氏は、PalantirのCIO(chief information security officer)を担っていた人物。Palantirといえば、FBIやCIA、米国防省、NY警察などをクライアントに抱える秘密主義のビックデータ解析を主としているベンチャー。201
構造データとその重要性 機械学習の伝統的な問題設定では、多数のベクトル集合が訓練データとして与えられ、それを元に、何らかの関数関係を学習(もしくはフィッティング)します。しかし2000年代になって、機械学習がさまざまな実データで試される中で、このような伝統的な問題設定には乗りにくいデータが、大量に存在していることが認識されるようになってきました。 その典型例は、訓練データが図1のようなグラフ集合として与えられる場合です。図において、丸が頂点、直線がつながった辺を表します。頂点につけられたアルファベットは、頂点につけられた何らかのラベルを表します。 図1 グラフの例 グラフ集合の実例としては、たとえば、化学構造式が大量に格納されたデータベースが挙げられます。あるいは、If-Thenルールの集まりを木として見た場合、ある種の知識ベースもまたグラフ(木)集合を保持しているとみなすこと
RとRubyによるデータ解析入門買いました。 データマイニングとかいま流行ってて面白そうだなー、でもどこからはじめればいいのかなーって前々から思っていたんです。 そんなところにRとRubyを使ってデータ分析のやり方をいちから教えてくれる本が出たなら買うしかないですよね。 コマンド叩くだけでデータ解析が簡単にできちゃって、無意識のうちにニヤニヤしてしまい我ながら気持ち悪い毎日を過ごしています。 この本の素晴らしい点はRとRubyの環境を用意さえすれば、コマンドを実行するだけでデータ解析ができちゃう!!(気分にさせてくれる)ところです。 プログラミングや統計の知識がなくても大丈夫、あとでわからないところは勉強すればいいんです。 簡単にデータを生成&分析して、結果を視覚的に確認できるところがすごくいいなと思いました。 というわけで、手元のMacかLinuxが動くマシンを使って、データマイニングを
collect, analyze, and visualize data / produced by Hiroyuki Shinoda
Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理posted with カエレバWes McKinney オライリージャパン 2018-07-26 Amazonで探す楽天市場で探すYahooショッピングで探す 目次 目次 データ解析ライブラリPandas インストール Windowsでpipでpandasをインストールした時にvcvarsall.batが無いと言われた場合 データファイルの読み込みと書き込み CSVファイルからの読み込み CSVファイルへの書き込み データフレームの作成 ある時刻毎のデータフレームを作成 データフレームの情報を取得する index変数 columns変数 shape変数 info関数 describe関数 head関数 tail関数 データの抽出 インデックスを使う インデックスとカラム名を使ってデータを取得する 条件式
ECサイトのデータ解析に話題のLooker Studio(旧:Googleデータポータル・Google Data Studio)を活用しよう ECサイトのデータ解析は独自ドメインの店舗であれば長年Google Analyticsが活用されてきた。しかし実際にはその使い勝手の難しさからEC事業者にはなかなか浸透せず、体感ではGoogle Analyticsの導入率は15%程、実際のEC事業者側が定期的に閲覧している割合となると3%にも届かないのではないかと感じている。しかし、最近注目されているLooker Studio(旧:Googleデータポータル)では少しITが苦手なEC事業者でも、手軽にデータの確認が可能な使い勝手となっているように感じる。そこで今回はECサイトのデータ解析を行うために、Looker Studioの基本的な活用方法を紹介していく。 ※当記事は2017/5/26に作成・公
表題のとおり、以下、関数型プログラミング、Deep Learningの次にくるデータ解析アルゴリズム、「意識」をもった人工知能の創出、金融・生命科学シミュレーションの最先端を切り開くハイエンド人材になるために必要な数学を整理してみました。 「プログラミング・データ解析の先端領域」別 役に立つ「数学の領域名」 【 群論・圏論 】 (1)関数型プログラミング言語、関数型プログラミング 圏論の歩き方委員会(編)『圏論の歩き方』日本評論社 WIKIBOOKS 「Haskell/圏論」 (Wikipedia)CPL(圏論プログラミング言語) (SlideShare)Masahiro Sakai 「Introduction to Categorical Programming (Revised)」 Hatena::Diary (2013/3/13)『「ラムダ計算」を独学で学習するための,講義ノートやP
DX実現のための円滑なクラウドジャーニーに必要な 「導入」「最適化」「データ活用」 の3要素をカバーした マネージドサービスプロバイダ インターネット黎明期から20年、多くのお客様のITインフラの設計構築、最適化ご支援実績で培った高い技術力をもとに、 AWS、Google Cloud(GCP)、データセンターとビッグデータの活用による、ハイブリッド・マルチクラウド環境での経済性、利便性、安全性に優れた アーキテクチャの実現のため「最適解」を追求し続けています。 Going Cloud導入・移行 オンプレミスとクラウドの両方に精通しているエンジニアが初期設計から移行・導入、ハイブリッド環境の統合管理までワンストップでサポートします。 Managed Cloud構成・運用管理 AWS 次世代 MSP 認定等に裏付けされたベストプラクティスの実践と継続的な最適化を提供するマネージドサービスにより
このページは表記の本(奥付では2007年12月25日刊行。12月19日現在,Amazonで予約可になりましたが,Amazonでは12月27日刊行となっています)についての情報を掲載するためのものです。コメントや質問はWikiまたはメールでお願いします。 書誌情報 著者:中澤 港 題名:Rによる保健医療データ解析演習 出版社:ピアソン・エデュケーション(本書の紹介) 発行:2007年12月第一刷 外形:B5判,288ページ 価格:税込み3,150円(高くなってしまってごめんなさい) ISBN:978-4-89471-755-8(Amazon | bk1) 正誤表 以下の誤りについて,お詫び申し上げます。出版物では可及的速やかに(つまり,増刷の機会があれば,ということですが)修正します。 (2008年8月27日記)なお,第6章第2節「独立2標本の平均値の差の検定」(p.74〜p.78)において
リンク GLMM 参照, R 関連の参照 自由集会 2006 「個体差」のモデリング Crawley 先生 が書いた生態学者むけの統計学と R 入門書 Michael J. Cawley. 2005. Statistics: An Introduction using R. Wiley (URL) の p.178 あたりに random effects の丁寧な説明があったので久保が 勝手ながら翻訳してみます.この random effects は (たとえば) logistic 回帰や Poisson 回帰の overdispersion の原因となったり,あるいは正規分布 + 線形モデルなら大きすぎる「測定誤差」をもたらすものです. てきとーなる訳者・久保からいくつか注意あるのですが…… そもそも久保訳文がよくわからない・意味不明ぎみなところがありますので,参考程度にしてください 気に
水をくんで調べれば、生息する魚の種類が分かる新技術を開発 ~魚類多様性の調査にもビッグデータ解析時代の到来~ ポイント 海や川などに生息する魚の種類を調べるには大きな労力と費用がかかっていた。 環境DNAから魚種を判定できる技術を開発し、その性能を水族館で検証した。 将来、魚を捕獲せずに魚類多様性のモニタリングが可能になる。 JST 戦略的創造研究推進事業(CREST)の一環として、千葉県立中央博物館の宮 正樹 主席研究員、東北大学、東京大学、沖縄美ら島財団、神戸大学、龍谷大学、北海道大学からなる研究グループは、魚から体表の粘液や糞などとともに水中に放出されたDNA(環境DNA)を分析することによって、DNAを放出した魚の種類を判定する技術を開発しました。 海や川や湖沼に生息する魚の種類を調べるには、水中に潜って魚を観察したり、網などの漁具を使って魚を捕るなど、多大な労力と費用がかかる上に
By Brandon Warren Facebookは全世界で約11億5000万人、日本国内でも約2200万人の月間アクティブユーザー数を抱える世界最大のSNSサイトの1つです。大量に登録されたFacebookユーザーから集められたデータは個人情報を知りうることには十分で、あるネットワーク分析の専門家が、かなり高い精度でユーザーの好きな人や恋人を判別できる方法を開発しました。 (PDFファイル)1310.6753v1.pdf http://arxiv.org/pdf/1310.6753v1.pdf Facebook Data Scientists Know Who Your Lover Is - Rebecca J. Rosen - The Atlantic http://www.theatlantic.com/technology/archive/2013/10/facebook-dat
新聞は公共の情報源として、さまざまな情報提供を行っており、多くの人達が参考にしています。新聞記事にEM菌がどの様に紹介されてきたか、その動向について2007年1月〜2013年3月の日本国内のEM関係記事(1833件)を拾い集めて解析してみました。EM関係記事を掲載していた新聞社は88社ありました。 情報のベースとしたのは、過去に新聞に掲載されたEM関係の記事のリストを紹介しているEM環境マガジンWeb Ecopureの「EM関連の新聞報道」とEM研究機構の「EMニュース」です。 http://www.ecopure.info/book/paper.html http://www.emro.co.jp/topics/index.php?srccode=emnews&page=1 それと、このリストから漏れている記事についても検索して追加しました。まだ検索漏れがあるかも知れないので、これで全て
データ解析行為は否定するけどデータ解析結果は喜んで享受する艦これプレイヤー これの最たるものがcond値である。 所謂キラ付けというやつで、ゲームプレイにおいてcond値をある基準値以上に保つことはとても重要なんだけどゲーム内でその基準値を超えてるか超えてないのかを知る方法はない。 このcond値はゲームプレイによって増減するんだけど何によってどのくらい増減するかを知る方法もない。 つまりcond値を数値で確認する方法なんて解析以外ありえないんだけど、今やcond値を数値で扱うこと前提にプレイするが当たり前になってる。 制空値もそう。 過去のデータ解析結果をふんだんに享受しておきながら、でも建前上データ解析は否定するポーズだけとっている。 本当はデータ解析か統計的手法による推測かなんてすぐ区別できるし、データ解析行為が規約違反だって知ってる上で、わからないふりをして攻略系のサイトで堂々と取
編集部より IoTやウェアラブル機器の普及で広まりつつあるヘルスケアIT。しかし、そこで集まる生態データは電子カルテや医療で生かされていないのが、現状だ。@IT特集「ヘルスケアだけで終わらせない医療IT」ではヘルスケア/医療ITベンダーへのインタビューやイベントリポートなどから、個人のヘルスケアだけにとどまらない、医療に貢献できるヘルスケアITの形を探る。 今回は、医療で活躍するさまざまなOSSの取り組みを紹介する。実際に医療現場で活用できそうだと思ったものは、ライセンスを確認の上活用してみてはいかがだろうか。 医療オープンソースソフトウェア協議会(MOSS)は、2004年の発足以来、日本医師会(日医)のORCA(Online Receipt Computer Advantage)プロジェクトを応援しながら、医療分野でのOSSの活用に向けた取り組みを推進してきた。ORCAプロジェクトは、2
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く