オオタジュンヤ @junjunjun_piano 音楽史とか音楽ジャンルを調べていて、「何でここまでで終わってんの!?」とか「何でこっちだけ詳しくてこっちは無視なん?」みたいに思ったところを極力すくい上げて書いたから、すっげー細かくなっちゃった。笑 2021-12-12 21:40:48
はじめまして。Kyashでデータエンジニアリングを担当しているKyashデータマンです。この記事では、Kyash社内のデータ分析の基礎に関するドキュメントを紹介します。 Kyashでは、データエンジニアリング・ガバナンス・セキュリティなど様々な角度から、公正なデータの取扱いと活用を推進しています。従来は、一部の訓練された技術者がデータ分析を一手に担っていましたが、社内でもデータ活用のニーズも多く、その担当者に分析や集計の業務が集中するという課題がありました。 この課題に対して、データへの適切なアクセス管理を行い、そして適切なBIツールを導入することで、データを取り扱う人が自分でデータ分析・そして活用できるようになることを目指しています。アクセス管理には、個人情報やそれに準ずる機密データに対して、ポリシータグによるアクセス権のコントロール、そしてアクセス権のリネージなどのソリューションの導入
こんにちは。 決定木の可視化といえば、正直scikit-learnとgraphvizを使うやつしかやったことがなかったのですが、先日以下の記事をみて衝撃を受けました。そこで今回は、以下の解説記事中で紹介されていたライブラリ「dtreeviz」についてまとめます。 explained.ai dtreevizの概要 dtreevizとは より良い決定木の可視化を目指して作られたライブラリです。 解説記事 : How to visualize decision trees Github : GitHub - parrt/dtreeviz: A python machine learning library for structured data. Sample Imagesdtreeviz/testing/samples at master · parrt/dtreeviz · GitHub 多
システム、プロセス、カルチャーをいかにエンジニアリングするか 本連載『開発現場に“データ文化”を浸透させる「データ基盤」大解剖』では「データ基盤」の構築事例を紹介します。具体的には、オンライン婚活サービス「ゼクシィ縁結び」ならびにその姉妹サービス「ゼクシィ恋結び」の開発現場において、筆者が実際に行ったことを題材としています。 データ基盤を実際に構築するのは容易ではありません。構築したデータ基盤を実際に利用し続けてもらうのはさらに難しいことです。 多くの関係者がデータを加工すると、似ている意味を持っていても微妙に異なるデータが生成されてしまい、どのデータが正しいのか誰も分からなくなってしまいます。きちんと全員に使われるためにはデータの持つ意味や加工ロジックを誰かが整理しなければいけません。 また、モダンなツールを使って派手なダッシュボードを構築しても、それだけでは1週間後には誰も見なくなって
はじめに 概要 この記事ではPythonをつかって↓こんなのをつくります GraphVizによる決定木描画の不満点 機械学習が流行の今、pythonにおいてはscikit-learnを使う方が多いですよね。 その第一歩として、sklearnのDecisionTreeClassifierでIrisやTitanicを決定木分析するかと思います。 (ぼくはそうでした) sklearnのDecisionTreeClassifierでは、学習した決定木をDOT言語を介してGraphVizで可視化することができます。 ↓こんなふうに。 ダサい 勿論、分析に必要な情報は揃っていてわかりやすい秀逸な図だと思います。でもダサさが溢れ出てますね。 Tableauとかオサレなツールが登場している時代に、この古臭さ。 これではインスタグラムに投稿できないです。 もっとフォトジェニックに描画できないものでしょうか。
さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを
This data visualization was produced by Akihiko Kusanagi. The data for this visualization are sourced from the CNS North Korea Missile Test Database, which is the first database to record flight tests of all missiles launched by North Korea capable of delivering a payload of at least 500 kilograms (1102.31 pounds) a distance of at least 300 kilometers (186.4 miles). The database captures advanceme
Visualize, understand, and interact with the latest international trade data.
Google Data Studio (データスタジオ) という可視化サービスがベータ版で使えるようになっていたので試してみた 見たい数値を一覧するためのダッシュボード的なものを作るためのサービスなので、いろんな場所からデータを取ってきて一箇所でまとめて確認するのが用途っぽい(今のところ似たようなサービス・ツールの方が機能が多そう データソース データソースとしてGoogle AnalyticsやBigQuery、Google Spreadsheet、MySQLなどを選んでデータを取ってこれる データソースを選んでGUIでグラフやテキストを配置していく データの既存のフィールドに関数を適用した結果の値を使うこともできる 使える関数のリスト 下の画像ではGoogle Analyticsの「ブラウザ」(Chrome, Firefoxなど)と「ブラウザのバージョン」(バージョンの番号)をCONC
ネットワークの重みや各ニューロンがどういう入力の時に発火するのかが、学習していく過程で各時刻可視化されてとても良い教材です。 http://playground.tensorflow.org/ うずまきのデータセットに関して「中間層が1層しかないとうずまき(線形非分離な問題)は解けない」という誤解があるようなので、まずは1層でできるという絵を紹介。なお僕のタイムライン上では id:a2c が僕より先に気付いていたことを名誉のために言及しておきます。 で、じゃあよく言われる「線形非分離な問題が解けない」ってのはどういうことか。それはこんな問題設定。入力に適当な係数を掛けて足し合わせただけでは適切な境界を作ることができません。 こういうケースでは中間層を追加すると、中間層が入力の非線形な組み合わせを担当してくれるおかげで解けなかった問題が解けるようになります。 1つ目のデータセットでは特徴量の
We rebuilt the entire Republican presidential nomination process in code. Our Delegate Calculator takes into account the details of allocation rules in each state and how favorable the congressional districts are for each candidate, simulating different possible scenarios for how the primary races could unfold. Related Article
2015年11月26日 人類は少子高齢化しました Tweet TEDにおける伝説的なプレゼンの一つにHans RoslingによるStats that reshape your worldviewがある。1000万回以上も視聴されたプレゼンなので見たことがある方も多いだろう。彼はTrendalyzerという自作のソフトを用いて、統計データを視覚化し世界の様相を伝えている。 Trendalyzerはここで配布されている。また、後にTrendalyzerはGoogleに買収され、Google Visualization APIとして配布されている。さらに、様々な長期的統計データもここに整理・集約されている。 彼は2006年に行われたプレゼンにおいて、先進国は長寿で少家族、発展途上国は短命で大家族という先入観は今や正しくなく、世界全体が少子化・長寿化に向かっていることを示した。次のVizは彼が示
このまま吸収合併が進んだら最後に生き残るのは…1社? 世界の大手ブランドを所有するのは、ほんの一握りの企業です。食品、銀行、航空、自動車、メディア…あらゆるものがメガコーポレーション(超巨大企業)に支配されています。 その資本関係を一望のもとに収めたインフォグラフィック(アメリカ版)を集めてみました。 消費財 スーパーの棚に並んでるものは大体、モンデリーズ、クラフト、コカコーラ、ネスレ、ペプシコ、P&G、ジョンソン&ジョンソン、マーズ、ダノン、ゼネラル・ミルズ、ケロッグ、ユニレバー傘下ブランドの製品です(上図)。 この図は少し古いのですが、ジョンソン&ジョンソンの資本関係がわかりますね。 金融資産 はいはい、巨大資本支配はスーパーマーケットだけじゃありませんよ。みんなのお金も全部、巨大企業数社の手中にあります。アメリカでは1996年からの弱肉強食でどんどんシティグループ、JPモルガン・チェ
After a world record-setting short program performance, Yuzuru Hanyu, a teenager from Japan, fell twice in his free skate but still prevailed. Hanyu fell on the quadruple salchow. Composite image by The New York Times Yuzuru Hanyu Total score: 280.09 Hanyu became the first skater to break 100 points in a short program after receiving high marks for all his jumps, including a quadruple toe loop. Bu
The document discusses graph databases and their properties. Graph databases are structured to store graph-based data by using nodes and edges to represent entities and their relationships. They are well-suited for applications with complex relationships between entities that can be modeled as graphs, such as social networks. Key graph database technologies mentioned include Neo4j, OrientDB, and T
今回初めてR勉強会@東京に参加してきました。 結構前(1年ぐらい?)から開催されている勉強会に途中から参加、しかもRは素人とドキドキでしたが、楽しく勉強できました。 なにげに大森駅に降りたのも初めてだったような気もします。 Rによる回帰分析入門 [twitter:@yokkuns] Rによるデータサイエンス第Ⅱ部 第7,8章 回帰分析 データ解析の基本である回帰分析について、Rを使って学んでいきます。 残差の正規Q-Qプロットで正規分布に準じているかどうかを確認できる 重回帰分析で使うファクターを自動選択する関数step。モデルはAICで評価される。これは使えるかも。 AIC(Akaike's Information Criterion:赤池情報量規準) 統計モデルを評価するための指標 小さい方がよい step関数で自動選択 欠損値の扱いをどうするべき? ケースバイケースだが、使わなくて済
Media The Social Guardian points to the future of real-time news sharing It was only last week that we looked at the sad demise of Readness, a promising service that allowed users to share the news articles they were reading in real-time. Now, a new experimental project shows that the idea lives on. The Social Guardian has been built using The Guardian’s API and while it looks quite plain, it’s ac
Data Mining Fruitful and FunOpen source machine learning and data visualization. Download Orange 3.36.2 Jan 11, 2024 Scoring Sheets: Transform Data into Insightful ScoresOrange's Scoring Sheet widget provides explainable machine learning predictions using a simple scoring system. Each feature's influence obtains an integer score, making it easier to understand and communicate the model, crucial in
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く