サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。
Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。 その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概
時系列データが使われる範囲は広く、医療データ、金融分析、経済予測、天気予報など、さまざまな分野で使われています。本書は時系列データを通してデータ解析手法を学んでゆくアプローチで、データのクリーニング、プロットの方法、入出力など基本的なトピックについてひととおりカバーしてから、さまざまな分野の事例を数多く取り上げ、統計的手法と機械学習手法の両方を時系列データに適用し、また人気のオープンソースツールも積極的に取り入れた手法を紹介します。プログラムにはRとPythonの両方を利用。データセットやコードはGitHubからダウンロード可能です。 はじめに 1章 時系列の概論と簡単な歴史 1.1 時系列の多様な用途の歴史 1.1.1 時系列問題としての医学 1.1.2 気象予測 1.1.3 経済成長の予測 1.1.4 天文学 1.2 時系列解析の人気に火がつく 1.3 統計的時系列解析の起源 1.4
2020年12月、総務省より 【機械判読可能なデータの表記方法の統一ルール】が策定されました。 統計表における機械判読可能なデータの表記方法の統一ルールの策定 https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html 2020年11月に河野太郎 行政改革担当大臣のツイートが話題となりました。 その後正式に統一ルールが公開された形です。 各省庁がネット上で公開する統計を機械判読可能にするために、データの表記方法を統一させます。「政府統計の総合窓口(e-Stat)」で本日から12月1日までの間、表記方法案に関する意見照会を行います。研究者をはじめ、皆様のご意見をお待ちしています。https://t.co/h07tCTDazc — 河野太郎 (@konotarogomame) November 25, 2020
(Image by Pixabay) 最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用いる人々が必ず読むべきドキュメント」と言っても過言ではないと思われます。 正直言ってこの資料の完成度が高過ぎるのでこんなところで僕がああだこうだ論じるまでもないと思うので、内容の詳細については皆さんご自身でまずは上記リンクから精読していただければと思います。その上で、今回の記事では「機械学習や統計学を『社会実装』する」ということがどういうことなのかについて、この資料を下敷きとした上でさらに僕自身の経験や見聞を加えて考察したことを綴ってみます。 機械学習や統計学と、社会との「ギャップ」 機械学習や統計学を、社会に「馴染ませる」
「データサイエンティストと名乗るのは厚かましいというか、自分はむしろ外れ値です」そう切り出した小野寺和樹さんは現在、DeNAのAI本部データサイエンス第一グループに所属している。 確かにデータサイエンティストには数学や物理学の修士や博士といった理系のバックグラウンドを有する人が多い中、小野寺さんは経済学部出身で数学の知識も「二次関数の頂点がわかるくらい」だという。 そんな小野寺さんだがKaggle Grandmaster(カグル グランドマスター)という称号を持っている。世界では163人、日本では10人程度しかいない(2019年11月現在)。 【補足説明】Kaggle(カグル)とは、データサイエンティストや機械学習エンジニアが集まる世界最大のコミュニティ。大きな特徴は、誰でも参加可能なコンペティションがあることだ。世界中の企業や研究機関などが提供したビッグデータと課題に対し、モデルの精度を
このウェブサイトでは、ICT(情報通信技術)に関する教材の「総務省 ICTスキル総合習得プログラム」をオープンデータとして提供します。「総務省 ICTスキル総合習得プログラム」は、各5講座から成る4つのコース([1]データ収集、[2]データ蓄積、[3]データ分析、[4]オープンデータ・ビッグデータ利活用事例)によって構成され、ICTに関する基礎知識・基礎技術を学ぶことができます。 個々人の自学自習および学校・企業・コミュニティでの授業・勉強会にて、ご活用ください。 総務省 ICTスキル総合習得プログラム このウェブサイトでは、2017年度における総務省の事業として開発された「総務省 ICTスキル総合習得プログラム」に関して説明し、成果に関するファイルを提供します。このウェブページでは事業の成果であるIアイCシーTティー(Information and Communication Techn
1.一般的なチャート (1)RAWGraphs RAWGraphs はクラウド型、オープンソースのデータ視覚化ツールであり、 Excelのデータを処理するためによく使われます。RAWGraphsにデータをアップロードし、ほしいグラフを設計して、 SVGかPNGの画像に出力すれば済みます。RAWGraphsにアップロードされたデータは Web側でのみ処理されるので、 データの安全を保証できます。 (2)ChartBlocks ChartBlocks はグラフ作成のオンラインツールであり、スマートデータインポートガイドに従えば、データのインポートとグラフの設計を簡単に完了します。グラフを SVG、PNG、JPEGの画像や PDFへの出力が可能です。また、 Facebook やTwitter などのSNSで作ったグラフを共有するだけではなく、生成したグラフのソースコードを Webサイトに埋め込む
データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust)Pythonpandasデータ分析データ可視化pandas-profiling Pythonのpandas-profilingと、pixiedustの2つのライブラリを使うと、データの集計・グラフの作成が、感動的なほど早く終わることを実感したので共有します。 Excelでデータ集計・グラフ作成した場合と比較すると、体感で100倍くらい早く終わります(誇張ではなく) Pythonで爆速でデータ集計する方法(体感所要時間:5分) 前提: 以下の環境が整備されていることは、前提とします。 Pythonのインストール(約30分) データ分析に必要な各種ライブラリのインストール(約30分) →numpy, matplotlib, pandas, jupyter など →Anac
ちょっとしたデータの加工や集計に、ExcelやGoogle Spreadsheetは便利ですが、それが日常的な作業になってしまったら自動化したいですよね? そこでお勧めなのがpandasです。 Pandasは Python 用のデータ処理パッケージであり、ExcelファイルやCSVなどの表形式データを読みこみ、加工や集計した上で、出力するといったことがプログラムで記述できます。また開発環境を用意しなくとも、Googleが提供する無料の開発環境であるColaboratory上で、すぐに試すことができます。 そしてPythonは、Office 98以降20年以降更新されていないVBAに代わる新たなスクリプト言語として、Microsoftが採用を検討しているという話もあります。 ExcelにPython搭載、マイクロソフトが検討。アンケートを実施中 まずPandasの全体像を掴んでみる Pand
機械学習の数理100問の改訂版 (2019年2月24日)。 2018年度の講義も残りわずかになった。 私が着任した昨年度から、基礎工学部情報科学科数理科学コース3年「計算数理B」で、機械学習の数理に関する講義を行っている。その中で、計算数理B100問 を学生に解かせている。 線形回帰 ロジスティック回帰と判別分析 クロスバリデーションとブートストラップ 情報量基準 スパース推定 非線形 決定木 サポートベクトルマシン 教師なし学習 機械学習の演習と言うと、参加費が◯十万円の企業のセミナーなどでも、中身を理解させないで、データを流し込むだけのものが多い。そういうのをみると、頭を使わない勉強方法を奨励しているように思えてならない。この100問は、理論(簡単な数式の証明)だけでなく、R言語でかかれたソースプログラムを理解するようにしている。 データサイエンスの人材が◯万人不足すると指摘する声は多
はじめに 当社にアルバイトに来ていた人(来春に新卒入社の予定)に「pandasを高速化するための情報は無いですか?」と尋ねられました。 このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。 しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。 そこで、この方を始め、来春(2019年4月)にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。 この記事は今後も内容を充実させるために、Tipsを追加していきます。 この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。 その結果、1日中実行し続けなければな
先に結論から。Youtubeのチャンネル登録をして、この動画を見ればPythonで自動化できることが分かりやすく解説しているので、これを見れば一発です。 ※追記 2019年6月7日 これ以外にもプログラミングの解説動画があるので、ぜひ以下のリンクからチャンネル登録して、ほかの動画も見てみてください! Youtubeでチャンネル登録して動画を見てみる Pythonでは、Web APIを利用すると、データの自動収集ができるようになります。しかし、Web APIと言われてもよくわからないですよね。今回は、 PythonでAPIを利用する方法を知りたい。どうやったら呼び出すことができるの? Pythonで使えるAPIってどんなものがあるの? PythonのAPIを使えるようになるためには、どうすればよいの? という疑問に答えられるよう、PythonでWeb APIを利用する方法について詳しくまとめ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く