最近盛り上がりを見せるデータサイエンス界隈。 様々なpodcastが存在しているが、あまり言及されることが無いようなのでここでまとめておく。 割と更新頻度が高いものを中心に選んだつもりなので、これらを購読すれば聞くものが無いという状態にはなかなかならないかと思う。 言語は英語なので、データサイエンスの最新動向を知るのとともに英語の勉強にも使えるかと思う。 日本の機械学習エンジニアと研究者が世界と戦うための一助になれば幸いです。 Super Data Science
![データサイエンス関係のpodcastをまとめてみた | 10001 ideas](https://cdn-ak-scissors.b.st-hatena.com/image/square/b86c80ba346a93ac5186823082a286345eea52b1/height=288;version=1;width=512/https%3A%2F%2F10001ideas.com%2Fwp-content%2Fuploads%2F2017%2F10%2Fai-2692591_1280.png)
Why every gopher should be a data scientist. Ivan Danyliuk, Golang BCN June Meetup 27 June 2017, Barcelona The recent study from MIT has found... ...there's an 87% chance Linus Torvalds hates your code. "Bad programmers worry about the code. Good programmers worry about data structures and their relationships." "Show me your [code] and conceal your [data structures], and I shall continue to be mys
A San Diego State journalism professor shares her experience with “First Python Notebook” As a digital journalism educator at San Diego State University, I am always seeking to provide my students with the latest skills to help them be the best journalists they can when they enter the job market. This past spring I had the opportunity to introduce my students to the Python scripting language via t
総務省はこのほど、国勢調査や経済センサスなど国勢に関する統計データを「統計ダッシュボード」というウェブサイトにまとめ、公開をはじめた。総務省がもつ統計データを、表示する数値やグラフを動的に切り替えられるグラフィカルなシステムと組み合わせることで、広く活用してもらうことが目的だ。これが非常によくできているのだ。 「統計ダッシュボード」では、約5000の統計データを「人口・世帯」「労働・賃金」など17の分野に整理して収録。グラフは全部で55種類あり、サイト上で関連データの追加や削除、時系列比較や地域間比較などが可能となっている。 総務省のリリースによれば、特にビジネス(民間)での利用について「オープン化された公的データを地域やビジネスの視点から活用し新たなアイデアを創出」することを狙いとしている。
新規作成:2017年05月16日 最終更新:2017年05月16日 ここでは、時系列データを手にした際に、どのような手順で回帰分析をかけていけばいいのか、フローチャートを交えて解説します。 時系列データは特殊でして、普通の回帰分析を行うと、p値がおかしくなり、正しく検定ができなくなることがよくあります。これを見せかけの回帰と呼びます。 シミュレーションを通して、見せかけの回帰という現象を確認したうえで、それらに対応する手法としての単位根検定・共和分検定・一般化最小二乗法(GLS)の基本的な考え方とRでの実装方法について説明します。 ソースコードはまとめてこちらに置いてあります。 スポンサードリンク 目次 時系列データへの回帰分析フローチャート 単位根と見せかけの回帰 データチェック1 単位根検定とADF検定 解決策1 差分系列への回帰分析 差分系列への回帰分析の問題点 データチェック2 共
概要 書いていて長くなったため、まず前編として pandas で データを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について 日本語で整理したものがなさそうなので。 サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32
こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonのデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分けてご紹介していきます。 Pandasに関する基本的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理 データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transform) 時系列処理 時間の丸め処理(round) 時系
後輩が数値計算を使う、簡単なバッチ処理をPythonで書き始めました。 一応私もPythonの知識ならそれなりにあるのでいろいろ教えられることは(まだ)あります。 そのための予行練習としていろいろまとめておきます。 正直、自分よりもっと数値計算やプログラミングに関する知識と経験豊富なエンジニアがいれば、 彼ももっといろいろなことができるようになっているんじゃないかと思ってしまい、申し訳なさを感じています。 Pythonの言語のイディオムを覚えよう まずは、道具であるプログラミング言語を使いこなせるようになりましょう。 おすすめは『Pythonチュートリアル第3版』です。 Pythonチュートリアル 第3版 作者: Guido van Rossum,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2016/03/24メディア: 単行本(ソフトカバー)この商品を含むブログを見る WEB
研究をかれこれ2年半ぐらい続けてきたので、研究をする中で必要になった機械学習の手法について調べたりコードを書いたりしてきたのですが、まだまだ触ったことのない機械学習の手法も多く、研究で必要になる手法以外の知識も付けたくなってきたので、勉強し始めました。 Sphinxにまとめるか悩んだのですが、「ひとまず簡単にスライドにできること」・「手元でもすぐにコードを実行できる」という理由でJupyter Notebookを使用しています。 もし誤りやタイポ等があれば、IssueやPRお待ちしております。 github.com 今のところ↓の2つについてまとめました。 Jupyter Notebook / Numpy / Pandas / matplotlib入門 決定木(Decision Tree) ノートブックの内容一覧 内容については今後何度も変更をすると思いますが、とりあえず今の予定としては下
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く