サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
都知事選
qiita.com/hik0107
メルカリという会社で分析やっています ⇛ 詳しくはhttps://goo.gl/7unNqZ / アナリスト絶賛採用中。/ Twitter ⇛ https://twitter.com/hik0107 最近はもっぱら物書きは note ⇛ https://note.mu/hik0107 Follow
GoogleのエコシステムとData Studio Google Data Studioを使ってみたので、その使い方と所感、出来ることを簡単に記しておく。 仕事でGoogle BigQueryを使っているため、連携が容易なGoogleの分析エコシステムには魅力を感じてしまう。完全にGoogleのエコシステムにいいように取り込まれているとしか言いようがないが、もはやこれはこれでいいような気もして来ている。 同じ理由でGoogle Cloud Datalabも重宝している。Cloud Datalabについてはこちらの記事を以前書いたので参照して欲しい。Python+BiqQueryを多用する人にはこちらの方がおすすめできる。 Data Studioとは Google Data Studioはデータの可視化とレポート作成・共有のためのツール。 BigQueryなど、Googleが提供する各種の分
この記事について Pythonで 協調フィルタリング のアルゴリズムを簡単に書いてみる 協調フィルタリングはいわゆる「これを見ている人はこれも見ています」の仕組みのアレである。 ここで扱っているのは非常に簡単なアルゴリズムなので、実際に何かの用途にそのまま使えるようなものではないが、協調フィルタリングアルゴリズムのHow to Workを簡単に理解するには役立つだろう。 この記事のコードを実際に書いてみれば、「これを見ている人はこれも見ています」のロジックはコンセプト自体はそれほど難解ではないということが理解いただけると思う。 協調フィルタリングを勉強するのに有用なサイト なお、この記事で扱っているコードはこのサイトを参考にしている。 英語を読むのに抵抗がない諸氏はオリジナルのサイトを読んでも良いだろう。 その他、レコメンドシステムのコンセプトを勉強するのに有用なサイトを幾つか列挙する 特
この記事で扱う内容 ここ数年「グロースハック」という言葉が流行っているとかいないとか 私は今のところまだ「グロースハッカー」と刷られた名刺を頂いたことが無いですが... それはともかく、先日この本を読みました いちばんやさしいグロースハックの教本 http://www.amazon.co.jp/dp/B01BY7HMYO/ 「iQON」を運営するVasilyさんのグロースハックのノウハウがまとめられた本です。 ひとことで言うと、シンプルかつ重要なファクターがギュッとまとまっていて非常に素晴らしい本でした。 この本の中で自分が特に大事だと思ったことをまとめておきます。 興味がある方は是非原典を購入して読んでみることをおすすめします。 Kindle版で1680円なので内容を考えると全然安いと思います。 ※ちなみに私はVasilyとは全く関係のない個人です。 また、こちらは書籍の正式な解説などで
PythonとBigQueryのコラボ データ分析を行う上で、PythonとBigQueryの組み合わせはなかなかに相性がよいです。 Pythonは巨大すぎるデータの扱いには向いていませんが、その部分だけをBigQueryにやらせてしまい、データを小さく切り出してしまえば、あとはPythonで自由自在です。 問題はPythonとBigQueryをどう連携するかですが、これは大きく2つの方法があります PythonのBigQuery連携ライブラリを使う Google Cloud Datalabを使う 2は特にJupyter Notebookを使い慣れている人におすすめです。 1.PythonのBigQuery連携ライブラリを使う オススメのライブラリ PythonからBigQueryを叩くためのライブラリはいくつかあります。 例えば、BigQuery-Python、bigquery_py な
データサイエンス関連の海外の著名なブログたちを蒐集していきます。(随時更新) 他にオススメとかコメントあれば是非下さい five thirty eight http://fivethirtyeight.com/ シグナル&ノイズや選挙予想で著名、ネイト・シルバーさんのブログ。社会的な出来事、特に政治やスポーツなどを統計やグラフを使って解説するブログ。 ちなみにmatplotlibのスタイルには「FiveThirtyEight」というオプションが有るほどで、グラフの色使いなどで注目されている模様。 no free hunch http://blog.kaggle.com/category/arena/ Kaggleの公式ブログ 話題は幅広く、手法の話から業界の人材動向の話、Kaggleの宣伝的な話題なども。 個人的にはこのScikitlearnのチュートリアルシリーズがなかなかよさ気と思って
def add1(str): #文字の最後に1の文字を付け加える関数 return str+'1' list_str = ['a', 'b', 'c'] map(add1, list_str)
Pandasのグラフ描画機能 この記事ではPandasのPlot機能について扱います。 Pandasはデータの加工・集計のためのツールとしてその有用性が広く知られていますが、同時に優れた可視化機能を備えているということは、意外にあまり知られていません。 この機能は Pandas.DataFrame.plot() もしくは Pandas Plot と呼ばれるものです。 Pandas Plotを使いこなすことが出来るようになれば、 データの読み込み、保持 データの加工 データの集計 データの可視化 というデータ分析の一連のプロセスを全てPandasで完結させることが出来る、つまり分析の「揺りかごから墓場まで」を実現することが出来ます。 Pandasのプロット以外の機能について この記事ではPandasのデータハンドリングなどに関わる機能は説明しません。 そちらにも興味がある方は下記の記事などを
やること Pythonで観測値(x,yのセット)を指定した関数で近似してモデリングする方法を説明します イメージ図:こういう感じのことをやります 関数でのフィティングは、モデリングの基本です。 線形の近似であれば、普通に線形回帰のパッケージを使えばいいと思いますが、 ここでは非線形関数含め、自分で指定した任意の関数でフィティングする方法を説明します。 使うもの Pythonのscipyパッケージに入っている、『curve_fit』というモジュールを使います。 より厳密には、scipy.optimize モジュールの一部です。 まず今回使うパッケージを読み込んでおきます。 ##フィッティングに使うもの from scipy.optimize import curve_fit import numpy as np ## 図示のために使うもの import seaborn as sns impo
この記事について Pythonでデータ分析を行う際に役立つセットアップを紹介します。 データ分析に興味がある方はこちらも合わせてどうぞ データサイエンティストに興味があるならまずこの辺りを見ておきな、って文献・動画のまとめ(随時追加) - Qiita 実行環境 Jupyter(旧iPython Notebook) http://jupyter.org/ インタラクティブ(対話的)なコード実行のための環境 データ分析に非常に適していて、慣れると他のIDEなどでは分析ができなくなる。 任意に分けたコードブロックごとに実行し、結果を都度表示出来るほか、 ・グラフのインライン表示 ・数式の記述(Latex) ・マークダウン方式の文章記載 などの機能を備えており、模索しながらの分析作業や、結果の共有・保管などに非常に適する。 iPythonで文章と図表を描くことで論文のような形式で書くことも出来るた
はじめに 『統計にそんなに詳しくないけど、機械学習とかのモデルを自分で実装してみたい!』 ってことよくありますよね? 『そんなこと全くないわー(#^ω^)』って思った人も素直になってください。 絶対に一度は思ったことがあるはずです。 とくにPythonでロジスティック回帰を実装したいと思ったことがある人は多いと思います。 多いはずです。 ここでは、統計の知識をヌルくと説明しつつPythonで実際に動くLogistic回帰モデルを実装します。 統計に詳しくない方でも無理なく出来るよう、統計の説明➔実装 を1ステップづつ進められるようにしました。 なんでかんで、統計モデルとか機械学習も自分で実装しながら覚えると効率がよかったりします。 この記事の対象読者 基本的にはデータサイエンスに多少興味ある方向けです。 ロジスティック回帰って聞いたことあるけど、よくわからん 上司がロジスティック回帰でクラ
データサイエンティストってなんだろう 掲題の通り、昨今色々と言われてるデータサイエンティストなる職業について考えてみる。 業界にいてもこの職種はとかく定義が曖昧で、統一的な見解がない。 まあ正直、『データサイエンティストなんて名乗りたい奴が名乗ればいーんじゃねーのぉ』という話ではあるのだが、せっかくなのでこの期に個人的な考えを書いておこうと思う。 なお、普段からデータサイエンティストについて考えている諸氏にとっては目新しいことは特に書いてないかもしれない どちらかと言えば、「データサイエンティストってどうやったらなれるんじゃい」、もしくは「流行りのデータサイエンティスト様を雇いたいけどどんな人採ればよいかのぅ」 って方々に見て欲しい記事なのでそのあたりはご了承願いたい 世間一般の見解を見てみる とりあえず世の中に既にある有名な幾つかの定義の俗説を見てみることにする。 "Data Scien
はじめに Pythonでデータ分析を扱う上で必須となる、Pandasでのデータ操作方法の 初歩についてまとめました。 ついつい忘れてしまう重要文法から、ちょっとしたTipsなどを盛り込んでいます。 こんな人にオススメ → Pandasを初めて触ってみたい! → Rが使えることをPythonでもやってみてーなー → Pandasの文法覚えきれねー どっかに一覧があれば便利なのに... → そもそもPythonでデータハンドリングってどれくらいできるものなのさ データの操作についても知りたい方は前半からどうぞ ◆ Python Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 http://qiita.com/hik0107/items/d991cc44c2d1778bb82e 計算をしてみよう ◆統計量演算 #列方向の合計 df_sample["score1"].sum(
Pythonでのグラフ描画 Pythonチャートを描く場合の定番は「matplotlib」ですが、その見た目のやや野暮ったい感じと、 表記法のややこしさが指摘されています。 そこで、この記事ではMatplotlibの機能をより美しく、またより簡単に実現するためのラッパー的存在である、「Seaborn」の使い方を取り上げます。 Seabornについてと、初歩的な使い方については下記リンクをご覧ください。 ◆pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1 http://qiita.com/hik0107/items/3dc541158fceb3156ee0 たくさんのグラフを一気に書く 本記事ではデータから属性の異なる複数のグラフを一気に描く方法について解説します。 例えば下記にようなイメージです。 『Walk』という属性ごとに x-step, y-p
Pythonでのグラフ描画 Pythonチャートを描く場合の定番は「matplotlib」ですが、その見た目のやや野暮ったい感じと、 表記法のややこしさが指摘されています。 そこで、この記事ではMatplotlibの機能をより美しく、またより簡単に実現するためのラッパー的存在である、「Seaborn」の使い方を取り上げます。 Seabornについてと、初歩的な使い方については下記リンクをご覧ください。 ◆pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1 http://qiita.com/hik0107/items/3dc541158fceb3156ee0 seabornでは下記のように美しいヒートマップを描くことが出来ます (SeabornのTutorialサイトより抜粋) 見た目にもインパクトがあり、数字があまり得意でない人にもウケがよかったりする
はじめに 本記事のターゲット 「 "データサイエンティスト"とか"統計"とか最近良く聞くし、興味あるけど、正直その分野それほど詳しいわけじゃねーし、どっから始めればいいんだよチキショーがっ」 って人に向けて描いた記事です。 つまりは X年前の自分が「あったらいいのにな」って思ったであろう記事です。 なので「俺はバリバリのデータサイエンティストだぜ」って人が喜ぶようなマニアックな内容について触れているような書籍などは載せていません。 「PRMLがないとか...基本のキだろ、あんたモグリかい?」 などと思われた方はこの記事から得られることは無いかもしれません。 あくまで初学者をターゲットにした記事になります。 ※ ある程度データサイエンス周りを齧ってる人でも、部分的には参考になるかもしれません。(願望) 【こちらもどうぞ】 ・そろそろデータサイエンティストの定義とスキルセットについて本気で考え
Pythonでのグラフ描画 Pythonチャートを描く場合の定番は「matplotlib」ですが、その見た目のやや野暮ったい感じと、表記法のややこしさが指摘されています。 そこで、この記事ではMatplotlibの機能をより美しく、またより簡単に実現するためのラッパー的存在である、「Seaborn」の使い方を取り上げます。 詳しくは下記リンクをご覧ください。 本記事では下記記事でのSeaborn、及びiris,tip,titanicのデータがインポートされている前提で進めます。 ◆pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1 http://qiita.com/hik0107/items/3dc541158fceb3156ee0 分布プロット ここではtipデータを使ってみます。 曜日ごとに、お客さんの会計(total_bill)がどう分布している
Pythonでのグラフ描画 Pythonチャートを描く場合の定番は「matplotlib」ですが、その見た目のやや野暮ったい感じと、表記法のややこしさが指摘されています。 そこで、この記事ではMatplotlibの機能をより美しく、またより簡単に実現するためのラッパー的存在である、「Seaborn」の使い方を取り上げます。 ◆ Overview of Python Visualization Tools http://pbpython.com/visualization-tools-1.html 上記の記事ではMatplotlibとSeabornについて下記のように書かれています。 matplotlibについて Matplotlib is the grandfather of python visualization packages. It is extremely powerful b
一般的なPandasでのデータ操作方法 以前こんな記事を書きました ◆ Python Pandasでのデータ操作の初歩まとめ メソッド一覧表 http://qiita.com/hik0107/items/d991cc44c2d1778bb82e Pandasでデータを操作する場合には上記のようなやり方が一般的なのですが、 ややコードが冗長になったり、可読性が低いと感じる時があります。 そんな方のために「pandas_ply」というパッケージを紹介します。 RのDplyrに似た記法でデータを扱えるため、Dplyrを使ったことがある人には特におススメです。 ※ まさにPandas版のDplyrという感じです。 使ったことが無い方でも、ネイティブのPandasより使いやすいと思いますので、 是非試してみてください。 Pandas_plyを使いはじめる ◆pandas_plyパッケージ https
はじめに Pythonでデータ分析を扱う上で必須となる、Pandasでのデータ操作方法の 初歩についてまとめました。 ついつい忘れてしまう重要文法から、ちょっとしたTipsなどを盛り込んでいます。 こんな人にオススメ → Pandasを初めて触ってみたい! → Rが使えることをPythonでもやってみてーなー → Pandasの文法覚えきれねー どっかに一覧があれば便利なのに... → そもそもPythonでデータハンドリングってどれくらいできるものなのさ こちらも合わせてどうぞ ◆Pandasでデータ操作:Pandas_plyを使う http://qiita.com/hik0107/items/3dd260d9939a5e61c4f6 データを作ってみよう import pandas as pd df_sample =\ pd.DataFrame([["day1","day2","day
データ分析言語としてデータサイエンスの世界での存在を日々増している(と言われる)Python。 Pythonでのデータ分析、特にPandasの使い方についてまとめてみました。 ・Rユーザーの方がPythonを使いたい場合には特に有用だと思います。 ・基本的なデータハンドリングの方法に主眼をおいています。 RユーザーがPandas,Numpyを使う場合の早見表 【Slide Share】Python for R uses Rで使う記法をPythonで再現するにはどうしたらいいかの 比較早見表が列記されており、RでやっていたことをPythonでやろうと 思ったらかなり有用だと思います。 http://www.slideshare.net/ajayohri/python-for-r-users 【Pandas Official】Pandas -comparison with R 上記と同様、Rで
このページを最初にブックマークしてみませんか?
『@hik0107のマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く