概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo
These days, if you want to work in sports analytics, you need to know how to code. There's really no way around it. And while that can be scary for someone who's never written a line of code before, it's not as daunting as it seems. The reality is that there are a variety of excellent (often free!) resources for learning how to code. Some of them are very general, some are focused on a specific pr
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 遺伝子解析を、R, Python, 機械学習、深層学習、量子コンピュータを使う方法を体系的に理解するために、 Qiitaの資料及びQiita外の資料を整理する。 計算機屋さんが、計算機で扱う場合の視点であるため、 生物屋さんには奇異な並びの情報があるかもしれない。 より細分化する時に、利用させていただきますので、気が付いたことは、お知らせくださると幸いです。 岩波講座 物理の世界 物理と情報(6)DNAと遺伝情報の物理 伏見譲 岩波書店,2005 https://www.amazon.co.jp//dp/4000111612/ 説明歌
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト はじめに 社内で定時後に有志で勉強会というか、その場に集まってPythonやRをもくもくと勉強をするもくもく会を開きたいと考えています。目的としては分析スキルの向上や機械学習ができるようになりたいとかいう個々人の願いを叶えることです。 色々なスキルレベルのメンバーが参加することが予想されるので、皆を幸せにするためにもレベルに応じた良い教材が必要だと思いました。 ここでは、レベルに応じて適切な教材などを忘備録として残していきたいと思います。 (私自身、全てのレベルの対象
昨年、PGconf.ASIAで発表したPL/CUDAによる創薬ワークロードの高速化実験のテーマであるが、 kaigai.hatenablog.com 実測したベンチマークを見ると、奇妙な傾向が見てとれる。 このワークロードにおける計算量は「Qの行数×Dの行数」であるので、Dの行数が同じ1000万行であるならば、Qの行数が1000のケース(22.6s)に比べ、Qの行数が10のケース(13.4s)の実行時間はもっと顕著に短時間でなければならない。 計算量が1/100なのに、実行時間は半分弱にしかなっていない。 実はこれは、化合物同志の類似度を計算するための時間だけでなく、PL/CUDA関数に与える引数をセットアップするための時間に12秒程度を要しており、アムダールの法則を引用するまでもなく、類似度の計算を高速化するだけでは処理速度はこれ以上伸びないのである。 PL/CUDA関数の引数として行列
Facebook が出した誰でも簡単に時系列予測ができるツール Prophet についていくつか発表しました。 Prophet入門【Python編】 Prophet入門【R編】 Prophet入門【理論編】 Prophetはビジネス時系列、すなわち人間の行動に左右される時系列データに対する自動予測ツールです。 ビジネスでは大量の時系列データに対する予測を作成する必要があります。 しかし、それを1人のデータ分析者が1つ1つ作っていくのでは手が足りません。 そこで、統計の知識を必要しない、誰にでも簡単に時系列予測を行うツールとして Prophet が作成されました。 Prophet はオープンソースで開発され、Python と R のライブラリが公開されています。 まずは今年5月に Python版についての発表を foundIT データ解析・機械学習セミナー にて行いました。 Python版の
R Adevnt Calendar 8日目の記事です。大幅に遅れて大変申し訳ないです。 この記事ではR言語ユーザーのために100問100答形式でJuliaを紹介していこうと思います。 Julia言語 Juliaってどういう言語なの? Juliaは高レベルでハイパフォーマンスな技術計算のための動的言語だよ。書きやすさと実行速度の両立がウリの言語だよ。 誰が作ってるの? 主にボストンのMITの人達が中心に作っている言語だよ。特にJeff Bezonson, Stefan Karpinski, Viral Shah, Alan Edelmanの4人が初期の重要人物だよ。 自由に使えるの? Juliaの処理系はMITライセンスで配布されているから、商用でもなんでもかなり自由に使えるよ。 どれくらい速いの? すごく速いよ!大体C言語の2倍以内くらいの収まる速度だよ。 Rと比較してどうなの? 数倍から
The pandas.rpy module is deprecated and will be removed in a future version. We refer to external packages like rpy2. らしいので、rpy2 を使うといいっぽい。 pip install rpy2 で入る。 In [1]: from rpy2.robjects import pandas2ri # これをやると rpy2.robjects.vectors.DataFrame から pandas.core.frame.DataFrame に変換してくれる In [2]: pandas2ri.activate() In [3]: from rpy2.robjects import r In [10]: r["iris"].head(10) Out[10]: Sepal.Lengt
ネタ記事です。/ This is a joke post which makes no practical sense. 過去にこんなエントリを書いた。 sinhrks.hatenablog.com R では パイプ演算子 %>% を使って連続した処理を記述できる。式に含まれる x, y, z は非標準評価 (NSE) によって data.frame の列として解決される。 # R (magrittr + dplyr) df %>% mutate(x = y + z) %>% group_by(x) %>% summarize_each(funs(sum)) Python (pandas) ではほぼ同じ処理をメソッドチェインを使って書ける。チェインとパイプ演算子でどちらが読みやすいかは好みの問題だと思うものの、式の中に 何度も df が出てくるのはちょっとすっきりしない。 # Python
時は戦国 Python には作図ライブラリがたくさんあります。 最もデファクトスタンダードに近く歴史も古い作図ライブラリは matplotlib で間違いないでしょうが、それでも R における ggplot2 ほどの地位は確立していないように思います。 特に、Jupyter-notebook 上ではインタラクティブなグラフを表示するニーズがあり、そこでは静的なグラフよりもさらにライブラリが割拠している印象があります。何がどう違うのかよくわかりません。 そこで今回は代表的な作図ライブラリの Jupyter-notebook 上での 違いについて簡単にまとめます。 注意 各ライブラリはいずれも細かくグラフのスタイルを設定可能で、やろうと思えば同じような見た目のグラフを生成することも可能ですが、今回はできるだけ何も設定せずにプロットした時のグラフを使います。 今回試すライブラリたち matplo
データ分析から導き出されたインサイト無しにAI(人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く