みなさん機械学習系の環境構築はどうやってますか? 僕は最近は Docker を使った管理を行っています。 特に師匠も居なかったので、ぐぐったり人のイメージを見たり手探りで docker をつかいつかいしている中で、最初からやっとけばよかったなーということがいくつかあるのでメモとして残しておきます。 大きく2つです。 キャッシュは消す テストを書く キャッシュは消す ライブラリをいろいろと install すると大抵の場合ダウンロードしたファイルを保存されている場合が多いです。何かのタイミングで再びそのライブラリをインストールする際にはダウンロードしたファイルを使って、素早くインストールすることができます (この仕組みがキャッシュです)。 キャッシュがあると容量が重くなるという欠点があります。重たいイメージは pull に単に時間がかかりますから、システムとしてデプロイする時にトラフィックが
BusterとかStretchという名前が見慣れない方もいるかもしれませんが、これはLinuxディストリビューションとしてシェアの大きなDebianのコードネームです。 Debianバージョンが少し古いStretchの方がちょびっとサイズが小さかったりはしますが、まあ実用的にはサポートが長い方がいいですよね。slimを使ってGCCとかのコンパイラを自前でダウンロードしている記事とかもたまに見かける気がしますが、マルチステージビルドであれば、そんなにケチケチしなくていいのと、パッケージダウンロードは逐次処理なので遅く、処理系が入ったイメージのダウンロードの方が高速です。並列で処理されるし、一度イメージをダウンロードしてしまえば、なんどもビルドして試すときに効率が良いです。また、多くのケースでネイティブのライブラリも最初から入っており、ビルドでトラブルに遭遇することはかなり減るでしょう。 Py
The first and most important step towards developing a powerful machine learning model is acquiring good data. It doesn’t matter if you’re using a simple logistic regression or the fanciest state-of-the-art neural network to make predictions: If you don’t have rich input, your model will be garbage in, garbage out. This exposes an unfortunate truth that every hopeful, young data scientist has to c
FastAPI is a modern, fast (high-performance), web framework for building APIs with Python 3.6+. It is one of the fastest Python frameworks available, as measured by independent benchmarks.It is based on standard Python type hints. Using them, you get automatic data validation, serialization, and documentation. Including deeply nested JSON documents. And you get editor completion and checks everywh
※最新版(2021年バージョン)がこちらにありますので合わせてご覧ください! 毎年恒例, Python本と学び方の総まとめです!*1 プログラミング, エンジニアリングに機械学習と今年(2019年)もPythonにとって賑やかな一年となりました. 今年もたくさん出てきたPythonの書籍や事例などを元に, 初心者向けの書籍・学び方 仕事にする方(中級者)へのオススメ書籍 プロを目指す・もうプロな人でキャリアチェンジを考えている方へのオススメ を余す所無くご紹介します. 来年(2020年)に向けての準備の参考になれば幸いです. ※ちなみに過去に2019, 2018, 2017と3回ほどやってます*2. このエントリーの著者&免責事項 Shinichi Nakagawa(@shinyorke) 株式会社JX通信社 シニア・エンジニア, 主にデータ基盤・分析を担当. Python歴はおおよそ9年
Welcome to scrapbook¶ scrapbook is a library for recording a notebook’s data values and generated visual content as “scraps”. These recorded scraps can be read at a future time. This library replaces papermill’s existing record functionality. Use Case¶ Notebook users may wish to record data produced during a notebook execution. This recorded data can then be read to be used at a later time or be p
By Pythonistas at Netflix, coordinated by Amjith Ramanujam and edited by Ellen Livengood As many of us prepare to go to PyCon, we wanted to share a sampling of how Python is used at Netflix. We use Python through the full content lifecycle, from deciding which content to fund all the way to operating the CDN that serves the final video to 148 million members. We use and contribute to many open-sou
tslearnとは 時系列分析のための機械学習ツールを提供するPythonパッケージで、scikit-learnをベースとして作られているみたいです。 主な機能として、クラスタリング、教師ありの分類、複数の時系列を重ねた際の重心の計算ができたりします。 今回使用するに至った一番のモチベーションは、波形や振動などの時系列データに対してクラスタリングできるというところです。 tslearnインストール pipコマンドでインストールできます。 Kshapeというクラスタリング手法 今回tslearnで使用するモジュールとして、Kshapeというクラスタリング手法を時系列データに適用していきたいと思います。 Kshapeは2015年に下記の論文で提唱された方法で、以下の流れで実行されるアルゴリズムになります。 相互相関測定に基づいた距離尺度を使う(Shape-based distance: SBD
Description Machine learning at Stripe has a foundation built on Python and the PyData stack, with scikit-learn and pandas continuing to be core components of an ML pipeline that feeds a production system written in Scala. This talk will cover the ML Infra team’s work to bridge the serialization and scoring gap between Python and the JVM, as well as how ML Engineers ship models to production. Abs
Amazon Web Services ブログ Amazon SageMaker でのご利用開始: より正確な時系列予測のための DeepAR アルゴリズム Amazon SageMaker の最新内蔵アルゴリズムとして、Amazon SageMaker DeepAR をリリースします。DeepAR はポイント予測と確率的予測の両方を生成するために再帰型ニューラルネットワーク (RNN) を使用する時系列予測の教師あり学習アルゴリズムです。私たちは、開発者が Amazon 内でミッションクリティカルな決定を行う、この伸縮自在にスケール可能で、極めて精度の高い予測アルゴリズムを利用できるようになることに大変な期待を寄せています。DeepAR アルゴリズムは他の Amazon SageMaker 内蔵アルゴリズムと同じように使用でき、トレーニングや推測のために、インフラストラクチャをセットアッ
あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。 こういう話で「あーその手があったかー!」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。 大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。 必要なものリスト ナウいデータサイエンス/機械学習プロジェクトの中には(経験上、ぱっと思い浮かぶだけでも)次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。 ソースコード 役割がいろいろある: 前処理(こ
データ分析ガチ勉強アドベントカレンダー一日目。 まずは指針をということで、データ分析をはじめるにあたって勉強しておきたいことと、そのリソースをまとめる。言語はPythonを想定。 興味領域が偏っている場合があるのであしからず こんなの面白いよっていうのあれば教えてくださいな ※随時更新します Pythonライブラリ 深いアレたち 機械学習のお勉強 論文 arXiv カンファ e-learning 本 twitter データを集める チートシート類 終わりに Pythonライブラリ こんなの勉強しておけば良さそうリスト。抜け漏れご容赦。 ★★★ : 必須。空で使えるようになりたいトコロ。 ★★ : 周辺ツール、知っていればより便利になるよという感じ ★ : あるアルゴリズムに特化しているようなもの。一歩先 ライブラリ 必須度 用途 numpy ★★★ 数値計算用のライブラリ。いろいろし
18 Jul 2012 Here I list a handful of code patterns that I wish I was more aware of when I started my PhD. Each on its own may seem pointless, but collectively they go a long way towards making the typical research workflow more efficient. And an efficient workflow makes it just that little bit easier to ask the research questions that matter. My guess is that these patterns will not only be useful
チームで機械学習のタスクに取り組む際、過去の自分や他人が利用したデータの再現をするのに苦労する事があります。 本トークでは、データの再現性が低下する原因について体系的に解説し、akagi というオープンソースのPython ライブラリを利用してデータの再現性を高める方法について紹介します。 機械学習のタスクに取り組む場合において、データの再現性が損なわれる場面があり、その 原因は多岐にわたります。 - データの再現性は時間とともに低下します。過去に誰かが用意したデータを利用しようとする際に、データの入手方法がドキュメント化されておらず、入力データを再現できない場合があります。最悪の場合、丁寧に加工されたデータは本人のローカル環境にしか存在しないかもしれません。 - またデータの入手先が多岐にわたり(MySQL, Google Cloud Storage/Amazon S3, ローカルのファ
【随時更新】pyenv + Anaconda (Ubuntu 16.04 LTS) で機械学習のPython開発環境をオールインワンで整える 筆者の機械学習系のPython開発環境は、Vagrant を用いた Ubuntu (16.04 LTS) 上に構築しています。 ここでは、画像認識、音声認識、自然言語処理などに必要な環境をオールインワンで構築する手順をまとめます。 (最終更新日: 2016/11/14) OSバージョン OSバージョンは下記の通りです。 $ cat /etc/lsb-release DISTRIB_ID=Ubuntu DISTRIB_RELEASE=16.04 DISTRIB_CODENAME=xenial DISTRIB_DESCRIPTION="Ubuntu 16.04.1 LTS" $ uname -a Linux vagrant 4.4.0-31-generi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く