St_Hakky’s blog[B!]新着記事・評価 - はてなブックマーク

【Docker】docker-composeのCPU/メモリ使用量の制限 - St_Hakky’s blog

3 users

こんにちは。今仕事でメモリ使用量を最適化するような感じのタスクをやっていて、docker-composeのメモリ使用量を制限するやり方みたいなのを調べたのでまとめておきます*1。 docker-composeのversion3を使っているのですが、version2のやり方で行けるかなーと思っていたら、行けなかったので、ついでにまとめました。 docker Engine自体のメモリ docker自体のメモリが上限になるので、MAXがどこまで使用することができるのか確認する必要があります。基本的には、何も設定しないと、dockerで制限されているメモリを使い切ることができます。メモリ制限の方法 docker-composeのfileのバージョンによって、制限方法が異なるので、そこに注意が必要とのことです。ここからは、それぞれの場合に応じてまとめていきます。 Compose file :

テクノロジー
2021/09/07 21:22

cpu

ECSを勉強するにあたって役に立った資料とメモ - St_Hakky’s blog

4 users

www.st-hakky-blog.com

こんにちは。自分でECSとか触って開発することになったので、そのやり方とかまとめておこうと思います。 ECSとは AWSのコンテナ管理のマネージドサービス。ぐだぐだ私が説明するよりも、ぶっちゃけ世の中に良き記事が出すぎて、改めて書く必要もなし。 AWS Black Belt Online Seminar 2016 Amazon EC2 Container Service from Amazon Web Services Japan www.slideshare.net 最初は、言葉が多くて、面食らうんで、忘れやすい私のためにメモ。用語意味 Cluster Container Instanceの集合体。複数のサービスを管理する ECS Instance ECSが稼働するEC2インスタンス Service 複数のタスク定義と紐づけて、管理するもの Task Definition タスクに

テクノロジー
2021/08/25 10:49

自然言語処理向けのデータ作成ツールの「doccano」を使ってみたので、まとめる - St_Hakky’s blog

4 users

www.st-hakky-blog.com

こんにちは。最近、仕事で自然言語処理関係のプロジェクトをやっているのですが、その関係でdoccanoというツールを触ってみることになったので、使い方とかをまとめておきます。 doccanoとは doccanoとは、オープンソースのテキストアノテーションツールです。 github.com 以下の三つのアノテーションタスクをすることができます。 Text Classification Sequence Labeling Sequence to Sequence demoサイトは以下から。 doccano.herokuapp.com RESTful APIなども搭載されているので、結果の取得をAPI経由で行うなどもすることができます。 doccanoをとりあえずローカルで立ち上げてみる doccanoをローカルでとりあえず試してみます。 pipでインストールして立ち上げる以下のコマンドだけで

テクノロジー
2021/01/08 22:06

【Python】Pandasのメモリ使用量の削減方法のまとめ - St_Hakky’s blog

3 users

www.st-hakky-blog.com

こんにちは。今、とある事情でPandasのメモリ使用量の削減を仕事でしているのですが、その時に改めてPandasのメモリ使用量の削減方法を調べたので、まとめてみます。メモリ使用量の確認今回、タスクを実施するにあたってメモリ使用量がどのくらいかかっているのかを同時に調べたんですが、Pandasに限らず、メモリ使用量を確認する方法としては、memory_profilerが良きです。以下の記事で紹介していますので、参考にしていただければと思います。 www.st-hakky-blog.com ただ、このmemory_profilerは関数の中まで見に行ってメモリ使用量を見にいくわけではないので、関数内でピークを向かえるメモリ使用量などがわからない点に注意が必要です。メモリ使用量の削減概要 Pandasでよくやる操作でメモリ使用量を削減する方法は、だいたい以下あたりじゃないかなと。使わな

テクノロジー
2021/01/02 23:14

【Python】loggingを複数ファイル・モジュール間で使う方法 - St_Hakky’s blog

4 users

www.st-hakky-blog.com

こんにちは。今日は、loggingを複数ファイル・モジュール間で使う方法について調べたので、そのメモを書きます。ログの設定については下記に書いたので、今回は複数ファイル・モジュール間で使う方法についてだけ描きます。 st-hakky.hatenablog.com やり方公式ドキュメントに書いてあります。 Logging クックブック — Python 3.6.5 ドキュメント基本的に、 logging.getLogger('someLogger')のような感じでloggerを定義して、複数ファイルやモジュールで複数回同じように呼び出せば、同じ参照先を返すので、特に考える必要がありません。具体的には、以下のような感じです。 main.py # coding:utf-8 from logging import getLogger, StreamHandler, DEBUG, Forma

テクノロジー
2019/01/17 20:37

python

データドリブンな組織に何故なるのかについて改めて考えてみる - St_Hakky’s blog

6 users

www.st-hakky-blog.com

こんにちは。データドリブンな組織ってそもそもなんの意味があるのかをしっかりとまとめておこうと思い経った機会があったので、まとめてみます*1。思い立ったきっかけこのところこのテーマについてよく考えるようになり、また必要だなと感じた背景として、最近データ分析系のProductに関わるようになったからです。「自分が分析しないけど、分析をしてビジネス価値を出して欲しい」という立ち位置で諸々を考える必要があって、しかも彼らには昔から「データを元に意思決定をする以外の方法」で既に色々やっているんです。この中で、データドリブンになることを押し付けることなく、自然とデータドリブンになることのメリットを知ってもらうにはどうしたらいいか彼らの既存の方法を後押しする、もしくはリプレイスするようなデータ分析ってなんだろうかというのを真剣に考えるようになりました。今、「データ分析の民主化」を社内で取

テクノロジー
2019/01/08 06:46

【データ分析の民主化】データドリブンな組織になるには何をしたらいいのか考えてみた - St_Hakky’s blog

25 users

www.st-hakky-blog.com

こんにちは。今日は、データドリブンな組織になるために、何をしたらいいかを考えてみたので、それについて書きます。データドリブンな組織の必要性先日、以下の記事で「データドリブンな組織ってなんで必要なのか」と言う観点で記事を書きました。 st-hakky.hatenablog.com 上の記事を要約すると、以下のようになります。意思決定を「早く・確実に・納得感を持って」するために、データ分析をする(アナリスト視点) データを活用して新機能の開発やコスト削減を行う(MLエンジニア視点) データ分析をベースにした組織、つまりデータドリブンな組織になるためには「データ分析の民主化」が必要(組織全体の視点) データドリブンな組織になるためには、「データ分析の民主化」って言う最近のホットワード(?)なのか知りませんが、そう言うのが必要です。ぼんやりした言葉なので、具体的に何をすればいいのかと言う

テクノロジー
2018/12/31 14:37

今更感あるけど決定木について調べたのでまとめる - St_Hakky’s blog

5 users

www.st-hakky-blog.com

こんにちは。本当にクソいまさらなんですけど、アンサンブル手法とか勉強していたら復習したくなってきたので、ここで復習もかねてまとめておきます。決定木とは決定木の概観決定木はおそらく機械学習とかをやったことがある人なら確実に一回は見たり使ったり聞いたりしたものではないかと思います。決定木は、ツリー構造の形で分類または回帰のモデルを構築するものです。決定木では、そのアルゴリズムによっては、カテゴリと数値の両方のデータを扱うことができます。参考：Decision tree learning - Wikipedia 決定木の目的は、変数とその値の組によって表現されたデータをいくつかのサブセットに分割していくことにあります。そして分割していく過程で、より木の深さを深くせず、且つ汎化性能の高い出力を返せるような木を構築していくことがゴールになります。決定木はその名の通り"木"なので、木によっ

テクノロジー
2018/10/01 09:17

決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog

568 users

www.st-hakky-blog.com

こんにちは。決定木の可視化といえば、正直scikit-learnとgraphvizを使うやつしかやったことがなかったのですが、先日以下の記事をみて衝撃を受けました。そこで今回は、以下の解説記事中で紹介されていたライブラリ「dtreeviz」についてまとめます。 explained.ai dtreevizの概要 dtreevizとはより良い決定木の可視化を目指して作られたライブラリです。解説記事 : How to visualize decision trees Github : GitHub - parrt/dtreeviz: A python machine learning library for structured data. Sample Imagesdtreeviz/testing/samples at master · parrt/dtreeviz · GitHub 多

テクノロジー
2018/09/30 20:05

「Xception: Deep Learning with Depthwise Separable Convolutions」を読んで勉強したので参考になった資料とかまとめておく - St_Hakky’s blog

3 users

www.st-hakky-blog.com

こんにちは。今Deep Learningの論文紹介をやっているのですが、私が紹介しようかなと思った論文がKerasの作者でもある@fcholletさんのCVPRの論文でした。 It's official: my paper "Xception: Deep Learning with Depthwise Separable Convolutions" was accepted at CVPR. https://t.co/D876HseFDo— François Chollet (@fchollet) 2017年3月4日読む過程で調べた資料とかも凄くまとまっていたのですが、自分の勉強がてらまとめておこうと思います。 ※あらかじめ言っておくと、ココに出ている元論文を全部隅から隅まで読んだわけではないのと、Deep Learning弱者なので、一部間違えている可能性があります(出来る限りおいま

テクノロジー
2018/09/17 20:54

【Python】実行時間を測定する方法まとめ - St_Hakky’s blog

6 users

www.st-hakky-blog.com

こんにちは。実行時間(処理時間)を計測したいことはよくあると思いますが、今回はPythonで実行時間を測りたいなってなった時の方法を、自分用にまとめておきたいと思います。 ※なんか章立ての粒度がばらばらになってしまった気がするが、細かいことは気にしない。。。 Pythonコード上 Pythonのコード上(という表現がいいのかはわかりませんが汗)で実行時間を計測するための方法が以下。 timeモジュールを使うこれが一番最初にパッと思いつく方法かなと思います。 import time start = time.time() func() process_time = time.time() - start print(process_time) デコレーターを用いる方法こちらの記事で紹介されていたんですが、これは確かに便利だなと思いました(作者の方ありがとうございます)。自作のデコレー

テクノロジー
2018/07/20 17:40

python

【Python】数量データの正規化 ( 標準化 ) について - St_Hakky’s blog

4 users

www.st-hakky-blog.com

こんにちは。今回はデータの正規化についてです。いろんな文脈で様々な意味で使われている「正規化」っていう言葉ですが、今回は統計や機械学習で扱う数量のデータに対して行うことに絞り、まとめていきたいと思います。 Introduction データの正規化とはこちらの記事を読んでいたところ、Wikipediaを引用されていたので、Wikipediaの正規化のページも合わせてみることにしました。すると、正規化とはデータ等々を一定のルール（規則）に基づいて変形し、利用しやすくすること。別の言い方をするならば、正規形でないものを正規形（比較・演算などの操作のために望ましい性質を持った一定の形）に変形することをいう。だそうです。いちばん有名なのは後でも紹介するz-scoreだと思いますが、それでイメージしちゃえばわかりやすいかなと。文章の正規化とかもありますね。つまり、「データを一定の方法で変

テクノロジー
2018/06/01 14:44

Boosting(ブースティング)について調べたのでまとめる：AdaBoost / Gradient Boosting / XGBoostなど - St_Hakky’s blog

5 users

www.st-hakky-blog.com

こんにちは。最近、アンサンブル学習について勉強しているんですが、この記事ではBoostingについて調べたことを書きます。以下がその他のアンサンブル学習とか全般的な話とかについて書いた記事なので、バギングとか知りたい人は以下の記事をどうぞ。 st-hakky.hatenablog.com ◯Boostingとは Boostingとは、弱学習器をboostして、そのアルゴリズムよりも強い学習アルゴリズムをつくることです．ブースティングの一般的な考え方は、学習器を連続的に学習させて、より精度が向上するように修正していくことです。学習した予測器をより良いものにするためには、単純に間違えたものにより注意を払って次の学習を行えばいいと考えられます(以下の図参照)。引用：Géron, Aurélien. "Hands on Machine Learning with scikit-learn a

テクノロジー
2018/03/23 00:04

【Deep Learning】 Batch sizeをどうやって決めるかについてまとめる - St_Hakky’s blog

16 users

www.st-hakky-blog.com

こんにちは。 Deep Learningを自分でゼロから組んで(fine tuningとかではなく)、全部ゼロから学習させるのって大変ですよね。特に、ハイパーパラメーターの設定にすごく悩みます。トップカンファレンスに出されているような高精度の論文では、そういうハイパーパラメーターはさも当然かのごとく設定されているので、まぁモデルを使い回す分には特に問題ないんですが、自分で決めようとすると本当に悩ましいです。また、Deep Learingは学習に非常に時間がかかりますし、それぞれのハイパーパラメーターの相互関係とかもあり、問題の切り分けが難しいです。その意味で、グリッドサーチなども対象を決めてやらざるをえず、その場合でもあたりをつけておきたいのが正直な所だと思います。ということで、ハイパーパラメーターにはいくつも種類があるんですが、今回はその中でも、Batch sizeについてどうや

テクノロジー
2018/03/20 14:06

Julia入門 - 入門者がまず読むべき参考サイトや本のまとめ【随時更新】 - St_Hakky’s blog

8 users

www.st-hakky-blog.com

こんにちは。 Pythonはある程度かけるが、Juliaに関しては全くの初心者である私がこれからJuliaでデータサイエンスをしたり、Deep Learningをしたりしようと思っているので、その学んだ過程とかで参考になった資料とかをまとめておこうかと思います*1。 Juliaは、まだPythonとかに比べてまだコミュニティのレベルとして大きくないせいもあってか、日本語の情報とかはやっぱり少なめですが、ことデータサイエンスの文脈で言えば、Pythonよりも実行速度が早く(C並)、動的プログラミング言語という性質が自分的にはかなり気になっているので、今後に期待って感じで、勉強していこうと思います。自分も勉強になったこととかは、このブログで発信していこうかなーと思っています。 Links Original Sources HomePage : The Julia Language Githu

テクノロジー
2018/03/10 19:17

kerasでmultiple (複数の) 入力 / 出力 / 損失関数を扱う時のTipsをまとめる - St_Hakky’s blog

3 users

www.st-hakky-blog.com

こんにちは。〇この記事のモチベーション Deep Learningで自分でモデルとかを作ろうとすると、複数の入力や出力、そして損失関数を取扱たくなる時期が必ず来ると思います。最近では、GoogleNetとかは中間層の途中で出力を出していたりするので、そういうのでも普通に遭遇します。というわけで私も例に漏れず遭遇しました笑。今回はkerasで複数の入力や出力、そして損失関数を取り扱うときにどうすればいいかについて実践したのでまとめておきます。〇「複数の入力」を与えたい場合これは簡単です。普段Modelのインスタンスを作る際に、inputsとoutputsを指定すると思いますが、その際に複数ある場合はリスト形式で渡せばいいだけです。 input_layer1 = Input(shape=(32,)) input_layer2 = Input(shape=(64,)) # ...(モ

テクノロジー
2018/02/13 14:49

Bagging(バギング)について調べたのでまとめた：Out-of-Bag(OOB) / Random Forest / Decision Jungles / Deep Forest(gcForest) - St_Hakky’s blog

4 users

www.st-hakky-blog.com

こんにちは。 Kaggleをやるにあたって(というかふつうに勉強したかったのもある)、アンサンブル学習の方法は勉強しておく必要があるようなーと思って、勉強してみました。他のブースティングやスタッキング、アンサンブル学習全般については以下の記事をどうぞ。 st-hakky.hatenablog.com それでは、調べた内容についてまとめていきたいと思います。 ◯Bagging(バギング)とは Bagging(バギング)は、bootstrap aggregatingの略です。名前から分かる通り、各学習器に使う学習用データをブースストラップサンプリングによって得て、その学習した学習器を予測に用いて最後アンサンブルするという方法になります。あんまり区別がされている資料を見かけないんですが、これとよく似た方法にPastingというものもあります。Pastingは、重複有りのランダムなbootst

テクノロジー
2018/02/05 21:23

qiita
学習

データ分析をするときのフォルダ構成をどうするのか問題について - St_Hakky’s blog

5 users

www.st-hakky-blog.com

こんにちは。今回は、データ分析をするときのフォルダ構成をどうするのか問題について、ちょっと調べてみたので、自分のこれまでやってきたことを振り返りつつ、まとめます。調べた動機某データサイエンス系のインターンシップでの反省点でもあり、これは普段研究などでコードを書くときに悩みながら作っているのですが、どうしたものかと思って悩んでいました。データの保存どこでどういうフォーマットでするんだよ！くっ、このモデルも試したい、、、でもファイルとフォルダの構成ガァァァァ Aさん、基礎分析とモデルのファイルをごっちゃにするんでない！(ウワァァァァァ！！誰かしっかり共有しておけヨォォォ！！！) とまぁこんな感じで、複数人でやるとより露骨になってきたのと、いつもだいたいやるフローとしては同じなので、共通化や一般化がある程度できるはずと思っていました。私がこれまでやっていたこと ├── README.

テクノロジー
2017/12/21 01:19

あとで読む

「異常検知と変化検知～機械学習プロフェッショナルシリーズ～」を読んで勉強会も開いて関連の情報とかも調べたのでまとめておく - St_Hakky’s blog

11 users

www.st-hakky-blog.com

こんにちは。 ※このエントリは、途中ですが資料の共有とかのため、突貫で体裁だけ整えて掲載しています。異常検知と変化検知の分野は、初心者なので、「こんな手法あるよ」とか「こんな論文面白いよ」とかあれば教えてほしいです。読んだ本最近某勉強会でいろんな機械学習の勉強をしているんですが、私のデータ分析への興味が実世界への適用にあるのもあり、以下の本を一人読んで一人で発表することにしました(皆そんな感じで発表しているという笑)。「異常検知と変化検知～機械学習プロフェッショナルシリーズ～」サポートページサポートページ：本のサポートページ – Dr. Ide's Home Page 目次目次は以下のような感じです。第1章異常検知・変化検知の基本的な考え方第2章ホテリングのT2法による異常検知第3章単純ベイズ法による異常検知第4章近傍法による異常検知第5章混合分布モデルによ

テクノロジー
2017/12/08 01:49

アンサンブル学習について勉強したのでまとめました：Bagging / Boosting / Stacking - St_Hakky’s blog

12 users

www.st-hakky-blog.com

こんにちは。今、KaggleのRestaurant Revenue Predictionをやっていて、その中でアンサンブル学習について再度学習してみたので、まとめました。結構ながくなっちゃったかもですが、頑張って参考文献に飛ばしたりとかしてまとめました(笑) アンサンブル学習とは機械学習における目標は、汎化性能が高い学習機をデータから構築することです。汎化性能を向上させる方法はいくつかあるわけなんですが、以下の2つの方針があります。単一の学習器の性能を向上させる複数の学習器を用意して、それらの予測結果を統合して汎化性能を高める後者の方法がいわゆるアンサンブル学習といわれるものです。複数の学習器を利用して高い精度を出すことを実現します。参考文献や本アンサンブル学習（Ensemble learning）とバスケット分析（basket analysis） - Qiita アンサン

テクノロジー
2017/08/28 23:00

機械学習

エポック(epoch)数とは【機械学習 / Deep Learning】 - St_Hakky’s blog

15 users

www.st-hakky-blog.com

こんにちは。今日はエポック数について調べましたので、そのことについて書きます。エポック数とはエポック数とは、「一つの訓練データを何回繰り返して学習させるか」の数のことです。 Deep Learningのようにパラメータの数が多いものになると、訓練データを何回も繰り返して学習させないとパラメータをうまく学習できないません(逆にやりすぎると過学習を起こすわけなんですが)。多すぎずに少なすぎないエポック数を指定することによって、パラメーターをうまく学習させることができます。どうなっていると「良い」エポック数なのか学習の最終的な目標は、「汎化性能があるパラメータ集合を見つけること」です。そのため、訓練データへの精度が高く、且つ予測精度が高くなるように学習させてやることが重要です。よって、過学習を起こさずに、かつ訓練精度と予測精度が共に良いような、そんなエポック数を見つけることができれ

テクノロジー
2017/06/20 00:35

はてなブックマーク

はてなブックマーク

『St_Hakky’s blog』

【BigQuery】クエリの単体テストを書こうと思ったけど壁が厚くてどうしようか悩んでいる話 - St_Hakky’s blog

【Docker】docker-composeのCPU/メモリ使用量の制限 - St_Hakky’s blog

ECSを勉強するにあたって役に立った資料とメモ - St_Hakky’s blog

自然言語処理向けのデータ作成ツールの「doccano」を使ってみたので、まとめる - St_Hakky’s blog

【Python】Pandasのメモリ使用量の削減方法のまとめ - St_Hakky’s blog

推薦システムについて調べたのでまとめる - St_Hakky’s blog

【Python】loggingを複数ファイル・モジュール間で使う方法 - St_Hakky’s blog

データドリブンな組織に何故なるのかについて改めて考えてみる - St_Hakky’s blog

【データ分析の民主化】データドリブンな組織になるには何をしたらいいのか考えてみた - St_Hakky’s blog

今更感あるけど決定木について調べたのでまとめる - St_Hakky’s blog

決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog

「Xception: Deep Learning with Depthwise Separable Convolutions」を読んで勉強したので参考になった資料とかまとめておく - St_Hakky’s blog

【Python】実行時間を測定する方法まとめ - St_Hakky’s blog

【Python】数量データの正規化 ( 標準化 ) について - St_Hakky’s blog

【Python】functools.partial()で関数やメソッドの引数の一部を固定する部分適用を行う - St_Hakky’s blog

Boosting(ブースティング)について調べたのでまとめる：AdaBoost / Gradient Boosting / XGBoostなど - St_Hakky’s blog

【Deep Learning】 Batch sizeをどうやって決めるかについてまとめる - St_Hakky’s blog

Julia入門 - 入門者がまず読むべき参考サイトや本のまとめ【随時更新】 - St_Hakky’s blog

kerasでmultiple (複数の) 入力 / 出力 / 損失関数を扱う時のTipsをまとめる - St_Hakky’s blog

Bagging(バギング)について調べたのでまとめた：Out-of-Bag(OOB) / Random Forest / Decision Jungles / Deep Forest(gcForest) - St_Hakky’s blog

データ分析をするときのフォルダ構成をどうするのか問題について - St_Hakky’s blog

「異常検知と変化検知～機械学習プロフェッショナルシリーズ～」を読んで勉強会も開いて関連の情報とかも調べたのでまとめておく - St_Hakky’s blog

アンサンブル学習について勉強したのでまとめました：Bagging / Boosting / Stacking - St_Hakky’s blog

Gradient Boostingについて調べたのでまとめる - St_Hakky’s blog

エポック(epoch)数とは【機械学習 / Deep Learning】 - St_Hakky’s blog

時系列解析：自己相関係数, 定常性, White Noise, AR, MA, ARMA, ARIMA, ARIMAX, SARIMAについて【調べたら随時追加】 - St_Hakky’s blog

私は気をつけようと思う人事担当者の思考と行動あるある - St_Hakky’s blog

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『St_Hakky’s blog』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません