タグ

ブックマーク / qiita.com/c60evaporator (8)

  • 【S3】AWSのデータレイク機能まとめ - Qiita

    はじめに 記事では、AWSにおいてデータレイクを構築してデータ分析に活用するためのサービスを紹介します。AWSにおいては基的にS3がデータレイクにおける基盤となるため、以下の記事も併せて参照ください データレイクとは データレイクとは構造化、非構造化を問わず様々な形式のデータを大量に保管するための仕組みで、主にビッグデータ分析に用いられます。 ビッグデータ分析用のデータ保管方法には、他にもデータウェアハウス(DWH)が挙げられますが、DWHは構造化されたデータベース形式でデータを保持するのに対し、データレイクはCSVやテキストファイル、画像のような非構造化データも保存できる事が特徴です。 ビッグデータ分析の特徴として、数千万行(レコード)以上の大容量データを分析対象として扱う事が挙げられます。このような大容量データを扱うことで、以下のようなメリットとデメリットが生じます。 データレイク

    【S3】AWSのデータレイク機能まとめ - Qiita
    misshiki
    misshiki 2023/07/10
    “AWSにおいては基本的にS3がデータレイクの基盤の役割を果たします。” データレイクのメリットデメリットから、AWSのデータレイク向けサービスについて、Python SDKによる各サービスの使い方までを紹介。
  • Pythonのパッケージ管理ベストプラクティス - Qiita

    ※おすすめの基準には上記「導入の手軽さ」「学習の手軽さ」「パッケージ依存関係の解決」以外に、「対象OSとの相性」「検索による情報の見つかりやすさ」を考慮しています。詳しくは後述します 筆者の主観が入りますが、概ね以下のフローチャートのように選択すると良いかと思います (詳しくは後述します) なお、実用上ハマりやすいプロキシ環境での使用方法についても、以下の記事に別途まとめました 必要知識 ここから先は、Pythonのパッケージ管理が何をやっているかを解説します。 「御託はいいから早く使いたい!」という方は、「3種類の方法比較」の項目まで飛んでください まず、一般的に「パッケージ管理」と呼ばれている要素を、以下の4つの機能に分割して考える必要があります。 A. インタプリタ切替 (Pythonのバージョンを切り替える) B. パッケージ切替 (パッケージのバージョンを切り替える) C. パッ

    Pythonのパッケージ管理ベストプラクティス - Qiita
    misshiki
    misshiki 2023/03/07
    選択フローチャートだけでなく、各インストール方法も含めて書かれている。
  • 【MLOps】「いつか使いたい!」と思っていた人のためのMLflowまとめ - Qiita

    MLflowとは? MLflowは機械学習のライフサイクル管理(MLOps)を目的としたライブラリで、主に実験管理用途で使用されることの多いツールです。 実験管理とは、 ・使用した学習器や学習データ、ハイパーパラメータ等のモデル作成条件 ・そのモデルを評価して得られた評価指標 のセットを記録し、複数条件の比較を行うことで最適なモデル選定を行う工程です。 このような条件記録はExcel等での手入力が一般的かと思いますが、 「手入力は時間が掛かる!」 「手入力をミスして苦労して集めた結果が信頼できなくなった」 という経験をされた方も多いかと思います 上記のような経験から、MLflowにより実験管理を自動化すれば、多くのメリットが得られることはイメージが付くかと思います。 MLflowは2018年リリースの比較的新しいライブラリですが、GitHubのStarは既に1万を突破しており、下図のように

    【MLOps】「いつか使いたい!」と思っていた人のためのMLflowまとめ - Qiita
    misshiki
    misshiki 2022/01/25
    MLflow“MLOps系ツールの中でも特に伸びが著しい”
  • 機械学習の評価に便利なROC曲線の描画ライブラリを作ってみた - Qiita

    はじめに 機械学習において性能評価は欠かせない手順のひとつですが、 分類タスクにおける性能評価によく使われるのが、ROC曲線です。 PythonでROC曲線を描画するには、Scikit-Learnのplot_roc_curve(←Scikit-Learn1.2で削除されました)RocCurveDisplay.from_estimatorというメソッドを使用するのが一般的ですが、このメソッド、多クラス分類やクロスバリデーションでの描画が出来ない等、制約が多いです。 そこで今回、これらの制約をクリアすべく、 ・多クラス分類のROC曲線描画 ・クロスバリデーションのROC曲線描画 を実現するライブラリを作成しました。 機能はこちらの記事で紹介したseaborn-analyzerライブラリに、plot_roc_curve_multiclass()メソッドおよびroc_plot()メソッドとして追

    機械学習の評価に便利なROC曲線の描画ライブラリを作ってみた - Qiita
    misshiki
    misshiki 2021/11/22
    “多クラス分類のROC曲線描画、 クロスバリデーションのROC曲線描画 を実現”“seaborn-analyzerライブラリに、plot_roc_curve_multiclass()メソッドおよびroc_plot()メソッドとして追加”
  • Pythonでデータの挙動を見やすくする可視化ツールを作成してみた まとめ編 - Qiita

    コードはGitHubにもアップロードしております おすすめ機能 個人的に使用頻度の高い機能を紹介します おすすめ1:CustomPairPlot.pairanalyzer 相関係数と散布図行列を一括表示します。 分析の初期段階でデータを一括で可視化したいときにオススメです。 Rのggplot2ではほぼ同様の図が出力可能ですが、なぜかPythonには同様のツールがなかったので、作成しました。 散布図では表示が重なり見辛い離散変数は、自動で箱ひげ図とバブルチャートに変更する機能も追加しています。 from seaborn_analyzer import CustomPairPlot import seaborn as sns titanic = sns.load_dataset("titanic") cp = CustomPairPlot() cp.pairanalyzer(titanic,

    Pythonでデータの挙動を見やすくする可視化ツールを作成してみた まとめ編 - Qiita
    misshiki
    misshiki 2021/08/11
    “全機能をまとめて「seaborn-analyzer」としてライブラリ化し、概要を本記事にまとめました!”
  • 機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita

    はじめに 私はこれまで機械学習のパラメータチューニングに関し、様々な書籍やサイトで学習を進めてきました。 しかしどれもテクニックの解説が主体のものが多く、 「なぜチューニングが必要なのか?」 という目的に関する記載が非常に少なかったため、体系的な理解に苦労しました。 この経験を後世に役立てられるよう、「初心者でも体系的に理解できる丁寧さ!」をモットーに記事にまとめたいと思います。 具体的には、 1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。 独自解釈も含まれるため、間違っている点等ございましたら指摘頂けると有難いです。 なお、文中のコードはこちらのGitHubにもアップロードしております。 2021/9/6追記:LightGBMのチューニング実行例追加 以下の記事に、Ligh

    機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita
    misshiki
    misshiki 2021/06/07
    “1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。”
  • 機械学習で「メリットが分かりづらい」と思われがちなパイプラインを分かりやすく解説 - Qiita

    機械学習とパイプライン エンジニアの皆さんは、「パイプライン」といえば何を思い浮かべるでしょうか? 恐らく多くの人は、 ①最近ハッキングされたことで話題の、石油輸送管 ②基情報試験などで頻出の、CPUの並行命令実行の仕組み を思い浮かべるかと思います。 ※画像はWikipediaより 機械学習分野でも、Scikit-LearnやMLOps系のツールにおいて頻出する用語であり、 何となく、「複数の処理を連続で行う仕組み」といったイメージを持たれている方が多いかと思います。 ですが、連続処理なら各処理を順番に実装すれば同様の機能を実現できるため、正直 「メリットがよく分からん!」 と思われている方も多いかと思います。 私もそう思っていましたが、調べてみると、場面によっては必要不可欠と言えるようなメリットがある事が分かったので、 記事にまとめようと思います パイプラインとは? パイプラインの概

    機械学習で「メリットが分かりづらい」と思われがちなパイプラインを分かりやすく解説 - Qiita
    misshiki
    misshiki 2021/05/31
    “機械学習パイプラインは、複数の処理を結合し、あたかも1つの学習器のように学習・推論を行える仕組み”
  • Pythonでデータの挙動を見やすくする可視化ツールを作成してみた - Qiita

    ※アンダースコアのpip install seaborn_analyzerでもインストール可能です。 インポート時はアンダースコアのimport seaborn_analyzerやfrom seaborn_analyzer となるのでご注意ください コード モジュールcustom_pair_plot.py内のクラスCustomPairPlotに、必要な処理をまとめました。 GitHubにもアップロードしています モジュール体 import seaborn as sns import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy import stats class CustomPairPlot(): #初期化 def __init__(self): self.df = None sel

    Pythonでデータの挙動を見やすくする可視化ツールを作成してみた - Qiita
    misshiki
    misshiki 2020/07/27
    “Pythonのグラフ描画ライブラリ「seaborn」をベースにして、 相関係数や散布図などを一括で確認できる可視化ツールを作ってみました。”
  • 1