pythonに関するmasadreamのブックマーク (525)

  • GitHub - microsoft/hummingbird: Hummingbird compiles trained ML models into tensor computation for faster inference.

    Hummingbird is a library for compiling trained traditional ML models into tensor computations. Hummingbird allows users to seamlessly leverage neural network frameworks (such as PyTorch) to accelerate traditional ML models. Thanks to Hummingbird, users can benefit from: (1) all the current and future optimizations implemented in neural network frameworks; (2) native hardware acceleration; (3) havi

    GitHub - microsoft/hummingbird: Hummingbird compiles trained ML models into tensor computation for faster inference.
    masadream
    masadream 2020/06/07
    従来の機械学習モデルをPyToach経由で実行。GPU使えるので高速化。MS謹製。
  • 【入門】Pythonによる人工衛星データ解析(Google Colab環境) - Qiita

    はじめに 〜衛星データとは〜 人工衛星データとは、人工衛星を利用した“リモートセンシング”によって取得されたデータを指します。 これまで人工衛星データは専門ツールや大容量データ処理基盤が必要なため、利用できる組織は大学機関や一部の専門機関が限られていましたが、昨今のオープンソース・ライブラリの普及やデータ処理基盤のクラウド利用により、一般組織でも気軽に人工衛星データを扱える外部環境が整ってきました。 衛星データを利用することで、これまで取得することができなかった様々な場所・時間・対象の状態をビッグデータで解析することが期待できます。 そこで記事では、どの様にデータを扱うのかを、衛星データ解析の専門ツールを利用せず(最も身近なツールの一つであるpythonを利用)、誰でも気軽に試すために無償で利用方法を紹介していきたいと思います。 また、今回はビジネスや社会実装に利用イメージが沸きやすい衛

    【入門】Pythonによる人工衛星データ解析(Google Colab環境) - Qiita
  • 確率予測とCalibrationについて - 機械学習 Memo φ(・ω・ )

    概要 確率予測とCalibration(キャリブレーション)に関する勉強会に参加したので、学んだことの一部と、自分で調べてみたことについてまとめました。 概要 Calibrationとは Calibration Curve Calibrationの方法 Sigmoid / Platt Scale Isotonic Regression 確率予測に使われる評価指標 Brier Score ECE コード 不均衡データに対するCalibration LightGBMにCalibrationは不要か NNにCalibrationは不要か 追記 : Calibrationの検討について 追記 : 発表スライドについて 終わり techplay.jp 勉強会で使われていた言葉を、自分なりの言い方に変えています。 間違いがありましたら、コメントいただけたら嬉しいです。 Calibrationとは 普通

    確率予測とCalibrationについて - 機械学習 Memo φ(・ω・ )
    masadream
    masadream 2020/06/07
    「モデルの出力値を各クラスに属する確率に近づけること ( モデルの出力値を正解ラベルのクラス分布に近づけるということ ) を、Calibration(較正)」
  • InterpretML

    Comprehensive support for multiple types of models and algorithms, during training and inferencing Why InterpretML? Model Interpretability Model interpretability helps developers, data scientists and business stakeholders in the organization gain a comprehensive understanding of their machine learning models. It can also be used to debug models, explain predictions and enable auditing to meet comp

    masadream
    masadream 2020/05/24
    MSのExplainableAI。オープンソース。
  • 機械学習を用いた因果推論(因果推論手法の整理) - Qiita

    近年盛んにおこなわれている機械学習の手法を用いた因果推論についていつ利用するかの大まかな理解とメモ(備忘録) 基的には現在の因果推論手法のフローチャート的まとめ はじめに 因果推論とは、結果に対する原因を答えることを目的とした一連の統計的手法である。一般に回帰分析などの統計的アプローチでは、Xの変化がYの変化とどのように関連しているかを定量化することに重きをおいている。一方で統計的因果推論は、Xの変化がYの変化を引き起こすかどうかを判断し、この因果関係を定量化することに重きをおいている。近年盛んである機械学習と因果推論の融合分野は、このうち特定の条件下における因果効果の推定に用いられる。今回は既存の因果推論の手法と機械学習を用いた手法の使い分けを大まかに整理した。 当然だが有するデータに対して「何を、なぜ知りたいか?」を明確にしてから分析していく。 でないと、取るべき戦術が見えてこない。

    機械学習を用いた因果推論(因果推論手法の整理) - Qiita
  • BERTの精度を向上させる手法10選 - Qiita

    はじめに 自然言語処理タスクでBERTをfinetuningして使うことが当たり前になってきました。Kaggleなどのコンペや精度要件がきつい案件を行う場合に少しでも精度を向上させたいというシーンが増えてくると考えられます。そこで、精度向上手法をまとめます。タスクとしては分類タスクを想定しています。 文字数調整 学習済みのBERTに入力可能な単語数は最大512個です。そのため、512単語以上のテキストを使用する場合は特別な工夫が必要となります。ここの処理方法の変更が精度向上に寄与することが多いので要チェックです。 例として次のテキストから6単語取得することを考えます(句点も1単語とします) 吾輩 / は / / で / ある / 。 / 名前 / は / まだ / ない / 。 1. Head-Tail 吾輩 / は / / で / ある / 。 / 名前 / は / まだ / な

    BERTの精度を向上させる手法10選 - Qiita
  • PyStan / PyMC3 でベイズ統計モデリング - Qiita

    はじめに ベイズ統計モデリングは、データを確率モデル(確率分布とパラメータの関係式)に当てはめ、ある現象がどのように起こったか(=データがどのように生成されたか)を解釈し、将来のふるまいを予測するために用いられる手法です。 勾配ブースティング木やニューラルネットワークなどの機械学習の手法では、ある現象がどのように起こったか、つまり、説明変数と目的変数の関係についての背景知識がなくても、ある程度の予測性能を達成するモデルを構築することができます。しかし、構築したモデルはブラックボックスとなっており、結果の解釈が難しく、どの機械学習の手法が適切なのか(=汎化性能が十分なのか)の判断が難しい場合があります。 一方、ベイズ統計モデリングは、データを使って学習を行う前に、現象に関する背景知識(=データ生成に関する仮定)を確率モデルの形で組み込むことができます。つまり、ドメイン知識・基礎集計などによっ

    PyStan / PyMC3 でベイズ統計モデリング - Qiita
    masadream
    masadream 2020/05/24
    Pythonでのベイズモデリング。PyStanもかなり整備されてきた感あり。
  • pythonで寿司打を自動化してみた - Qiita

    概要 こちら、寿司打のQ&Aの ※寿司打は個人のタイピングの練習や上達を応援するサイトです。 それ以外の目的での使用や、外部ツールを使用した実験などは行わないでください。 という箇所に違反しているというご指摘がありましたので、内容を削除させていただきました。 利用規約違反になりますので、記事や他の記事をご覧になっても真似をして自動化しないでください。 ご迷惑をおかけいたしました。 寿司打 WebGL版 寿司打 Q&A 寿司打 利用規約

    pythonで寿司打を自動化してみた - Qiita
    masadream
    masadream 2020/05/14
    パワー系自動化w
  • 「関数型プログラミング」と「オブジェクト指向」ってなんやねんPython編 - Qiita

    こ の 記 事 は 土 木 専 攻 の エ ン ジ ニ ア が 鼻 水 た ら し な が ら 書 き 上 げ た 努 力 の 結 晶 で す 。 ご 指 摘 は マ サ カ リ で な く 真 っ 白 な タ オ ル で も 優 し く 投 げ て く だ さ い 。 ことの発端 ぼく「いやーしかしぼくもそこそこ長いことPyhton書いとるしもうPython完全に理解したんちゃうんかなー!」 ぼく「久々にdocs.python.orgでもみるかー。今見たら全部わかるんちゃうかwww」 ぼく「関数型プログラミング HOWTO…?何やねんそれ…」 ぼく「えーと…?ほとんどのプログラミング言語は手続き型?で、入力に対して行うべきことをコンピューターに教える指示リスト?オブジェクト指向?はオブジェクトの集まりを操作する。オブジェクトには内部状態があり、その状態を調べたり変更したりするためのメソッ

    「関数型プログラミング」と「オブジェクト指向」ってなんやねんPython編 - Qiita
  • ポケモンを題材に因果推論を実践してみる - kanayamaのブログ

    問題設定 有意差検定 交絡因子の存在 線形重回帰によるモデル化 回帰係数の推定 回帰係数の仮説検定 補足など 残差の分布について 他の交絡因子について データの生成方法について 参考文献 @tkanayama_です。最近「計量経済学*1」と「効果検証入門 *2」を読んだので、せっかくなので実際に手を動かすことによって理解の整理をしたいと思いました。 www.yuhikaku.co.jp gihyo.jp そこで今回は、人工データを用いて「ボールの性能と捕獲確率」の関係性を効果検証してみました(人工データの生成方法は記事の末尾に記述しました)。 問題設定 今は昔、モンスターボールしか存在せず、スーパーボールが世の中で出回り始めたばかりの頃、オーキド博士が「スーパーボールは当にモンスターボールより捕まえやすいのか?」という仮説を検証しようとしています。 そこでオーキド博士は世界中のトレーナー

    ポケモンを題材に因果推論を実践してみる - kanayamaのブログ
    masadream
    masadream 2020/05/11
    効果検証入門、人気ですね
  • データ分析のためのPythonを学び始める時につまずかないための6つのステップ

    ステップ1:学習すべき3要素を知るステップ2:環境構築をするステップ3:Pythonの基を覚えるステップ4:主要なライブラリをマスターするステップ5:データ分析の一連の流れを把握し、写経するステップ6:自分で一から分析する 各ステップは、それ以前のステップで習得した要素を必要とします。そのためステップは飛ばさずに理解していく必要があります。学習を進めていく中で前のステップを再度理解し直す場合もありますが、一度学習をしたステップの内容ならば2度目はすんなりと理解できるはずです。 以下、各ステップにおける内容をコツや注意点も含めてみていきます。 DXのお悩みを解決する「DXの羅針盤」をダウンロードする ステップ1:学習すべき3要素を知る「環境構築」、「Python言語の習得」、「分析作業の理解」が、Pythonデータ分析を始めるために必要な3要素です。 Pythonの文法ばかりを勉強してい

    データ分析のためのPythonを学び始める時につまずかないための6つのステップ
  • 握手会が延期になったので「効果検証入門」を読んで Python で (ほぼ) 実装した - 糞糞糞ネット弁慶

    効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 作者:安井 翔太発売日: 2019/12/27メディア: Kindle版 ゴールデンウィークの握手会が延期になり気力が完全に尽きてしまい(そもそも2020年のほとんどのイベントが延期または中止になっているわけですが),同じく握手会が延期になった友人と「アイドルシロクマのことを考えないでください状態になっていてつらい」「何か没頭できる事は無いの」という話になった結果,「効果検証入門」を読んだ. 「どうせ読むのならば短期集中で」ということで,一日目午後に1章と2章,二日目午前に3章,午後に4章,三日目午前に5章のペースで Zoom で交互に節単位を音読しながら進めた.2020年,30歳を過ぎて音読. 感想 数学力が低い自分でわかった気分になれる,非常に参考になった.明日からでも試したい.随所に「実際のビジネスの現場ではこんな滅茶苦茶

    握手会が延期になったので「効果検証入門」を読んで Python で (ほぼ) 実装した - 糞糞糞ネット弁慶
  • AIエンジニアが気をつけたいPython実装のノウハウ・コツまとめ - Qiita

    記事では、データサイエンティスト、AIエンジニアの方がPythonでプログラムを実装する際に気をつけたいポイント、コツ、ノウハウを私なりにまとめています。 AIエンジニア向け記事シリーズの一覧 その1. AIエンジニアが気をつけたいPython実装のノウハウ・コツまとめ(記事) その2. AIエンジニアが知っておきたいAI新ビジネス立案のノウハウ・コツまとめ 2020年4月に書籍を、出版しました。 【書籍】 AIエンジニアを目指す人のための機械学習入門 実装しながらアルゴリズムの流れを学ぶ(電通国際情報サービス 清水琢也、小川雄太郎 、技術評論社) https://www.amazon.co.jp/dp/4297112094/ 投稿は、上記の書籍に書ききれなかった 「AIエンジニアが、Pythonでプログラムを実装する際に気をつけたいことのまとめ」 です。 記事の内容は、あくまで筆

    AIエンジニアが気をつけたいPython実装のノウハウ・コツまとめ - Qiita
    masadream
    masadream 2020/05/11
    データサイエンティストもきちんと意識してコード書かないといけない時代が来てる。
  • 機械学習モデルを構築するときに考えることと、全体の流れ - まずは蝋の翼から。

    初の機械学習プロジェクト仕事でおこなった。その際に、各プロセスでこういう部分をみたり考えたりした方が良さそうだと思ったことをまとめる。 なお、機械学習プロジェクトの話は「仕事ではじめる機械学習」をはじめとして既に色々なところで議論されている*1。しかし、いくつか読んだがマクロな話が中心だったので、どちらかというとミクロ部分の機械学習モデルを構築する という部分を中心に書く。 なお、経験者から指摘されたり教えられた点を1度機械学習プロジェクトをやっていったんまとめただけなので、今後追加・修正される暫定版なことに注意。 ワークフロー 機械学習プロジェクトのワークフローはざっくりと以下のようになる。 1. 要件を定める やることとしては、 目的 スケジュール 期待値 どの程度の精度ならよいか どのようなアプローチを取るか を決める。 このあたりの話は、前述のように「仕事ではじめる機械学習」など

    機械学習モデルを構築するときに考えることと、全体の流れ - まずは蝋の翼から。
    masadream
    masadream 2020/05/11
    ポイントがまとまっていて良記事。
  • 機械学習モデルの説明性・解釈性について -SHAPによる実践あり-|はやぶさの技術ノート

    機械学習とタスクについて 回帰や分類などのタスクに機械学習モデルを活用することがあります。 例えば、以下の記事ではフクロウの種類を分類するために深層学習モデルを活用しています。 PyTorch Lightning入門から実践まで -自前データセットで学習し画像分類モデルを生成-ディープラーニングフレームワークPytorchの軽量ラッパー”pytorch-lightning”の入門から実践までのチュートリアル記事を書きました。自前データセットを学習して画像分類モデルを生成し、そのモデルを使って推論するところまでソースコード付で解説しています。...

    機械学習モデルの説明性・解釈性について -SHAPによる実践あり-|はやぶさの技術ノート
  • 機械学習のための日本語前処理 - Qiita

    はじめに 機械学習を使ったチャットボットの仕組みを理解するために、テキストを訓練データとする簡単なニューラルネットワークを作成した際の備忘録。 目的 英文テキストで作成したルールベース型チャットボットを、日語テキストにも適用して動作させること。日語テキストを前処理し、それをニューラルネットワークへ通せることを確認する。訓練データとして、Niantic社の"Pokemon GO"に関連したサポートページをWebスクレイピングしたものを使用した。 Nianticサポートページ 使用しているCSVファイル(GitHub) マルチクラス分類 予め用意された応答文を入力にあわせて返す「ルールベース型」を参考に、"Intents"(意図)を識別して予測するマルチクラス分類の部分までを形にした。 「生成型」ではなく、入力情報から関連した「よくある質問(FAQ)」を予測するものであるため、”RNN”で

    機械学習のための日本語前処理 - Qiita
  • PyCaretでできる前処理について調べてみた - Qiita

    適宜修正や追記を行いながら、勉強した内容を共有していきたいと思います。 ※現状、主に回帰タスクにフォーカスして書いています。 他のタスクにおいては、仕様が異なる箇所があるかもしれませんので留意ください。 (ざっと確認している範囲では、タスク間で概ね仕様は共通な様です。) ドキュメントについて PyCaretの前処理にフォーカスしています。 基的に、モデリングやチューニングなどの部分には触れておりません。 実際に動かしつつ、家ソースコードを読んだりもしながら記述しております。 https://github.com/pycaret/pycaret ※誤ってる箇所もあるかもしれませんが、あらかじめご了承ください。 実装上の前提 次のように各種ライブラリはimportしているものとします。

    PyCaretでできる前処理について調べてみた - Qiita
    masadream
    masadream 2020/05/03
    網羅的で良記事。それにしてもPyCaret便利ね…
  • catboostの推論の仕組みを理解する (1/2)|Yotaro Katayama

    この記事の目的catboostというライブラリがあります。GBDT(Gradient Boosting Decesion Tree )という決定木をアンサンブルする方式の識別モデルを学習するものです。同様のライブラリは他にはXGBoostやLightGBMなどが有名です。 GBDTって何やっているの?というのは以下のXGBoostのドキュメントの画像がわかりやすいです。要は、複数の決定木が存在していて、その結果をあわせて結果を決定(アンサンブル)しているわけです。学習に応じて徐々に木を追加していくのですが、どうやって新しい木を追加していくかのやり方に、「Gradient Boosting」という手法を使っている、というイメージです。catboostは、カテゴリカル変数の扱いに新しい手法を導入していて、論文にもなっています。catboostの"cat"はcatgoryの"cat"なのですね(

    catboostの推論の仕組みを理解する (1/2)|Yotaro Katayama
  • Python 2最終バージョン、Python 2.7.18リリース | スラド デベロッパー

    Python Software Foundationは20日、Python 2最終バージョンとなるPython 2.7.18をリリースした(Python-Devメーリングリスト投稿、 The Registerの記事、 InfoWorldの記事、 Sunsetting Python 2)。 既にPython 2のサポートは1月1日で終了しているが、最終バージョンの2.7.18はPyCon 2020開催に合わせて4月にリリースすることが予告されていた。ただし、リリースマネージャーは1月1日に開発の停止とコードベースの凍結を行っており、変更は前バージョン2.7.17のリリースされた2019年10月19日から2020年1月1日までに追加された改善点のみとなる。Python 3からのバックポートは含まれない。 なお、サポート期間内の商用Linuxディストリビューションに同梱されているPython 2

  • 気象要素を計算するPythonモジュールを公開します - Qiita

    はじめに 気象関係の要素を計算する関数、例えば気温と相対湿度から露点温度を求める関数などを集めたPythonモジュール wxparams を作ったので、公開します。 (Weather Parametersの略) Pythonを始める前はPerlで気象データを処理するスクリプトをよく書いていて、やはり気象関係でよく使う関数をPerlモジュールにまとめていました。コロナ禍の影響で家で過ごす時間が増えたので(笑)、この機にPythonに書き換えようと思ったのがきっかけです。 どうせ作るなら公開してしまおうということで、ソースコードはGitHub、コード例などの使い方はnote、マニュアルとして関数の説明などはこの記事にまとめました。 Ver1.0 : 2020/04/24 Ver1.1 : 2020/05/27 気温の単位:摂氏 <=> 華氏の変換を追加 Ver1.2 : 2020/10/03

    気象要素を計算するPythonモジュールを公開します - Qiita
    masadream
    masadream 2020/04/27
    これはすごい