タグ

ブックマーク / qiita.com/piyo7 (5)

  • 解釈可能なルールを学習するskope-rulesのアルゴリズム 〜Microsoft ResearchのlnterpretMLからも使えるよ〜 - Qiita

    skope-rules というルール学習ライブラリを見つけました。 scikit-learn-contrib のプロジェクトです。 試しに、みんな大好きアイリスデータセットのサンプルコードを実行してみると次のようなルールが得られます。 Rules for iris virginica ('petal_length > 4.75 and petal_width > 1.75', (0.9743589743589743, 0.9047619047619048, 1)) ('petal_width > 1.6500000357627869', (0.9514316093263462, 0.9218081435472739, 3)) ('petal_length > 5.049999952316284', (0.9696691176470589, 0.8007518796992481, 2)) 1

    解釈可能なルールを学習するskope-rulesのアルゴリズム 〜Microsoft ResearchのlnterpretMLからも使えるよ〜 - Qiita
    sh19910711
    sh19910711 2024/04/15
    "機械学習モデルの解釈性: モデルが発見した知識を自分も獲得したい + 自分なりの思考や勘を入れこんで知識をアレンジしたり転用したりしたい / RuleFit: skope-rules と同じように決定木からルールを得る" 2020
  • Python Pandasはバッチ処理に向いてない - Qiita

    Pandasって? Pandasは、DataFrameという表形式のデータ構造を中心に、様々なデータ処理ができるライブラリ。 データベースでいうところのテーブルなので、SQL知ってればすぐに入門できる。Pythonデータ分析する人にはお馴染み。 どういう経緯で導入したの? 伝聞情報も多いけれど、こんな流れで開発チームに導入されたのだと思う。 オンプレミスとクラウドのハイブリッド化が進み、どんどんデータベース・ストレージが分散していく。 データフローの管理が課題となり、Pythonでデータフローを組めるLuigiが導入される。 当初、Luigiは主にデータベース・ストレージへの入出力を担う予定だった。 チームの共通言語がScalaな事もあり、ロジックは外に切りだして堅く実装する予定だった。 Luigiから各データベース・ストレージへ接続できる環境を作る。 簡単な転送やレポートのデータフロー

    Python Pandasはバッチ処理に向いてない - Qiita
    sh19910711
    sh19910711 2023/06/24
    "簡単な転送やレポートのデータフローがLuigiで組まれていく / 改修が進みだんだんとフィルタ・結合・集計といった処理が入りこんで自然とPandasが使われる / 気づけばいくつかのバッチ処理がPandasに依存している状態" / 2017
  • 競技プログラミングAI「AlphaCode」のコードレビューをしてみた 😱 - Qiita

    DeepMindのAlphaシリーズ最新作「AlphaCode」が、競技プログラマーの標準レベル(Codeforces TOP 54%)に達したとの発表がありました。 AlphaCodeは今をときめくTransformer系のディープラーニングで、課題文を入力すると解答プログラムを出力する自然言語処理を行います。そうです、これはすなわちプログラミングをするプログラムです。マジかよ……。 詳しい手法については公式ブログや論文を参照してほしいのですが、DeepMindは別途いくつかの解答例について正誤あわせて確認できるデモサイトも用意していて、これがめちゃくちゃ面白いです。 ええ、こちとら天然物のプログラマーです。人工知能とやらが絵や写真を自動生成しはじめたあたりはまだ笑って眺めていられましたが、我々の崇高なるプログラミング領域を侵されるとなってはたまりません。いうて大したことないやろ的な、上

    競技プログラミングAI「AlphaCode」のコードレビューをしてみた 😱 - Qiita
    sh19910711
    sh19910711 2022/07/18
    "AlphaCode: 競技プログラマーの標準レベル(Codeforces TOP 54%)に達したとの発表 (2022.03) + いくつかの解答例について正誤あわせて確認できるデモサイトも用意 / その中にいくつかPetr Mitrichev氏による評価文付きのものが"
  • ブラックボックス化したデータ基盤を作りなおすことを決意した貴方へ

    ここ一年くらいデータパイプラインを基盤ごと作りなおしていました。毎時一億レコードくらいは捌くやつです。 わりと長く続いているプロダクトのため、いわゆる技術的負債が溜まっていたりブラックボックス化していたところも多く、当初はエンジニアを倍くらいに増やさないと対処できない見込みでしたが、みんなで奮闘した結果、チームサイズを変えず新規開発の手も止めずに、目立ったダウンタイムや障害なく移行することができました。 振り返って「こうしておいてよかった」「こうしておけばよかった」と思うところを書き残しておこうと思います。また同じようなことに直面した未来の私へ、もしくは貴方へ。 0. 不吉な匂いを嗅ぎわけよう とあるプロダクトにジョインした貴方は、なにかしら不吉な匂いを感じました。 そうです、みんなお馴染み「不吉な匂い」です。たとえば次のようなことがあったのでしょう。 使っているライブラリやフレームワーク

    ブラックボックス化したデータ基盤を作りなおすことを決意した貴方へ
    sh19910711
    sh19910711 2021/11/14
    "漸進的にする + スケジュールの見通しは小まめに共有 > 見積もりというものは恐ろしく難しく + 人間には無理 + 作りなおしは外部から成果が見えにくい + 遅れが目立ってくると、その意義が問いなおされてしまう"
  • Spark SQLによるビッグデータ集計をチューニングするために分散処理の基礎から駈けぬける速習ガイド - Qiita

    NetflixはSparkでペタバイト級の集計をやってるらしいですね〜」(2015年の発表) 「AWSEMRとかGCPのDataprocあたりでSpark環境を用意してみました。ふふん」 「とりまクラスタ立ててみましたけど、全然パフォーマンスでないんですけど?」 「っていうか何が起きてるかよく分からないし……分散処理とか馴染みないし……」 という感じの方が、とりあえずSpark SQLの実行計画やWeb UIの情報をざっくり読みとってチューニングできるようになるための道筋を示すことが記事の目的です。 Sparkの良い解説記事は沢山あるものの話題が多岐に渡り初心者は迷子になりやすいので、それらの主要図を引用しながら駆けぬけていく感じでいきます>< Cluster Manager Sparkはクラスターの上でデータを処理しますが、その管理はクラスターマネージャー(リソースマネージャー)に

    Spark SQLによるビッグデータ集計をチューニングするために分散処理の基礎から駈けぬける速習ガイド - Qiita
    sh19910711
    sh19910711 2021/11/14
    "Apache Arrowの主要メンバーにはPandasの作者Wes McKinney / Pandas UDFはApache Arrowでデータを受け渡す / Datasetがなかった昔のSparkではRDD操作をユーザーが直接コーディングしていた"
  • 1