並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 38 件 / 38件

新着順 人気順

seabornの検索結果1 - 38 件 / 38件

  • ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita

    ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた機械学習データ分析キャリアデータサイエンスデータサイエンティスト Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。 言語、基盤、アプリ、かなり網羅されています。 その中のAI and Data Scientist Roadmapについての推薦図書まとめです。 雑感 これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては ビジネス、ドメイン知識や分析目的定義などのスキルについて言及がないのは残念。 いきなり数学から入るコースになってますが、一旦は飛ばしてコード写経してから戻ってきても良いと思います。ここで挫折すると勿体無いので。 計量経済学重視の観点はいいですね

      ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita
    • データ分析の基礎 - Qiita

      1. データ分析の概要と目的 データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。 このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。 データ分析の主な目的は以下の通りです ビジネスの意思決定をサポートする 新しい市場の機会を発見する 顧客の行動や傾向を理解する 製品やサービスの改善 予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonはデータ分析のための多くのライブラリを持っています。 以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習の

        データ分析の基礎 - Qiita
      • 【図解】Pythonのライブラリ 24選+α - Qiita

        Pythonにはライブラリが沢山あります。ライブラリとは便利な機能を持ったプログラムを集めたものを言い、このライブラリを上手く使うことで色々なことを実現できます。 今回はこのライブラリを用途別で図解にまとめました。 Pythonでプログラムを組む際の参考になりましたら幸いです。 ※簡単にまとめているだけなので、詳しい中身は公式ドキュメント等をご確認ください。 追記(2023/12/25) 当記事がありがたいことに好評いただけたので、Pythonの基礎も図解化しました。あわせてご活用いただけますと幸いです。 機械学習 機械学習 ⊃ 深層学習という包含関係です。 ざっくり言うと、特定のタスク(分析の方向性が明確)に対して予測できるのが機械学習で、より複雑なデータも処理できるのが深層学習です。 ただし深層学習はその分、学習に要する時間やデータは多くなります。 【機械学習入門】scikit-lea

          【図解】Pythonのライブラリ 24選+α - Qiita
        • 「Excel」にPythonを統合、データ分析と可視化のスムーズなワークフローを実現

          「Python」は現在、最も人気のあるプログラミング言語の1つである。Webアプリの開発から、近年需要が伸びているデータ分析や機械学習、深層学習といった幅広い分野で利用されている。コードが分かりやすく、読みやすいため、プログラミング知識が少ない人でも扱いやすい。そのため、企業や学生の間でも利用が増えている。そのPythonを、データの整理、操作、分析の定番ツールであるMicrosoftの「Excel」で簡単に扱えるようになる。 米Microsoftは8月22日(現地時間)、開発プレビュープログラム「Microsoft 365 Insiders」のベータ・チャネルで「Python in Excel」のプレビューテストを開始した。まずはWindows用Excel(build 16818)からロールアウトし、他のプラットフォームにも拡大する予定。 セットアップや追加のインストールは不要。Pyth

            「Excel」にPythonを統合、データ分析と可視化のスムーズなワークフローを実現
          • ChatGPT「Code Interpreter」とは?何ができる?データ分析能力が飛躍的向上のワケ

            Code Interpreterとは? 何ができる? 年平均35%以上で成長し、2030年には1,093億ドルに達すると予想される生成AI市場。ChatGPTを展開するOpenAIが主導権を握っていると思われるが、Bardを擁するグーグルのほか、AlphaGoの技術を活用したチャットボットGeminiを開発するディープマインド、ChatGPTよりも強い記憶力を売りとするClaude2をリリースしたAnthropicなど、競合がひしめきあい、競争が激しい市場となっている。 生成AIトレンドの火付け役となったOpenAIは優位性を維持するために、ChatGPTのプラグインを拡充するなどさまざまな施策を展開中だ。ChatGPTにおける直近のアップデートで特に注目されているのが「Code Interpreter」のリリースだろう。 Code Interpreterの存在が明らかにされたのは3月23

              ChatGPT「Code Interpreter」とは?何ができる?データ分析能力が飛躍的向上のワケ
            • Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.

              September Update Python in Excel is now available to all Enterprise, Business, Education, and Family and Personal users running Beta Channel on Windows. This feature will roll out to Excel for Windows first, starting with build 16.0.16818.20000, and then to the other platforms at a later date. Since its inception, Microsoft Excel has changed how people organize, analyze, and visualize their data,

                Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.
              • Open Interpreter - Qiita

                text = """ SeabornのTitanicデータセットを使いLightGBM,XGBoost,CatBoostおよび3つのモデルのアンサンブルした場合で どれが最も精度が良いか検証してください.検証する際は4foldのクロスバリデーションの結果の平均値としてください. 全て日本語で対応してください. """ # return_massagesは出力結果のデータを変数として保持するため引数 # 出力結果はmassagesにも保存される messages = interpreter.chat(text, return_messages=True) 了解しました。以下の手順で進めていきます。 1 必要なライブラリをインストールします。これには、seaborn(データセットの取得)、pandas(データの操作)、numpy cikit-learn(クロスバリデーションと精度評価)、lig

                  Open Interpreter - Qiita
                • ヤバいデータ分析(書籍・記事であまり扱われてないが重要なこと) - Qiita

                  まえがき データ分析はなんて広いんだろう。影響力の強まりに応じ、自然・社会・人間ほぼすべてが対象となりどんどん拡大していく。対象に応じ手法も広がり複雑化し、学ぶべきことが多すぎる。データサイエンティスト協会のスキルチェックリストVer.3.001(ごめんもう4.00が出てるね)も500超の項目があります。読むべき図書も良書と思われるものだけでも増え続けており、もう手に負えない状況です。 ただ、これはやってはだめだ、ここを知らないと道に迷う、という絶対に知っておくべき点は学べる範囲だと思います。本書では、データ分析において間違えやすい、誤解しやすい点を共有し、データ分析全体をよくする目的で、かつ データ分析の入門書・専門書に分野ごとには書かれてはいますが1つにまとまっておらず目に触れにくいもの データ分析の入門書・専門書でもスルーされていたり場合によっては誤っていると思われるもの で自分なり

                    ヤバいデータ分析(書籍・記事であまり扱われてないが重要なこと) - Qiita
                  • Google Cloud Run と AWS Lambda のコールドスタート時間を言語別に観察してみる - Qiita

                    コンテナをリクエスト処理時間ベースの料金体系で実行できるサーバレス環境としては、Google の Cloud Run(2019年11月GA)と AWS Lambda(2020年12月にコンテナに対応)が特に有名でしょう。 これらの環境は、一度起動したコンテナインスタンスをしばらく生かしておき、その後のリクエストに使いまわします。しかし、生きているインスタンスが足りない場合は新たなコンテナの起動から始めるいわゆる「コールドスタート」となり、応答のオーバーヘッドが大きく増加します。用途によっては、このコールドスタートにかかる時間が問題になります。 Cloud Run と Lambda でのコールドスタートの様子を観察するため、いくつかの言語で "Hello, World!" を返すだけのWebアプリコンテナを作り、コールドスタートの時間を「雑に」観察してみました。 注意: コストや性能は考慮し

                      Google Cloud Run と AWS Lambda のコールドスタート時間を言語別に観察してみる - Qiita
                    • ExcelでPythonを使えるようにするとMicrosoftが発表

                      Microsoftが表計算ソフト「Excel」上でPythonを動作させることを可能にすると発表しました。Microsoft 365 Insider Programを通して使用できるベータ版のExcelで既にPythonが利用可能になっています。 Announcing Python in Excel https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439 新たに導入される「PY」関数を使用すると、セルに直接Pythonのスクリプトを書き込むことができ、書き込まれたスクリプトがMicrosoft Cloud上で実行されてシートに結果が表示されます。サーバーで実行されるPythonにはデータ分析用

                        ExcelでPythonを使えるようにするとMicrosoftが発表
                      • scikit-learn入門&使い方 ― 機械学習の流れを学ぼう

                        連載目次 前回は、機械学習の基礎と、主要なPythonライブラリの概要を説明しました。 今回は、Pythonを使った機械学習プログラミングの基本的な流れを、実際にコードを書きながら体験的に学んでいきましょう。具体的には、データの読み込みと加工から、グラフによる可視化、統計的な数値計算、そして簡単な機械学習モデルの構築まで、基本的な一連の流れを体験できます(図1)。 今回で学べること 図1の通り、機械学習プログラミングの基本的な流れに沿って進めると、第1回で紹介した主要なPythonライブラリ(pandas、NumPy、Matplotlib、seaborn、scikit-learnなど)を各場面で使い分けることになります。 各ライブラリを深く理解して使いこなすためには、個別に詳しく学ぶことが必要です。ただし本連載では、詳細には触れず、実践で役立つ基本的な使用例に絞って説明します。もっと深く掘

                          scikit-learn入門&使い方 ― 機械学習の流れを学ぼう
                        • 【入門者向け】Python in Excelが発表!そろそろプログラミング勉強すべき? - Qiita

                          2023年8月にPython in excel が発表されました。X(旧Twitter)を見ていると「いよいよプログラミングを勉強するべき?」というポスト(ツイート)をいくつか拝見しました。流行りに乗ることはとっても良いことですが、本当に必要なのかどうかは考える必要があると思います。なので今回は簡単ではありますが、Python in Excel、VBA、マクロ、Pythonあたりをまとめたいと思います。 追記 動画バージョンを作成しました。パワーポイントにまとめていますので、聞き流したい方はこちらをご活用ください。 Python in Excel 一言で言うとアナリスト向けと言った感じです。現状はMatplotlibやseabornを使ったグラフ作成(棒グラフ、折れ線グラフ、ヒートマップなど)や、scikit-learnやstatsmodelsを活用した、機械学習の適用が可能です。コードは

                            【入門者向け】Python in Excelが発表!そろそろプログラミング勉強すべき? - Qiita
                          • Pythonデータサイエンスハンドブック 第2版

                            Pythonのデータサイエンス用のツールを使いこなすための実用的な情報が詰め込まれたリファレンスの待望の改訂版です。IPythonとJupyter、NumPy、pandas、Matplotlib、scikit-learnを利用し、データの操作、可視化、行列計算、時系列解析、統計分析、機械学習、データモデルの構築、複雑な科学計算まで、幅広いトピックをカバー。それぞれのトピックについて、押さえておくべき基本、tips、便利なコマンドなどを紹介します。Pythonでデータ処理を行う人にとってはいつも手元に置いておきたい「使える」一冊です。 『Python Data Science Handbook, Second Edition』への称賛 訳者まえがき はじめに Ⅰ部 Jupyter:Pythonより優れたPython 1章 IPython、Jupyter入門 1.1 IPythonシェルの起動

                              Pythonデータサイエンスハンドブック 第2版
                            • PyMC-MarketingによるBayesian Marketing Mix Modeling - Qiita

                              この記事は確率的プログラミング言語 Advent Calendar 202317日目の記事です。 ゼミで勉強したStanとRでベイズ統計モデリング(通称:アヒル本)著者である @hankagosa 氏の開催するアドベントカレンダーに参加でき嬉しく思います。このような機会を用意していただきありがとうございます。 それでは本題に入ります。 はじめに 2023/4/6にPyMC-Marketingが発表されました。PyMCの派生ライブラリでマーケティング領域に特化しています。 PyMC Labs is excited to announce the initial release of PyMC-Marketing. Unlock the power of marketing analytics with PyMC-Marketing – the open source solution for

                                PyMC-MarketingによるBayesian Marketing Mix Modeling - Qiita
                              • マイクロソフト、「Excel」にPythonを統合--パブリックプレビュー公開

                                Microsoftは米国時間8月22日、「Python in Excel」のパブリックプレビューを公開したと発表した。この追加機能により、ユーザーはスプレッドシートに直接「Python」のコードを入力できるようになる。 Python in Excelにより、データアナリスト、エンジニア、マーケターや、データサイエンスを学ぶ学生などは、ExcelでPythonコードを使って複雑な統計分析、高度な可視化、機械学習を実行できる。 このプレビュー版では、Excelのリボン内にある関数セクションで「Insert Python」>「Try preview」の順に選択すると、ダイアログが表示される。PythonはExcelに直接統合されているため、追加のソフトウェアをインストールする必要はない。 Microsoftはこの新機能について、データサイエンティストやエンジニア向けでありながら初心者でも使いやす

                                  マイクロソフト、「Excel」にPythonを統合--パブリックプレビュー公開
                                • データサイエンティストはテストコードを書いてコーディング規約を守ろう - Qiita

                                  データサイエンティストの書くコードは汚い あなたはデータサイエンティストでしょうか?この記事ではデータサイエンティストが学んでおくべきソフトウェア開発技法のうち、筆者が特に重要と考えることについて実践的に学んでいきます。 あなたがデータサイエンティストという肩書きで働いている場合、あなたが書いているコードは汚い可能性が高いでしょう。どう汚いかというと、ソフトウェアエンジニアにコードをそのまま渡し、ソフトウェアやシステムに組み込んでくれと頼んだ場合、まず間違いなく嫌な顔をされます。ソフトウェアエンジニアからデータサイエンティストに転向した人は大丈夫でしょう。この記事で学ぶことはありません。 データサイエンティストという職業は、Pythonをゴリゴリと書くエンジニアっぽい人もいれば、BIツール等を駆使するコンサルタントっぽい人もいると思います。この記事では、前者のエンジニアっぽいデータサイエン

                                    データサイエンティストはテストコードを書いてコーディング規約を守ろう - Qiita
                                  • 第2回 金融データ活用チャレンジ -効率的なデータ分析・予測を行えるコードの紹介- - Qiita

                                    概要 SIGNATEで2024年1月18日~2024年2月15日において開催中のコンペ「第2回 金融データ活用チャレンジ」のデータを可視化し、LightGBMでの予測を行ってみました。 可視化はSeabornを活用することで、0,1のデータの分布を比較的簡単に見ることができるようになります。 予測結果のファイル名を都度設定するのは面倒なので、notebookのファイル名がそのまま使えると便利ですよね。notebookの設定を自動的に読み取る方法も紹介します。 とりあえずLightGBMで予測してみました。欠損値の補完などがなくても予測できてベースライン作成に便利です。 Confusion Matrix や Classification Reportを使って予測結果を出力できるようにしておきましょう。 データのインポート・前処理 ライブラリのインポート notebookの横幅を広げたいときに

                                      第2回 金融データ活用チャレンジ -効率的なデータ分析・予測を行えるコードの紹介- - Qiita
                                    • ExcelでPythonが使える「Python in Excel」とは? 高度な処理をPY関数で実現できる

                                      プログラミング言語「Python」(パイソン)をExcelで利用できる機能「Python in Excel」が発表されました。新関数「PY関数」を利用することで、ExcelからPythonのコードを実行できるようになります。一般提供はまだ先ですが、できるようになることを紹介します。 「Python in Excel」でExcelの可能性が広がる Microsoftは、プログラミング言語の「Python(パイソン)」をExcelで利用できる機能「Python in Excel」を2023年8月末に発表しました。Pythonは、数値計算や統計分析、アプリケーション開発、AI開発における機械学習など、さまざまな分野で広く使われている言語です。 Excelから利用するには、新関数「PY関数」をセルに入力して、続けてPythonのコードを記述するとのこと。Pythonのコードがクラウド上で処理されて

                                        ExcelでPythonが使える「Python in Excel」とは? 高度な処理をPY関数で実現できる
                                      • 【Python】Plot系ライブラリ全統一した - Qiita

                                        動機 Pythonはグラフ描画系のライブラリが豊富です。例えば、 matplotlib / seaborn pyqtgraph plotly bokeh vispy などがあります。それぞれ長短あるのはまあ言うまでもないですが、統一的なAPIが欲しくなりますよね...ということで統一1 2したのがこちらになります。今後、ちょっとした解析、デスクトップアプリ、ウェブブラウザなど、様々な場面で同じコードで動かせたらきっと楽しいですね。 ラッパーを作るということは、APIの設計をより理想的にできるということでもあります。これまでのPlot系ライブラリの悪いところを一掃しましょう。 既存のPlot系ライブラリのダメなところ 1. IDEの型チェック・補完が効かない matplotlibはplt.subplotsやplt.errorbarなど、返り値が引数によって変ったり、*argsや**kwarg

                                          【Python】Plot系ライブラリ全統一した - Qiita
                                        • 拡張可能レコードのライブラリrecord4sについてScalaMatsuri 2024で発表しました - 貳佰伍拾陸夜日記

                                          ScalaMasturi 2024で, 拙作の拡張可能レコードのライブラリrecord4sについて発表してきました. 発表で触れられなかった点も補足しながら, 内容を文章にしておこうと思います. とくにrecord4s以外のレコード実装との比較についてはこの記事での完全書き下ろしです. モチベーション Scala 3の標準機能による解決 理想 record4s Tips メソッドの定義 例を使ってJSONをデコード 内部実装 フィールドアクセス レコードの結合 重複キー問題 Scalaの他のレコード実装 shapelessのRecord scala-records Karlsson & Haller '18 record4sのArrayRecord Named Tuples 他の言語での例 PureScript TypeScript Haskell パフォーマンス レコード作成の実行時間

                                            拡張可能レコードのライブラリrecord4sについてScalaMatsuri 2024で発表しました - 貳佰伍拾陸夜日記
                                          • [NumPy超入門]相関係数とヒートマップ、散布図を使ってデータセットをさらに可視化してみよう

                                            連載概要 本連載はPythonについての知識を既にある程度は身に付けている方を対象として、Pythonでデータ処理を行う上で必須ともいえるNumPyやpandas、Matplotlibなどの各種ライブラリの基本的な使い方を学んでいくものです。そして、それらの使い方をある程度覚えた上で、それらを活用してデータ処理を行うための第一歩を踏み出すことを目的としています。 前回はCalifornia Housingデータセット(カリフォルニアの住宅価格のデータセット)の中でもMedInc列とMedHouseVal列に着目して、箱ひげ図とヒストグラムを使い、それらを可視化してみました。今回はそれらのデータの間に関連があるかどうかを、相関係数と散布図を使って考えてみましょう。 なお、今回は相関係数の可視化にseabornというライブラリを用います。これはPythonには標準で付属していないので「pip

                                              [NumPy超入門]相関係数とヒートマップ、散布図を使ってデータセットをさらに可視化してみよう
                                            • Pythonで学ぶ「機械学習」入門

                                              「機械学習は難しそう」と思っていませんか? 心配は要りません。この連載では、「知識ゼロから学べる」をモットーに、機械学習の基礎と各手法を図解と簡潔な説明で分かりやすく解説します。Pythonを使った実践演習もありますので、自分の手を動かすことで実用的なスキルを身に付けられます。 第1回 機械学習をPythonで学ぼう! 基礎、できること、ライブラリ(2024/02/08) 機械学習とは ・ルールベースと機械学習ベースの違い - ルールベースのアプローチ - 機械学習ベースのアプローチ 機械学習の学習方法 ・教師あり学習 ・教師なし学習 ・自己教師あり学習 ・強化学習 機械学習が解決できること ・解決できるタスクとは ・【教師あり学習】回帰(数値予測) ・【教師あり学習】分類 ・【教師なし学習】クラスタリング(グループ分け) ・【教師なし学習】次元削減 機械学習の基本用語 ・機械学習モデルの

                                                Pythonで学ぶ「機械学習」入門
                                              • LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog

                                                こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇(@catshun_)です。 本記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。 社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。 以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。 おことわり 本記事では対象とする研究棟の 詳細な解説は含みません。詳細は元の論文を参照ください。 不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本記事の目次 Google I/O '24 での Gemini Nano × Android の発表

                                                  LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog
                                                • LLM・プロンプトの評価・テストフレームワークについてまとめてみた

                                                  はじめに ご存知の通り大LLM時代なわけで、つよつよな方からアフィリ記事までこぞってどうやってLLMで良い出力を得るかまとめております。そしてそのテクニックがプロンプトエンジニアリングとして体系化されつつあります。ただし、エンプラでLLMを真面目に使おうとすると、プロンプトの管理やLLMごとの管理、レスポンスタイムの計測など様々な評価を継続的にやる必要があります。従来のデータサイエンスでも結局評価や計測が後々重要になったきたことを考えると必然かもしれませんが、そこらへんをまとめた日本語の記事がなかったので、アドベントカレンダーというチャンスを使ってまとめてみます! そんなわけで、この記事ではまだそこまで盛り上がってはないが、確実に重要なLLMの評価の基本的な流れデモも交えて簡単な評価フレームワークの利用例を紹介していこうと思います! ただしまだ黎明期で今後主流になる方法論も変わると思うのと

                                                    LLM・プロンプトの評価・テストフレームワークについてまとめてみた
                                                  • Gemini Advancedでデータ分析をやってみた - GMOインターネットグループ グループ研究開発本部

                                                    TL;DR Geminiの有料プランGemini Advancedでは、5/14から100万トークンもの入力に対応したGemini 1.5 Proを提供開始、更に5/21からスプレッドシートをアップロードしてのデータ分析や可視化が可能になりました。これはPythonのコードを生成して実行するする機能です。 データ分析の性能としてはGemini AdvancedはChatGPT-4oとほぼ同等の性能でどんぐりの背比べ甲乙が付け難いです。Geminiの場合、Google Sheetsなどと連携でき、データの取り込みやエクスポートが容易です。一方のChatGPTは、可視化したグラフがより見やすい印象です。 しかし、Gemini AdvancedもChatGPT-4oも指示が曖昧では適切な集計ができないなど、データサイエンティストの視点から見ると、生成AIに任せきりでは不安な点が多く見受けられます

                                                      Gemini Advancedでデータ分析をやってみた - GMOインターネットグループ グループ研究開発本部
                                                    • 「特徴量重要度」について少しだけ真剣に考えてみる - Qiita

                                                      はじめに 機械学習モデルを解釈する際には「特徴量重要度」がキーワードになってきます。「特徴量重要度」には様々な指標があり、目的が違います。 ①feature importance、②permutation importance、③SHAP の3つについて説明していきます。 結論から言うと 3つの特徴量重要度を調べて、個人的に感じた結論を以下に書きます。 ①feature importance:予測モデルを組む際に 「モデル」が重要視する因子が分かる 。例えば決定木を考えた際にどの因子がノードの分割に寄与するのかを評価するイメージ。 ②permutation importance:各特徴量が予測にどう寄与するかが分かる。モデルの「予測精度」に影響する因子が分かる。 ③SHAP: 「予測結果」に対する各特徴量の寄与が分かる 。それぞれのデータの予測にインパクトを与える因子が分かる。 ①feat

                                                        「特徴量重要度」について少しだけ真剣に考えてみる - Qiita
                                                      • 機械学習モデルの構築と最適化: Pythonで学ぶ実践的なアプローチ - Python転職初心者向けエンジニアリングブログ

                                                        機械学習モデルの構築と最適化は、データの理解からモデルのトレーニング、評価、最適化まで包括的なプロセスです。本記事では、Pythonを用いた機械学習モデルの実践的なアプローチに焦点を当て、具体的な手法とコードを交えて解説します。 1. データの理解と前処理 1.1 データの読み込みと可視化 まずはデータの理解と可視化から始めましょう。データセットによっては、特徴量の分布や相関関係を把握することが重要です。 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # データの読み込み data = pd.read_csv("your_dataset.csv") # データの概要を表示 print(data.info()) # 数値特徴量の統計情報を表示 print(data.describe()) #

                                                          機械学習モデルの構築と最適化: Pythonで学ぶ実践的なアプローチ - Python転職初心者向けエンジニアリングブログ
                                                        • Mastering Customer Segmentation with LLM

                                                          Let’s see a brief description of the columns of our dataset: age (numeric)job : type of job (categorical: “admin.” ,”unknown”,”unemployed”, ”management”, ”housemaid”, ”entrepreneur”, ”student”, “blue-collar”, ”self-employed”, ”retired”, ”technician”, ”services”)marital : marital status (categorical: “married”,”divorced”,”single”; note: “divorced” means divorced or widowed)education (categorical: “

                                                            Mastering Customer Segmentation with LLM
                                                          • Snowflakeのデータに対して探索的データ分析をしたい!SnowsightのチャートとAmazon SageMaker Studioの例 | DevelopersIO

                                                            Snowflakeのデータに対して探索的データ分析をしたい!SnowsightのチャートとAmazon SageMaker Studioの例 Snowflakeに格納したデータに対する探索的データ分析(EDA)ツールの例として、Snowsightのチャート(ダッシュボード・ワークシート)とAmazon SageMaker Studioのご紹介です。 データアナリティクス事業本部 機械学習チームの鈴木です。 Snowflakeに格納したデータを使って機械学習モデルを構築したい際に、最初のステップとして探索的データ分析(Exploratory data analysis、以降EDA)をどこでするとよいかを検討する機会がありました。 Snowflakeが公開している情報を確認しつつ、私がよく利用するSnowsightのチャートとAmazon SageMaker Studioの例をご紹介します。

                                                              Snowflakeのデータに対して探索的データ分析をしたい!SnowsightのチャートとAmazon SageMaker Studioの例 | DevelopersIO
                                                            • Data Engineer: Interview Questions

                                                              Here is a list of common data engineering interview questions, with answers, which you may encounter for an interview as a data engineer. The questions during an interview for a data engineer aim to check not only the grasp of data systems and architectures but also a keen understanding of your technical prowess and problem-solving skills. This article lists essential interview questions and answe

                                                                Data Engineer: Interview Questions
                                                              • 「ダークパターンレポート2023」を公表。ECサイトやアプリでの購入経験者799人への意識調査

                                                                「ダークパターンレポート2023」を公表。ECサイトやアプリでの購入経験者799人への意識調査 4割強がダークパターン被害を経験。7割強が、ECサイト等の運営企業に対応を求める 企業や行政と伴走し活動を支えるデザイン会社の株式会社コンセント(本社:東京都渋谷区 代表:長谷川敦士 以下、コンセント)は、消費者をだますウェブサイトやアプリのユーザーインターフェースである「ダークパターン」について、全国18歳から69歳までのECサイトやアプリでの購入経験者799人を対象に、見たりひっかかったりした経験やその際に取った行動、認知・理解度などの実態を調査し、「ダークパターンレポート2023」としてとりまとめました。 調査の実施背景 ダークパターンの問題を顕在化し、個人・企業・行政で取り組める社会に ダークパターンとは「消費者の自主性や意思決定や選択を覆したり損なわせたりする選択アーキテクチャを、主に

                                                                  「ダークパターンレポート2023」を公表。ECサイトやアプリでの購入経験者799人への意識調査
                                                                • StreamlitでコードとUIをスッキリさせるためのノウハウをまとめてみた - ENGINEERING BLOG ドコモ開発者ブログ

                                                                  1. はじめに こんにちは、ドコモ・テクノロジの小泉です。「ドコモ・テクノロジ」はNTTドコモの機能分担子会社の一つであり、主にNTTドコモのR&D業務を分担しています。その中で、私は主にドコモにおけるデータ活用促進に関わる内製開発を行っています。 本記事では、プログラミング言語PythonにおけるWebアプリ作成フレームワークの一つであるStreamlitに関して紹介していきたいと思います。Streamlitは、Pythonを用いて手軽にWebアプリを作成できるフレームワークです。ブラウザ上に簡単にインタフェース(UI)を表示できることから、データ活用を中心として最近利用が増加しています。 実際、私もデータ活用の現場でStreamlitを使うことが増えてきていて、使っていくうちにいくつかコツがあることがわかってきました。本記事にて、ぜひみなさんにそれを共有できれば嬉しいです。なお、本記事

                                                                    StreamlitでコードとUIをスッキリさせるためのノウハウをまとめてみた - ENGINEERING BLOG ドコモ開発者ブログ
                                                                  • Data Visualization Using Python

                                                                    We have seen that Python language is a powerful tool for data science and data operations, but how powerful is Python for Data visualization? One of the key responsibilities of Data scientists is to communicate results effectively with the stakeholders. This is where the power of visualization comes into play. Creating effective visualizations helps businesses identify patterns and subsequently he

                                                                      Data Visualization Using Python
                                                                    • Just How Much Faster Are the GNOME 46 Terminals? | Ivan Molodetskikh’s Webpage

                                                                      VTE (Virtual TErminal library) is the library underpinning various GNOME terminal emulators. It provides a GTK widget that shows a terminal view, which is used in apps like GNOME Terminal, Console, Black Box, Tilix, Terminator, Ptyxis, and others. It also powers embedded terminals in Builder and Workbench. Over the GNOME 46 cycle, VTE has seen a lot of performance improvements. Christian Hergert m

                                                                      • 【Gemini】ChatGPTの最強のライバルGoogleのGemini!日本語の使い方〜GPT-4との性能比較まで | WEEL

                                                                        生成AIメディアWEEL編集長の佐井とリサーチャーの2scです。 ついに…! GoogleがGPT-4の最大の対抗馬であると目されていたGeminiを発表しました。どんな機能でどれほどの性能なのかとても楽しみです! この記事では、Geminiの概要から性能、特徴、使い方を徹底解説します。最後まで読むとGeminiの理解が深まり、より効果的な画像生成AIを使いこなせるようになるので、参考にしてください。 なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。 →無料相談で話を聞いてみる Geminiの概要 Geminiを簡単に説明するならば、Googleが開発したChatGPTのような生成AIです。元々はGoogle Bardとして提供されていましたが、Google DeepMindが新たなマルチモーダルAI「Gemini」を開発したことにより、

                                                                        • FastSAMで高速道路を走行する車両をセグメンテーションをしてみました(上下線や追い越し車線も判定してみました) | DevelopersIO

                                                                          1 はじめに CX 事業本部 delivery部の平内(SIN)です。 Meta社による Segment Anything Model(SAM)は、セグメンテーションのための汎用モデルで、ファインチューニングなしで、あらゆる物体がセグメンテーションできます。 そして、それを爆速にしたのがFastSAM(Fast Segment Anything)です。 FastSAMは、SAM がトレーニングされた SA-1B データセットの 2% でトレーニングされたモデルということで、SAMよりも 50倍高速に実行されるとアナウンスされています。 手元でも試してみましたが、SAMだと数秒かかっていた処理が、100msぐらいで終わってしまうのを確認できました。 モデルのサイズも、SAMが、2.5 GByteだったの対して、FastSAMでは、145 MByteと小さくなっており、取り回しも軽くなっている

                                                                            FastSAMで高速道路を走行する車両をセグメンテーションをしてみました(上下線や追い越し車線も判定してみました) | DevelopersIO
                                                                          • サイコロを振り直す:ABテストにおける共変量バランス調整の検討① | CyberAgent Developers Blog

                                                                            こんにちは。協業リテールメディアdivでデータサイエンティスト、プロダクトマネージャーをしております早川です。本日はABテストにまつわるトピックを紹介します。 はじめに とあるマーケティングコミュニケーションを介入とみなしたとき、一つの介入が異質性を持っていたり、複数のアウトカムに影響を及ぼすことは容易に考えられます。例えば缶ビールのクーポンを配布して、各消費者の缶ビールの平均購買点数が増えるかを検証する状況を考えます。このとき、ビールを好む消費者の購買点数が増えた、普段飲酒をしない消費者の購買点数は0本のままで影響がなかった、という状況が直感的に想像がつきます(異質性)。また、ビールの購買点数に加えて、おつまみ類の購買点数も増えるかもしれません(複数アウトカムへの影響)。 この介入の効果検証をABテストを通じて行うとき、異質性や複数アウトカムへの変化を含む、なるべく多くの変化を正確に捉え

                                                                              サイコロを振り直す:ABテストにおける共変量バランス調整の検討① | CyberAgent Developers Blog
                                                                            • k-NN (k-Nearest Neighbors) in Supervised Machine Learning

                                                                              K-nearest neighbors (k-NN) is a Machine Learning algorithm for supervised machine learning type. It is used for both regression and classification tasks. As we already know, a supervised machine learning algorithm depends on labeled input data, which the algorithm learns to produce accurate outputs when input unlabeled data. k-NN aims to predict the test data set by calculating the distance betwee

                                                                                k-NN (k-Nearest Neighbors) in Supervised Machine Learning
                                                                              1