並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 717件

新着順 人気順

seabornの検索結果1 - 40 件 / 717件

  • Python言語による実務で使える100+の最適化問題 | opt100

    指針 厳密解法に対しては、解ける問題例の規模の指針を与える。数理最適化ソルバーを使う場合には、Gurobi かmypulpを用い、それぞれの限界を調べる。動的最適化の場合には、メモリの限界について調べる。 近似解法に対しては、近似誤差の指針を与える。 複数の定式化を示し、どの定式化が実務的に良いかの指針を示す。 出来るだけベンチマーク問題例を用いる。OR-Libraryなどから問題例をダウンロードし、ディレクトリごとに保管しておく。 解説ビデオもYoutubeで公開する. 主要な問題に対してはアプリを作ってデモをする. 以下,デモビデオ: 注意 基本的には,コードも公開するが, github自体はプライベート そのうち本にするかもしれない(予約はしているが, 保証はない). プロジェクトに参加したい人は,以下の技量が必要(github, nbdev, poetry, gurobi); ペー

    • 食べログ3.8問題に終止符を打つ

      import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp

      • Python言語による実務で使える100+の最適化問題 | opt100

        はじめに 本書は,筆者が長年書き溜めた様々な実務的な最適化問題についてまとめたものである. 本書は,Jupyter Laboで記述されたものを自動的に変換したものであり,以下のサポートページで公開している. コードも一部公開しているが,ソースコードを保管した Github 自体はプライベートである. 本を購入した人は,サポートページで公開していないプログラムを 圧縮ファイル でダウンロードすることができる. ダウンロードしたファイルの解凍パスワードは<本に記述>である. 作者のページ My HP 本書のサポートページ Support Page 出版社のページ Pythonによる実務で役立つ最適化問題100+ (1) ―グラフ理論と組合せ最適化への招待― Pythonによる実務で役立つ最適化問題100+ (2) ―割当・施設配置・在庫最適化・巡回セールスマン― Pythonによる実務で役立つ

        • ゼロから始める、データ分析と可視化 - Kyash Product Blog

          はじめまして。Kyashでデータエンジニアリングを担当しているKyashデータマンです。この記事では、Kyash社内のデータ分析の基礎に関するドキュメントを紹介します。 Kyashでは、データエンジニアリング・ガバナンス・セキュリティなど様々な角度から、公正なデータの取扱いと活用を推進しています。従来は、一部の訓練された技術者がデータ分析を一手に担っていましたが、社内でもデータ活用のニーズも多く、その担当者に分析や集計の業務が集中するという課題がありました。 この課題に対して、データへの適切なアクセス管理を行い、そして適切なBIツールを導入することで、データを取り扱う人が自分でデータ分析・そして活用できるようになることを目指しています。アクセス管理には、個人情報やそれに準ずる機密データに対して、ポリシータグによるアクセス権のコントロール、そしてアクセス権のリネージなどのソリューションの導入

            ゼロから始める、データ分析と可視化 - Kyash Product Blog
          • Python環境構築ベストプラクティス2019

            Python環境構築ベストプラクティス2019 Published at: 2019-02-18 / Updated at: 2019-05-14 Web上には新旧さまざまなPython環境の構築の方法が乱れており, 正しい情報にたどり着けない人がいて不憫なので2019年2月現在のベストプラクティスをPythonを使いたい人の属性ごとに紹介したいと思います. 自分がどのような環境を作ればいいかわかったなら公式ドキュメントというほぼ絶対的な1次資料を元に最高の環境を作っていきましょう. For Beginners とりあえずPythonを勉強してみたい, 手軽に手元にあるデータを解析してみたいという人はこちらです. プログラムをガリガリ書いていくのではない場合, 自分のPCに環境構築する必要はありません. Googleが提供しているColaboratoryを使いましょう. 苦労することなくP

            • システムソフトウェアに対する攻撃の歴史と傾向 - 高度標的型攻撃や国家に支援された攻撃の仕組み - - るくすの日記 ~ Out_Of_Range ~

              A History of system-level offensive security researches: How is your system compromised by nation state hacking, APT attack はじめに 企業や個人に対するサイバー攻撃の頻度は年々増加の一途を辿っているが、これらはskiddyによる悪戯程度の物から、企業を標的とした高度な標的型攻撃、あるいは政府による諜報活動に至るまで多岐にわたっている。 特に大規模な組織や政府による綿密に練られたサイバー攻撃は、確実に目的を果たすために高度な手段が講じられる事が多い。 本記事では高度標的型攻撃や政府による諜報活動で用いられる手法の一つとして、"システムソフトウェアに対する攻撃"について紹介する。 これはオペレーティングシステム (OS) や仮想マシン、ファームウェアといった基盤システムを

                システムソフトウェアに対する攻撃の歴史と傾向 - 高度標的型攻撃や国家に支援された攻撃の仕組み - - るくすの日記 ~ Out_Of_Range ~
              • Pythonや機械学習、そして言語の競争について – 極めて主観的な見地から | POSTD

                (訳注:2016/1/5、いただいた翻訳フィードバックを元に記事を修正いたしました。) よくある主観的で痛烈な意見を題名に付けたクリックベイト(クリック誘導)記事だろうと思われた方、そのとおりです。以前指導してくれた教授から教わったある洞察/処世術は、些細でありながら私の人生を変えるマントラとなったのですが、私がこの記事を書いたのはそれによるものです。「同じタスクを3回以上繰り返す必要があるなら、スクリプトを書いて自動化せよ」 そろそろ、このブログはなんだろうと思い始めているのではないでしょうか。半年振りに記事を書いたのですから。ツイッターで書いた Musings on social network platforms(ソーシャル・ネットワークプラットフォームについてじっくり考える) はさておき、この半年の間書き物をしていないというのはうそです。正確には、400ページの 本 を書きました。

                  Pythonや機械学習、そして言語の競争について – 極めて主観的な見地から | POSTD
                • 【Python】 機械学習の可視化が捗るライブラリ「Yellowbrick」 - フリーランチ食べたい

                  機械学習Podcast「TWiML&AI」で先週取り上げられた可視化ライブラリ「Yellowbrick」が非常に便利だったので紹介します!ちなみにPodcastには作者の1人であるRebecca Bilbroさんが出演しているので興味持った方は是非聞いてみてください。 twimlai.com www.scikit-yb.org Yellowbrickとは 一言で言うと、機械学習に特化した可視化ライブラリです。実装的な面で言うと(こちらの方がわかりやすいかもしれません)、scikit-learnとmatplotlibをラップして、scikit-learnライクなAPIで使うことができるものです。 例えば相関行列のヒートマップをプロットしたい場合は次のように書くだけでグラフを作ることができます。 visualizer = Rank2D(features=features, algorithm=

                    【Python】 機械学習の可視化が捗るライブラリ「Yellowbrick」 - フリーランチ食べたい
                  • [Kaggle]0から本当に機械学習を理解するために学ぶべきこと~一流のデータサイエンティストを例に~ - Qiita

                    「機械学習が出来るようになりたい」そう思いつつも、中々身についた感じがしない。 そんな方々に向けて、Kaggleで公開されているデータ分析の手順を追いかけながら、そこで必要とされている知識を解説したいと思います。全体像を把握することで、より理解が進むはずです。 1. データを分析するために必要な統計的知識 機械学習の目的は未知の事柄を推定することです。そのために既にあるデータから何らかの法則性を見つけ出す為に様々な手法が考えられてきました。 統計学はご存知でしょうか? 機械学習はデータを扱うという点で統計学と深い関係があります。平均値や標準偏差などは聞いたことがあると思います。統計学はそれらの情報をこねくり回すことによって、限られたデータから本当の全体像を推定します。例えば、選挙の結果を開示前に知りたいときに、投票者全員に聞ければ良いですが、そうもいきません。そこで、統計学は様々な方法を使

                      [Kaggle]0から本当に機械学習を理解するために学ぶべきこと~一流のデータサイエンティストを例に~ - Qiita
                    • Awesome Python:素晴らしい Python フレームワーク・ライブラリ・ソフトウェア・リソースの数々 - Qiita

                      元記事: Awesome Python Awesome List in Qiita Awesome Ruby Awesome Java Awesome JavaScript Awesome Node.js Awesome Go Awesome Selenium Awesome Appium 管理パネル 管理インタフェース用ライブラリ ajenti - サーバ用管理パネル. django-grappelli - Django 管理インターフェースのためのジャズスキン. django-jet - 改良された機能を備えた Django 管理インターフェース用の最新のレスポンシブテンプレート. django-suit - Django Admin インターフェースの代替 (非商用の場合のみ無料). django-xadmin - Django 管理者のドロップイン置換. jet-bridge -

                        Awesome Python:素晴らしい Python フレームワーク・ライブラリ・ソフトウェア・リソースの数々 - Qiita
                      • 【2023年5月改訂版】実践 Python データサイエンス

                        このコースは、Pythonを使ってデータを解析し可視化するために必要なスキルを網羅しています。Pythonと科学計算のためのライブラリの使い方が完璧に理解できるようになっています。 このコースを習得すれば、次のような事ができるようになります。 - Pythonプログラミングへの知識が深まります。 - NumPyを使って、アレイを使った数値計算ができるようになります。 - pandasを使った効果的なデータ解析ができるようになります。 - Matplotlibとseabornを使って、出版にも使えるほど綺麗なデータの可視化が可能になります。 - Pythonを使って実際にデータを解析する方法論が身につきます。 - 機械学習への理解が相当高まります。 2023年5月にコースの大幅改訂を行いました。ほとんどすべての動画と資料が更新されています。 17時間以上、100本を超えるビデオと、すぐに使え

                          【2023年5月改訂版】実践 Python データサイエンス
                        • いい結婚相手を見つける最適な方法を検証してみた - Qiita

                          現在の日本の生涯未婚率によると、男性の4人に1人、女性の7人に1人は50歳まで一度も結婚したことがなく、そうした人たちの割合は今後も増えていくそうです(出典: ハフィントンポスト)。原因は様々あるようですが、やはり「適当な相手にめぐり合わない」という理由は上位に来るようです。 ですが、適当な相手とは、一体全体どういう相手なのでしょうか? 年収、容姿、性格、家、などなど人によって様々相手に求める条件があるものですが、「人の出会いは一期一会」ともいうように、いい相手とめぐり合えたとしても「もしかしたら今後もっといい人と会えるかも……」などとうじうじしているうちに、機会を逃すことも多いかもしれません(涙 この問題は、結婚相手を探しているA君がいるとすると、 A君は、これから結婚相手の候補となるN人と女性と出会う 候補となる相手は、1人ずつ次々に現れる 候補となる相手は、それぞれ違うスコアを持つ

                            いい結婚相手を見つける最適な方法を検証してみた - Qiita
                          • プロ野球全球団の得点源な選手(または足を引っ張ってる選手)を野球統計学とPythonで出してみた - Lean Baseball

                            ※2017/5/9 リンク切れを修正 ビール🍻とハンバーガー🍔をたしなみながらブログ書いてました.*1 野球,楽しんでいますかー!? アスレチックスが「定位置」に下がる中,日ハムが調子戻してきてようやっと野球を見る気になった私ですこんばんは.*2 今年度初の野球ネタです. PyCon mini Kumamoto 2017のエントリーで紹介させてもらった野球ネタの応用として, 2017年プロ野球,全球団の得点源と足を引っ張ってる選手を可視化 できる何かを作ったので,私の考察とともにお見せしたいと思います. 贔屓チームが強い(弱い)のはなぜ!? 野球統計学なにそれ美味しいの? Pythonでデータをいじりたいのだが! を直感的に知りたい方はぜひ最後までお付き合いくださいませ. なお,指標値は私(shinyorke)独自算出のモノであり,他のコピーではないです&他のシンクタンクやMediaで

                              プロ野球全球団の得点源な選手(または足を引っ張ってる選手)を野球統計学とPythonで出してみた - Lean Baseball
                            • ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita

                              ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた機械学習データ分析キャリアデータサイエンスデータサイエンティスト Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。 言語、基盤、アプリ、かなり網羅されています。 その中のAI and Data Scientist Roadmapについての推薦図書まとめです。 雑感 これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては ビジネス、ドメイン知識や分析目的定義などのスキルについて言及がないのは残念。 いきなり数学から入るコースになってますが、一旦は飛ばしてコード写経してから戻ってきても良いと思います。ここで挫折すると勿体無いので。 計量経済学重視の観点はいいですね

                                ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita
                              • 早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita

                                English version available on dev.to はじめに matplotlibで作ったグラフの細かい調整は大変です。何をどういじったらいいのかを調べるのにアホみたいに時間がかかることがあります1。「何を」の部分の名前さえわからないこともあります。解決の糸口を掴んだ後も希望通りの見た目を実現するまでの最後のアレンジに苦労することが多いです2。これらの問題はmatplotlibのグラフがどういう要素で構成されていて、それらに対してどういうことができるかを知ることでいくらか改善されます。私はひたすらStack Overflowの回答を読むことでいろんなつまづきを時間をかけて乗り越えてきましたが、最近になってようやく公式チュートリアルにこの苦労を回避できたはずのヒントが書いてあることに気づきました。初期にざっと目を通したのですが「なるほど、よくわからん」と判断して読み込まな

                                  早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita
                                • Kaggle Expertになるまで勉強したことを全て書く - Qiita

                                  はじめに こんにちは。Yuki | Kagglerです! 先日、Shopeeコンペの順位が確定して銀メダルをいただき、晴れてCompetition Expertになることができました。区切りがいいのでここまで取り組んできたことをまとめてみました。 ※ 6/28追記:Amazonのリンクが切れていたので貼り直しました! プログラミング&機械学習を始めて一年、ようやく Kaggle Expertになることができました!! 行列も正規分布も知らず、ターミナルなんて触ったこともない状態からのスタートでしたが、ようやくここまで来ました。 ここまで来れたのは偏にこれまで関わってきた皆様のお陰です。これからも頑張ります!! pic.twitter.com/kMkaFhqhU9 — ユウキ | Kaggler (@Yuki_Kaggler) May 12, 2021 この記事の対象者 Kaggleをやって

                                    Kaggle Expertになるまで勉強したことを全て書く - Qiita
                                  • 【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita

                                    統計学や機械学習をを勉強していると「尤度」という概念に出会います。まず読めないというコメントをいくつかいただきましたが、「尤度(ゆうど)」です。「尤もらしい(もっともらしい)」の「尤」ですね。犬 じゃありませんw 確率関数や確率密度関数を理解していれば数式的にはこの尤度を処理できると思うのですが、少し直感的な理解のためにグラフィカルに解説を試みたいと思います。 コードの全文はGithub( https://github.com/matsuken92/Qiita_Contents/blob/master/General/Likelihood.ipynb )にも置いてあります。 正規分布を例にとって 正規分布の確率密度関数は f(x)={1 \over \sqrt{2\pi\sigma^{2}}} \exp \left(-{1 \over 2}{(x-\mu)^2 \over \sigma^2

                                      【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita
                                    • Pythonでデータ分析するのに必要なツールのまとめ - Qiita

                                      この記事について Pythonでデータ分析を行う際に役立つセットアップを紹介します。 データ分析に興味がある方はこちらも合わせてどうぞ データサイエンティストに興味があるならまずこの辺りを見ておきな、って文献・動画のまとめ(随時追加) - Qiita 実行環境 Jupyter(旧iPython Notebook) http://jupyter.org/ インタラクティブ(対話的)なコード実行のための環境 データ分析に非常に適していて、慣れると他のIDEなどでは分析ができなくなる。 任意に分けたコードブロックごとに実行し、結果を都度表示出来るほか、 ・グラフのインライン表示 ・数式の記述(Latex) ・マークダウン方式の文章記載 などの機能を備えており、模索しながらの分析作業や、結果の共有・保管などに非常に適する。 iPythonで文章と図表を描くことで論文のような形式で書くことも出来るた

                                        Pythonでデータ分析するのに必要なツールのまとめ - Qiita
                                      • Facebookが開発した圧縮アルゴリズムZstandardについて調べた(非常に高速)(今日から使えます) - Lambdaカクテル

                                        Common Lispの処理系であるSBCLをインストールしようとしたら、追加でlibzstd-develというのを新たに要求されるようになっていた。見るからに圧縮系のライブラリだけれど聞き慣れないのでちょっと調べてみた。 ちょろっと調べたところ、以下のことが分かった: Zstandard(ゼットスタンダード?)というのが正式な名前。 Facebookが開発した。 Deflateよりも速いことを主眼においている。 BSDライセンス。 Linuxカーネルまわりで使えるようになっているほか、一部のディストロではパッケージの圧縮フォーマットとして使われているようだ。 Webというよりはどちらかといえばバックエンド的な箇所で使われている印象がある。 facebook.github.io zstd コマンド使ってみた 他の名だたる圧縮アルゴリズム同様、Linuxで直接ファイルに対してこれを実行して圧

                                          Facebookが開発した圧縮アルゴリズムZstandardについて調べた(非常に高速)(今日から使えます) - Lambdaカクテル
                                        • 世界一わかりやすい機械学習プログラミングチュートリアル - Qiita

                                          はじめに この記事はNuco Advent Calendar 2022の5日目の記事です 対象読者 Pythonが注目されている理由のひとつは機械学習プロジェクトの主要な開発言語であるからといってもよいでしょう。多くの企業の業務システムのAIの開発言語はPythonです。そんなPythonの学習を始めてある程度文法の理解が進んできて、機械学習に触れてみたい方を対象にしています。 Pythonの基本文法を理解している 機械学習を始めてみたい チュートリアル概要 Pythonは長年機械学習で使用されているので、ライブラリも豊富にあります。本記事では機械学習用ライブラリのscikit-learn(サイキット・ラーン)を使用して教師あり学習を行い住宅価格を予測してみます。 何ができるようになるか 機械学習で使われる基本的な用語を理解し、学習の全体像をつかめるようになります。 機械学習の目的 機械学

                                            世界一わかりやすい機械学習プログラミングチュートリアル - Qiita
                                          • 探索的データ解析における正しい可視化手法の選び方と描き方 - Qiita

                                            データ分析における関数の使い方については様々な記事が上がっています。関数を知らなかったり使い方が分からないときは調べればだいたい答えが見つかります。 一方で、実際に分析を始めようとすると、たとえ関数の使い方がわかっていても、データをどのような切り口から何を分析・可視化していけば良いのか困ってしまうことがよくあります。 この記事では、あんちべさんが書いたデータ解析の実務プロセス入門という本をベースに、どのようなデータから何を見たいときにどのような可視化手法を使えばよいのかを、具体例を交えながら整理していきます。 探索的データ解析とは データ解析のアプローチは、大きく分けて仮説をデータで検証する「仮説検証型」とデータから仮説を生み出す「探索型」に分けられます。 実際にデータ解析を行うときは、仮説検証型と探索型を行き来しつつ知見を見出していきます。 データ解析には検証すべき仮説を設定することが必

                                              探索的データ解析における正しい可視化手法の選び方と描き方 - Qiita
                                            • Pythonの可視化ライブラリ「Bokeh」ではじめるデータビジュアライゼーション

                                              Pythonの可視化ライブラリ「Bokeh」ではじめるデータビジュアライゼーション Bokehではじめるデータビジュアライゼーション 2019年1月22日、freee株式会社にて、Data Driven Developer Meetupが主催するイベント「Data Driven Developer Meetup #4」が開催されました。サービスをより良いものにするために日々データと向き合っているデータサイエンティストやエンジニアなど、様々な職種で活躍する人々が集い、知見を共有する本イベント。今回は日本経済新聞社とエムスリー株式会社の2社がメインセッションに登壇し、自社の取り組みについて語りました。プレゼンテーション「Bokehではじめるデータビジュアライゼーション」に登場したのは、YukiyoshiSato氏。デモを交えながら、Pythonのインタラクティブビジュアライゼーションライブラリ

                                                Pythonの可視化ライブラリ「Bokeh」ではじめるデータビジュアライゼーション
                                              • Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary

                                                概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo

                                                  Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary
                                                • PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita

                                                  Pandasのグラフ描画機能 この記事ではPandasのPlot機能について扱います。 Pandasはデータの加工・集計のためのツールとしてその有用性が広く知られていますが、同時に優れた可視化機能を備えているということは、意外にあまり知られていません。 この機能は Pandas.DataFrame.plot() もしくは Pandas Plot と呼ばれるものです。 Pandas Plotを使いこなすことが出来るようになれば、 データの読み込み、保持 データの加工 データの集計 データの可視化 というデータ分析の一連のプロセスを全てPandasで完結させることが出来る、つまり分析の「揺りかごから墓場まで」を実現することが出来ます。 Pandasのプロット以外の機能について この記事ではPandasのデータハンドリングなどに関わる機能は説明しません。 そちらにも興味がある方は下記の記事などを

                                                    PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita
                                                  • データ分析の基礎 - Qiita

                                                    1. データ分析の概要と目的 データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。 このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。 データ分析の主な目的は以下の通りです ビジネスの意思決定をサポートする 新しい市場の機会を発見する 顧客の行動や傾向を理解する 製品やサービスの改善 予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonはデータ分析のための多くのライブラリを持っています。 以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習の

                                                      データ分析の基礎 - Qiita
                                                    • pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1 - Qiita

                                                      Pythonでのグラフ描画 Pythonチャートを描く場合の定番は「matplotlib」ですが、その見た目のやや野暮ったい感じと、表記法のややこしさが指摘されています。 そこで、この記事ではMatplotlibの機能をより美しく、またより簡単に実現するためのラッパー的存在である、「Seaborn」の使い方を取り上げます。 ◆ Overview of Python Visualization Tools http://pbpython.com/visualization-tools-1.html 上記の記事ではMatplotlibとSeabornについて下記のように書かれています。 matplotlibについて Matplotlib is the grandfather of python visualization packages. It is extremely powerful b

                                                        pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1 - Qiita
                                                      • Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita

                                                        0、はじめに マッチングアプリで機械学習エンジニアをやっているはやとと言います。今回は「Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なもの、やって感じたこと」について書いていこうと思います。 「Web系企業で機械学習エンジニアやってみたい!」「組織としてデータ分析や機械学習をやり始めたいけど何からやったらいいかわからない!」という方も多くいるでしょう。 Web系企業での機械学習エンジニア・データサイエンティストの動きはメルカリのブログとか本でよく見ます。しかし、まだ規模があまり大きくない会社における機械学習エンジニア・データサイエンティストの記事や本は一切見当たらず、また、立ち上げ(そんな大げさな言葉を使っていいのか分かりませんがw)の話が書いてあるものは見たことがないです。そのため、もしかしたら日本で初めての記事になるのではないかなと考えてワクワクしながら書い

                                                          Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita
                                                        • メルカリのデータサイエンスチームと分析エコシステムのはなし | メルカリエンジニアリング

                                                          ※各プロダクト名の頭の”Google”は省略しています ※もちろん実際にはGoogle社のツール以外にも様々な分析用プロダクトが使われています 各ツールの詳細についてはWeb上の良質な情報がたくさんあるので、説明はそちらに譲るとして、ここではそれぞれの簡単な特徴とメルカリでの活用の仕方について主に述べていきます。 ◆ 1.BigQuery “弊社分析の中核的存在” 利用シーン: データの集計 どんなツールか Google BigQuery SQLの超速いやつ どんな大きなデータでも、複雑なクエリでも、高速で結果を返してくれる頼れるアニキ メルカリの分析での使い方 速いは正義 メルカリは多くのユーザを抱えているため、そのログデータも非常に巨大です。 そのため、通常のSQLでは計算に時間がかかりすぎるということが多々発生します。 BigQueryは とにかく「高速」の一言。なのでトライアンドエ

                                                            メルカリのデータサイエンスチームと分析エコシステムのはなし | メルカリエンジニアリング
                                                          • 【図解】Pythonのライブラリ 24選+α - Qiita

                                                            Pythonにはライブラリが沢山あります。ライブラリとは便利な機能を持ったプログラムを集めたものを言い、このライブラリを上手く使うことで色々なことを実現できます。 今回はこのライブラリを用途別で図解にまとめました。 Pythonでプログラムを組む際の参考になりましたら幸いです。 ※簡単にまとめているだけなので、詳しい中身は公式ドキュメント等をご確認ください。 追記(2023/12/25) 当記事がありがたいことに好評いただけたので、Pythonの基礎も図解化しました。あわせてご活用いただけますと幸いです。 機械学習 機械学習 ⊃ 深層学習という包含関係です。 ざっくり言うと、特定のタスク(分析の方向性が明確)に対して予測できるのが機械学習で、より複雑なデータも処理できるのが深層学習です。 ただし深層学習はその分、学習に要する時間やデータは多くなります。 【機械学習入門】scikit-lea

                                                              【図解】Pythonのライブラリ 24選+α - Qiita
                                                            • Google Colaboratoryを便利に使うためのTIPSまとめ - karaage. [からあげ]

                                                              Google Colaboratoryをもっと便利に使いたい ブラウザさえあれば、環境構築不要・無料でPythonの開発が可能なWebサービス「Google Colaboratory(以下Google Colab)」。Windows PC等で手元に適切なPython環境が無い場合や、手元の環境を崩したくないとき、GPUを活用したいときなど幅広く活用しています(詳細は以下記事参照下さい)。 そんな中、よく使うコマンドやTIPS、使いたいときに探すのに時間がかかるのが多いため、一度まとめてみることにしました。 以下に本記事で紹介するコマンドをまとめたGoogle Colabのノートブックのリンクを貼っておくので、こちらも好きにコピーして使用してもらってOKです。 Google Colab Tips集 スペック確認 OS確認 !cat /etc/issue 容量確認 !cat /etc/issu

                                                                Google Colaboratoryを便利に使うためのTIPSまとめ - karaage. [からあげ]
                                                              • 小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita

                                                                はじめに これを書いてる人の機械学習・データ分析のスキルはpythonの拡張子が.pyであることを知ってから10日目ぐらい、「決定木」「最小二乗法」「特徴量」「RMSE」といった単語を初めて見てから7日目ぐらいといったレベルです。なのでより良い方法がある場合や、分析の途中間違っている箇所などがあればコメント欄等でどんどん指摘してくださると有り難いです。(コードが汚い、変数の命名がおかしい等はご容赦ください) 本記事について 小説家になろうの作品でブックマーク10以上を獲得するために、有利なジャンルはあるのか、作品のタイトルとあらすじの文字数は重要か、本文の文字数は重要か、ジャンルが重要ならどのジャンルが良いのか、文字数が重要ならどのぐらいの文字数が良いのか、といったことを調べていきます。 先に分析の結果を書くと 大ジャンル ジャンル 15禁止作品かどうか、タイトルの文字数、あらすじの文字数

                                                                  小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita
                                                                • 大阪都構想の投票結果を区ごとに分析してみた - Qiita

                                                                  はじめに 私は現在大阪市に住んでおり、一昨日の都構想投票はテレビにかじりつきながら見ていました。 経過を見ていて思ったのが、区ごとの結果の差が顕著に出ており、分析対象として適したデータが得られそうだと感じたため、詳しく分析してみました。 ※下図はおおさか維新の会HP掲載の、都構想における新旧区分け GitHubに、使用したスクリプトやクレンジング後のデータをアップロードしています Qiitaのガイドラインにあるように、あくまで技術記事としての領分を超えないよう、政治的な深い考察は避け、得られた事実のみを列挙していこうと思います。 また、私は因果推論のような高度な分析のスキルは持ち合わせていないので、「さらに深い知見を得るためにはこうしたらいい」 というような手法に関するアドバイスがございましたら、コメント頂けると大変ありがたいです! 結論 結論に至るまでの手順は次章以降で述べますが、以下の

                                                                    大阪都構想の投票結果を区ごとに分析してみた - Qiita
                                                                  • [確率思考の戦略論] 1.確率理論の導入とプレファレンスの数学的説明

                                                                    import numpy as np import scipy from scipy.stats import binom %matplotlib inline %config InlineBackend.figure_format = 'svg' import matplotlib import matplotlib.pyplot as plt import seaborn as sns print("numpy version :", np.__version__) print("matplotlib version :", matplotlib.__version__) print("sns version :",sns.__version__) numpy version : 1.18.1 matplotlib version : 2.2.2 sns version : 0.8.1

                                                                      [確率思考の戦略論] 1.確率理論の導入とプレファレンスの数学的説明
                                                                    • WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp

                                                                      鈴木たかのり(@takanory)です。今月の「Python Monthly Topics」では、Webブラウザ上でPythonが動作するPyScriptについて、内部構造なども含めて詳しく解説したいと思います。 PyScript公式サイト(https://pyscript.net/) Warning:PyScriptは現在非常に活発に開発が進んでいるプロダクトのため、将来的にこの記事のサンプルコードが動かなくなる可能性があります。記事執筆時点では最新バージョンであるPyScript 2023.03.1で動作確認しています。うまく動かない場合はPyScriptの公式ドキュメントなどを参照してみてください。 PyScript - PyScript documentation PyScriptとは? PyScriptは公式サイトに「Run Python in Your HTML」と書いてあると

                                                                        WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp
                                                                      • 「Excel」にPythonを統合、データ分析と可視化のスムーズなワークフローを実現

                                                                        「Python」は現在、最も人気のあるプログラミング言語の1つである。Webアプリの開発から、近年需要が伸びているデータ分析や機械学習、深層学習といった幅広い分野で利用されている。コードが分かりやすく、読みやすいため、プログラミング知識が少ない人でも扱いやすい。そのため、企業や学生の間でも利用が増えている。そのPythonを、データの整理、操作、分析の定番ツールであるMicrosoftの「Excel」で簡単に扱えるようになる。 米Microsoftは8月22日(現地時間)、開発プレビュープログラム「Microsoft 365 Insiders」のベータ・チャネルで「Python in Excel」のプレビューテストを開始した。まずはWindows用Excel(build 16818)からロールアウトし、他のプラットフォームにも拡大する予定。 セットアップや追加のインストールは不要。Pyth

                                                                          「Excel」にPythonを統合、データ分析と可視化のスムーズなワークフローを実現
                                                                        • Python Jupyter notebookでpandasを使いCSVを読み込みグラフを描画してpdfなどで保存する方法

                                                                          ここから特定の行(列)だけを抜き出してグラフにします。それで簡単な説明はあとでするとして、忘れないようにコードを書いておくことにします。 %matplotlib inline import numpy as np import matplotlib.pyplot as plt import pandas as pd import os df = pd.read_csv("/Users/yourname/Desktop/book.csv", encoding="UTF-8") plt.figure(figsize=(8, 6.5)) plt.rcParams["font.size"] = 22 plt.rcParams["xtick.labelsize"] = 12 plt.rcParams["ytick.labelsize"] = 15 plt.rcParams["legend.fonts

                                                                            Python Jupyter notebookでpandasを使いCSVを読み込みグラフを描画してpdfなどで保存する方法
                                                                          • 週刊少年ジャンプの短命作品を,機械学習で予測する (前編:データ分析) - Qiita

                                                                            1. はじめに 週刊少年ジャンプ(以下,ジャンプ)は,日本で最も売れている漫画雑誌1です.言うまでもなく,私は大ファンです. ジャンプ編集部の連載会議は非常にシビアです.ジャンプ作家の奮闘を描いたフィクション漫画「バクマン。」では,編集部が毎号の読者アンケートをもとに各漫画の人気を評価し,掲載順や打ち切り作品を決定する様子が描かれています2.連載開始から10週以内(単行本約1冊分)で連載が打ち切られてしまうことも珍しくありません.とても厳しい世界です. 本記事では,機械学習を使って,短命作品(10週以内に終了する作品)の予測を行います.究極の目標は,ジャンプ編集部より先に打ち切り作品を予測し,好みの作品が危ない場合はアンケートを出して打ち切りを回避することです3.我々は読者アンケートの結果を知ることができないので,掲載順の履歴を入力とし,短命作品か否かを出力する多層パーセプトロン4をTen

                                                                              週刊少年ジャンプの短命作品を,機械学習で予測する (前編:データ分析) - Qiita
                                                                            • ChatGPT「Code Interpreter」とは?何ができる?データ分析能力が飛躍的向上のワケ

                                                                              Code Interpreterとは? 何ができる? 年平均35%以上で成長し、2030年には1,093億ドルに達すると予想される生成AI市場。ChatGPTを展開するOpenAIが主導権を握っていると思われるが、Bardを擁するグーグルのほか、AlphaGoの技術を活用したチャットボットGeminiを開発するディープマインド、ChatGPTよりも強い記憶力を売りとするClaude2をリリースしたAnthropicなど、競合がひしめきあい、競争が激しい市場となっている。 生成AIトレンドの火付け役となったOpenAIは優位性を維持するために、ChatGPTのプラグインを拡充するなどさまざまな施策を展開中だ。ChatGPTにおける直近のアップデートで特に注目されているのが「Code Interpreter」のリリースだろう。 Code Interpreterの存在が明らかにされたのは3月23

                                                                                ChatGPT「Code Interpreter」とは?何ができる?データ分析能力が飛躍的向上のワケ
                                                                              • Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.

                                                                                September Update Python in Excel is now available to all Enterprise, Business, Education, and Family and Personal users running Beta Channel on Windows. This feature will roll out to Excel for Windows first, starting with build 16.0.16818.20000, and then to the other platforms at a later date. Since its inception, Microsoft Excel has changed how people organize, analyze, and visualize their data,

                                                                                  Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.
                                                                                • データ分析や機械学習にバリバリ使える上にブラウザで使用できて環境構築不要のPython実行環境「Google Colaboratory」

                                                                                  「Jupyter notebook」というツールは、Pythonのコードを部分ごとに実行できてその場で結果を確認できるため、試行錯誤を積み重ねる必要があるデータ分析や機械学習によく用いられてきました。「Colaboratory」はそのJupyter notebookを元に「ブラウザで実行」「ファイルはGoogleドライブに保存」「共同編集」などの機能を加えて作成されたツールです。 Google Colab https://colab.research.google.com/ Google Colaboratoryのサイトにアクセスすると「最近のノートブック」という画面に。ひとまず右下から「ノートブックを新規作成」してみます。 実行するPythonのバージョンを選択できます。今回は「PYTHON 3」を選択。 ノートブックには「セル」が存在し、左側の実行ボタンを押すとセル内のコードを実行して

                                                                                    データ分析や機械学習にバリバリ使える上にブラウザで使用できて環境構築不要のPython実行環境「Google Colaboratory」