タグ

pythonと*dataに関するsh19910711のブックマーク (344)

  • PythonによるSARIMAXモデルを使った「TVCMの効果検証」への挑戦 - LIFULL Creators Blog

    ※この記事はLIFULL Advent Calenderの20日目です こんにちは! LIFULLでデータアナリストをしている竹澤(@Akira Takezawa)です. 今回は, LIFULLのデータアナリストチームの取り組みを紹介します. 記事はデータ分析に興味がある方を対象に, 「マーケティングの実務で生かせる時系列分析」をテーマに執筆しました. まず, なぜこの記事を書いたかを簡単に説明します. 近年, 機械学習やディープラーニングの台頭を筆頭に近年データ分析の手法は爆発的に増え続けています. 一方で実際のビジネスの現場で見えてくるのは, 「派手さや新しさのみに捉われず, 古今東西変わらず価値を提供し続けてきた分析手法こそ重要ではないか」というもう一つの側面です. 具体的には相関・回帰分析や検定などがそうですが, 同時に「時系列分析」もビジネスの世界で活用機会が多く, パワフルな

    PythonによるSARIMAXモデルを使った「TVCMの効果検証」への挑戦 - LIFULL Creators Blog
    sh19910711
    sh19910711 2022/10/20
    2019 / "TVCMの出稿時期と繁忙期が重なり, KPIのリフトのうちどこまでがCMの影響なのかの判断が難しい / 世の中の現象を単純化してモデリングする際は, 常に妥協がつきもの"
  • 最近サイバーパンク風グラフ流行っていません? - Qiita

    まずはどんなグラフか? その特徴は * ネオンカラーを使う。 * 基線の前後に透明度の低い線を引いて、ボケ感を出す。 * 透明度の低い面装飾を追加して、ボケ感を追加する。 * 使用するフォントをサイバーっぽい物を使用する。 投稿のキッカケ matplotlib公式サイトにmatplotblogがあるのは、皆さんご存知でした? このサイトの最新の投稿がMatplotlib Cyberpunk Styleで上記のグラフの作成について解説しています。(2020/03/27 投稿) NHKスペシャル▽新型コロナウイルス瀬戸際の攻防〜感染拡大阻止(2020/4/11 PM9:00-PM10:04)でもサイバーパンク風グラフが使用されていました。(2020/4/11放送) [引用:NHKスペシャル:NHKプラス再配信から] R界隈でもサイバーパンク風グラフパッケージがリリースされています。(リリース

    最近サイバーパンク風グラフ流行っていません? - Qiita
    sh19910711
    sh19910711 2022/10/13
    2020 / "サイバーパンク風グラフ: ネオンカラー + 線の前後に透明度の低い線を引いて + 透明度の低い面装飾を追加 / 「見えない敵」に準えてサイバー感のあるグラフニーズがあるようです"
  • 誤読活動 – The Grammar of Graphics

    sh19910711
    sh19910711 2022/08/28
    "我々は SQL で aggregate したいが、Altair の可視化は SQL から分断されたオンメモリの世界で起こる / Polaris みたいに可視化仕様から SQL を生成して必要なデータ整形を全部済ませるアプローチが Python の世界に来てほしい"
  • Sparkでpandas UDFを利用する - Qiita

    この記事について Sparkは大規模データを高速に処理できるメリットがある一方で、pandasに比べるとまだまだ柔軟な処理ができるとは言い難い現状です。そこで、Sparkに実装されていない関数については、UDFを利用することがありますが、パフォーマンスが決して良いとは言えない状況です。 そこで、spark 2.3.0から登場したpandas UDFを使うと、高速かつ柔軟にデータを処理することができます。UDFを含めた概要についてはこちらの記事も見てみてください。 pandas UDFの概要 pandasUDFの基的な構成は pandas.Series もしくは pandas.DataFrame を受け付け、出力値として同様にpandas.Series もしくは pandas.DataFrame を返すような形で記述することができます。 pandasUDFには、 SCALER , GROU

    Sparkでpandas UDFを利用する - Qiita
    sh19910711
    sh19910711 2022/08/11
    2019 / "pandas UDF: spark 2.3.0から登場 + SCALER , GROUPED_AGG , GROUPED_MAP の3種類 + それぞれ受け付ける入力と出力が異なります / PandasUDFType.GROUPED_MAP: UDF内部にpandas.DataFrameを渡すことができます"
  • 【コード付き】復興状況を人工衛星からモニタリング! 北海道地震後の夜間光から確認してみた | 宙畑

    記事では、広域にわたる月次データが安定して提供されてきたVIIRS夜間光画像データを使って被災地の長期モニタリングの例を示します。夜間光データからは、人の社会経済活動が分かるとされています。 近年、日やアジアでは規模の大きい災害が多発しています。最近では、日国内ですと2018年西日大豪雨、2019年首都圏台風・豪雨で甚大な被害を受けました。 日国内だけでなく、アジアでも多数の災害に見舞われ、2013年フィリピン・ハイヤン台風、2018年インド・ケララ州台風等、大きな被害をもたらす災害が発生しました。このような自然災害について、気候変動により想定外の災害が多くなると言われています。 災害の発生をコントールすることが極めて難しい一方で、災害が起こったときの対応の改善を目的とした国際的な枠組み、「仙台防災枠組2015-2030」が2015年に合意されました。 この枠組みでは宇宙技術や地

    【コード付き】復興状況を人工衛星からモニタリング! 北海道地震後の夜間光から確認してみた | 宙畑
    sh19910711
    sh19910711 2022/07/20
    2020 / "夜間光画像からGDPや人口等の社会経済情報を得ることができれば、時間と費用がかかる統計調査の代替として、年別・月別で社会経済の変化を分析することができます > 災害の復旧・復興モニタリングにとても有用"
  • 太陽磁気活動周期データのプロット - Qiita

    はじめに 我々の太陽には、活発な磁気活動があります。磁気活動が穏やかな時は太陽表面ものっぺりしており平和なのですが、磁気活動が活発になると黒点が多く出現しフレアと呼ばれる高エネルギー爆発現象が引き起こされたりします。太陽の磁気活動は周期性を持っていることが知られており、太陽内部のダイナモ機構によって周期的な磁場生成が維持されていると考えられています。 David Hathaway 氏のウェブサイト NASA の Marshall Space Flight Center の David Hathway 博士のウェブサイトには、太陽の磁気活動や流れ場に関する様々な観測データが公開されています。 http://solarcyclescience.com/index.html 今回は、主にこれらの公開データをダウンロードして実際にプロットしながら遊んでみたいと思います。 太陽黒点面積データ まずは

    太陽磁気活動周期データのプロット - Qiita
    sh19910711
    sh19910711 2022/07/20
    "NASA の Marshall Space Flight Center の David Hathway 博士のウェブサイトには、太陽の磁気活動や流れ場に関する様々な観測データが公開されています / 太陽黒点の起源・11年周期の謎に関しては現在も決着がついておらず"
  • Magic Data Apps with Snowflake, Streamlit, and DuckDB

    sh19910711
    sh19910711 2022/07/17
    Snowflake + DuckDB + Streamlit / SnowflakeでCloud Storageに書き出したParquetファイルをDuckDBでWebアプリのデータベースとして利用する事例だ。参照系はPandasを使わなくても `SELECT * FROM read_parquet('temp.parquet')` でいけるのか👀
  • DataFrameで特徴量作るのめんどくさ過ぎる。。featuretoolsを使って自動生成したろ - Qiita

    前にSQLで言う所のcase when x then y else z end的な処理をpandasでやる時にすぐやり方を忘れるから記事にした。あれはあれでいいのだけれど、まだまだ前処理にすごく時間がかかる!!めっちゃめんどい なんとかしたい... 今までpandas.DataFrameで色々特徴量生成(feature creationとかfeature engineering)する時に、ごちゃごちゃpandasのネイティブな機能を使って生成してたけど、kagglerのエレガントなデータの前処理を見ていると下記モジュールを使っている人が多い印象。 scikit-learn.preprocessing category_encoders featuretools 特に大量に特徴量を生成したい場合、featuretoolsがすごく便利そうな予感!!! よっしゃ!! 使ってみよ!!! Featu

    DataFrameで特徴量作るのめんどくさ過ぎる。。featuretoolsを使って自動生成したろ - Qiita
    sh19910711
    sh19910711 2022/07/03
    2018 / "特徴量生成: ごちゃごちゃpandasのネイティブな機能を使って生成してたけど、kagglerのエレガントなデータの前処理を見ていると下記モジュールを使っている人が多い > scikit-learn.preprocessing + category_encoders + featuretools"
  • [Python]健診データを次元削減してみた:PCAとUMAPによる次元削減|あおじる

    はじめにこんにちは、機械学習勉強中のあおじるです。 これまで、全国健康保険協会(協会けんぽ)の医療費データを使っていくつか記事を書きました。 今回は、別のデータとして健診のデータを使ってみました。 データの取得全国健康保険協会(協会けんぽ)のホームページから健診データを取得します。 場所は、「統計情報」の「医療費分析」というページの中に年度ごとのデータがあります(年度によって資料の様式が違っていて探しにくいですが。)。 令和元年度~平成29年度(2019~2017年度) 「1.都道府県医療費の状況」という資料のバックデータのエクセルファイルの中に年度ごとの集計があります。https://www.kyoukaikenpo.or.jp/g7/cat740/sb7210/sbb7211/bunseki1/ 平成28年度~平成23年度(2016~2011年度) 「3.都道府県医療費等の基礎データ」

    [Python]健診データを次元削減してみた:PCAとUMAPによる次元削減|あおじる
    sh19910711
    sh19910711 2022/07/02
    "全国健康保険協会のホームページから健診データを取得 / 「統計情報」の「医療費分析」というページの中に年度ごと / 医療費データと違って年齢の要素がなかったためか、あまりきれいな結果にはなりませんでした"
  • LT「データまえしょりすとのためのpytest入門」@みんなのPython勉強会#46

    Event Page: https://startpython.connpass.com/event/124251/ Twitter: https://twitter.com/komo_fr

    LT「データまえしょりすとのためのpytest入門」@みんなのPython勉強会#46
    sh19910711
    sh19910711 2022/06/19
    2019 / "pandas.testingモジュール / pandasのテストコード自体がサンプルとして参考になる / 泥臭い前処理のコードは、仕様も泥臭くなりやすい / PyCon US 2019のトーク: テストにおけるデータ系特有の問題に触れ"
  • 900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう! - Qiita

    900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう!PythongeopandasDaskQiitaEngineerFesta2022dask-geopandas 初めに こちらの記事などでを紹介していきましたが、ファイルを読み込んだ後には当然、何かしらの処理を行うと思います。 GeoPandasをやるならFlatGeobufより10倍早いGeoParquetを使おう! GeoPandas(GeoDataFrame)のread/writeなら1000万レコードを10秒で読み込めるpyogrioを使って高速に行おう! 大きなデータを処理する際に、数十GB級のデータだとデータの読み込み自体を高速で完了させたとしても、空間検索に膨大な時間を要したり、そもそもデータがメモリに乗り切らず処理できないということもあるでしょう。

    900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう! - Qiita
    sh19910711
    sh19910711 2022/06/10
    "dask: 並列化されたDataFrameを作成し分散処理を行うことができるパッケージですが、dask-geopandasはGeoDataFrameでそれを可能にします / 有効活用すればGB級のデータも20sちょいで空間結合"
  • seabornの細かい見た目調整をあきらめない - Qiita

    はじめに seabornの洗練されたスタイルで作ったグラフはとてもきれいです。見た目だけでなく、列の多いデータの全体像を把握するのにも威力を発揮します1。特に適切に整形されたデータフレームを渡せばカテゴリの比較や全パラメータの相関を一瞥できる図が一瞬で作れる機能は、同等の図をmatplotlibで一から作る苦労を考えると驚愕に値します。データサイエンティストやkagglerに人気があるのも納得です。また、複雑なデータを扱っていないけど単に見た目の良いグラフを作りたいという人の要望にも簡単に答えてくれます。可視化のお作法的にも見た目的にもだいたい勝手にいい感じにしてくれる手軽さが売りのseabornですが、ときには自分で調整したくなるときもあります。matplotlibだと面倒な調整を手軽にやってくれるseabornらしいメソッドで解決できるならいいのですが、たまにseabornのベースであ

    seabornの細かい見た目調整をあきらめない - Qiita
    sh19910711
    sh19910711 2022/05/29
    "かっこいいからという理由だけの多色化は可視化のご法度 / 色使いは、きちんと使えばデータからパターンを浮かび上がらせ、下手に使えば逆にそれらを隠してしまうという / プロットにおける他のどの要素よりも重要"
  • PySparkで書き込むファイル数をいい感じにする方法 - Qiita

    はじめに この記事はMobingi Advent Calendar 2018の12日目の記事です。 やりたかったこと csvをparquetに変換する処理をAWS GlueのPython(ほぼPySpark)で実現していたのですが、出力されるファイル数が細かくなりすぎるという問題に悩まされていました。 output_df.write.save(path=output_path, format=output_format, mode='overwrite', compression=output_compression) 細かすぎるファイルはパフォーマンス的によろしく無いですし、Athenaでのクエリ実行時などでtoo many open filesといったエラーが出やすくなってしまいます。 そこで出力するファイルサイズをもとに書き込むファイル数をいい感じにコントロールするオプションを探しま

    PySparkで書き込むファイル数をいい感じにする方法 - Qiita
    sh19910711
    sh19910711 2022/05/29
    ファイルサイズの書き方よさそう 👀 / "KB = 1024; MB = KB * 1024; TARGET_FILE_SIZE = 32 * MB / 毎日上書き更新する系のデータの場合は書き込み先のs3パスを参考に、時系列データであれば前日のデータなどを参考にサイズを決定"
  • 人事異動のデータ化の取り組み 〜 CamelotによるPDFの表データ抽出 - Sansan Tech Blog

    DSOC サービス開発部 GEES/JES/COEグループの松です。 最近はコロナの影響で巣ごもりをしており、家の庭で芝生を育てています。 色々と手抜きをしてしまったがために生え揃いがまばらで、かわいい反面、芝生の上を裸足で歩けるようになるにはまだまだ時間がかかりそうです。気長に待ってみようと思います。 今日はSansanの機能の一つである、人事異動ニュースを支えるデータ化の取り組みについてご紹介したいと思います。 JES とは Sansanの機能の中に、人事異動ニュースと呼ばれる機能があります。 sin.sansan.com これは、所有する名刺に紐づく人物の人事異動が公開されたときにそれをニュースとして配信し、交換前に所有名刺の情報を最新情報に更新できるという機能です。 ニュースとして提供するために人事異動情報のデータ化を行っていますが、そのシステムがJESと呼ばれるもので、DSOC

    人事異動のデータ化の取り組み 〜 CamelotによるPDFの表データ抽出 - Sansan Tech Blog
    sh19910711
    sh19910711 2022/05/26
    "人事異動情報はXBRLのように構造化されたデータは存在していません / Camelot: PDFからテーブルデータを抜き出し、Pythonの配列やpandasのDataFrame形式で情報を抽出することが可能なツール"
  • 有価証券報告書のR&D部分をみつつ特許データ探索(ダッシュボード作成) - Qiita

    0.はじめに 動機 特許の情報を分析する際には、特許だけじゃなくて他の情報もみましょうねと長く言われてきてますが、自分としては特許検索とは別にネット検索でしこしこみたり、エクセルにメモを取ったりしながら、特許の情報と他の情報を行ったり来たりすることがあり結構面倒だった。 そこで特許検索を中心にしつつ、いろんな情報を参照できるダッシュボードがあるといいなあと思い、作ることに。 まずは、かなり綺麗に情報が入っている有価証券報告書と、その中の「研究開発について」の部分の文章を一覧にしようと検討。。 「研究開発について」の部分の文章はこんな感じで、その企業がどんな研究開発を進めようとしているか書いてあり参考になる。 6【研究開発活動】当社グループは、電子デバイスシステム、ファインテックシステム、科学・医用システム、産業・ITシステムの各セグメントで、製品競争力の強化と新製品の開発、新規事業製品の開

    有価証券報告書のR&D部分をみつつ特許データ探索(ダッシュボード作成) - Qiita
    sh19910711
    sh19910711 2022/05/14
    "有価証券報告書と、その中の「研究開発について」の部分 > その企業がどんな研究開発を進めようとしているか / EDINETからxbrl形式のデータを取ってきてcoarijでR&D部分を抜き出す + 分かち書きをしておいてBigQueryに投入"
  • PyCaret が可視化を強化!! 〜Ver.2.3.6以降〜 [Google Colabで実行] - Qiita

    更新 ×:exp_name = setup(data = Boston, target = 'medv') ←誤りがありました。 ○:exp_name = setup(data = data, target = 'medv') AutoViz は、動作が不安定(起動初回は描画、2回目は描画しない時がある等)な場合は、セッション再起動するといけます。 はじめに PythonのAutoML(自動機械学習)といえば PyCaret。 PyCaretは、機械学習の一連の処理、可視化がほぼ自動で実行できるPythonのライブラリ。 このPyCaretが、 AutoEDAの「AutoViz」 機械学習モデルの各種可視化が可能な「ExplainerDashboard」 を統合したようです。 統合で実現された内容は、PyCaret のyoutubeチャンネルにアップされた動画をみるとよくわかります。 とい

    PyCaret が可視化を強化!! 〜Ver.2.3.6以降〜 [Google Colabで実行] - Qiita
    sh19910711
    sh19910711 2022/05/11
    "PyCaretが、AutoEDAの「AutoViz」+ 機械学習モデルの各種可視化が可能な「ExplainerDashboard」を統合 / AutoViz: スルーしようと思っていたのですが ~ 以前使った時よりも単独でインタラクティブなものになっています"
  • 社内でデータ分析結果を可視化・共有する際に Google Colab が便利

    2022-05-10 社内でデータ分析のレポートを書く際は Google Colab がとても便利な事に気がついた。 Google Bigquery でデータを抽出、Google Sheets で可視化従来だと、自分がやっていた方法として、 Google BQ などで分析対象結果のデータを抽出その結果を Google Spread Sheet として保存して、Google Sheets の機能で可視化。元の SQL のコードは、別シートを作ってそこに貼り付けておく。利点としては、一度データを抽出した後は、Google Sheets で二次加工が簡単にできる点がとても便利。 また、 Google Sheet を共有後に Produc Manager が出したい数値を、Product Manager 自身が Google Sheets を元にさっと計算することもできる。 だが、二次加工が便利な

    社内でデータ分析結果を可視化・共有する際に Google Colab が便利
    sh19910711
    sh19910711 2022/05/11
    自動化できてないデータ基盤のリカバリ作業とかもColabのノートブックにまとめてる / "データ分析のレポートを書く際は Google Colab がとても便利 / サっと分析して可視化結果を共有したいときには、Google Colab が一択"
  • pythonのOpenPyXLでExcelのデータをとことん読み取る - Qiita

    はじめに pythonのOpenPyXLを使ってExcelのデータをとことん読み込んでみました。 世の中にはまだまだExcelを使って、何かをする需要が高くあります。 Excel内で完結すればよいのですが、Excelからデータを取り出し何かをするのはとても大変です。 私もpythonでデータを編集したいのに、元データがExcelにある、というケースが多々あり四苦八苦していました。 そこでOpenPyXLでExcelのデータを読み込む方法や注意点についてまとめてみました。 情報が同じような境遇の方に役立っていただければ幸いです。 環境とサンプルデータについて 今回は以下の環境でOpenPyXLを使用しました。 環境 バージョン

    pythonのOpenPyXLでExcelのデータをとことん読み取る - Qiita
    sh19910711
    sh19910711 2022/04/30
    2019 / "世の中にはまだまだExcelを使って、何かをする需要が高くあります / 様々な計算がしやすい数値座標も魅力的 / OpenPyXLではExcel座標と数値座標をお互い変換する機能「openpyxl.utils.cell」が備わっています"
  • 検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日語検索を実装する方法を紹介します(日語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは 弊社でのPyTerrier利用 PyTerrierで日語検索 Phrase Queryの注意点 まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基的なQuery RewritingやBM

    検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
    sh19910711
    sh19910711 2022/04/27
    "PyTerrier: 情報検索実験のためのプラットフォーム / パイプラインを演算子で構築できるのが特徴 > pipeline = (tfidf % 100) >> bm25 / PandasのDataFrameをそのままインデックスするインターフェースが用意されているので便利"
  • Vaex入門 / 可視化もXGBoostも - フリーランチ食べたい

    はじめに 昨日Vaexの性能評価の記事を書きました。 その記事では長くなってしまうので基的な使い方などを省略しました。 なので今回は入門記事として使い方を紹介します。 blog.ikedaosushi.com Vaexとは 昨日の記事でも書きましたが、遅延評価/Pandasライク/アウトオブコアという特徴を持ったデータフレームライブラリです。 github.com リンク集 ドキュメント: https://docs.vaex.io/en/latest/index.html ライブラリ作者解説記事①: Vaex: Out of Core Dataframes for Python and Fast Visualization ライブラリ作者解説記事②: Vaex: A DataFrame with super-strings – Towards Data Science インストール・読み

    Vaex入門 / 可視化もXGBoostも - フリーランチ食べたい
    sh19910711
    sh19910711 2022/04/16
    2019 / "Vaex: 遅延評価/Pandasライク/アウトオブコアという特徴を持ったデータフレームライブラリ / 可視化メソッドも並列化処理が行われ、単純にmatplotlibを使うより高速に描画できる / APIはPandasに似ていますが若干違う"