並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 167件

新着順 人気順

csv 結合 pythonの検索結果81 - 120 件 / 167件

  • PytorchのTransformersのT5を使って要約モデルを作る - 見習いデータサイエンティストの隠れ家

    インターネットの世界にニュースが溢れる昨今、満足度が高いものを的確に読みたいという方も多いかと思います。そのためには、見るニュースをどれにするか判断することが必要になります。そこで、ニュース全体の主旨を短い文章で表す要約の価値が高まっています。 自然言語処理における要約は、大きく2つに分けられます。それは、抽出型と抽象型です。抽出型は、文章の中から重要な文を抜き出すことで要約を作ります。要約として選ばれた文は元の文章にあるものなので、方向性が大きく異ることや誤字脱字がうまれる可能性は低いです。しかし、要約として選ばれた文のそれぞれは関係があるわけではないので、流暢な要約にならないことも多いです。それに対して、抽象型は人間が作るように要約としての文章の流暢さを考慮しながら作ります。本来人間がほしい要約はこちらになりますが、抽出型に比べると難易度が上がり、全く意味がわからない文章になる可能性も

      PytorchのTransformersのT5を使って要約モデルを作る - 見習いデータサイエンティストの隠れ家
    • 【HR Tech】「複数システム x 複数体系 x 独自ルール 」の超混沌とした暗黙知を整え、適切な権限設定で形式知として提供する仕組みづくり | BLOG - DeNA Engineering

      2020.08.03 カルチャー・環境 【HR Tech】「複数システム x 複数体系 x 独自ルール 」の超混沌とした暗黙知を整え、適切な権限設定で形式知として提供する仕組みづくり by Masaki-Sawamura 概要と想定読者 この記事ではDeNAにおける人事領域でのエンジニアリング事例を解説します。DeNAでは2018年4月より内製のテクノロジーチームを置き、現場のマネジメントで活かされるよう、暗黙知を形式知にするというテーマでとりくんできました。人事情報は基幹システム、勤怠、給与、会計などなど様々なシステムとの連携が必要です。そしてそれらはどれも独自のローカルルールや特殊事情を抱えています。データ集約自体は数年前からとりくんできていましたが、何度も改修を経て各処理が複雑にからみあい、頻繁に不具合がおきる状況となっていました。まず基盤としてそれらのアーキテクチャを整え、さらに、

        【HR Tech】「複数システム x 複数体系 x 独自ルール 」の超混沌とした暗黙知を整え、適切な権限設定で形式知として提供する仕組みづくり | BLOG - DeNA Engineering
      • [Python]データ分析業務で使いそうなコードまとめ(随時更新) – かものはしの分析ブログ

        都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト はじめに 仕事で使いそうなPythonのコードを残しておくドキュメントが欲しいなと思ったので、よく使うものをこちらに貯めていこうと思います。まだ19個しかないですが、30個を目標に追記していきます。 フォーマットとしては、 1.やりたい処理 2.コード 3.参考情報のリンク の3つを1セットにしています。 まずは、自分自身や周りで仕事をしている人が楽をできるドキュメントになればいいなと思って作っていきます。 目次 ・重複削除 ・階級のデータを作りたい ・再起的にリスト

          [Python]データ分析業務で使いそうなコードまとめ(随時更新) – かものはしの分析ブログ
        • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

          前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

            はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
          • [レポート] dbtとAirflowとGreat Expectationsで堅牢なデータパイプラインを構築する #dbtcoalesce | DevelopersIO

            大阪オフィスの玉井です。 12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からBuilding a robust data pipeline with dbt, Airflow, and Great Expectationsというセッションを受講したので、レポートを記します。 イベント概要 公式 Coalesce 2020 online - December 7-11, 2020 Building a robust data pipeline with dbt, Airfl

              [レポート] dbtとAirflowとGreat Expectationsで堅牢なデータパイプラインを構築する #dbtcoalesce | DevelopersIO
            • 【Botter Advent Calendar2023】仮想通貨で月に1万円を稼ぐC級Botterになろう|QASH_NFT

              本記事は仮想通貨botter Advent Calendar 2023に掲載させていただく記事です。(12/2 表 裏はしろいの鯖によくいるへっぽこさん) シリーズ 2はまだまだ空いてますよ! 仮想通貨botterアドベントカレンダー2023に参加しました#botは儲からないからやめた方がいい https://t.co/2graakuF3M — へっぽこ野郎.lens⚙🌊📘(🌸, 🌿)🛡️⚔️ (@CryptoHamHepyar) December 1, 2023 はじめに はじめまして。qash_NFTと申します。普段はBOTを用いたアービトラージを主体として、クラウド代とメンタルを溶かしながらお金拾いしております。 今回は、仮想通貨取引においてC級Botter(月に1万円稼ぐBotter)になるには?というのを真面目に考えてみる記事です。(稼げるとは言っていない) 仮想通貨の

                【Botter Advent Calendar2023】仮想通貨で月に1万円を稼ぐC級Botterになろう|QASH_NFT
              • DuckDB in Actionの読書メモ

                1章 イントロダクション DuckDBとは シングルノードでinmemoryな組み込みデータベース 処理中のデータが永続化されない 個人情報、機密データの扱いに困らない データパイプライン (ETL) ギガバイトなデータを効果的に扱える 数秒でハンドリング可能な処理機構 でもテラバイト級だとさすがに無理 MITライセンス 入出力として扱えるデータソース csv Json Parquet Arrow MySQL SQLite PostgreSQL Jupyterを経由して、PandasやPolarsから問い合わせできる 並列化されたクエリエンジン 費用面で高コストなAWS Athena SQLを使わずともすむ DuckDBのSQL 標準ANSI SQL Window関数, CTEも扱える 分析関数 count, min, max 独自拡張されたSQL構文 select exclude() /

                  DuckDB in Actionの読書メモ
                • 技術的負債に対する視力を得る技術 | Raccoon Tech Blog [株式会社ラクーンホールディングス 技術戦略部ブログ]

                  こんにちは、羽山です。 今回は先日開催した弊社主催の技術イベント「Raccoon Tech Connect #1 レガシーシステムに立ち向かう技術」で登壇した内容を当ブログで公開します。 イベントのテーマは「レガシーシステムに立ち向かう」ということで、システムを長らく運用していくと自然と溜まっていく 技術的負債 との付き合い方に着目しました。 技術的負債に対する理解を深め、技術的負債を可視化することによって自然と対処される状態を作る方法を解説します。 アーカイブ映像(YouTube) スライド(Speaker Deck) 戦略シミュレーションゲームで例える 今回の主題は「技術的負債」ですが、最初はたとえ話から始めます。 みなさんは戦略シミュレーションゲームをプレイした経験がありますか? 次のスライドは戦略シミュレーションゲームによくありがちなユニット生産画面を表しています。 そして、多くの

                    技術的負債に対する視力を得る技術 | Raccoon Tech Blog [株式会社ラクーンホールディングス 技術戦略部ブログ]
                  • Excel データを自動的に Amazon QuickSight に取り込む | Amazon Web Services

                    Amazon Web Services ブログ Excel データを自動的に Amazon QuickSight に取り込む Amazon QuickSight は、クラウドベースで高速なビジネスインテリジェンス (BI) サービスです。これにより、組織の誰もが容易に洞察を入手できるようになります。この投稿では、頻繁に変更されるデータを Amazon QuickSight ダッシュボードの SPICE (超高速、並列、インメモリ計算エンジン) データセットに自動でインポートする、サーバーレスのデータ取り込みパイプラインを構築する方法を示します。 BI 開発でアジャイルであることは、時には非常に困難です。たとえば、セルフサービス分析を実行するエンドユーザーは、追加のアドホックデータを既存のデータセットに追加し、対応する更新済みダッシュボードとレポートをタイムリーに表示することができます。ただ

                      Excel データを自動的に Amazon QuickSight に取り込む | Amazon Web Services
                    • 900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう! - Qiita

                      900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう!PythongeopandasDaskQiitaEngineerFesta2022dask-geopandas 初めに こちらの記事などでを紹介していきましたが、ファイルを読み込んだ後には当然、何かしらの処理を行うと思います。 GeoPandasをやるならFlatGeobufより10倍早いGeoParquetを使おう! GeoPandas(GeoDataFrame)のread/writeなら1000万レコードを10秒で読み込めるpyogrioを使って高速に行おう! 大きなデータを処理する際に、数十GB級のデータだとデータの読み込み自体を高速で完了させたとしても、空間検索に膨大な時間を要したり、そもそもデータがメモリに乗り切らず処理できないということもあるでしょう。

                        900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう! - Qiita
                      • 恒星データベースからUnity上に星空を構築する(リリースしました) - Qiita

                        世の中には恒星のデータベースというものがあるらしいので、これをそのまま球体として配置すればリアルなプラネタリウムが出来るのでは? と考えてやってみました。以下スクリプトのコード。 using System.Collections.Generic; using UnityEngine; using System.IO; public class Reader : MonoBehaviour { TextAsset csvFile; List<string[]> csvDatas = new List<string[]>(); public Material[] _material;//このマテリアルは事前準備が必要 //特定の星座に色をつけるためのリスト List<string> Spring = new List<string> { "Arcturus" , "Spica" , "Dene

                          恒星データベースからUnity上に星空を構築する(リリースしました) - Qiita
                        • [増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ

                          2021年2月13日紙版発売 2021年2月10日電子版発売 西田圭介 著 A5判/368ページ 定価3,520円(本体3,200円+税10%) ISBN 978-4-297-11952-2 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 「ビッグデータ」をテーマに,データ分析基盤技術をまとめた解説書。 AIの発展,コンテナ技術の進歩をはじめ,ビッグデータを取り巻く技術が大きく変わり始めました。ビッグデータの技術には,元々大きく分けて2つのバックグラウンドがありました。一つは業務系システムで,RDB(Relational Database)から取り出したデータをバッ

                            [増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ
                          • Python で映画をオススメしてみる〜ユーザー評価に基づくレコメンド・システムの基礎とデータに潜むバイアス〜 - GMOインターネットグループ グループ研究開発本部

                            2022.01.07 Python で映画をオススメしてみる 〜ユーザー評価に基づくレコメンド・システムの基礎とデータに潜むバイアス〜 導入 こんにちは次世代システム研究室の T. I. です。 さて、今回の Blog では、前回の Blog に引き続き「施策デザインのための機械学習入門」を参考に日常のデータサイエンスの業務で生じうるバイアスとその対処方法について紹介します。 今回の課題はレコメンド・システムです。我々がインターネットを利用していると、日常の様々な場面で商品・作品をお勧めされていると思います。これらは各種Webサービスが日夜集めたアイテムや顧客のデータを元になされています。アイテムの推奨には2種類考えられます。 (1) ユーザーが興味を持って何度も閲覧・視聴しているものを推奨して再度コンヴァージョン(購入・試聴)してもらう。 (2) ユーザーが興味を持ってもらえるであろう新

                              Python で映画をオススメしてみる〜ユーザー評価に基づくレコメンド・システムの基礎とデータに潜むバイアス〜 - GMOインターネットグループ グループ研究開発本部
                            • BERTで日本語の含意関係認識をする - Ahogrammer

                              含意関係認識(Recognizing Textual Entailment: RTE)とは、2つの文1と文2が与えられたときに、文1が正しいとしたら文2も正しいか否かを判定するタスクのことです。たとえば、文1として「太郎は人間だ。」という文があるとします。この文が正しいとしたとき文2である「太郎は動物だ。」が正しいか否かを判定します。この場合は人間は動物であるため正しいと判定する必要があります。 含意関係認識を解くための手法は様々ありますが、本記事ではBERTを使った機械学習ベースの手法で解くことにします。 BERTによる含意関係認識器の実装 本節ではBERTを用いた含意関係認識のモデルを構築します。実装の手順は以下の通りです。 プロジェクト構成 パッケージのインストール データセットの準備 モデルの定義 評価用コードの実装 モデルの学習と評価 プロジェクト構成 本節では以下のプロジェクト

                                BERTで日本語の含意関係認識をする - Ahogrammer
                              • ブラウザで本番データの分析をするためにRedashとGoogleColabを組み合わせてみた話 - for Startups Tech blog

                                こんにちは。エンジニアの藤井(@yutafujii)です。 社内向けのプロダクト「タレントエージェンシー支援システム(SFA/CRM)」のエンジニアをしています。 当社ではデータ分析を専門に行う人がまだいないので、私たちエンジニアがごく簡単なデータ分析を行う場面があるのですが、それを行うためにPythonでの分析環境を手軽に構築しました。 具体的には、複数のRDBやログデータを対象に、RedashでSQLを書いてデータレイク的状態(あるいはデータウェアハウス的状態)を形成し、Google Colaboratory(以下Colab)を用いてその出力をPythonで分析するという流れを説明します。 データ分析を本格化する前のサービス運用をしているPdM・エンジニア・マーケターや、片手間にPythonで分析したいという人を想定読者とさせていただきます。 モチベーション 一言でいえば「データ分析基

                                  ブラウザで本番データの分析をするためにRedashとGoogleColabを組み合わせてみた話 - for Startups Tech blog
                                • はじめての自然言語処理 Sentence Transformer による文章ベクトル化の検証 | オブジェクトの広場

                                  今回は文章のベクトル化を扱います。文章のベクトル化は 第9回 で扱っていますが、当時に比べてデータセット、事前学習モデル、ライブラリ等でいろいろと状況が好転しているので、改めて扱ってみることにしました。最近は大規模データセットを用いた事前学習が公開されているので、作り比べてみます。 1. はじめに 今回は sentence-transformers1 で文章のベクトル化にチャレンジしてみます。文章をベクトル(埋め込み表現)化することで、文章間の意味合い的な比較が可能になり、類似文章検索やクラスタリングなどが可能になります。 このライブラリは 第9回 で紹介済みですが、当時のバージョンは 0.2.5.1 であり、その後に損失関数が追加されていたり、サンプルコードが充実したりとかなりの更新が入って執筆時点で 2.1.0 になっています。ついでに言うと 第9回 は結構アクセス数があるみたいなので

                                    はじめての自然言語処理 Sentence Transformer による文章ベクトル化の検証 | オブジェクトの広場
                                  • 【Pandas】コロナのグラフ作成 - よちよちpython

                                    はじめに 厚生労働省が公表している日本における新型コロナの各種データを、Pythonを用いてPandasの練習を兼ねてグラフ作成する。 ・グラフ作成に利用する元データのURLは、下記のコード内の先頭に書いています。 ・データの日付は、2021年1月3日が最新。開始日はデータの種類で異なるが、2020年3月14日から揃っているようです。 【実行環境】 Android termux Python3.9 Jupyter Notebook <外部ライブラリ> ・Numpy ・Pandas ・matplotlib 目次 はじめに 目次 実装(Python) 死者数のトータル データの結合 陽性率を出す 陽性者数/PCR検査件数(日毎) 相関関係 グラフ おわりに 実装(Python) コードを実行する際はネット上のurlから直接データをダウンロードしますので、インターネット接続が必要です。 # CS

                                    • Python 輪郭の検出とその座標の抽出「OpenCV」 - PythonとVBAで世の中を便利にする

                                      本記事では、画像ファイルの物体の輪郭を抽出する雛形コードを載せました。検出手法を関数として4つ載せました。いずれも処理の大まかな流れは、2値化してしきい値で判別します。その2値化が画像に依っては難しいのです。 そのため、毛色の異なる次の2つのリンク先の画像とコードを参考にさせて頂きました。更に、自前で準備した画像2つを合わせた計4つに対して、処理の過程と共に結果例を順番に載せます。 ▼チューリップの花の輪郭を検出する (参考リンク)オブジェクト輪郭検出 | OpenCV / findContours を使用して画像中のオブジェクトの輪郭を検出する方法 画像の特徴1:花が沢山あって、それぞれの形状が複雑 画像の特徴2:花とそれ以外の葉っぱなどの背景との色度が明確にわかれている 処理1. 色調RGBをHSVへ変更 →茎と土の輪郭をぼかす 処理2. ガウシアンによるスムージング処理 →更に、茎や

                                        Python 輪郭の検出とその座標の抽出「OpenCV」 - PythonとVBAで世の中を便利にする
                                      • データ移動不要!Cloud SQL のマスタデータと BigQuery のトランザクションデータを結合して SQL で分析してみた。 | DevelopersIO

                                        データ移動不要!Cloud SQL のマスタデータと BigQuery のトランザクションデータを結合して SQL で分析してみた。 こんにちは、データアナリティクス事業本部のみかみです。 本エントリは、クラスメソッド BigQuery Advent Calendar 2020 の 18 日目のエントリです。 25日のアドベントカレンダー終了まで、弊社クラスメソッド データアナリティクス事業本部のメンバーで、Google BigQuery に関する記事を紡いでいこうと思います。 やりたいこと BigQuery と Cloud SQL のテーブルデータを SQL で結合して集計したい ある小売業の会社のシステムでは、商品マスタや店舗マスタなどのマスタデータは、システム管理画面でメンテナンスする必要があるため、リレーショナルデータベースの Cloud SQL で管理しています。 一方、実店舗で

                                          データ移動不要!Cloud SQL のマスタデータと BigQuery のトランザクションデータを結合して SQL で分析してみた。 | DevelopersIO
                                        • Snowpark PythonのDataFramesでテーブルに格納したデータを操作してみた | DevelopersIO

                                          Snowflakeのテーブルに格納したデータに対して、DataFrameを使っての操作方法を確認しました。 データアナリティクス事業本部 機械学習チームの鈴木です。 Snowflakeのテーブルに格納したデータの操作を、Snowpark PythonのDataFramesで行う方法を試してみたのでまとめました。 この記事の内容 Snowpark PythonでSnowflakeのデータをクエリして処理する主な方法として、以下のガイドではDataFrameの使用が紹介されています。今回はこの操作の中で、既にテーブルに格納されたデータに対して使いそうなものを試してみます。 APIの使い方はPySparkによく似ており、以下のページでもSparkによるパイプラインのSnowparkへの移行が紹介されています。PySparkに馴染みがある方はAPIリファレンスを見つつすぐに使えると思います。 Sn

                                            Snowpark PythonのDataFramesでテーブルに格納したデータを操作してみた | DevelopersIO
                                          • AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ

                                            はじめにこんにちは。TIGの藤田です。 Python連載 の8日目として、PySparkを使用したGlueジョブ開発のお話をします。 ETLツールとして使用されるAWS Glueですが、業務バッチで行うような複雑な処理も実行できます。また、処理はGlueジョブとして、Apache Spark分散・並列処理のジョブフローに簡単に乗せることができます! 特に複雑な処理は、やや割高な開発エンドポイントは使用せず、ローカル端末で、しっかり開発・テストを行いたいですよね。そのためのローカル開発Tipsをご紹介します。 内容 Glueジョブの開発と実行概要 Tip1: ローカル環境構築 Tip2: PySpark, SparkSQL開発 Tip3: 単体テスト(pytest) Tip4: データカタログどうする問題 Glueジョブの開発と実行概要ローカル開発の前に、AWS Glueでのジョブ実行方法を

                                              AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ
                                            • 【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】

                                              日本語の全文検索ぜんぶんけんさく (full-text search, FTS) を、高速に実行する Python コード例です。 Python の標準モジュール sqlite3 を使用しました。 sqlite3 から、SQLiteエスキューライト の全文検索 (FTSエフティーエス) を使ってみました。 試したのは、FTS4エフティーエスフォー と FTS5エフティーエスファイブ の2種類です。 ところで、SQLite の読み方は色々ありました。YouTube では、エスキューライト、エスキューエライト、スィクライト、スィクエライト、などの発音を聞きました。 全文検索の使い方(FTS の使い方)ですが、テキストを N-Gram にして、FTS4 か FTS5 の仮想テーブルに INSERT するだけでした。 (2022年2月5日 追記)MeCab の使い方も書きました。 MeCab で

                                                【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】
                                              • RedashとTableauを比較してみた - Techtouch Developers Blog

                                                この記事はテックタッチアドベントカレンダー23日目の記事です。 分析チームでエンジニアリングマネージャーをしている takeshi です! 入社して1年が経過しました。 今回は、分析チームの日々の業務の中で活躍してくれているRedashとTableauについて、経験したことを紹介したいと思います。分析関連の業務をされている方に、少しでも参考になれば幸いです。 RedashとTableauとは Redashの場合 Tableauの場合 RedashとTableauを比較して シンプルな比較 データ接続 変数利用 Redashの場合 Tableauの場合 複数データソースを結合して扱う Redashの場合 Tableauの場合 大量データの扱い Redashの場合 Tableauの場合 実行ファイルの管理のしやすさ Redashの場合 Tableauの場合 探索的分析 redashの場合 Ta

                                                  RedashとTableauを比較してみた - Techtouch Developers Blog
                                                • BigQueryを徹底解説!(基本編) - G-gen Tech Blog

                                                  G-gen の杉村です。Google Cloud のフルマネージドな分析用データベースである BigQuery について、徹底的に解説します。当記事は基本編であり、当記事を読み終わったあとは応用編もご参照ください。 概要 BigQuery とは 利用方法 フルマネージド (サーバーレス) 他の Google Cloud サービスとの連携 他クラウドサービスとの連携 料金 料金体系の基本 ストレージ料金 ストレージ料金の基本 Physical Storage と Logical Storage Active Storage と Long-term Storage コンピュート料金 無料枠 オンデマンド課金に制限をかける コンポーネント BigQuery の構成要素 データセット テーブル テーブルとは 標準テーブル 外部テーブル ビュー ビュー (通常) マテリアライズド・ビュー ルーティン

                                                    BigQueryを徹底解説!(基本編) - G-gen Tech Blog
                                                  • OptunaとKubeflow Pipelinesを用いた並列ハイパーパラメータチューニング | MoT Lab (GO Inc. Engineering Blog)

                                                    はじめに こんにちは。AI技術開発部 MLエンジニアリング第1グループの築山です。 以前、社内でOptunaとKubeflow Pipelines(以下KFP)を用いて並列ハイパーパラメータチューニングを行い、とあるプロダクト(後述する『お客様探索ナビ』の経路推薦システム)のパラメータに適用する機会がありました。 その際は社内向け勉強会のためにスライドをまとめ、以下のツイートとともにSlideShareで公開しており、多少の反響もいただいていました。 https://twitter.com/2kyym/status/1256147262738018304?s=20 そのスライドがOptunaの開発者の方の目に留まり、「テックブログを書いて欲しい」と打診をいただき、今回執筆している次第です。 公開済みスライドと被る部分もありますが、基本的には 今回のユースケースOptunaとKFPの紹介・チ

                                                      OptunaとKubeflow Pipelinesを用いた並列ハイパーパラメータチューニング | MoT Lab (GO Inc. Engineering Blog)
                                                    • Yves Hilpisch『Pythonによるファイナンス 第2版 データ駆動型アプローチに向けて』まとめ - Palette、日記、眠っていた時間

                                                      Yves Hilpisch『Pythonによるファイナンス 第2版 データ駆動型アプローチに向けて』(黒川利明訳、中妻照雄技術監修、オライリージャパン)が去年の末に発売されたので、元日から約三週間かけて読みました。そのあと放置していたのですが、今回その内容を章ごとに要約したので参考にしてください。 Pythonによるファイナンス 第2版 ―データ駆動型アプローチに向けて (オライリー・ジャパン) 作者:Yves Hilpisch 発売日: 2019/12/26 メディア: 単行本(ソフトカバー) 作者のYves Hilpisch(イーブ・ヒルピシュ)氏は、投資銀行のクオンツとしてPythonを用いたパッケージの開発で金融業界に貢献してきた方で、現在はThe Python Quants GmbHおよびThe AI MachineのCEOを務めています。本書でも後半は彼の手による価格付けライブ

                                                        Yves Hilpisch『Pythonによるファイナンス 第2版 データ駆動型アプローチに向けて』まとめ - Palette、日記、眠っていた時間
                                                      • dbtプロジェクト構築に関する ベストプラクティス #4「マート層(Marts Layer)に関する検討事項」 #dbt | DevelopersIO

                                                        アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。 dbtはクラウド型データウェアハウス(DWH)におけるデータ変換に特化したツールです。非常に使い勝手が良く便利なツールである一方、様々な機能が提供されているのでいざ使ってみよう!となると『何をどうやって作り上げていけば良いんだろう?』『この場合のルールや制限はどういうものがあるの?どういう取り決めをもって扱えば良いんだろう?』という風に思うこともあるかと思います。(実際私自身そう感じました) そんなユーザーの疑問や悩みを解決する、いわゆるdbtユーザー向けのガードレール的な存在となりうるコンテンツがdbt社から展開されています。それが『dbtベストプラクティスガイド(Best practice guides)』です。構造、スタイル、セットアップなど、dbt Labsの現在の視点を通した「ベストプラク

                                                          dbtプロジェクト構築に関する ベストプラクティス #4「マート層(Marts Layer)に関する検討事項」 #dbt | DevelopersIO
                                                        • AIミュージックバトル!『弁財天』のスターターキットをPyTorchに移植してアドリブメロディの自動生成を試してみた - 備忘録

                                                          はじめに スターターキットについて スターターキットが提供するモデルの概要 実装 必要なパッケージ 実装の概要 メロディ生成実験 実験条件 実験結果 実装の舞台裏やTIPS、TensorFlow版との違いなど おわりに はじめに 最近、下記のイベントが開催されることがアナウンスされた。 benzaiten.studio.site 『AIミュージックバトル!『弁財天』は「伴奏」から「アドリブメロディ」をAIで生成し「どれだけイケてるメロディか」を競うAI自動作曲コンテストです。』 とのことである。 本コンテストではTensorFlowベースのスターターキット(Google Colabで実行可能)が提供されており、自動作曲初心者でも無理なく始められるようになっている。 筆者はPyTorchユーザなので、スターターキットのPyTorch版を作成しておきたいと思ったわけである。自動作曲自体に興味が

                                                            AIミュージックバトル!『弁財天』のスターターキットをPyTorchに移植してアドリブメロディの自動生成を試してみた - 備忘録
                                                          • 初めてのサウンドプログラミング - Qiita

                                                            サウンドプログラミングしたい。 ゴリゴリの文系、音楽の素養ナシのwebエンジニアが0から音楽系サウンドプログラミングを学んでいく話です。ちなみに最終目標はコーラスを合成するGUIアプリ。道のりとおし。 それまでに学んだことをぼちぼち落としていきたいと思っています。 サウンドプログラミングとは? サウンドプログラミングと一口に言っても、音声認識だったり音楽だったり、電話の信号変換の話もあったりします。とにかく幅が広い。 私が指しているサウンドプログラミングとは、デジタルオーディオの世界の方です。 誰向けか? サウンドプログラミングに興味があるけどどこから手をつけるべきかわからない人 数学ができない人 プログラミングはやったことある人 シンセサイザーを自作してみたい人 さあ始めよう! しかし、いざサウンドに手を出してみると、知らなければならない情報が多すぎて何を勉強したらいいのかわからないのも

                                                              初めてのサウンドプログラミング - Qiita
                                                            • 週刊Railsウォッチ(20200609後編)Rubyにカスタマイズ可能な軽量fiberスケジューラを実験導入、RailsとGraphQL、DBについて知って欲しいことほか|TechRacho by BPS株式会社

                                                              2020.06.09 週刊Railsウォッチ(20200609後編)Rubyにカスタマイズ可能な軽量fiberスケジューラを実験導入、RailsとGraphQL、DBについて知って欲しいことほか こんにちは、hachi8833です。 追記(20200612): 冒頭セクションにおけるツイートの引用方法がツイートの意図と異なるというご指摘をいただきました。大変申し訳ございません🙇‍♂️。 該当セクションを削除いたしました。削除前のスクショ: 1、2 各記事冒頭には⚓でパーマリンクを置いてあります: 社内やTwitterでの議論などにどうぞ 「つっつきボイス」はRailsウォッチ公開前ドラフトを(鍋のように)社内有志でつっついたときの会話の再構成です👄 ⚓Ruby ⚓Rubyに軽量なfiberスケジューラを実験的に導入(Ruby Weeklyより) issue: Feature #1678

                                                                週刊Railsウォッチ(20200609後編)Rubyにカスタマイズ可能な軽量fiberスケジューラを実験導入、RailsとGraphQL、DBについて知って欲しいことほか|TechRacho by BPS株式会社
                                                              • GeoPandasは100万行の夢を見るか - Qiita

                                                                年末オープンジオかくし芸大会 でおなじみの、FOSS4GAdventカレンダー2018の23日目です。 はじめに この記事は 地図や位置のデータをPythonで処理したい Python初学者 QGISちょっとわかる PostGISやMySQLなどのサーバー系はちょっとしんどい 商用GISソフトは手元にない 暗中模索話だいすき という方むけの検証記事です。どうぞよろしくおねがいいたします。 きっかけ いろいろとアレで大量のcsvファイルをなだめたりすかしたりクリーニングしたりするために、PythonのライブラリであるPandasをよく使っています。Pandasについては多くの知見があるため割愛しますが、表形式のデータを取り扱うのに様々な命令があるため、結構便利ですし、今後もいろいろ使ってみたいなあと考えています。 ※こちらのパンダさんとはちょっと関係がないかもしれませんが、どこかでなにかつな

                                                                  GeoPandasは100万行の夢を見るか - Qiita
                                                                • Vertex AIを活用したMLOpsの実現【後編】 | 株式会社CAM

                                                                  |目次 1. はじめに 2. Vertex Trainingについて 3. Vertex Predictionについて 4. Vertex Feature Storeについて 5. CAMでのMLOpsシステム構成 6. まとめ 7. 参考資料 |1. はじめに 株式会社CAMで機械学習エンジニアをしています原 和希です。 データ分析から機械学習モデルの作成、そしてMLOps基盤の構築を担当しています。 今回もMLOps基盤の構築をトピックとして、弊社で導入をしているMLOps基盤を実現するためのGCPのサービスであるVertexAIについて紹介します。 本記事は前編と後編に分かれています。前編ではMLOpsについてと機械学習パイプラインを実現するためのサービスであるVertexAI Pipelineについて詳しく解説をしています。まだお読みでない方は、ぜひ「Vertex AIを活用したM

                                                                    Vertex AIを活用したMLOpsの実現【後編】 | 株式会社CAM
                                                                  • 急成長する《現場》の、データエンジニアというお仕事。 - Qiita

                                                                    なんの話? 三行で。 サービスが急成長しデータ量が増えた際にデータエンジニアリングは必要とされる。 エンジニアリングに必要なスキルセットは比較的明確で、駆け出しエンジニアにもポジションあるよ。 データエンジニアリング業務を経て、データサイエンティストなど他職種にランクアップすることは可能。 [おまけ1] "data+engineer+positionでググる"と、主に海外のData Engineer(DE職)のお仕事が入門者レベルからエキスパートレベルまで見つかるよ...Tokyoをつけると、東京でのDE職も見つかる。転職活動で普通に有用。 *[おまけ2] 末尾におまけとして、現在私が取り組んでいる『2020年代のデータ分析基盤の基本設計』に関して日々調べていることを、公開できる範囲で書いておきたい(内容はコメント欄に随時更新)。実際のデータエンジニアリング実務の一端を知ってもらう意味で。

                                                                      急成長する《現場》の、データエンジニアというお仕事。 - Qiita
                                                                    • SQLポケットガイド 第4版

                                                                      現場で重宝するSQLリファレンス。ソフトウェア開発の現場では、「SQLの構文をすぐに確認したい」「データベースによって異なるSQLの書き方を知りたい」「久しぶりにSQLを使うので簡単に復習したい」といったことがよくあります。本書では、仕事でSQLを利用しているプロの開発者を対象に、主要な5つのデータベース――MySQL、SQL Server、Oracle、PostgreSQL、SQLite――で使われるSQLの構文およびデータベースの基本を簡潔に解説します。PythonやRからSQLを利用する方法も解説しているので、データアナリストやデータサイエンティストなど、開発者以外のSQLユーザーにも有用でしょう。 まえがき 1章 SQL速修講座 1.1 データベースとは何か? 1.1.1 SQL 1.1.2 NoSQL 1.1.3 データベース管理システム(DBMS) 1.2 SQLクエリーとは何

                                                                        SQLポケットガイド 第4版
                                                                      • スクレイピング・ハッキング・ラボ サポートページ

                                                                        このページについて このページは、インプレスR&D『スクレイピング・ハッキング・ラボ』のサポートページです。『スクレイピング・ハッキング・ラボ』の疑問点や難しい点、正誤表、新しいHTMLへの対応などを記載していきます。 『スクレイピング・ハッキング・ラボ』についてわからない点がありましたら、Twitterなどで #スクレイピング・ハッキング・ラボ で投稿して頂けたら、対処法を調査していきます。是非ご活用ください。 しのさんの記事「スクレイピング・ハッキング・ラボ つまりポイントメモ」 しのさん(@drunker51)が「スクレイピング・ハッキング・ラボ つまりポイントメモ」という記事を書いてくださっています。2024年4月に書かれていて、『スクレイピング・ハッキング・ラボ』で使用しているライブラリが廃止されたり改名されたりした問題や英語環境での問題など詳細に対応策が書かれてあります。『スク

                                                                          スクレイピング・ハッキング・ラボ サポートページ
                                                                        • 【フリーソフト】Yukis Army knifeの紹介 - sheephumanのブログ

                                                                          皆さんこんにちわ。 フリーソフト紹介のコーナーです(新コーナー) 僕はフリーソフトの同人的な文化が割と好きなんですが、昨今のIT業界はマネタイズがどうのこうのといちいち恰好付けるのが上手になってしまいました。新しいアプリ作品も出てこなくなっている。 そんな中、Pythonで素晴らしいWindowsアプリを自作した方が居まして、紹介します。 www.youtube.com yukisakura001.github.io 機能概要 十徳ナイフのようなPC用便利アプリでして、なんというか、上げきれないほどの機能がボタン一つでアプリランチャーのように呼び出せる、そんなアプリです。 (’僕のと違い)インストーラが付いており、なかなか恰好いいです。 このように挙げきれないので文字起こししました。 カテゴリ 機能 テキスト・情報 空白削除、改行調整、重複削除、筆記体変換、テキスト編集、文字変換、ソート、

                                                                            【フリーソフト】Yukis Army knifeの紹介 - sheephumanのブログ
                                                                          • サイトマップ

                                                                            金子研究室ホームページサイトマップ. 金子研究室ホームページでは,約2000ページを公開している.ページは,データベース関連技術,データの扱い,インストール,設定,利用,プログラミング,サポートページ,連絡先,業績に分けて構成している.サイトマップでは,ホームページ内の全てのページについてのサイトマップを示している. 【サイト構成】 人工知能 データベース 3次元,地図 プログラミング 情報工学全般 インストール 連絡先,活動,その他 金子邦彦研究室 ▶ サイトマップ ▶ サイト内検索 ▶ アクセスログ(直近28日分), Google Search Console ▶ まとめページ(目次) ▶ 人工知能,データサイエンス,データベース,3次元のまとめ ▶ Windows のまとめ ▶ Ubuntu の使い方 ▶ Python のまとめ(Google Colaboratory を含む) ▶

                                                                            • 『Backtesting.py』でFXのバックテストをする!:Python - モーリーのメモ

                                                                              【 今回やること! 】 Pythonのライブラリの『Backtesting.py』を使って、FXのバックテストを行います。 プログラムの作成と実行は『Google Colaboratory』で行います。 『Google Colaboratory』は手持ちのPCの性能に関わらず、高速でPythonプログラムが動かせる無料の環境です。 『Backtesting.py』を使ってバックテストをする方法についてまとめました。 自動売買システムをヒストリカルデータ(過去の相場データ)で試します。 ライブラリを使うことで、最低限必要な機能がそろったバックテストプログラムが楽に作れます。 FXの知識が浅い私にとっては、ライブラリの仕様を見ることがバックテストの評価方法や指標の種類を知るきっかけになっています。 最初に別のライブラリを使おうとしたのですが、私の知識が足りなすぎて分かりづらかったため、比較的簡

                                                                                『Backtesting.py』でFXのバックテストをする!:Python - モーリーのメモ
                                                                              • 40代プログラミング初心者:3万件のCSV操作「遅い」からpandasへ - Qiita

                                                                                CSVの3万件はエクセルで開くと死ぬ python初心者おじさんがスクレイピングで3万件ぐらいデータをダウンロードしました CSVは軽いからすぐ開くだろ ・・・・・ ・・・・・・ おっそ!!! 体感1分 ソート、置換、などするともうフリーズして動かない・・・ もう絶望しかない はっ!機械学習の勉強で2万件のデータ扱ったときpandas早かったぞ! でもめんどくさいなぁ・・・ぶつぶつ・・・ もういっかいCSV開いてみよ・・・・ おそ!!! しかも回復でバグってだめじゃん Pandasでやりたかったこと 特定条件の行を削除 データが入っていない部分の保管※欠損値というらしい データを結合して新しいデータを作る 5分程度で終わった!早い pandasの学習役立った スッキリわかるpythonによる機械学習入門 スッキリわかるPythonによる機械学習入門 たくさんの機械学習の本を読んだけど、pa

                                                                                  40代プログラミング初心者:3万件のCSV操作「遅い」からpandasへ - Qiita
                                                                                • Juliaプログラミングクックブック

                                                                                  本書はJuliaの言語仕様からデータ分析、機械学習、数値計算まで広範囲のトピックをカバーする約90のレシピを収録したクックブックです。Juliaは数値計算、科学技術計算を得意とする言語で、C並みに高速で、Python並みに書きやすい、高機能かつ近代的なオープンソース言語を作成しようという目的で開発されました。数式を素直に表現できる構文を持ち、洗練されたデータ構造により計算速度が非常に速く、PythonやRといった既存のオープンソース言語の不満を解消する言語として注目を集めています。本書はJuliaが得意とする機能を多数紹介しており、Juliaの魅力と威力を存分に体感できます。原著はJulia 1.0と2018年10月時点でのライブラリを対象に書かれていますが、翻訳の際に1.2と2019年9月末時点での最新のライブラリにおいて動作チェックを行い、コード例に対して必要な修正を行ってあります。コ

                                                                                    Juliaプログラミングクックブック