並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 78件

新着順 人気順

データ処理の検索結果1 - 40 件 / 78件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

データ処理に関するエントリは78件あります。 データプログラミングpython などが関連タグです。 人気エントリには 『ダイソー快進撃を支える「毎晩105億件データ処理」する需要予測システムはどう生まれたか』などがあります。
  • ダイソー快進撃を支える「毎晩105億件データ処理」する需要予測システムはどう生まれたか

    小売業の特徴は、いわゆる「ニッパチの法則」(売り上げを支える売れ筋商品は全体の2割という法則)。いかにして売れ筋商品の在庫を把握し、将来の需要を予測して、欠品なく並べ続けるかは生命線だ。 一方、ダイソーの特徴は、取り扱う商品点数が非常に多いことだ。 大創産業情報システム部課長の丸本健二郎氏によると、ダイソーは全世界27カ国で5270店に展開し、新商品は毎月約800。「均一価格」は日本と同じだが、価格レンジは各国地域の物価に合わせている。 こういう状況では、「人間の能力では在庫を把握するのは難しい」という前提に立って、丸本氏が取り組んだのが、POSデータの統計的解析から個店ごとの需要予測をして欠品をなくす「自動発注システム」(2015年導入)だった。 着想後、いくつかの店舗で試験的に導入したところ、着実に欠品率が下がり、「チャンスロス」が解消された。

      ダイソー快進撃を支える「毎晩105億件データ処理」する需要予測システムはどう生まれたか
    • 新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita

      新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14: Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました(この記事を参考にコンテンツのほうもブラッシュアップしたいと思います)。 Ibis 100 本ノックの記事を受けて はじめに どうもこんにちは、kunishou です。

        新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita
      • 冪等なデータ処理ジョブを書く - クックパッド開発者ブログ

        こんにちは、マーケティングサポート事業部データインテリジェンスグループの井上寛之(@inohiro)です。普段はマーケティングに使われるプライベートDMP(データマネジメントプラットフォーム)の開発を行っています。本稿では、その過程で得られた冪等なデータ処理ジョブの書き方に関する工夫を紹介したいと思います。今回は、RDBMS上で SQL によるデータ処理を前提に紹介しますが、この考え方は他の言語や環境におけるデータ処理についても応用できるはずです。 まずクックパッドのDMPと、冪等なジョブについて簡単に説明し、ジョブを冪等にするポイントを挙げます。また、SQL バッチジョブフレームワークである bricolage を使った、冪等なジョブの実装例を示します。 クックパッドのDMPと冪等なジョブ クックパッドのプライベートDMPは、データウェアハウス(社内の巨大な分析用データベースで、クックパ

          冪等なデータ処理ジョブを書く - クックパッド開発者ブログ
        • [速報]マイクロソフト、「Azure Synapse」発表。BigQuery対抗の大規模並列データ処理サービス。Ignite 2019

          フロリダ州オーランドで開催中のマイクロソフトのイベント「Microsoft Ignite 2019」が開催中です。 その基調講演において同社CEOのサティア・ナデラ氏は、大規模並列データ分析サービス「Azure Synapse Analytics」を発表しました。 同社は現在、大規模データウェアハウス向けのサービスとして「Azure SQL Data Warehouse」を提供していますが、「Azure Synapse」はそれをさらに発展させたもの。 データウェアハウス、ビッグデータ分析、データ統合などを1つのサービスとして統合し、事実上データ容量に上限がなく、ペタバイトクラスのデータでも高速に処理できる性能を提供します。 リレーショナルデータベースのような構造化されたデータおよび非構造化データのいずれにも対応し、SQLによって分析可能です。 そのために「Azure Synapse」では最

            [速報]マイクロソフト、「Azure Synapse」発表。BigQuery対抗の大規模並列データ処理サービス。Ignite 2019
          • そのトラフィック、NATゲートウェイを通す必要ありますか?適切な経路で不要なデータ処理料金は削減しましょう | DevelopersIO

            コスト最適化のご相談をいただくなかで、NAT Gateway に不要なコストが掛かっているパターンが多くみられます。また、そのような環境に限って NAT Gateway にかなりのコストが掛かっていることを把握されていないケースも少なくありません。 今回は見落としがちな NAT Gateway で無駄なコストが発生してしまうケース、何処へのアクセスで NAT Gateway を浪費してるかを確認する方法、そしてどのような改善パターンがあるかをご紹介します。 (本記事中で記載の価格はいずれも、執筆時点の東京リージョン価格を参考にしています) 目次 よくある構成 NAT Gateway に関わる料金のおさらい NAT Gateway 料金 AWS データ転送料金 実際の料金例 何が NAT Gateway を使ってるのか見当がつかない データ通信の方向を確認 VPC フローログから NAT G

              そのトラフィック、NATゲートウェイを通す必要ありますか?適切な経路で不要なデータ処理料金は削減しましょう | DevelopersIO
            • NVMeに新機能。ストレージがデータ処理を行う「コンピュテーショナルストレージ」、NVM Expressが発表

              NVMe関連規格の標準化団体であるNVM Expressは、ストレージ内でデータ処理を行うための業界標準「コンピュテーショナルストレージ」(Computational Storage)機能を発表しました。 「コンピュテーショナルストレージ」はデータ処理を行えるストレージ コンピュテーショナルストレージとは、その名前が示す通り計算機能を備えたストレージのことです。 基本的にストレージに格納されたデータは、ストレージから取り出されてメインメモリに読み込まれ、それをCPUが処理します。しかし大量のデータを処理する場合、大量のデータをストレージからメモリへと移動させなければなりません。 そこで、ストレージが備えているFPGAやプロセッサを用いてストレージ内でデータ処理が行えるようになれば、データをストレージから移動しなくて済むために高速な処理が期待できます。 そうしたインテリジェントなストレージや

                NVMeに新機能。ストレージがデータ処理を行う「コンピュテーショナルストレージ」、NVM Expressが発表
              • 無料で機械学習やデータ処理の流れを簡単に可視化してくれるワークフローツール「Flyte」を触ってみた

                「宿泊者がサイコパスかどうか」を予約前にチェックする仕組みやわずか11万円で自動車を「完全自動運転車」に改造できる手作りキットが開発されるなど、機械学習を利用した技術の開発はますます活発になっています。そうした機械学習やデータ処理においては開発プロジェクトのコードやデータなどのワークフロー全体を管理してくれるワークフローツールが非常に便利な存在であり、NetflixのMetaflowなど企業が独自に開発したワークフローツールがオープンソースとして公開される事例もあります。「Flyte」はライドシェアサービスを展開するLyftがオープンソースとして公開したワークフローツールとのことなので、実際にツールを触ってみました。 Flyte — Flyte 0.0.1 documentation https://lyft.github.io/flyte/ GitHub - lyft/flyte: de

                  無料で機械学習やデータ処理の流れを簡単に可視化してくれるワークフローツール「Flyte」を触ってみた
                • JuliaとPythonを併用したデータ処理のススメ - MNTSQ Techブログ

                  Pythonでデータ処理をしている際、numpyにはまらないごちゃごちゃした前処理があり、ちょっと遅いんだよなぁ。。。となること、ないでしょうか。 ルーチンになっている解析であれば高速化を頑張る意味がありそうですが、新しい解析を試行錯誤している最中など、わざわざ高速化のためのコードをガリガリ書いていくのは辛いぐらいのフェーズ、ないでしょうか。 こんなとき、私はJuliaを使っています。Juliaは特別な書き方をしなくても高速になる場合が多く、並列処理も簡単にできます。 julialang.org Julia、いいらしいが名前は聞いたことがあるけど使うまでには至ってない、という方がと思います。今まで使っているコードの資産を書き直すのは嫌ですよね。 しかし、JuliaにはPythonの資産を活かしつつ高速にデータ処理がするための道具がそろっています。 今回の記事はPythonとJuliaをいっ

                    JuliaとPythonを併用したデータ処理のススメ - MNTSQ Techブログ
                  • なぜ私はデータ処理においてNimをPythonの代わりに使うのか(翻訳)

                    この記事は以下の翻訳です Why I Use Nim instead of Python for Data Processing 怠け者のプログラマーは、計算の手間をプログラミングの手間に置き換えたがるものです。私はまさにそのようなプログラマーです。私の研究では、テラバイト級の大規模データを対象としたアルゴリズムを設計・実行することがよくあります。NIHのフェローである私は、10万台以上のプロセッサを搭載したクラスターであるBiowulfを利用していますが、大きなMapReduceを実行すればよいのであれば、1つの実験のためにシングルスレッドのパフォーマンスを最適化するために膨大な時間を費やすことは、通常は意味がありません。 このようなリソースがあるにもかかわらず、私はデータ処理タスクにプログラミング言語のNimを使うことが多くなりました。Nimは計算科学の分野ではあまり評価されていません

                      なぜ私はデータ処理においてNimをPythonの代わりに使うのか(翻訳)
                    • 続報1 厚労省データ処理の根本的な誤謬と、流氷原を漂流する巨大客船|馬の眼 ishtarist

                      はじめに先日の記事「厚労省・新型コロナ陽性者データに内在する不可解な矛盾」は、思いもかけぬ大変な反響とサポートをいただき、ありがとうございました。特に、第一線の研究者の方々からは、非常な危機感を共有いただけるコメントをいただけたことを、非常に心強く思っています。 一方で、一部の方からは、ただの注釈にそこまで目くじらを立てなくても、といった類の批判をいただいていたことも事実です。 19日の検査実施人数累積のマイナスについてさて、私が先の記事を書いていたのは19日ですが、その当日付けのデータで、今度はなんと「PCR検査実施人数」が累積でマイナスになるという事態が発生していたことをTwitterで教えていただきました。 厚労省の注釈によれば、この減少は「千葉県が人数でなく件数でカウントしていたことが判明したため、千葉県の件数を引いたことによる」ためです。 しかし、これこそ絶対にやってはいけない処

                        続報1 厚労省データ処理の根本的な誤謬と、流氷原を漂流する巨大客船|馬の眼 ishtarist
                      • まつもとゆきひろと考えるデータ処理の未来 RubyからStreemへ〜Ruby開発者 まつもとゆきひろ(Matz)さん【データ×まつもとゆきひろ】|株式会社primeNumber

                        まつもとゆきひろと考えるデータ処理の未来 RubyからStreemへ〜Ruby開発者 まつもとゆきひろ(Matz)さん【データ×まつもとゆきひろ】 ソフトウェア技術者のまつもとゆきひろ(Matz)さんが開発したRubyは、1995年のリリースから現在まで世界中のユーザーに愛され、開発に利用されてきたプログラミング言語です。一般財団法人Rubyアソシエーション運用のもと、オープンソースの言語として2012年にISO/IEC規格を取得。クックパッドやスタディプラス、huluなどのメジャーなサービスの開発に採用されてきました。実は、primeNumberのtrocco®もRubyで作られたサービス。『Ruby biz Grand prix 2022』では、ビジネスコネクション賞を受賞しました。取り組みを評価いただいた勢いで審査委員長の“Rubyのパパ”まつもとゆきひろさんに対談をお願いし、Rub

                          まつもとゆきひろと考えるデータ処理の未来 RubyからStreemへ〜Ruby開発者 まつもとゆきひろ(Matz)さん【データ×まつもとゆきひろ】|株式会社primeNumber
                        • IoTデータ処理の考え方 - めもおきば

                          世の中いろいろな「IoT」がありますが、突き詰めればデバイスから上がってくるデータを処理して何かを実現するのがIoTです。IoTにおけるデータ処理を考える上で、ネットワークプロトコルの設計指針を参考にするとうまく整理できます。 シンタックス、セマンティクス、そしてコンテキスト ネットワークプロトコルを設計するときにはシンタックス(Syntax; 文法)とセマンティクス(Semantics; 意味)に分けて考えます。そしてネットワークプロトコルの外側にあるコンテキスト(Context; 文脈)に基づいて処理が行われます。 それぞれ掘り下げていきます。 シンタックス:どのようにデータをやりとりするか どのようにデータを送り、受け取るかという「文法」を決めるのがシンタックスです。 たとえばHTTPであれば、HTTPクライアントがHTTPサーバにTCPで接続し、以下のフォーマットでリクエストを送り

                            IoTデータ処理の考え方 - めもおきば
                          • インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達

                            The Apache Foundationは、オープンソースで開発している高速なデータ処理基盤「Apache Arrow 1.0.0」のリリースを発表しました。 We just released @ApacheArrow 1.0.0, the first formally "stable columnar format" release with a move to SemVer for the libraries. We have a much improved website, too. Read more about what's newhttps://t.co/j24VdxqFTL — ApacheArrow (@ApacheArrow) July 27, 2020 Apache Arrowはメモリ上にカラムナフォーマットでデータを保持し、プロセッサのSIMD命令やGPUなどにも対

                              インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達
                            • テスラ、ビットコイン決済停止 データ処理電源の化石燃料増理由 | 毎日新聞

                              米電気自動車(EV)大手テスラのイーロン・マスク最高経営責任者(CEO)は12日、ツイッターへの投稿で、仮想通貨(暗号資産)のビットコインをテスラ車の購入代金として受け入れることを一時停止したと表明した。ビットコインに関するデータ処理に費やす電力のエネルギー源として、化石燃料の使用が急増していることを理由に挙げている。 マスク氏はツイッターで「仮想通貨は多くの長所があり、未来があると信じているが、環境に悪影響を与えることがあってはならない」と表明。「(ビットコインの運用に)環境負荷の少ない電力が利用されるようになれば、すぐに受け入れを再開する」と説明した。

                                テスラ、ビットコイン決済停止 データ処理電源の化石燃料増理由 | 毎日新聞
                              • NTTとスカパーJ、宇宙でデータ処理 電力消費削減 - 日本経済新聞

                                NTTが宇宙空間でデータ処理をする仕組みの実用化に乗りだす。地上の自動車や発電所から得たデータを衛星間で処理をして、効率的な運転につながる情報にして戻す。宇宙空間で地上のデータセンターの役割を担うことになる。同社の光通信技術はデータ伝達の電力消費を無線に比べ100分の1に抑えられる。地上での電力消費も減り、地球環境への負荷を抑えられる。衛星の運用ノウハウを持つスカパーJSATホールディングスと

                                  NTTとスカパーJ、宇宙でデータ処理 電力消費削減 - 日本経済新聞
                                • スパコン「省エネ性能」「ビッグデータ処理」で日本が世界1位 | NHKニュース

                                  スーパーコンピューターの性能に関する最新の世界ランキングが発表され、単純な計算速度を競うランキングでアメリカが3期連続で1位となりました。日本は8位が最高でしたが、省エネ性能とビッグデータの処理性能のランキングでは1位でした。 それによりますと、単純な計算の速度を競うランキング「TOP500」では1位がアメリカの国立研究所のスーパーコンピューター「Summit」で、1秒当たりの計算速度は14京8600兆回を達成しました。 2位もアメリカで、3位と4位は中国のスーパーコンピューターでした。 日本勢では、人工知能の開発に活用されている産業技術総合研究所の「ABCI」が8位に入りました。 一方、省エネ性能では、理化学研究所の「菖蒲システムB」が4期連続で1位を獲得しました。 ビッグデータの処理性能でも、理化学研究所の「京」が9期連続で1位になるなど、実用的な性能を競うランキングで上位に入りました

                                    スパコン「省エネ性能」「ビッグデータ処理」で日本が世界1位 | NHKニュース
                                  • Meta が公開したデータ処理の効率化・高速化を狙うエンジン Velox が面白そう

                                    2022-09-01 日課の RSS フィードを眺めていると、クエリエンジンやデータ処理の最適化のための高速化ライブラリが Meta が OSS として公開した1 のを知った。 Velox のリポジトリはこちら facebookincubator/velox: A C++ vectorized database acceleration library aimed to optimizing query engines and data processing systems. 実際にリポジトリを観てみると C++で書かれており、たしかにパフォーマンスが高いのが納得。 ドキュメントやチュートリアルなどはこちらのサイトで用意されています。 Hello from Velox | Velox Meta 社内では、Presto や Spark に適用して処理の高速化、PyTorch に活用して前処理

                                      Meta が公開したデータ処理の効率化・高速化を狙うエンジン Velox が面白そう
                                    • GCPのデータ処理・ETL系サービスの使い分け - Qiita

                                      本記事は Classi Advent Calendar 2020 15日目の記事です。 こんにちは。データAI部でデータエンジニアをしている@tomoyanamekawaです。 GCPにはデータ処理関連のサービスが複数あり、「Aにあるデータを加工してBに置きたい」といった処理(ETL処理)の実現方法がGCP内のサービスに限っても様々な選択肢があります。 また、data*といった似た名前のサービスが多く、初見だとわかりづらい部分があります。 そこでそれらサービスの使い分けの参考になればと思ってまとめます。 GCPにあるETL処理関連のサービス紹介 ETL処理に関連するサービスだけでも下記のように複数あります。 Cloud Composer Apache Airflowをベースにしたワークフロー管理サービス。 裏でGKEが立っていてユーザーからクラスターやインスタンスも見えて、少し管理が必要な

                                        GCPのデータ処理・ETL系サービスの使い分け - Qiita
                                      • AWS Lambda、ローカルの/tmpが最大10GBまで拡張。大規模データ処理も可能に

                                        Amazon Web Servicesは、サーバレスコンピューティング基盤を提供するAWS Lambdaで、/tmp以下で利用できるローカルの一時ファイルシステムの容量が最大10GBまで利用可能になったと発表しました。 これまでの利用可能なファイル容量は最大で512MBでした。 データを受け取って加工するような処理をAWS Lambdaで実現しようとする場合、これまでは処理するデータを一時ファイルシステムの512MB以内に収まるように工夫することが一般的でした。 この一時ファイル容量が最大で10GBになることで、より大規模なデータ処理をAWS Lambdaで行いやすくなりました。 AWSのブログ「AWS Lambda Now Supports Up to 10 GB Ephemeral Storage」でも、AWS LambdaでETLや機械学習などの大規模データ処理ができるようになると次

                                          AWS Lambda、ローカルの/tmpが最大10GBまで拡張。大規模データ処理も可能に
                                        • PolarsとPanderaで実現する高速でロバストなデータ処理

                                          CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again

                                            PolarsとPanderaで実現する高速でロバストなデータ処理
                                          • 磁場の存在が明らかに! 史上初めて撮影されたブラックホール画像のデータ処理が進んできたよ

                                            磁場の存在が明らかに! 史上初めて撮影されたブラックホール画像のデータ処理が進んできたよ2021.03.29 22:0021,040 Isaac Schultz - Gizmodo US [原文] ( 山田ちとら ) ぽっかりと空いた暗い穴、そしてそのまわりを取り巻く光のリング。見えないはずのブラックホールの姿に全世界が魅了されたのは2019年4月のことでした。 このブラックホールは地球からおよそ5500光年離れた楕円銀河M87の中心にあります。撮影に成功したイベント・ホライズン・テレスコープ(EHT)チームはその後もデータの解析を進めており、このたびブラックホールのごく近傍から電波の偏光を捉えるのに成功し、その画像を発表しました。EHTチームのプレスリリース曰く、ブラックホールのまわりに磁場が存在することを直接的に示した初めての成果なのだそうです。 楕円銀河M87から放たれる超高速ジェッ

                                              磁場の存在が明らかに! 史上初めて撮影されたブラックホール画像のデータ処理が進んできたよ
                                            • Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG

                                              こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。 この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。 全体構成 データ処理基盤の全体構成は次のようになっています。 以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。 以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h

                                                Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
                                              • 京都市、80億円投入の事業を一部中断 データ処理システム、多額費用無駄に?|政治|地域のニュース|京都新聞

                                                京都市の門川大作市長は30日、税や福祉など行政サービスに関するデータ処理を新システムに切り替える事業について、一部を中断すると市議会本会議で明らかにした。同事業にはこれまでに約80億円が投入されているが、市は「全面稼働が見通せない」としており、多額の費用が無駄になる可能性が出ている。 市は1986年に導入した大型汎(はん)用(よう)コンピューターで税や住民基本台帳、国民健康保険など103種類の事務データを扱っている。現行システムは特定業者しか運用できず、新たな行政サービスへの対応や経費削減が困難だった。このため、一般に普及している新システムを活用する事業を2014年度に開始した。 市は新システムを17年度に全面稼働させる予定だったが、大幅に遅れている。当初に契約した委託業者からは作業が間に合わないとの申し出があり、17年10月に契約を解除。業者を替えて20年1月の稼働を目指していたが、プロ

                                                  京都市、80億円投入の事業を一部中断 データ処理システム、多額費用無駄に?|政治|地域のニュース|京都新聞
                                                • 平均代入法による欠損データ処理はオワコンどころか黒歴史なので

                                                  野村総合研究所の塩崎氏と広瀬氏の記事*1がまた*2データ分析者に困惑を引き起こしている。「データが欠損している場合は、平均値や中央値で埋め合わせる作業を行います。」とあるのだが、欠損データ処理としてはよくない手法として知られている。 平均代入法は、欠損が完全にランダムに生じている(MCAR)とき以外は推定量にバイアスが入ると説明されることが多いが、MCARでも回帰分析などの推定に用いる場合はバイアスが入る。また、単一代入法になるので、標準誤差が過小推定される*3。名前がついているぐらい一般的なのだが、使ってはいけない過去の遺物だ。 推定前の処理としては、欠損データ列がある行を分析から除くリストワイズ法や、分析に用いる欠損データ列がある行を分析から除くペアワイズ法の方がまだよい*4。サンプルサイズの減少を避けたい場合は、単一代入法でも回帰代入などを使う方が望ましい。最近は、機械学習の前処理と

                                                    平均代入法による欠損データ処理はオワコンどころか黒歴史なので
                                                  • Juliaのデータ処理パッケージを比較してみた  DataFramedMeta・JuliaDB・Queryverse Part1

                                                    2018年10月20日、第8回目となるイベント「JuliaTokyo」が開催されました。技術計算を得意とする新しい汎用プログラミング言語であるJulia。その知見と共有しJuliaの普及を促すため、実際にJuliaを用いているエンジニアたちが一堂に会し、自身の事例を語りました。プレゼンテーション「DataFrames and Types with Julia 」に登場したのは、ki_chi氏。講演資料はこちら DataFrames and Types with Julia ki_chi氏:タイトルは英語なんですが、講演自体は日本語でやらせていただきます。「あとで使いまわせると便利かな」と思って、調子に乗って英語にしただけです、すみません(笑)。気になさらずお願いいたします。 「DataFrames and Types with Julia」というタイトルで発表させていただきます。 Twit

                                                      Juliaのデータ処理パッケージを比較してみた  DataFramedMeta・JuliaDB・Queryverse Part1
                                                    • ChatGPTとExcelを組み合わせて退屈なデータ処理を自動化する方法|@DIME アットダイム

                                                      Microsoft Excelは必須ツール。ほとんどの人が膨大なデータを手作業で処理しているはずだ。そこでエクセル兄さん流のChatGPT×Excel活用術を伝授。初級から上級まで3つのメソッドを紹介する。 ビジネススキル系YouTuber たてばやし淳さん ITスキルを教える動画を配信し、総再生数1000万回以上。本項の完全版をYouTubeで配信 DIME ChatGPTにどのようにプロンプトを出せば、Excel作業を効率化できるのでしょうか? たてばやし プロンプトというと文章を想像しますよね。でも、実はExcelやスプレッドシートで作成した表を貼り付けることもできるのです。 DIME プロンプトに表を組み込めるんですね! たてばやし コピペするだけでOKです。それを前提に話を進めましょう。ExcelにおけるChatGPTの活用法は、大きく分けて3つあります。ひとつは、Excelの作

                                                        ChatGPTとExcelを組み合わせて退屈なデータ処理を自動化する方法|@DIME アットダイム
                                                      • Goで始める分散データ処理。Bigsliceパッケージ入門 - Qiita

                                                        はじめに Go言語で開発された有名な製品はDockerやKubernetesを筆頭に数多く存在します。アプリケーション開発としてもWebAPIのバックエンドやCLIツール開発で利用されることも増えていると感じます。IoTの文脈ではTinyGoなど組み込みプログラム領域でも進化を続けていて、WebAssembly(WASM)向けビルドと相まって今後さらなる拡張に期待を持っている人も多いかと思います。 一方で、大規模(1台のサーバに収まらない)データの分散処理分野では、Apache Spark(もちろんHadoop, YARN, etc.)とそのエコシステムが圧倒的に強いと感じます。AWS上であればSparkのマネージドサービスたるAWS Glueがありますし(EMRもありますが)、GCPだとDataprocでSpark(DataflowをApache Beamで扱うことが多そうですが)が広く

                                                          Goで始める分散データ処理。Bigsliceパッケージ入門 - Qiita
                                                        • 1日1台767TB!?自動運転車のデータ処理で「驚愕の数字」

                                                          出典:経済産業省公開資料(※クリックorタップすると拡大できます)「1日1台あたり767TB(テラバイト)」──。これが何の数字かわかる人はいるだろうか。答えは、自動運転に必要とされているデータ処理量だ。自動運転車は、1日1台あたり767TBを処理する必要があるという。 この数字は、経済産業省所管の「デジタルインフラ(CD等)整備に関する有識者会合」で発表された、独立行政法人情報処理推進機構(IPA)の資料「デジタルライフラインの整備に向けたデジタルインフラの重要性」の中で示されたものだ。 膨大な量のデータを生成・処理する自動運転時代には、デジタルインフラが欠かせないものとなる。この記事では、デジタルインフラ構築に向けた動きについて解説していく。 ▼デジタルライフラインの整備に向けたデジタルインフラの重要性 https://www.meti.go.jp/policy/mono_info_s

                                                            1日1台767TB!?自動運転車のデータ処理で「驚愕の数字」
                                                          • 厳選の51問を収録した 『pandasデータ処理ドリル』、Pythonによるデータ処理の腕試しを!

                                                            pandasはPythonでデータ処理を行う際に便利なライブラリ。本書ではこのpandasを使ったプログラミングを学べる問題を、9つのトピックにわたって51問収録しています。 【問題例】 列ごとに昇順/降順を変えて確認するには 日時から週の開始日の列を作成するには 値によってスタイルを変えるには 実務でよく行うデータ処理のお題を解くことで現在の自分の理解度を確認でき、模範解答を読むことで効率のよいプログラミングの方法を学べます。また、用意された別解ではほかの考え方や方法も学べるため、データ処理のコーディングの幅が広がります。 入門書だけでは得られない実践的な力を身につけたい方は、ぜひ試行錯誤しながら取り組んでみてください。 目次 Prologue PyQでPythonやpandasを学ぶ 第0章 本書の使い方 第1章 pandasの基礎知識 第2章 データを入出力しよう 第3章 データの概

                                                              厳選の51問を収録した 『pandasデータ処理ドリル』、Pythonによるデータ処理の腕試しを!
                                                            • pandasの代わりにGPUを扱えるcudfを用いた高速なデータ処理 | ゆるいDeep Learning

                                                              高速にデータ処理を行いたい pandasをデータ処理で用いることが多いですが、データサイズが大きくなると遅くなり、待ち時間が長くなってしまいます。そこで今回はGPUを使用して高速に処理が可能なcudfの紹介をします。 環境構築 検証環境 Ubuntu 18.04メモリ:64GBGPU: Geforce 1080CPU : Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz NVIDIA GPU CLOUDにすでに環境構築されたDocker環境が存在します。今回はDockerを使用して環境構築をできるだけスキップして行います。 NVIDIA GPU CLOUDとは Dockerコンテナ、学習済みモデル、学習用スクリプトなどを提供しているサイトです。ここにあるリソースを使用すればGPUを用いた処理を始めることが容易になります。 https://www.nvidia.

                                                                pandasの代わりにGPUを扱えるcudfを用いた高速なデータ処理 | ゆるいDeep Learning
                                                              • FaaSで小さくはじめるIoTリアルタイムデータ処理 #serverlesstokyo

                                                                2020-02-27 Serverless Meetup Tokyo #16 https://serverless.connpass.com/event/165352/ #serverlesstokyo FaaSで小さくはじめるIoTリアルタイムデータ処理

                                                                  FaaSで小さくはじめるIoTリアルタイムデータ処理 #serverlesstokyo
                                                                • 900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう! - Qiita

                                                                  900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう!PythongeopandasDaskQiitaEngineerFesta2022dask-geopandas 初めに こちらの記事などでを紹介していきましたが、ファイルを読み込んだ後には当然、何かしらの処理を行うと思います。 GeoPandasをやるならFlatGeobufより10倍早いGeoParquetを使おう! GeoPandas(GeoDataFrame)のread/writeなら1000万レコードを10秒で読み込めるpyogrioを使って高速に行おう! 大きなデータを処理する際に、数十GB級のデータだとデータの読み込み自体を高速で完了させたとしても、空間検索に膨大な時間を要したり、そもそもデータがメモリに乗り切らず処理できないということもあるでしょう。

                                                                    900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう! - Qiita
                                                                  • AWS Lambdaにおける並列データ処理におけるパフォーマンス対応のメモ - YOMON8.NET

                                                                    Lambdaで並列処理のパフォーマンス対応をしたので残しておきます。 目的 要件 アプローチ① 単一Lambdaシーケンシャル アプローチ② 単一Lambda 並列ダウンロード・並列処理・EFS利用 参考 アプローチ➂ 並列Lambda 並列ダウンロード・並列処理・EFS利用 参考 アプローチ④ 並列Lambda 並列ダウンロード・並列処理 アプローチ⑤ 並列Lambda 並列ダウンロード(インメモリ)・並列処理 さいごに 目的 ここで書く内容は色々とベストプラクティスでは無いです。むしろ考え方によってはアンチパターンも含んでいます。ただ考え方や詰まりポイントが誰かの何かのヒントになれば幸いです。 要件 S3上に定期的に最新データがファイル保存される データファイルは多次元構造の特殊ファイルで読み込みにはライブラリが必要 データファイルはライブラリ制約でインメモリで処理できない REST

                                                                      AWS Lambdaにおける並列データ処理におけるパフォーマンス対応のメモ - YOMON8.NET
                                                                    • 大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)

                                                                      大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)

                                                                        大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)
                                                                      • NTT・インテル・ソニーが構想「光でデータ処理」の未来 ニュースイッチ by 日刊工業新聞社

                                                                        NTTは31日、通信ネットワークから端末まで光を使うことで膨大なデータを迅速処理する「IOWN(アイオン)」構想の具現化に向け、2020年春に米インテル、ソニーと「IOWNグローバルフォーラム」を米国で設立すると発表した。3社が発起人となって電機大手や通信事業者の参加を呼びかけ、共同研究や技術仕様の策定を実施。25年ごろからの実用化を目指す。(編集委員・水嶋真人) 都市機能最適化 IOWN構想の狙いは、IoT(モノのインターネット)センサーで収集したあらゆる製品のデジタルデータを人工知能(AI)で分析、さまざまな都市機能を最適化するスマートシティー(次世代環境都市)時代に対応できる情報処理基盤の構築だ。そのためには膨大なビッグデータ(大量データ)をリアルタイムに利活用できる仕組みが不可欠となる。 だが、電子機器のデジタルデータを光ファイバーケーブルで伝送する現状の方法では、電気信号を光に変

                                                                          NTT・インテル・ソニーが構想「光でデータ処理」の未来 ニュースイッチ by 日刊工業新聞社
                                                                        • データ処理ライブリのpandas 1.0.0がリリースされました! | DevelopersIO

                                                                          オープンソースのデータ処理ライブラリである、pandas 1.0.0がリリースされました! このリリースには多くの機能追加やバグ修正、パフォーマンス改善、後方互換のない変更や廃止された機能の削除等が含まれています。 当エントリではいくつか気になる追加機能等をピックアップして見ていきます。全ての更新内容についてはドキュメントからご確認ください。 What's new in 1.0.0 (January 29, 2020) — pandas 1.0.0 documentation pandas 1.0.0 では、様々な改善とともに後方互換のない変更や前のバージョンで廃止された機能の削除も多く含まれています。pandas 1.0.0にアップデートする際には、まずpandas 0.25で警告(warning)が出ずに動く確認をすることが推奨されています。 追加機能 rolling.apply と

                                                                            データ処理ライブリのpandas 1.0.0がリリースされました! | DevelopersIO
                                                                          • .NET 6でASP.NET CoreのMVCアプリケーションのデータ処理を理解しよう

                                                                            はじめに 本連載では、マルチプラットフォーム化が進む.NETと、そのWebアプリケーション開発フレームワークであるASP.NET Coreの全体像を俯瞰します。ASP.NET Coreは、アプリケーションの目的や開発スタイルに応じて選択することができる多彩なサブフレームワークを搭載しています。それらの基本的な性質や機能を読者に示すことで、ASP.NET Core導入の一助になることを目的とします。 対象読者 Core以前のASP.NETに慣れ親しんだ方 Web開発の新しい選択肢としてASP.NET Coreを理解したい方 ASP.NET Coreの多彩なフレームワークを俯瞰したい方 必要な環境 本記事のサンプルコードは、以下の環境で動作を確認しています。 macOS Monterey / Windows 10 (64bit) .NET SDK 6.0.100 Google Chrome 1

                                                                              .NET 6でASP.NET CoreのMVCアプリケーションのデータ処理を理解しよう
                                                                            • 新しい視聴率の作り方 〜20,000台のセンサ × 15,000倍の音声データ処理 × AWSサービス〜 #CUS-04 #AWSSummit | DevelopersIO

                                                                              新しい視聴率の作り方 〜20,000台のセンサ × 15,000倍の音声データ処理 × AWSサービス〜 #CUS-04 #AWSSummit 本記事は、AWS Summit Japan 2021のセッション動画「新しい視聴率の作り方 ~20000 台のセンサ × 15000 倍の処理量×クラウドマイグレーション~ (CUS-04)」のレポート記事です。 カッコ書きのこれ、どこかで一度は見たことありませんか? (ビデオリサーチ調べ) テレビの視聴率や広告の統計調査などでよく見かける、あのビデオリサーチさんがAWS Summitにご登壇です!視聴率特有のシステム要件を、どのようにAWS上で実現していったのかを解説したセッションとなっております。 概要 "10%のために15000倍の処理をする?オンプレ&メインフレームの老舗企業が、新しい視聴率を作るために取り組んだこと" リアルタイム、タイム

                                                                                新しい視聴率の作り方 〜20,000台のセンサ × 15,000倍の音声データ処理 × AWSサービス〜 #CUS-04 #AWSSummit | DevelopersIO
                                                                              • Apps Script の V8 ランタイムでデータ処理をもっと簡単に | Google Workspace ブログ

                                                                                Google Workspace を無料で体験ビジネス メール、ストレージ、ビデオ会議など、さまざまな機能をご利用いただけます。 登録する ※この投稿は米国時間 2020 年 3 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。 Chrome と Node.js で採用されている V8 ランタイムが Apps Script でも使えるようになりました。今回の更新により、モダン JavaScript の機能が利用できるようになります(ECMA 6 への対応と新リリースも進行中)。V8 ランタイムによって、新たなスクリプトだけでなく、Google スプレッドシートのデータを変換するような既存のスクリプトも強化され、標準化されたコードを今までより簡単に使えます。 Google Apps Script とはGoogle Apps Script は中小規模のチーム プ

                                                                                  Apps Script の V8 ランタイムでデータ処理をもっと簡単に | Google Workspace ブログ
                                                                                • データレイクとストリームデータ処理を理解する

                                                                                  はじめに 前回は、DX時代のデータ活用のトレンドと3大クラウドベンダのデータ活用サービスの概要を説明した。 今回のテーマであるIoTデバイスやWebアプリケーションが生成するストリームデータの処理は、従来型のデータウェアハウス(Data Warehouse)とは大きく異なる特性がある。そこで今回は、各社のクラウド・サービスを理解し、比較するための基礎知識として、以下の項目を説明する。 データウェアハウスとデータレイク(Data Lake)の違いバッチ処理とストリームデータ処理の違いデータ分析で知っておきたいこと データウェアハウス、データレイクとは何か データ活用と聞いてデータウェアハウスやビジネスインテリジェンスツールを思い浮かべる人も多いだろう。また近年はデータレイクという用語も登場している。特に、データウェアハウスとデータレイクは大きく異なるものなので、注意したい。 データウェアハウ

                                                                                    データレイクとストリームデータ処理を理解する

                                                                                  新着記事