データ処理の人気記事 78件 - はてなブックマーク

1 - 40 件 / 78件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

データ処理の検索結果1 - 40 件 / 78件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

データ処理に関するエントリは78件あります。データ、プログラミング、 python などが関連タグです。人気エントリには『ダイソー快進撃を支える｢毎晩105億件データ処理｣する需要予測システムはどう生まれたか』などがあります。

ダイソー快進撃を支える｢毎晩105億件データ処理｣する需要予測システムはどう生まれたか
- 906 users
- www.businessinsider.jp
- 暮らし
- 2019/06/17
小売業の特徴は、いわゆる｢ニッパチの法則｣（売り上げを支える売れ筋商品は全体の2割という法則）。いかにして売れ筋商品の在庫を把握し、将来の需要を予測して、欠品なく並べ続けるかは生命線だ。一方、ダイソーの特徴は、取り扱う商品点数が非常に多いことだ。大創産業情報システム部課長の丸本健二郎氏によると、ダイソーは全世界27カ国で5270店に展開し、新商品は毎月約800。｢均一価格｣は日本と同じだが、価格レンジは各国地域の物価に合わせている。こういう状況では、｢人間の能力では在庫を把握するのは難しい｣という前提に立って、丸本氏が取り組んだのが、POSデータの統計的解析から個店ごとの需要予測をして欠品をなくす｢自動発注システム｣（2015年導入）だった。着想後、いくつかの店舗で試験的に導入したところ、着実に欠品率が下がり、｢チャンスロス｣が解消された。
- AWS
- あとで読む
- システム
- データ
- ビジネス
- business
- 管理
- IT
- ダイソー
- 開発
新しいデータ処理ライブラリの学習はもう不要！ Python 初学者のための Ibis 100 本ノック - Qiita
- 248 users
- qiita.com/kunishou
- テクノロジー
- 2024/01/08
新しいデータ処理ライブラリの学習はもう不要！ Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14： Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました（この記事を参考にコンテンツのほうもブラッシュアップしたいと思います）。 Ibis 100 本ノックの記事を受けてはじめにどうもこんにちは、kunishou です。
- python
- あとで読む
- ライブラリ
- Ibis
- データ分析
- データ処理
- qiita
- 学習
- pandas
冪等なデータ処理ジョブを書く - クックパッド開発者ブログ
- 171 users
- techlife.cookpad.com
- テクノロジー
- 2019/07/13
こんにちは、マーケティングサポート事業部データインテリジェンスグループの井上寛之（@inohiro）です。普段はマーケティングに使われるプライベートDMP（データマネジメントプラットフォーム）の開発を行っています。本稿では、その過程で得られた冪等なデータ処理ジョブの書き方に関する工夫を紹介したいと思います。今回は、RDBMS上で SQL によるデータ処理を前提に紹介しますが、この考え方は他の言語や環境におけるデータ処理についても応用できるはずです。まずクックパッドのDMPと、冪等なジョブについて簡単に説明し、ジョブを冪等にするポイントを挙げます。また、SQL バッチジョブフレームワークである bricolage を使った、冪等なジョブの実装例を示します。クックパッドのDMPと冪等なジョブクックパッドのプライベートDMPは、データウェアハウス（社内の巨大な分析用データベースで、クックパ
- バッチ処理
- あとで読む
- cookpad
- 設計
- データ
- SQL
［速報］マイクロソフト、「Azure Synapse」発表。BigQuery対抗の大規模並列データ処理サービス。Ignite 2019
- 143 users
- www.publickey1.jp
- テクノロジー
- 2019/11/05
フロリダ州オーランドで開催中のマイクロソフトのイベント「Microsoft Ignite 2019」が開催中です。その基調講演において同社CEOのサティア・ナデラ氏は、大規模並列データ分析サービス「Azure Synapse Analytics」を発表しました。同社は現在、大規模データウェアハウス向けのサービスとして「Azure SQL Data Warehouse」を提供していますが、「Azure Synapse」はそれをさらに発展させたもの。データウェアハウス、ビッグデータ分析、データ統合などを1つのサービスとして統合し、事実上データ容量に上限がなく、ペタバイトクラスのデータでも高速に処理できる性能を提供します。リレーショナルデータベースのような構造化されたデータおよび非構造化データのいずれにも対応し、SQLによって分析可能です。そのために「Azure Synapse」では最
- azure
- microsoft
- BigQuery
- あとで読む
- sql
- データ
- publickey
- analysis
- ms
- インフラ

そのトラフィック、NATゲートウェイを通す必要ありますか？適切な経路で不要なデータ処理料金は削減しましょう | DevelopersIO
- 128 users
- dev.classmethod.jp
- テクノロジー
- 2020/06/08
コスト最適化のご相談をいただくなかで、NAT Gateway に不要なコストが掛かっているパターンが多くみられます。また、そのような環境に限って NAT Gateway にかなりのコストが掛かっていることを把握されていないケースも少なくありません。今回は見落としがちな NAT Gateway で無駄なコストが発生してしまうケース、何処へのアクセスで NAT Gateway を浪費してるかを確認する方法、そしてどのような改善パターンがあるかをご紹介します。（本記事中で記載の価格はいずれも、執筆時点の東京リージョン価格を参考にしています）目次よくある構成 NAT Gateway に関わる料金のおさらい NAT Gateway 料金 AWS データ転送料金実際の料金例何が NAT Gateway を使ってるのか見当がつかないデータ通信の方向を確認 VPC フローログから NAT G
- aws
- NAT
- VPC
- ネットワーク
- aws_vpc
- 運用
- network
- 通信
- Developers
- データ
NVMeに新機能。ストレージがデータ処理を行う「コンピュテーショナルストレージ」、NVM Expressが発表
- 120 users
- www.publickey1.jp
- テクノロジー
- 2024/01/31
NVMe関連規格の標準化団体であるNVM Expressは、ストレージ内でデータ処理を行うための業界標準「コンピュテーショナルストレージ」（Computational Storage）機能を発表しました。「コンピュテーショナルストレージ」はデータ処理を行えるストレージコンピュテーショナルストレージとは、その名前が示す通り計算機能を備えたストレージのことです。基本的にストレージに格納されたデータは、ストレージから取り出されてメインメモリに読み込まれ、それをCPUが処理します。しかし大量のデータを処理する場合、大量のデータをストレージからメモリへと移動させなければなりません。そこで、ストレージが備えているFPGAやプロセッサを用いてストレージ内でデータ処理が行えるようになれば、データをストレージから移動しなくて済むために高速な処理が期待できます。そうしたインテリジェントなストレージや
無料で機械学習やデータ処理の流れを簡単に可視化してくれるワークフローツール「Flyte」を触ってみた
- 74 users
- gigazine.net
- テクノロジー
- 2020/01/11
「宿泊者がサイコパスかどうか」を予約前にチェックする仕組みやわずか11万円で自動車を「完全自動運転車」に改造できる手作りキットが開発されるなど、機械学習を利用した技術の開発はますます活発になっています。そうした機械学習やデータ処理においては開発プロジェクトのコードやデータなどのワークフロー全体を管理してくれるワークフローツールが非常に便利な存在であり、NetflixのMetaflowなど企業が独自に開発したワークフローツールがオープンソースとして公開される事例もあります。「Flyte」はライドシェアサービスを展開するLyftがオープンソースとして公開したワークフローツールとのことなので、実際にツールを触ってみました。 Flyte — Flyte 0.0.1 documentation https://lyft.github.io/flyte/ GitHub - lyft/flyte: de
JuliaとPythonを併用したデータ処理のススメ - MNTSQ Techブログ
- 64 users
- tech.mntsq.co.jp
- テクノロジー
- 2020/12/07
Pythonでデータ処理をしている際、numpyにはまらないごちゃごちゃした前処理があり、ちょっと遅いんだよなぁ。。。となること、ないでしょうか。ルーチンになっている解析であれば高速化を頑張る意味がありそうですが、新しい解析を試行錯誤している最中など、わざわざ高速化のためのコードをガリガリ書いていくのは辛いぐらいのフェーズ、ないでしょうか。こんなとき、私はJuliaを使っています。Juliaは特別な書き方をしなくても高速になる場合が多く、並列処理も簡単にできます。 julialang.org Julia、いいらしいが名前は聞いたことがあるけど使うまでには至ってない、という方がと思います。今まで使っているコードの資産を書き直すのは嫌ですよね。しかし、JuliaにはPythonの資産を活かしつつ高速にデータ処理がするための道具がそろっています。今回の記事はPythonとJuliaをいっ
なぜ私はデータ処理においてNimをPythonの代わりに使うのか（翻訳）
- 49 users
- zenn.dev/dumblepy
- テクノロジー
- 2021/09/26
この記事は以下の翻訳です Why I Use Nim instead of Python for Data Processing 怠け者のプログラマーは、計算の手間をプログラミングの手間に置き換えたがるものです。私はまさにそのようなプログラマーです。私の研究では、テラバイト級の大規模データを対象としたアルゴリズムを設計・実行することがよくあります。NIHのフェローである私は、10万台以上のプロセッサを搭載したクラスターであるBiowulfを利用していますが、大きなMapReduceを実行すればよいのであれば、1つの実験のためにシングルスレッドのパフォーマンスを最適化するために膨大な時間を費やすことは、通常は意味がありません。このようなリソースがあるにもかかわらず、私はデータ処理タスクにプログラミング言語のNimを使うことが多くなりました。Nimは計算科学の分野ではあまり評価されていません
- Nim
- python
- プログラミング
- あとで読む
- データ
- language
- dev
- Linux
続報1　厚労省データ処理の根本的な誤謬と、流氷原を漂流する巨大客船｜馬の眼　ishtarist
- 41 users
- note.com/ishtarist
- 学び
- 2020/03/22
はじめに先日の記事「厚労省・新型コロナ陽性者データに内在する不可解な矛盾」は、思いもかけぬ大変な反響とサポートをいただき、ありがとうございました。特に、第一線の研究者の方々からは、非常な危機感を共有いただけるコメントをいただけたことを、非常に心強く思っています。一方で、一部の方からは、ただの注釈にそこまで目くじらを立てなくても、といった類の批判をいただいていたことも事実です。 19日の検査実施人数累積のマイナスについてさて、私が先の記事を書いていたのは19日ですが、その当日付けのデータで、今度はなんと「PCR検査実施人数」が累積でマイナスになるという事態が発生していたことをTwitterで教えていただきました。厚労省の注釈によれば、この減少は「千葉県が人数でなく件数でカウントしていたことが判明したため、千葉県の件数を引いたことによる」ためです。しかし、これこそ絶対にやってはいけない処
まつもとゆきひろと考えるデータ処理の未来 RubyからStreemへ〜Ruby開発者まつもとゆきひろ（Matz）さん【データ×まつもとゆきひろ】｜株式会社primeNumber
- 38 users
- note.primenumber.co.jp
- テクノロジー
- 2023/02/17
まつもとゆきひろと考えるデータ処理の未来 RubyからStreemへ〜Ruby開発者まつもとゆきひろ（Matz）さん【データ×まつもとゆきひろ】ソフトウェア技術者のまつもとゆきひろ（Matz）さんが開発したRubyは、1995年のリリースから現在まで世界中のユーザーに愛され、開発に利用されてきたプログラミング言語です。一般財団法人Rubyアソシエーション運用のもと、オープンソースの言語として2012年にISO/IEC規格を取得。クックパッドやスタディプラス、huluなどのメジャーなサービスの開発に採用されてきました。実は、primeNumberのtrocco®もRubyで作られたサービス。『Ruby biz Grand prix 2022』では、ビジネスコネクション賞を受賞しました。取り組みを評価いただいた勢いで審査委員長の“Rubyのパパ”まつもとゆきひろさんに対談をお願いし、Rub
IoTデータ処理の考え方 - めもおきば
- 35 users
- d.nekoruri.jp
- テクノロジー
- 2020/08/11
世の中いろいろな「IoT」がありますが、突き詰めればデバイスから上がってくるデータを処理して何かを実現するのがIoTです。IoTにおけるデータ処理を考える上で、ネットワークプロトコルの設計指針を参考にするとうまく整理できます。シンタックス、セマンティクス、そしてコンテキストネットワークプロトコルを設計するときにはシンタックス（Syntax; 文法）とセマンティクス（Semantics; 意味）に分けて考えます。そしてネットワークプロトコルの外側にあるコンテキスト（Context; 文脈）に基づいて処理が行われます。それぞれ掘り下げていきます。シンタックス：どのようにデータをやりとりするかどのようにデータを送り、受け取るかという「文法」を決めるのがシンタックスです。たとえばHTTPであれば、HTTPクライアントがHTTPサーバにTCPで接続し、以下のフォーマットでリクエストを送り
- iot
- あとで読む
- データ
- 統計
- 開発
- article
- プログラミング
- programming
インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達
- 35 users
- www.publickey1.jp
- テクノロジー
- 2020/07/29
The Apache Foundationは、オープンソースで開発している高速なデータ処理基盤「Apache Arrow 1.0.0」のリリースを発表しました。 We just released @ApacheArrow 1.0.0, the first formally "stable columnar format" release with a move to SemVer for the libraries. We have a much improved website, too. Read more about what's newhttps://t.co/j24VdxqFTL — ApacheArrow (@ApacheArrow) July 27, 2020 Apache Arrowはメモリ上にカラムナフォーマットでデータを保持し、プロセッサのSIMD命令やGPUなどにも対
- データ処理
- あとで読む
- db
- database
- ソフトウェア
- software
- IT
テスラ、ビットコイン決済停止　データ処理電源の化石燃料増理由 | 毎日新聞
- 30 users
- mainichi.jp
- テクノロジー
- 2021/05/13
米電気自動車（EV）大手テスラのイーロン・マスク最高経営責任者（CEO）は12日、ツイッターへの投稿で、仮想通貨（暗号資産）のビットコインをテスラ車の購入代金として受け入れることを一時停止したと表明した。ビットコインに関するデータ処理に費やす電力のエネルギー源として、化石燃料の使用が急増していることを理由に挙げている。マスク氏はツイッターで「仮想通貨は多くの長所があり、未来があると信じているが、環境に悪影響を与えることがあってはならない」と表明。「（ビットコインの運用に）環境負荷の少ない電力が利用されるようになれば、すぐに受け入れを再開する」と説明した。
NTTとスカパーJ、宇宙でデータ処理　電力消費削減 - 日本経済新聞
- 28 users
- www.nikkei.com
- 政治と経済
- 2021/05/19
NTTが宇宙空間でデータ処理をする仕組みの実用化に乗りだす。地上の自動車や発電所から得たデータを衛星間で処理をして、効率的な運転につながる情報にして戻す。宇宙空間で地上のデータセンターの役割を担うことになる。同社の光通信技術はデータ伝達の電力消費を無線に比べ100分の1に抑えられる。地上での電力消費も減り、地球環境への負荷を抑えられる。衛星の運用ノウハウを持つスカパーJSATホールディングスと
- 宇宙
- technology
- japan
- idea
- これはすごい
- business
- 日本
スパコン「省エネ性能」「ビッグデータ処理」で日本が世界１位 | NHKニュース
- 28 users
- www3.nhk.or.jp
- 世の中
- 2019/06/25
スーパーコンピューターの性能に関する最新の世界ランキングが発表され、単純な計算速度を競うランキングでアメリカが３期連続で１位となりました。日本は８位が最高でしたが、省エネ性能とビッグデータの処理性能のランキングでは１位でした。それによりますと、単純な計算の速度を競うランキング「ＴＯＰ500」では１位がアメリカの国立研究所のスーパーコンピューター「Ｓｕｍｍｉｔ」で、１秒当たりの計算速度は14京8600兆回を達成しました。２位もアメリカで、３位と４位は中国のスーパーコンピューターでした。日本勢では、人工知能の開発に活用されている産業技術総合研究所の「ＡＢＣＩ」が８位に入りました。一方、省エネ性能では、理化学研究所の「菖蒲システムＢ」が４期連続で１位を獲得しました。ビッグデータの処理性能でも、理化学研究所の「京」が９期連続で１位になるなど、実用的な性能を競うランキングで上位に入りました
Meta が公開したデータ処理の効率化・高速化を狙うエンジン Velox が面白そう
- 25 users
- shunyaueta.com
- テクノロジー
- 2022/09/01
2022-09-01 日課の RSS フィードを眺めていると、クエリエンジンやデータ処理の最適化のための高速化ライブラリが Meta が OSS として公開した1 のを知った。 Velox のリポジトリはこちら facebookincubator/velox: A C++ vectorized database acceleration library aimed to optimizing query engines and data processing systems. 実際にリポジトリを観てみると C++で書かれており、たしかにパフォーマンスが高いのが納得。ドキュメントやチュートリアルなどはこちらのサイトで用意されています。 Hello from Velox | Velox Meta 社内では、Presto や Spark に適用して処理の高速化、PyTorch に活用して前処理
GCPのデータ処理・ETL系サービスの使い分け - Qiita
- 22 users
- qiita.com/tomoyanamekawa
- テクノロジー
- 2020/12/15
本記事は Classi Advent Calendar 2020 15日目の記事です。こんにちは。データAI部でデータエンジニアをしている@tomoyanamekawaです。 GCPにはデータ処理関連のサービスが複数あり、「Aにあるデータを加工してBに置きたい」といった処理（ETL処理）の実現方法がGCP内のサービスに限っても様々な選択肢があります。また、data*といった似た名前のサービスが多く、初見だとわかりづらい部分があります。そこでそれらサービスの使い分けの参考になればと思ってまとめます。 GCPにあるETL処理関連のサービス紹介 ETL処理に関連するサービスだけでも下記のように複数あります。 Cloud Composer Apache Airflowをベースにしたワークフロー管理サービス。裏でGKEが立っていてユーザーからクラスターやインスタンスも見えて、少し管理が必要な
- GCP
- BigQuery
- cloud
- data
- サービス
- あとで読む
- GUI
- 管理
- qiita
AWS Lambda、ローカルの/tmpが最大10GBまで拡張。大規模データ処理も可能に
- 19 users
- www.publickey1.jp
- テクノロジー
- 2022/03/28
Amazon Web Servicesは、サーバレスコンピューティング基盤を提供するAWS Lambdaで、/tmp以下で利用できるローカルの一時ファイルシステムの容量が最大10GBまで利用可能になったと発表しました。これまでの利用可能なファイル容量は最大で512MBでした。データを受け取って加工するような処理をAWS Lambdaで実現しようとする場合、これまでは処理するデータを一時ファイルシステムの512MB以内に収まるように工夫することが一般的でした。この一時ファイル容量が最大で10GBになることで、より大規模なデータ処理をAWS Lambdaで行いやすくなりました。 AWSのブログ「AWS Lambda Now Supports Up to 10 GB Ephemeral Storage」でも、AWS LambdaでETLや機械学習などの大規模データ処理ができるようになると次
- aws
- techfeed
- あとで読む
- software
PolarsとPanderaで実現する高速でロバストなデータ処理
- 18 users
- speakerdeck.com/chimuichimu
- テクノロジー
- 2024/03/28
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
磁場の存在が明らかに！史上初めて撮影されたブラックホール画像のデータ処理が進んできたよ
- 13 users
- www.gizmodo.jp
- 学び
- 2021/03/30
磁場の存在が明らかに！史上初めて撮影されたブラックホール画像のデータ処理が進んできたよ2021.03.29 22:0021,040 Isaac Schultz - Gizmodo US ［原文］（山田ちとら）ぽっかりと空いた暗い穴、そしてそのまわりを取り巻く光のリング。見えないはずのブラックホールの姿に全世界が魅了されたのは2019年4月のことでした。このブラックホールは地球からおよそ5500光年離れた楕円銀河M87の中心にあります。撮影に成功したイベント・ホライズン・テレスコープ（EHT）チームはその後もデータの解析を進めており、このたびブラックホールのごく近傍から電波の偏光を捉えるのに成功し、その画像を発表しました。EHTチームのプレスリリース曰く、ブラックホールのまわりに磁場が存在することを直接的に示した初めての成果なのだそうです。楕円銀河M87から放たれる超高速ジェッ
- 宇宙
Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
- 13 users
- tech.speee.jp
- テクノロジー
- 2020/11/10
こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。全体構成データ処理基盤の全体構成は次のようになっています。以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h
- aws
京都市、80億円投入の事業を一部中断　データ処理システム、多額費用無駄に？｜政治｜地域のニュース｜京都新聞
- 10 users
- www.kyoto-np.co.jp
- 世の中
- 2020/09/30
京都市の門川大作市長は３０日、税や福祉など行政サービスに関するデータ処理を新システムに切り替える事業について、一部を中断すると市議会本会議で明らかにした。同事業にはこれまでに約８０億円が投入されているが、市は「全面稼働が見通せない」としており、多額の費用が無駄になる可能性が出ている。市は１９８６年に導入した大型汎（はん）用（よう）コンピューターで税や住民基本台帳、国民健康保険など１０３種類の事務データを扱っている。現行システムは特定業者しか運用できず、新たな行政サービスへの対応や経費削減が困難だった。このため、一般に普及している新システムを活用する事業を２０１４年度に開始した。市は新システムを１７年度に全面稼働させる予定だったが、大幅に遅れている。当初に契約した委託業者からは作業が間に合わないとの申し出があり、１７年１０月に契約を解除。業者を替えて２０年１月の稼働を目指していたが、プロ
- gov
- ICT
- 京都
- NEWS
平均代入法による欠損データ処理はオワコンどころか黒歴史なので
- 9 users
- www.anlyznews.com
- テクノロジー
- 2023/05/14
野村総合研究所の塩崎氏と広瀬氏の記事*1がまた*2データ分析者に困惑を引き起こしている。「データが欠損している場合は、平均値や中央値で埋め合わせる作業を行います。」とあるのだが、欠損データ処理としてはよくない手法として知られている。平均代入法は、欠損が完全にランダムに生じている（MCAR）とき以外は推定量にバイアスが入ると説明されることが多いが、MCARでも回帰分析などの推定に用いる場合はバイアスが入る。また、単一代入法になるので、標準誤差が過小推定される*3。名前がついているぐらい一般的なのだが、使ってはいけない過去の遺物だ。推定前の処理としては、欠損データ列がある行を分析から除くリストワイズ法や、分析に用いる欠損データ列がある行を分析から除くペアワイズ法の方がまだよい*4。サンプルサイズの減少を避けたい場合は、単一代入法でも回帰代入などを使う方が望ましい。最近は、機械学習の前処理と
- 数学
Juliaのデータ処理パッケージを比較してみた　DataFramedMeta・JuliaDB・Queryverse Part1
- 9 users
- logmi.jp
- テクノロジー
- 2019/09/20
2018年10月20日、第8回目となるイベント「JuliaTokyo」が開催されました。技術計算を得意とする新しい汎用プログラミング言語であるJulia。その知見と共有しJuliaの普及を促すため、実際にJuliaを用いているエンジニアたちが一堂に会し、自身の事例を語りました。プレゼンテーション「DataFrames and Types with Julia 」に登場したのは、ki_chi氏。講演資料はこちら DataFrames and Types with Julia ki_chi氏：タイトルは英語なんですが、講演自体は日本語でやらせていただきます。「あとで使いまわせると便利かな」と思って、調子に乗って英語にしただけです、すみません（笑）。気になさらずお願いいたします。「DataFrames and Types with Julia」というタイトルで発表させていただきます。 Twit
- あとで読む
ChatGPTとExcelを組み合わせて退屈なデータ処理を自動化する方法｜@DIME アットダイム
- 8 users
- dime.jp
- テクノロジー
- 2023/06/21
Microsoft Excelは必須ツール。ほとんどの人が膨大なデータを手作業で処理しているはずだ。そこでエクセル兄さん流のChatGPT×Excel活用術を伝授。初級から上級まで3つのメソッドを紹介する。ビジネススキル系YouTuber たてばやし淳さん ITスキルを教える動画を配信し、総再生数1000万回以上。本項の完全版をYouTubeで配信 DIME　ChatGPTにどのようにプロンプトを出せば、Excel作業を効率化できるのでしょうか？たてばやし　プロンプトというと文章を想像しますよね。でも、実はExcelやスプレッドシートで作成した表を貼り付けることもできるのです。 DIME　プロンプトに表を組み込めるんですね！たてばやし　コピペするだけでOKです。それを前提に話を進めましょう。ExcelにおけるChatGPTの活用法は、大きく分けて3つあります。ひとつは、Excelの作
- あとで読む
Goで始める分散データ処理。Bigsliceパッケージ入門 - Qiita
- 7 users
- qiita.com/ma91n
- テクノロジー
- 2020/12/01
はじめに Go言語で開発された有名な製品はDockerやKubernetesを筆頭に数多く存在します。アプリケーション開発としてもWebAPIのバックエンドやCLIツール開発で利用されることも増えていると感じます。IoTの文脈ではTinyGoなど組み込みプログラム領域でも進化を続けていて、WebAssembly（WASM）向けビルドと相まって今後さらなる拡張に期待を持っている人も多いかと思います。一方で、大規模（1台のサーバに収まらない）データの分散処理分野では、Apache Spark（もちろんHadoop, YARN, etc.）とそのエコシステムが圧倒的に強いと感じます。AWS上であればSparkのマネージドサービスたるAWS Glueがありますし（EMRもありますが）、GCPだとDataprocでSpark（DataflowをApache Beamで扱うことが多そうですが）が広く
1日1台767TB！？自動運転車のデータ処理で「驚愕の数字」
- 7 users
- jidounten-lab.com
- テクノロジー
- 2023/05/06
出典：経済産業省公開資料（※クリックorタップすると拡大できます）「1日1台あたり767TB（テラバイト）」──。これが何の数字かわかる人はいるだろうか。答えは、自動運転に必要とされているデータ処理量だ。自動運転車は、1日1台あたり767TBを処理する必要があるという。この数字は、経済産業省所管の「デジタルインフラ（CD等）整備に関する有識者会合」で発表された、独立行政法人情報処理推進機構（IPA）の資料「デジタルライフラインの整備に向けたデジタルインフラの重要性」の中で示されたものだ。膨大な量のデータを生成・処理する自動運転時代には、デジタルインフラが欠かせないものとなる。この記事では、デジタルインフラ構築に向けた動きについて解説していく。 ▼デジタルライフラインの整備に向けたデジタルインフラの重要性 https://www.meti.go.jp/policy/mono_info_s
- 自動車
- 自動運転
厳選の51問を収録した『pandasデータ処理ドリル』、Pythonによるデータ処理の腕試しを！
- 6 users
- codezine.jp
- テクノロジー
- 2023/03/16
pandasはPythonでデータ処理を行う際に便利なライブラリ。本書ではこのpandasを使ったプログラミングを学べる問題を、9つのトピックにわたって51問収録しています。【問題例】列ごとに昇順／降順を変えて確認するには日時から週の開始日の列を作成するには値によってスタイルを変えるには実務でよく行うデータ処理のお題を解くことで現在の自分の理解度を確認でき、模範解答を読むことで効率のよいプログラミングの方法を学べます。また、用意された別解ではほかの考え方や方法も学べるため、データ処理のコーディングの幅が広がります。入門書だけでは得られない実践的な力を身につけたい方は、ぜひ試行錯誤しながら取り組んでみてください。目次 Prologue PyQでPythonやpandasを学ぶ第0章本書の使い方第1章 pandasの基礎知識第2章データを入出力しよう第3章データの概
- Python
pandasの代わりにGPUを扱えるcudfを用いた高速なデータ処理 | ゆるいDeep Learning
- 6 users
- www.yurui-deep-learning.com
- テクノロジー
- 2020/06/23
高速にデータ処理を行いたい pandasをデータ処理で用いることが多いですが、データサイズが大きくなると遅くなり、待ち時間が長くなってしまいます。そこで今回はGPUを使用して高速に処理が可能なcudfの紹介をします。環境構築検証環境 Ubuntu 18.04メモリ：64GBGPU: Geforce 1080CPU : Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz NVIDIA GPU CLOUDにすでに環境構築されたDocker環境が存在します。今回はDockerを使用して環境構築をできるだけスキップして行います。 NVIDIA GPU CLOUDとは Dockerコンテナ、学習済みモデル、学習用スクリプトなどを提供しているサイトです。ここにあるリソースを使用すればGPUを用いた処理を始めることが容易になります。 https://www.nvidia.
- 分析
- data
FaaSで小さくはじめるIoTリアルタイムデータ処理 #serverlesstokyo
- 6 users
- www.slideshare.net/nekoruri
- テクノロジー
- 2020/02/27
2020-02-27 Serverless Meetup Tokyo #16 https://serverless.connpass.com/event/165352/ #serverlesstokyo FaaSで小さくはじめるIoTリアルタイムデータ処理
- azure
- aws
900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう！ - Qiita
- 6 users
- qiita.com/nokonoko_1203
- テクノロジー
- 2022/06/09
900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう！PythongeopandasDaskQiitaEngineerFesta2022dask-geopandas 初めにこちらの記事などでを紹介していきましたが、ファイルを読み込んだ後には当然、何かしらの処理を行うと思います。 GeoPandasをやるならFlatGeobufより10倍早いGeoParquetを使おう！ GeoPandas(GeoDataFrame)のread/writeなら1000万レコードを10秒で読み込めるpyogrioを使って高速に行おう！大きなデータを処理する際に、数十GB級のデータだとデータの読み込み自体を高速で完了させたとしても、空間検索に膨大な時間を要したり、そもそもデータがメモリに乗り切らず処理できないということもあるでしょう。
- GIS
- python
AWS Lambdaにおける並列データ処理におけるパフォーマンス対応のメモ - YOMON8.NET
- 6 users
- yomon.hatenablog.com
- テクノロジー
- 2022/07/22
Lambdaで並列処理のパフォーマンス対応をしたので残しておきます。目的要件アプローチ① 単一Lambdaシーケンシャルアプローチ② 単一Lambda 並列ダウンロード・並列処理・EFS利用参考アプローチ➂ 並列Lambda 並列ダウンロード・並列処理・EFS利用参考アプローチ④ 並列Lambda 並列ダウンロード・並列処理アプローチ⑤ 並列Lambda 並列ダウンロード（インメモリ）・並列処理さいごに目的ここで書く内容は色々とベストプラクティスでは無いです。むしろ考え方によってはアンチパターンも含んでいます。ただ考え方や詰まりポイントが誰かの何かのヒントになれば幸いです。要件 S3上に定期的に最新データがファイル保存されるデータファイルは多次元構造の特殊ファイルで読み込みにはライブラリが必要データファイルはライブラリ制約でインメモリで処理できない REST
- あとで読む
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介（Open Source Conference 2020 Online/Kyoto 講演資料）
- 5 users
- www.slideshare.net/nttdata-tech
- テクノロジー
- 2020/08/28
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介（Open Source Conference 2020 Online/Kyoto 講演資料）
- spark
NTT・インテル・ソニーが構想「光でデータ処理」の未来ニュースイッチ by 日刊工業新聞社
- 5 users
- newswitch.jp
- 政治と経済
- 2019/11/01
ＮＴＴは３１日、通信ネットワークから端末まで光を使うことで膨大なデータを迅速処理する「ＩＯＷＮ（アイオン）」構想の具現化に向け、２０２０年春に米インテル、ソニーと「ＩＯＷＮグローバルフォーラム」を米国で設立すると発表した。３社が発起人となって電機大手や通信事業者の参加を呼びかけ、共同研究や技術仕様の策定を実施。２５年ごろからの実用化を目指す。（編集委員・水嶋真人）都市機能最適化ＩＯＷＮ構想の狙いは、ＩｏＴ（モノのインターネット）センサーで収集したあらゆる製品のデジタルデータを人工知能（ＡＩ）で分析、さまざまな都市機能を最適化するスマートシティー（次世代環境都市）時代に対応できる情報処理基盤の構築だ。そのためには膨大なビッグデータ（大量データ）をリアルタイムに利活用できる仕組みが不可欠となる。だが、電子機器のデジタルデータを光ファイバーケーブルで伝送する現状の方法では、電気信号を光に変
- あとで読む
データ処理ライブリのpandas 1.0.0がリリースされました！ | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2020/01/31
オープンソースのデータ処理ライブラリである、pandas 1.0.0がリリースされました！このリリースには多くの機能追加やバグ修正、パフォーマンス改善、後方互換のない変更や廃止された機能の削除等が含まれています。当エントリではいくつか気になる追加機能等をピックアップして見ていきます。全ての更新内容についてはドキュメントからご確認ください。 What's new in 1.0.0 (January 29, 2020) — pandas 1.0.0 documentation pandas 1.0.0 では、様々な改善とともに後方互換のない変更や前のバージョンで廃止された機能の削除も多く含まれています。pandas 1.0.0にアップデートする際には、まずpandas 0.25で警告(warning)が出ずに動く確認をすることが推奨されています。追加機能 rolling.apply と
- DEV
- Python
.NET 6でASP.NET CoreのMVCアプリケーションのデータ処理を理解しよう
- 5 users
- codezine.jp
- テクノロジー
- 2022/08/31
はじめに本連載では、マルチプラットフォーム化が進む.NETと、そのWebアプリケーション開発フレームワークであるASP.NET Coreの全体像を俯瞰します。ASP.NET Coreは、アプリケーションの目的や開発スタイルに応じて選択することができる多彩なサブフレームワークを搭載しています。それらの基本的な性質や機能を読者に示すことで、ASP.NET Core導入の一助になることを目的とします。対象読者 Core以前のASP.NETに慣れ親しんだ方 Web開発の新しい選択肢としてASP.NET Coreを理解したい方 ASP.NET Coreの多彩なフレームワークを俯瞰したい方必要な環境本記事のサンプルコードは、以下の環境で動作を確認しています。 macOS Monterey / Windows 10 (64bit) .NET SDK 6.0.100 Google Chrome 1
新しい視聴率の作り方〜20,000台のセンサ × 15,000倍の音声データ処理 × AWSサービス〜 #CUS-04 #AWSSummit | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2021/05/23
新しい視聴率の作り方〜20,000台のセンサ × 15,000倍の音声データ処理 × AWSサービス〜 #CUS-04 #AWSSummit 本記事は、AWS Summit Japan 2021のセッション動画「新しい視聴率の作り方～20000 台のセンサ × 15000 倍の処理量×クラウドマイグレーション～ (CUS-04)」のレポート記事です。カッコ書きのこれ、どこかで一度は見たことありませんか? (ビデオリサーチ調べ) テレビの視聴率や広告の統計調査などでよく見かける、あのビデオリサーチさんがAWS Summitにご登壇です！視聴率特有のシステム要件を、どのようにAWS上で実現していったのかを解説したセッションとなっております。概要 "10%のために15000倍の処理をする？オンプレ＆メインフレームの老舗企業が、新しい視聴率を作るために取り組んだこと" リアルタイム、タイム
- AWS
Apps Script の V8 ランタイムでデータ処理をもっと簡単に | Google Workspace ブログ
- 5 users
- workspace.google.com
- テクノロジー
- 2020/04/06
Google Workspace を無料で体験ビジネスメール、ストレージ、ビデオ会議など、さまざまな機能をご利用いただけます。登録する ※この投稿は米国時間 2020 年 3 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。 Chrome と Node.js で採用されている V8 ランタイムが Apps Script でも使えるようになりました。今回の更新により、モダン JavaScript の機能が利用できるようになります（ECMA 6 への対応と新リリースも進行中）。V8 ランタイムによって、新たなスクリプトだけでなく、Google スプレッドシートのデータを変換するような既存のスクリプトも強化され、標準化されたコードを今までより簡単に使えます。 Google Apps Script とはGoogle Apps Script は中小規模のチームプ
データレイクとストリームデータ処理を理解する
- 5 users
- thinkit.co.jp
- テクノロジー
- 2020/11/11
はじめに前回は、DX時代のデータ活用のトレンドと3大クラウドベンダのデータ活用サービスの概要を説明した。今回のテーマであるIoTデバイスやWebアプリケーションが生成するストリームデータの処理は、従来型のデータウェアハウス(Data Warehouse)とは大きく異なる特性がある。そこで今回は、各社のクラウド・サービスを理解し、比較するための基礎知識として、以下の項目を説明する。データウェアハウスとデータレイク(Data Lake)の違いバッチ処理とストリームデータ処理の違いデータ分析で知っておきたいことデータウェアハウス、データレイクとは何かデータ活用と聞いてデータウェアハウスやビジネスインテリジェンスツールを思い浮かべる人も多いだろう。また近年はデータレイクという用語も登場している。特に、データウェアハウスとデータレイクは大きく異なるものなので、注意したい。データウェアハウ
- Database