本文「mapreduce python」を検索 - はてなブックマーク

1 - 24 件 / 24件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

mapreduce pythonの検索結果1 - 24 件 / 24件

プログラミング文体練習
- 326 users
- www.oreilly.co.jp
- テクノロジー
- 2023/05/29
レーモン・クノーの『文体練習』から着想を得て執筆された本書は、1つの課題を異なるプログラミングスタイルで実装し、さまざまなスタイルの特性やスタイルが生まれた歴史的経緯などを解説します。本家の『文体練習』は、「バスの中で起きた諍いと、その張本人を後で目撃した」という内容を、公的文書風、宣伝風、業界用語風など、99の異なる文体で表現したものですが、本書は、「単語の出現頻度をカウントして多いものから出力する」という課題を、40のスタイルで実装しています。リソース制約が大きかった時代の方法から、オブジェクト指向、純粋関数型、リフレクション、並行処理、ニューラルネットワークまで幅広いスタイルを扱い、マルチパラダイム言語Pythonの威力と魅力を感じられる構成となっています。訳者まえがき第2版　まえがき第1版　まえがき序章第Ⅰ部　歴史的スタイル 1章　古き良き時代：アセンブリ言語 2章　Fo
- プログラミング
- あとで読む
- Python
- programming
- 勉強
- 本
- 書籍
データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
- 315 users
- tjo.hatenablog.com
- テクノロジー
- 2022/10/22
(Image by Gordon Johnson from Pixabay) TL;DR　今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ
分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
- 266 users
- dev.classmethod.jp
- テクノロジー
- 2023/02/19
基調講演「30分でわかるデータ指向アプリケーションデザイン」・スピーカー斉藤太郎氏　Twitter：@taroleo / Github：@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.
- データベース
- あとで読む
- 本
- データ
- 設計
- book
- ソフトウェアデザイン
- DB
- database
- 技術
【2022年】AWS全サービスまとめ | DevelopersIO
- 231 users
- dev.classmethod.jp
- テクノロジー
- 2022/01/05
こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2022年版です。こんにちは。サービスグループの武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2022年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2021年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 223個です。まとめるにあ
- aws
- あとで読む
- サービス
- まとめ
- EC
- データ
- programming
- service
次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェントデベロッパーズブログ
- 82 users
- developers.cyberagent.co.jp
- テクノロジー
- 2022/11/02
※ DynalystではAWSを全面的に採用しているため、AirflowもManaged版を調査しています。導入後の状態 Prefect導入後は、以下の構成となりました。ポイントは以下の点です。ワークフローをDocker Image化することで、開発・本番環境の差を軽減 staging・productionはECS Taskとしてワークフローを実行、開発ではローカルPC上でコンテナ実行 ML基盤のGitHubレポジトリへのマージで、最新ワークフローが管理画面であるPrefect Cloudへデプロイ従来のyamlベースのdigdagから、DSに馴染み深いPythonベースのPrefectに移行したことで、コード量が減り開発負荷が軽減しました。 Prefect 入門 ~ 基礎 ~ 注意: 本記事ではPrefect 1系を扱います。Prefect 2系が2022年7月にリリースされてい
- MLOps
- workflow
- AWS
- Airflow
- ツール
- ETL
- ワークフロー
- batch
- あとで読む
- Cloud
はじまりは神本『AWS Cookbook』との邂逅　元アンチCDKの私が「CDK、できる…」と思った理由 | ログミーBusiness
- 73 users
- logmi.jp
- テクノロジー
- 2022/05/27
一部のおじさんは新しいものが出てきた時にいったん拒否してしまう岡智也氏：それでは、「アンチCDKだったわたしが『CDK、できる……』と思ったところ」ということで、岡からプレゼンします。岡と申します。今日は、個人として参加しており、私が話したことや資料の内容は、所属する組織とはなんら関係ありませんので、あらかじめご了承いただければと思います。まず、「アンチのくせにCDKカンファレンスにお前は何をしにきたんや」というところなんですけれども。やはり歳を取ってくると、新しいものが出てきた時に、おっちゃんは拒否したくなっちゃうんですよね。あれこれ理由をつけて、まずは否定から入るみたいなところありますよね。例えば「CDK？」「もうCloudFormationとか、Terraformとかあるし、なんでそんなの使わなあかんの？」とかですね。あと「え？　TypeScriptやPythonでコード書く
- CDK
- あとで読む
- ECS
- aws
- Python
- 本
- プログラミング
- book
【2024年】AWS全サービスまとめ | DevelopersIO
- 70 users
- dev.classmethod.jp
- テクノロジー
- 2024/01/12
こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個です。まとめるにあ
- aws
- まとめ
- あとで読む
- techfeed
- サービス
- システム
- 技術
awesome-scalability
- 52 users
- binhnguyennus.github.io
- テクノロジー
- 2025/10/17
The Patterns of Scalable, Reliable, and Performant Large-Scale Systems View the Project on GitHub View On GitHub An updated and organized reading list for illustrating the patterns of scalable, reliable, and performant large-scale systems. Concepts are explained in the articles of prominent engineers and credible references. Case studies are taken from battle-tested systems that serve millions to
なぜ私はデータ処理においてNimをPythonの代わりに使うのか（翻訳）
- 48 users
- zenn.dev/dumblepy
- テクノロジー
- 2021/09/26
この記事は以下の翻訳です Why I Use Nim instead of Python for Data Processing 怠け者のプログラマーは、計算の手間をプログラミングの手間に置き換えたがるものです。私はまさにそのようなプログラマーです。私の研究では、テラバイト級の大規模データを対象としたアルゴリズムを設計・実行することがよくあります。NIHのフェローである私は、10万台以上のプロセッサを搭載したクラスターであるBiowulfを利用していますが、大きなMapReduceを実行すればよいのであれば、1つの実験のためにシングルスレッドのパフォーマンスを最適化するために膨大な時間を費やすことは、通常は意味がありません。このようなリソースがあるにもかかわらず、私はデータ処理タスクにプログラミング言語のNimを使うことが多くなりました。Nimは計算科学の分野ではあまり評価されていません
- Nim
- python
- プログラミング
- あとで読む
- データ
- language
- dev
- Linux
取締役会における“議事録作成の効率化”を実現　ミチビク社における、ChatGPTを利用したサービス開発の裏側 | ログミーBusiness
- 39 users
- logmi.jp
- テクノロジー
- 2023/09/21
ミチビクにおける、ChatGPTを活用した業務効率化やプロダクト開発の事例金杉優樹氏（以下、金杉）：弊社、ミチビク株式会社では（ChatGPTを）どのように扱っているかについてお話しします。業務効率化はみなさんすでにやられているかもしれませんが、ChatGPT Plusのアカウントと、それに合わせて「GitHub Copilot」をエンジニアやデザイナーさん全員に付与しています。エンジニアがちょっと面倒くさいなと思っていたタスクをChatGPTにパスするところでの業務効率化は、どの会社さんでもやられていると思いますが、そういうことをうちもやっています。プロダクト開発に関しては、弊社は上場企業の取締役会を効率化させることを今はメインにやっています。2時間の取締役会の重要な会議の書き起こしデータを取れるものになっていて、その書き起こしデータから「誰がしゃべりました」「金杉、30分ぐらいなに
- ChatGPT
- あとで読む
- エンジニア
- AI
- 開発
- 仕事
- ネタ
JAXによるスケーラブルな機械学習 - ZOZO TECH BLOG
- 39 users
- techblog.zozo.com
- テクノロジー
- 2022/03/17
はじめにこんにちは、ZOZO NEXT ZOZO ResearchのSai Htaung Khamです。ZOZO NEXTは、ファッション領域におけるユーザーの課題を想像しテクノロジーの力で解決すること、より多くの人がファッションを楽しめる世界の創造を目指す企業です。 ZOZO NEXTでは多くのアルゴリズムを研究開発しており、その中でJAXというライブラリを使用しています。JAXは高性能な機械学習のために設計されたPythonのライブラリです。NumPyに似ていますが、より強力なライブラリであると考えることができます。NumPyとは異なり、JAXはマルチGPU、マルチTPU、そして機械学習の研究に非常に有用な自動微分（Autograd）をサポートしています。 JAXはNumPyのAPIのほとんどをミラーリングしているので、NumPyライブラリに慣れている人なら非常に導入しやすいです。A
AWS 認定機械学習 – 専門知識(AWS Certified Machine Learning – Specialty)の学習方法とマシンラーニング・ディープラーニングの基礎知識が学べる学習リソースの紹介 - NRIネットコムBlog
- 18 users
- tech.nri-net.com
- テクノロジー
- 2021/06/21
小西秀和です。この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS 認定機械学習 – 専門知識(AWS Certified Machine Learning – Specialty)」に特化した形で紹介するものです。重複する内容については省略していますので、併せて元記事も御覧ください。また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL SAP DOP SCS ANS MLS SAA DVA SOA DEA MLA AIF CLF 「AWS 認定機械学習 – 専門知識」とは「AWS 認定機械学習 – 専門知識(AWS Certified Machine Learning – Specialty)」は一言で言えばAWSクラウドを活用し
- 機械学習
- あとで読む
Rust導入ガイド - 効率的な学習方法から導入まで
- 10 users
- zenn.dev/cybergarage
- テクノロジー
- 2024/10/29
前回[4]、同一アプリケーションをGo、Rust、C言語(+ Python)で実装し、各言語による実装効率と速度を評価しました。今回は、その経験をもとにRustの効率的な学習方法と導入についての見解をまとめてみます。 Rustの学習方法 Rustは生産性を実感するまでに学習期間が必要な言語とされています[5]。初期学習段階での離脱者が50%以上にのぼり、その多くが1ヶ月以内に挫折しているという統計[6]もあるため、まずは、効果的な初期学習が特に重要です。 STEP1: 学習準備期の克服 Rustコンパイラには(解決方法が明示されない)難解な解釈も多々あります[11]が、まずはRustコンパイラのエラー内容を理解し、対話できるまでの基礎力を身につけましょう。 Rustは初級者向けの書籍や資料は溢れている[5]ものの、実践的な中級以上を対象とした資料に乏しい状況[5]は、なかなか改善されていま
- Rust
- study
- 学習
- development
- あとで読む
【2023年】AWS全サービスまとめ | DevelopersIO
- 9 users
- dev.classmethod.jp
- テクノロジー
- 2023/01/10
こんにちは。サービス部の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2023年版です。こんにちは。サービス部の武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2023年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2022年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 234個です。まとめるにあたって、
- あとで読む
Building a serverless document chat with AWS Lambda and Amazon Bedrock | Amazon Web Services
- 8 users
- aws.amazon.com
- テクノロジー
- 2023/10/05
AWS Compute Blog Building a serverless document chat with AWS Lambda and Amazon Bedrock This post is written by Pascal Vogel, Solutions Architect, and Martin Sakowski, Senior Solutions Architect. Large language models (LLMs) are proving to be highly effective at solving general-purpose tasks such as text generation, analysis and summarization, translation, and much more. Because they are trained o
- Generative AI
- あとで読む
- AWS
- Pocket
- AI
【2025年】AWS全サービスまとめ | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2025/01/12
こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2025年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2024年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 250個です。まとめるにあたって、次のドキュメントや、弊社の多数のブログを参考にしました。コンピューティング Amazon EC2 正式名称は Amaz
- あとで読む
Q&Aチャットボット高品質化への道〜テキストの埋め込みベクトル変換における適切なチャンクデータ長を探る｜mah_lab / 西見公宏
- 6 users
- note.com/mahlab
- テクノロジー
- 2023/04/16
そういえば先日のLangChainもくもく会でこんな質問があったのを思い出しました。 Q&Aの元ネタにしたい文字列をチャンクで区切ってembeddingと一緒にベクトルDBに保存する際の、チャンクで区切る適切なデータ長ってどのぐらいなのでしょうか？以前に紹介していた記事ではチャンク化をUnstructuredライブラリに任せていたので「このぐらいが良いよ」とハッキリとは言えなかったのですが、今日はこの問題について検証を交えながら考えてみたいと思います。埋め込みベクトル化するデータ長の限界値そもそもで埋め込みベクトル化できるデータ長の限界値はどの程度なのでしょうか。OpenAIのドキュメントによると、OpenAIのtext-embedding-ada-002を利用して埋め込みベクトルを求める際の最大入力トークンは8,191トークンと書かれています。トークン単位は日本語の文字数と一致しな
Pythonで始めるMapReduceデータ処理：中級者向け - Qiita
- 6 users
- qiita.com/Tadataka_Takahashi
- テクノロジー
- 2024/09/17
1. はじめに MapReduceは大規模データ処理のための強力なプログラミングモデルです。本記事では、Google Colab環境でPythonを使用してMapReduceの概念を学び、効率的なデータ処理パイプラインを構築する方法を解説します。 MapReduceの概要 MapReduceは主に2つの段階から構成されています： Map: 入力データを key-value ペアに変換する Reduce: 同じキーを持つ値をまとめて処理するこれらの操作を組み合わせることで、大規模なデータセットを効率的に処理することができます。記事の目的本記事の目的は以下の通りです： MapReduceの基本概念を理解する Google Colabの制限に対応しつつ、Pythonで効率的なMapReduce処理を実装する方法を学ぶ実践的な例を通じてMapReduceの活用方法を習得する 2. MapR
- Python
- study
- data
Deequでデータ品質をテストする | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2021/11/04
Introduction 最近は大量のデータを扱う機会も多くなりました。機械学習でも、モデル作成するときにデータはとても重要ですし、データ分析をおこなってビジネス上の意思決定を行うこともあります。そういったとき、データの量も重要ですが品質も大事になってきます。プログラム開発をおこなうとき、プログラムに対してテストを記述して品質を担保します。データに対してもテストを作成することでデータに対する品質を保証します。本稿ではAmazon Deequを使用したデータのテスト方法について紹介します。 Deequ? Deequとは、Amazonで開発されているOSSのデータ用テストツールです。データに対してデータ品質メトリクス計算やデータ品質の制約チェックなどが可能です。 DeequはApache Spark上で動作し、大規模なデータセット(数十億レコード規模らしい) に対してスケール可能
- aws
AWSに出てくる基本用語集(随時更新) 個人メモ - Qiita
- 4 users
- qiita.com/sato-souma
- テクノロジー
- 2022/03/21
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 基本用語前半はAWSに限らず用いられる用語後半はAWSのサービスについて用語 BIシステム企業の情報システムに蓄積などに蓄積される膨大なデータを収集し分析した結果を活用する仕組み CDN（contents delivery Network）ウェブコンテンツをインターネット経由で配信するために最適化されたネットワークのこと CIDR アドレスクラスを使わないIPアドレスの割り当て方式で、IPの浪費を防ぐことができる。 DNS(Domain Name System)サーバードメイン名とIPアドレスを変換する仕組みを提供するサーバ
- Amazon
Opsqueue: lightweight batch processing queue for heavy loads
- 3 users
- www.channable.com
- テクノロジー
- 2025/07/31
We are happy to announce the open-source release of opsqueue, our opinionated queueing system! Why would you want to use it? Lightweight: small codebase, written in Rust, minimal dependencies Optimized for batch processing: we prioritize throughput over latency Built to scale to billions of operations Built with reliable building blocks: Rust, SQLite, Object Storage (such as S3 or GCS) Operational
Data Lakehouse 対 Data Warehouse 対 Data Lake - 進化し続けるデータプラットホームの比較 | by Mariusz Kujawski | Jul, 2023 |｜鈴木いっぺい (Ippei Suzuki)
- 3 users
- note.com/ippei_suzuki_us
- テクノロジー
- 2024/04/08
Data Lakehouse 対 Data Warehouse 対 Data Lake - 進化し続けるデータプラットホームの比較 | by Mariusz Kujawski | Jul, 2023 | Medium誌掲載記事 Clip source: Data Lakehouse vs Data Warehouse vs Data Lake - Comparison of data platforms | by Mariusz Kujawski | Jul, 2023 | Medium データウェアハウス（DW, DWH）: 構造化されたビジネスデータを一元管理する場所で、BIツールやアドホッククエリによってデータが消費さえる。（Azure Synapse、Redshift、BigQuery、Snowflakeなど）データレイク: Apache HadoopやHDFSを基盤とした、多様
アナリティクス（データサイエンス）練習問題集 | analytics
- 3 users
- scmopt.github.io
- テクノロジー
- 2021/12/13
ビックデータとアナリティクス近年の計算機に保管されているデータ量の増大は凄まじく，計算機の速度の増加を予測したMooreの法則を大きく上回っている．サプライ・チェインにおいても同様であり，関連データの増大に伴い，ビッグデータに対応したサプライ・チェイン最適化が必要になってきている．ここでは，このようなビッグデータ時代のサプライ・チェイン最適化について概観していく．ビッグデータの定義ビッグデータの定義には様々なものがあるが，その特徴は，以下のようにまとめられる．名前の通りサイズが大きい (volume)．たとえば，2008年の段階でGoogleは1日に20ペタバイトのデータの処理を行っており， 2020年には全世界でのデータ保管量は35ゼタバイトになると予測されていた（実際には59ゼタバイトを超えていた）．ちなみに，ペタはテラの1000倍で，その上（さらに1000倍ずつ）が順にエ
GCP上でのETLいろいろ | てくてく無窮動
- 3 users
- mukiudo.dev
- テクノロジー
- 2023/04/27
Courseraの「 Building Batch Data Pipelines on GCP」を受講した上での整理。 ETLとは？Extract, Transform, Loadのこと。データソース（多くは各アプリケーションから蓄積しているDBやストレージ） => 変換処理 => 一元的なデータ置き場（DB, DWHなど）という流れになる。 ELT, ELもある。これらとの違いは変換処理の有無や順番。 Transformが単純なSQLで書けない（もしくは書きづらい）ような複雑なものであったりTransformに時間がかかる場合はETL, そうでない場合はELT, TransformなしでいけるならELという感じ。 ETL - ELT 引用: https://aws.amazon.com/jp/blogs/news/etl-and-elt-design-patterns-for-lake