並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 24 件 / 24件

新着順 人気順

mapreduce pythonの検索結果1 - 24 件 / 24件

  • プログラミング文体練習

    レーモン・クノーの『文体練習』から着想を得て執筆された本書は、1つの課題を異なるプログラミングスタイルで実装し、さまざまなスタイルの特性やスタイルが生まれた歴史的経緯などを解説します。本家の『文体練習』は、「バスの中で起きた諍いと、その張本人を後で目撃した」という内容を、公的文書風、宣伝風、業界用語風など、99の異なる文体で表現したものですが、本書は、「単語の出現頻度をカウントして多いものから出力する」という課題を、40のスタイルで実装しています。リソース制約が大きかった時代の方法から、オブジェクト指向、純粋関数型、リフレクション、並行処理、ニューラルネットワークまで幅広いスタイルを扱い、マルチパラダイム言語Pythonの威力と魅力を感じられる構成となっています。 訳者まえがき 第2版 まえがき 第1版 まえがき 序章 第Ⅰ部 歴史的スタイル 1章 古き良き時代:アセンブリ言語 2章 Fo

      プログラミング文体練習
    • データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

      (Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ

        データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
      • 分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO

        基調講演「30分でわかるデータ指向アプリケーションデザイン」 ・ スピーカー 斉藤 太郎氏  Twitter:@taroleo / Github:@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。 「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.

          分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
        • 【2022年】AWS全サービスまとめ | DevelopersIO

          こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2022年版です。 こんにちは。サービスグループの武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2022年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2021年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 223個 です。 まとめるにあ

            【2022年】AWS全サービスまとめ | DevelopersIO
          • 次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ

            ※ DynalystではAWSを全面的に採用しているため、AirflowもManaged版を調査しています。 導入後の状態 Prefect導入後は、以下の構成となりました。 ポイントは以下の点です。 ワークフローをDocker Image化することで、開発・本番環境の差を軽減 staging・productionはECS Taskとしてワークフローを実行、開発ではローカルPC上でコンテナ実行 ML基盤のGitHubレポジトリへのマージで、最新ワークフローが管理画面であるPrefect Cloudへデプロイ 従来のyamlベースのdigdagから、DSに馴染み深いPythonベースのPrefectに移行したことで、コード量が減り開発負荷が軽減しました。 Prefect 入門 ~ 基礎 ~ 注意: 本記事ではPrefect 1系を扱います。Prefect 2系が2022年7月にリリースされてい

              次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ
            • はじまりは神本『AWS Cookbook』との邂逅 元アンチCDKの私が「CDK、できる…」と思った理由 | ログミーBusiness

              一部のおじさんは新しいものが出てきた時にいったん拒否してしまう岡智也氏:それでは、「アンチCDKだったわたしが『CDK、できる……』と思ったところ」ということで、岡からプレゼンします。 岡と申します。今日は、個人として参加しており、私が話したことや資料の内容は、所属する組織とはなんら関係ありませんので、あらかじめご了承いただければと思います。 まず、「アンチのくせにCDKカンファレンスにお前は何をしにきたんや」というところなんですけれども。やはり歳を取ってくると、新しいものが出てきた時に、おっちゃんは拒否したくなっちゃうんですよね。 あれこれ理由をつけて、まずは否定から入るみたいなところありますよね。例えば「CDK?」「もうCloudFormationとか、Terraformとかあるし、なんでそんなの使わなあかんの?」とかですね。 あと「え? TypeScriptやPythonでコード書く

                はじまりは神本『AWS Cookbook』との邂逅 元アンチCDKの私が「CDK、できる…」と思った理由 | ログミーBusiness
              • 【2024年】AWS全サービスまとめ | DevelopersIO

                こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                  【2024年】AWS全サービスまとめ | DevelopersIO
                • awesome-scalability

                  The Patterns of Scalable, Reliable, and Performant Large-Scale Systems View the Project on GitHub View On GitHub An updated and organized reading list for illustrating the patterns of scalable, reliable, and performant large-scale systems. Concepts are explained in the articles of prominent engineers and credible references. Case studies are taken from battle-tested systems that serve millions to

                  • なぜ私はデータ処理においてNimをPythonの代わりに使うのか(翻訳)

                    この記事は以下の翻訳です Why I Use Nim instead of Python for Data Processing 怠け者のプログラマーは、計算の手間をプログラミングの手間に置き換えたがるものです。私はまさにそのようなプログラマーです。私の研究では、テラバイト級の大規模データを対象としたアルゴリズムを設計・実行することがよくあります。NIHのフェローである私は、10万台以上のプロセッサを搭載したクラスターであるBiowulfを利用していますが、大きなMapReduceを実行すればよいのであれば、1つの実験のためにシングルスレッドのパフォーマンスを最適化するために膨大な時間を費やすことは、通常は意味がありません。 このようなリソースがあるにもかかわらず、私はデータ処理タスクにプログラミング言語のNimを使うことが多くなりました。Nimは計算科学の分野ではあまり評価されていません

                      なぜ私はデータ処理においてNimをPythonの代わりに使うのか(翻訳)
                    • 取締役会における“議事録作成の効率化”を実現 ミチビク社における、ChatGPTを利用したサービス開発の裏側 | ログミーBusiness

                      ミチビクにおける、ChatGPTを活用した業務効率化やプロダクト開発の事例金杉優樹氏(以下、金杉):弊社、ミチビク株式会社では(ChatGPTを)どのように扱っているかについてお話しします。業務効率化はみなさんすでにやられているかもしれませんが、ChatGPT Plusのアカウントと、それに合わせて「GitHub Copilot」をエンジニアやデザイナーさん全員に付与しています。 エンジニアがちょっと面倒くさいなと思っていたタスクをChatGPTにパスするところでの業務効率化は、どの会社さんでもやられていると思いますが、そういうことをうちもやっています。 プロダクト開発に関しては、弊社は上場企業の取締役会を効率化させることを今はメインにやっています。2時間の取締役会の重要な会議の書き起こしデータを取れるものになっていて、その書き起こしデータから「誰がしゃべりました」「金杉、30分ぐらいなに

                        取締役会における“議事録作成の効率化”を実現 ミチビク社における、ChatGPTを利用したサービス開発の裏側 | ログミーBusiness
                      • JAXによるスケーラブルな機械学習 - ZOZO TECH BLOG

                        はじめに こんにちは、ZOZO NEXT ZOZO ResearchのSai Htaung Khamです。ZOZO NEXTは、ファッション領域におけるユーザーの課題を想像しテクノロジーの力で解決すること、より多くの人がファッションを楽しめる世界の創造を目指す企業です。 ZOZO NEXTでは多くのアルゴリズムを研究開発しており、その中でJAXというライブラリを使用しています。JAXは高性能な機械学習のために設計されたPythonのライブラリです。NumPyに似ていますが、より強力なライブラリであると考えることができます。NumPyとは異なり、JAXはマルチGPU、マルチTPU、そして機械学習の研究に非常に有用な自動微分(Autograd)をサポートしています。 JAXはNumPyのAPIのほとんどをミラーリングしているので、NumPyライブラリに慣れている人なら非常に導入しやすいです。A

                          JAXによるスケーラブルな機械学習 - ZOZO TECH BLOG
                        • AWS 認定 機械学習 – 専門知識(AWS Certified Machine Learning – Specialty)の学習方法とマシンラーニング・ディープラーニングの基礎知識が学べる学習リソースの紹介 - NRIネットコムBlog

                          小西秀和です。 この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS 認定 機械学習 – 専門知識(AWS Certified Machine Learning – Specialty)」に特化した形で紹介するものです。 重複する内容については省略していますので、併せて元記事も御覧ください。 また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL SAP DOP SCS ANS MLS SAA DVA SOA DEA MLA AIF CLF 「AWS 認定 機械学習 – 専門知識」とは 「AWS 認定 機械学習 – 専門知識(AWS Certified Machine Learning – Specialty)」は一言で言えばAWSクラウドを活用し

                            AWS 認定 機械学習 – 専門知識(AWS Certified Machine Learning – Specialty)の学習方法とマシンラーニング・ディープラーニングの基礎知識が学べる学習リソースの紹介 - NRIネットコムBlog
                          • Rust導入ガイド - 効率的な学習方法から導入まで

                            前回[4]、同一アプリケーションをGo、Rust、C言語(+ Python)で実装し、各言語による実装効率と速度を評価しました。今回は、その経験をもとにRustの効率的な学習方法と導入についての見解をまとめてみます。 Rustの学習方法 Rustは生産性を実感するまでに学習期間が必要な言語とされています[5]。初期学習段階での離脱者が50%以上にのぼり、その多くが1ヶ月以内に挫折しているという統計[6]もあるため、まずは、効果的な初期学習が特に重要です。 STEP1: 学習準備期の克服 Rustコンパイラには(解決方法が明示されない)難解な解釈も多々あります[11]が、まずはRustコンパイラのエラー内容を理解し、対話できるまでの基礎力を身につけましょう。 Rustは初級者向けの書籍や資料は溢れている[5]ものの、実践的な中級以上を対象とした資料に乏しい状況[5]は、なかなか改善されていま

                              Rust導入ガイド - 効率的な学習方法から導入まで
                            • 【2023年】AWS全サービスまとめ | DevelopersIO

                              こんにちは。サービス部の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2023年版です。 こんにちは。サービス部の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2023年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2022年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 234個 です。 まとめるにあたって、

                                【2023年】AWS全サービスまとめ | DevelopersIO
                              • Building a serverless document chat with AWS Lambda and Amazon Bedrock | Amazon Web Services

                                AWS Compute Blog Building a serverless document chat with AWS Lambda and Amazon Bedrock This post is written by Pascal Vogel, Solutions Architect, and Martin Sakowski, Senior Solutions Architect. Large language models (LLMs) are proving to be highly effective at solving general-purpose tasks such as text generation, analysis and summarization, translation, and much more. Because they are trained o

                                  Building a serverless document chat with AWS Lambda and Amazon Bedrock | Amazon Web Services
                                • 【2025年】AWS全サービスまとめ | DevelopersIO

                                  こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2025年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2024年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 250個 です。 まとめるにあたって、次のドキュメントや、弊社の多数のブログを参考にしました。 コンピューティング Amazon EC2 正式名称は Amaz

                                    【2025年】AWS全サービスまとめ | DevelopersIO
                                  • Q&Aチャットボット高品質化への道〜テキストの埋め込みベクトル変換における適切なチャンクデータ長を探る|mah_lab / 西見 公宏

                                    そういえば先日のLangChainもくもく会でこんな質問があったのを思い出しました。 Q&Aの元ネタにしたい文字列をチャンクで区切ってembeddingと一緒にベクトルDBに保存する際の、チャンクで区切る適切なデータ長ってどのぐらいなのでしょうか? 以前に紹介していた記事ではチャンク化をUnstructuredライブラリに任せていたので「このぐらいが良いよ」とハッキリとは言えなかったのですが、今日はこの問題について検証を交えながら考えてみたいと思います。 埋め込みベクトル化するデータ長の限界値そもそもで埋め込みベクトル化できるデータ長の限界値はどの程度なのでしょうか。OpenAIのドキュメントによると、OpenAIのtext-embedding-ada-002を利用して埋め込みベクトルを求める際の最大入力トークンは8,191トークンと書かれています。 トークン単位は日本語の文字数と一致しな

                                      Q&Aチャットボット高品質化への道〜テキストの埋め込みベクトル変換における適切なチャンクデータ長を探る|mah_lab / 西見 公宏
                                    • Pythonで始めるMapReduceデータ処理:中級者向け - Qiita

                                      1. はじめに MapReduceは大規模データ処理のための強力なプログラミングモデルです。本記事では、Google Colab環境でPythonを使用してMapReduceの概念を学び、効率的なデータ処理パイプラインを構築する方法を解説します。 MapReduceの概要 MapReduceは主に2つの段階から構成されています: Map: 入力データを key-value ペアに変換する Reduce: 同じキーを持つ値をまとめて処理する これらの操作を組み合わせることで、大規模なデータセットを効率的に処理することができます。 記事の目的 本記事の目的は以下の通りです: MapReduceの基本概念を理解する Google Colabの制限に対応しつつ、Pythonで効率的なMapReduce処理を実装する方法を学ぶ 実践的な例を通じてMapReduceの活用方法を習得する 2. MapR

                                        Pythonで始めるMapReduceデータ処理:中級者向け - Qiita
                                      • Deequでデータ品質をテストする | DevelopersIO

                                        Introduction 最近は大量のデータを扱う機会も多くなりました。 機械学習でも、モデル作成するときにデータはとても重要ですし、 データ分析をおこなってビジネス上の意思決定を行うこともあります。 そういったとき、データの量も重要ですが品質も大事になってきます。 プログラム開発をおこなうとき、プログラムに対してテストを記述して品質を担保します。 データに対してもテストを作成することでデータに対する品質を保証します。 本稿ではAmazon Deequを使用したデータのテスト方法について紹介します。 Deequ? Deequとは、Amazonで開発されているOSSのデータ用テストツールです。 データに対してデータ品質メトリクス計算やデータ品質の制約チェックなどが可能です。 DeequはApache Spark上で動作し、大規模なデータセット(数十億レコード規模らしい) に対してスケール可能

                                          Deequでデータ品質をテストする | DevelopersIO
                                        • AWSに出てくる基本用語集(随時更新) 個人メモ - Qiita

                                          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 基本用語 前半はAWSに限らず用いられる用語 後半はAWSのサービスについて 用語 BIシステム 企業の情報システムに蓄積などに蓄積される膨大なデータを収集し分析した結果を活用する仕組み CDN(contents delivery Network) ウェブコンテンツをインターネット経由で配信するために最適化されたネットワークのこと CIDR アドレスクラスを使わないIPアドレスの割り当て方式で、IPの浪費を防ぐことができる。 DNS(Domain Name System)サーバー ドメイン名とIPアドレスを変換する仕組みを提供するサーバ

                                            AWSに出てくる基本用語集(随時更新) 個人メモ - Qiita
                                          • Opsqueue: lightweight batch processing queue for heavy loads

                                            We are happy to announce the open-source release of opsqueue, our opinionated queueing system! Why would you want to use it? Lightweight: small codebase, written in Rust, minimal dependencies Optimized for batch processing: we prioritize throughput over latency Built to scale to billions of operations Built with reliable building blocks: Rust, SQLite, Object Storage (such as S3 or GCS) Operational

                                            • Data Lakehouse 対 Data Warehouse 対 Data Lake - 進化し続けるデータプラットホームの比較 | by Mariusz Kujawski | Jul, 2023 ||鈴木いっぺい (Ippei Suzuki)

                                              Data Lakehouse 対 Data Warehouse 対 Data Lake - 進化し続けるデータプラットホームの比較 | by Mariusz Kujawski | Jul, 2023 | Medium誌掲載記事 Clip source: Data Lakehouse vs Data Warehouse vs Data Lake - Comparison of data platforms | by Mariusz Kujawski | Jul, 2023 | Medium データウェアハウス(DW, DWH): 構造化されたビジネスデータを一元管理する場所で、BIツールやアドホッククエリによってデータが消費さえる。(Azure Synapse、Redshift、BigQuery、Snowflakeなど) データレイク: Apache HadoopやHDFSを基盤とした、多様

                                                Data Lakehouse 対 Data Warehouse 対 Data Lake - 進化し続けるデータプラットホームの比較 | by Mariusz Kujawski | Jul, 2023 ||鈴木いっぺい (Ippei Suzuki)
                                              • アナリティクス(データサイエンス)練習問題集 | analytics

                                                ビックデータとアナリティクス 近年の計算機に保管されているデータ量の増大は凄まじく,計算機の速度の増加を予測したMooreの法則を大きく上回っている.サプライ・チェインにおいても同様であり,関連データの増大に伴い,ビッグデータに対応したサプライ・チェイン最適化が必要になってきている. ここでは,このようなビッグデータ時代のサプライ・チェイン最適化について概観していく. ビッグデータの定義 ビッグデータの定義には様々なものがあるが,その特徴は,以下のようにまとめられる. 名前の通りサイズが大きい (volume).たとえば,2008年の段階でGoogleは1日に20ペタバイトのデータの処理を行っており, 2020年には全世界でのデータ保管量は35ゼタバイトになると予測されていた(実際には59ゼタバイトを超えていた). ちなみに,ペタはテラの1000倍で,その上(さらに1000倍ずつ)が順にエ

                                                • GCP上でのETLいろいろ | てくてく無窮動

                                                  Courseraの「 Building Batch Data Pipelines on GCP」を受講した上での整理。 ETLとは?Extract, Transform, Loadのこと。 データソース(多くは各アプリケーションから蓄積しているDBやストレージ) => 変換処理 => 一元的なデータ置き場(DB, DWHなど)という流れになる。 ELT, ELもある。これらとの違いは変換処理の有無や順番。 Transformが単純なSQLで書けない(もしくは書きづらい)ような複雑なものであったりTransformに時間がかかる場合はETL, そうでない場合はELT, TransformなしでいけるならELという感じ。 ETL - ELT 引用: https://aws.amazon.com/jp/blogs/news/etl-and-elt-design-patterns-for-lake

                                                    GCP上でのETLいろいろ | てくてく無窮動
                                                  1