  • Storage | Microsoft Azure Blog | Microsoft Azure

    • 『Hadoopソースコードリーディング 第16回』で Apache Spark の勉強をしてきました #hadoopreading - べにやまぶろぐ

      今熱い視線を向けつつもそれだけで終わってしまっている Apache Spark の勉強会があるということで Hadoopソースコードリーディング 第16回 Tickets, Thu, May 29, 2014 at 7:00 PM | Eventbrite に参加してきました。Hadoop じゃなかった気もするけど奇しくも初の Hadoop ソースコードリーディング参加で非常に濃密な時間を過ごすことができました。 スライドもかなり濃密で前の方に早く来て座ってて良かったーと思ってたんですが素晴らしいことに全部 Slideshare で公開されました。何度も反芻しないと理解しきれない感じしていたので大変ありがたいです。 ということでやや勘違いしているところもありそうですがメモを残しておきます。 Apache Spark のご紹介 前半 (土橋昌さん / NTT データ) Apache Spar

      • 日本最大級のScalaカンファレンスを生中継‐ニコニコインフォ

        Scala をテーマにした日本最大級のカンファレンス「ScalaMatsuri 2016」が開催されます。 ニコニコ生放送では、1月30日(土)、31日(日)に行なわれる、「ScalaMatsuri 2016」メイントラック2日間の模様を生中継いたします。 Scalaは、2003年にMartin Odersky教授(当時)によって開発されたプログラミング言語です。オブジェクト指向言語と関数型言語の特徴が統合されており、Java仮想マシン上で実行されます。近年、Twitter、Databricks (Apache Spark)、サイバーエージェント、ドワンゴなど国内外の企業において採用が進んでいます。 【30日】 9:40 - 10:00 オープニング 10:00 - 10:40 Refactoring in Scala 中村 学 (がくぞ) (日本語) 10:40 - 11:00 休憩(将

        • Windows Azure Platform

          • Apache Sparkに注力するIBM、目指すは「データ分析のOS」

            Apache Sparkに注力するIBM、目指すは「データ分析のOS」:Database Watch(2015年7月版) 北米トヨタ販売子会社での採用事例の発表などもあり、日本国内でも注目を集めつつある「Apache Spark」。具体的にはどんな特徴があって、何ができるのだろうか。Sparkへの大規模投資を発表したIBM(日本IBM)を取材した。 連載バックナンバー Apache Sparkとは何か? 2015年7月8日、日本IBMは「Sparkプロジェクトへの取り組みに関する記者説明会」を行いました。Sparkとは「Apache Spark」(以下、Spark)のことで、分散環境で計算処理を並列実行するソフトウエアです。2015年6月に米国で開催された「Spark Summit 2015」で、米国におけるトヨタ自動車の販売子会社である米国トヨタ自動車販売(Toyota Motor Sa

            • CS大学生のアメリカ就活失敗体験記|Yuki

              はじめに留学前に目指していたアメリカ・シリコンバレーでのSoftware Engineer就活は失敗に終わりました。しかしながら、もう一度大学1年生に戻ることができるなら、そこそこ上手くいく自信があるので、私の経験を反面教師としていただければ幸いです。 また、当初の目標は達成できなかったものの、アメリカの日系企業の内定、日本の外資系企業から内定を獲得し、納得のいく結果となったので、海外就活時の併願先選びの参考になればと思います。 追記: 私はOPT3年有、GC/国籍は無です。一般的なCS専攻留学生です。 自己紹介私はカリフォルニア州立大学でComputer Scienceを専攻していました。高校時代はプログラミングも英語もできませんでしたが、自分を変えたいという思いと、シリコンバレーで働きたいという夢を持ち、海外の大学を目指しました。 コミュニティカレッジから4年制大学への編入ルートを選び

              • Introducing Apache Spark Datasets

                Unified governance for all data, analytics and AI assets

                • 【(含む)Java / Scala / Go言語対応版 】Deep Learning ライブラリ&フレームワークをリストアップしてみた ~インストール・環境構築方法 と 使い方 解説ウェブサイトまとめ - Qiita

                  git clone https://github.com/deeplearning4j/nd4j.git cd nd4j mvn clean install -DskipTests -Dmaven.javadoc.skip=true ( クイック・スタート) OpenGroove 「deeplearning4j (DL4j)について書く」 deeplearning4jとは。以下ミニノート。 スタートアップのSkymind社による、Java deep-learningライブラリ。 Skymind社が商用サポートするが、オープンソースプロジェクトでもある。※ RedHat/Linux的な関係 out-of-the-boxでスタート可能、かつ一般的なCUPで動作する。 研究用ではなく、一般的なビジネス使用を視野に入れている。 neural networksに特化したDSL。 Scala, Clo

                  • ことり隊入荷情報をSparkで分析してTableauで可視化する

                    この記事はApache Spark Advent Calendar 2015 22日目の記事です。 完成したTableauダッシュボード。 ことり隊というのはこれ↓のことです。 ゲームセンターにあるUFOキャッチャーのプライズです。 ゲームセンターにもいろいろ特徴がありまして、ことり隊が置いてあるゲームセンターとそうでないゲームセンターがあります。 ゲームセンターをしらみつぶしに回ってことり隊を探すのも大変なので、Twitterを利用してことり隊の入荷情報をキャッチすることにしました。 1. ゲームセンターのtwitterアカウント まずは東京都内のゲームセンターをリストアップしてtwitterアカウントを探します。 ゲームセンターのリストは 全国ゲーセン地図Wikiから取得しました。 ゲームセンターの名前からtwitterアカウントを探しました(※ここは手動(;´∀`)です)。 2. ゲ

                    • Apache Spark the Fastest Open Source Engine for Sorting a Petabyte

                      Unified governance for all data, analytics and AI assets

                      • Management and governance | Microsoft Azure Blog | Microsoft Azure

                        • Spark Release 2.0.0 | Apache Spark

                          Apache Spark 2.0.0 is the first release on the 2.x line. The major updates are API usability, SQL 2003 support, performance improvements, structured streaming, R UDF support, as well as operational improvements. In addition, this release includes over 2500 patches from over 300 contributors. To download Apache Spark 2.0.0, visit the downloads page. You can consult JIRA for the detailed changes. We

                          • Introducing container image streaming in GKE | Google Cloud Blog

                            Introducing GKE image streaming for fast application startup and autoscaling We’re excited to announce the general availability of a new feature in Google Kubernetes Engine (GKE): image streaming. This revolutionary GKE feature has the potential to drastically improve your application scale-up time, allowing you to respond to increased user demand more rapidly, and save money by provisioning less

                            • TechCrunch

                              Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                              • Everyday I'm Shuffling - Tips for Writing Better Spark Programs, Strata San Jose 2015

                                Watch video at: http://youtu.be/Wg2boMqLjCg Want to learn how to write faster and more efficient programs for Apache Spark? Two Spark experts from Databricks, Vida Ha and Holden Karau, provide some performance tuning and testing tips for your Spark applicationsRead less

                                • Introducing Llama 3.1: Our most capable models to date

                                  Meta is committed to openly accessible AI. Read Mark Zuckerberg’s letter detailing why open source is good for developers, good for Meta, and good for the world.Bringing open intelligence to all, our latest models expand context length to 128K, add support across eight languages, and include Llama 3.1 405B—the first frontier-level open source AI model.Llama 3.1 405B is in a class of its own, with

                                  • TechCrunch | Startup and Technology News

                                    Shopify has acquired Threads.com, the Seqiuoa-backed Slack alternative, Threads said on its website. The companies didn’t disclose the terms of the deal but said that the Threads.com team will join… Two senior police officials in Bangladesh are accused of collecting and selling citizens’ personal information to criminals on Telegram.

                                    • TechCrunch

                                      Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                      • Sparkling Water = H20 + Apache Spark

                                        Unified governance for all data, analytics and AI assets

                                        • Beyond Pandas: Spark, Dask, Vaex and other big data technologies battling head to head

                                          WhyWhen confronting a new data science problem, one of the first questions to ask is which technology to use. There is hype; there are standard tools; there are bleeding-edge technologies, entire platforms and off-the-shelf solutions. Over the last few years, I’ve been building proof of concepts and solutions with any technology I could get my hands on. If there is a new platform, I register for t

                                          • Kubernetesとの連携はどうなる? Apache Spark 2.4 & 3.0の新機能を解説 Part1

                                            2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Spark 2.4 & 3.0 - What's next? - 」に登壇したのは、株式会社エヌ・ティ・ティ・データの猿田浩輔氏。講演資料はこちら Spark 2.4 と3.0の新機能を解説 猿田浩輔氏(以下、猿田):みなさんこんばんは。私からはApache Sparkの現時点での最新フィーチャーリリースである2.4と、今年リリースが期待されているSpark3.0の新機能をいくつかご紹介させていただきたいと思います。 はじめに私の

                                            • TechCrunch

                                              Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                              • 最新のApache Spark v2.4にふれてみよう: 概要と新機能の紹介

                                                NTT研究所の山室です,Sparkのコミッタを勤めています. 本記事ではSparkの概要と,昨日リリースしたv2.4の新機能の中から(全ては無理なので)一部を簡単に紹介します.全ての新機能を俯瞰したい方はリリースノートを参照してください. Spark Release 2.4.0 SparkはUC Berkeleyでビックデータ分析に関する研究を行っていたAMPLabの成果を2012年にOSSとして公開したもので,データの前処理から機械学習やグラフ処理などデータ分析に必要な一連の処理を効率的に実現できます.よく挙げられるSparkの特徴は以下3つです. SQL/DataFrame/DatasetなどのAPIを用いた容易なデータ操作外部プロダクト(下図のPostgreSQLやOracleなどのRDBMS,Hadoop HDFSやAmazon S3などのデータストア,PandasやTensorF

                                                • A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets - The Databricks Blog

                                                  Unified governance for all data, analytics and AI assets

                                                  • War of the Hadoop SQL engines. And the winner is ...? - Sonra

                                                    War of the Hadoop SQL engines. And the winner is …? You may have wondered why we were quiet over the last couple of weeks? Well, we locked ourselves into the basement and did some research and a couple of projects and PoCs on Hadoop, Big Data, and distributed processing frameworks in general. We were also looking at Clickstream data and Web Analytics solutions. Over the next couple of weeks we wil

                                                    • The Unreasonable Effectiveness of Deep Learning on Apache Spark

                                                      Unified governance for all data, analytics and AI assets

                                                      • 実験管理について考える - Re:ゼロから始めるML生活

                                                        この記事はMLOps Advent Calendar 2020 - Qiita7日目の記事です。 機械学習では、データサイエンティストは実に多くの実験を行い、膨大な数の実験からより良いモデルへと繋がる着想を得ていきます。 逆に言えば、機械学習に関する開発においては非常に多くの実験が行われ、それらを効率よく・適切に管理することができなければ、優れたモデルを効率よく開発することへの妨げになってしまいかねません。 このように、機械学習に関する開発において実験管理は非常に重要な役割を果たすと私は考えています。 しかし、実験管理と一口に言っても、ノートブックのバージョン管理だったり、ハイパーパラメータの違いの記録、はたまた学習時のバリデーションスコアの記録など、細かな要素は多岐にわたります。 そして、こうした細かな「やらなければならないこと」に簡単に対応することは意外と難しく、やらなければならないが

                                                        • S3+Athena構成の弊社データ基盤の限界が近い - Qiita

                                                          こちらのアドベントカレンダーの記事です。 近々書くような気がするので、先駆けてアドベントカレンダー駆動で書いていきます。 スタートアップのデータ基盤に興味がある人には刺さるかもしれません。 TL;DR 2020年に構築した弊社のS3+Athena構成のデータ基盤の限界が近い 構築当時に比べてデータ基盤の選択肢色々増えて嬉しい 2024/1~3にかけてSnowflake or Redshift Serverlessの検証をします 現在のデータ基盤の構成 タイトルの通りS3 + Athenaを中心にAWSの細かいサービスを使っています 使用技術 S3 Athena Glue GlueETLは費用の面で使わず他のサービスを組み合わせる形で内製 Firehose Lambda(Python) Codebuild Step Functions / EventBridge ECS on Embulk

                                                          • Databricks - Sign In

                                                            • Hadoop Conference Japan 2014 に行ってきて感じた事まとめ

                                                              さる2014/07/08、Hadoop Conference Japan 2014が開催されました。1ヶ月以上もアウトプットできなかった理由はおいといて、基調講演には出れていないのだけれど、いくつか回ったセッションを総合して、感じた事をまとめておきたいと思います。前提として、自分はHadoopの素人且つエンジニア1年目なので、鋭いマサカリ投げられると失禁したまま気絶する事が予想されますが、事実と異なる事書いてしまっていたり、それちがうんじゃねーのか、的な指摘は是非コメントください!間違ってる事書いておくの嫌ですし、他の人達がどう考えているのか知りたいです。 見て回ったセッション SQLによるバッチ処理とストリーム処理 資料 A Deeper Understanding of Spark Internals 資料 Spark1.0での動作検証 - Hadoopユーザ・デベロッパから見たSpa

                                                              • Hadoop Conference Japan 2014に参加しました - PolyPeaceLight

                                                                Hadoop Conference Japan 2014に参加しました。 最近あまり触ってなかったのですが、また案件で利用するニーズが出てきたので最新情報の収集目的です。 今日の収穫としてはこんな感じ Apache Spark 一週間の活動量がすごい 500 patch updates / w 200 updates / w 140 thread / w 80 merged patches / w Facebook Presto プラガブルよさ気 Facebookの中で使われてるリポジトリ←すごい 各種DBマージして使える DBに投げるときにすでにクエリを入れてフィルタリングしてから取り出すこともできる←mongohadoopでも実装してたの懐かしい BigQuery 公開してるBigQueryと中で使われてるのは同じ(リソース競合あり) お高いお金を払えば専有できるリソースもあるって D

                                                                • Announcing SparkR: R on Apache Spark

                                                                  Unified governance for all data, analytics and AI assets

                                                                  • Apache Spark 2.3 with Native Kubernetes Support

                                                                    Unified governance for all data, analytics and AI assets

                                                                    • エイプリルフール

                                                                      • Analyst Reports, E-Books, and White Papers | Microsoft Azure

                                                                        • Windowを前面に出す - マイクロソフト系技術情報 Wiki

                                                                          2024-09-11 VB6.0からVB(.NET)へのコンバージョン VB6→VB.NET移行 FAQ 移行性評価作業の作業内容 サーバ更改(バージョン・アップ移行) 移行・マイグレーション 2024-08-07 DataAdapter TableAdapter 性能問題のポイント SQL Server のロックのエスカレーション 2024-07-26 あるある 2024-07-04 開発支援ツールの自動生成方式 2024-06-17 GitHub Copilot 2024-06-04 GitHub GitHub Actions GitLab GitBucket 2024-05-28 Azure OpenAI Service AzureのAI系サービス Azure Databricks 2022-12-26 RecentDeleted 2024-05-28 Copilot FrontPa

                                                                          • What I learned from looking at 200 machine learning tools

                                                                            [Twitter thread, Hacker News discussion] Click here to see the new version of this list with an interactive chart (updated December 30, 2020). To better understand the landscape of available tools for machine learning production, I decided to look up every AI/ML tool I could find. The resources I used include: Full stack deep learning LF AI Foundation landscape AI Data Landscape Various lists of t

                                                                            • Stratechery by Ben Thompson

                                                                              Stratechery is on summer break the week of July 1. There will be no Weekly Article or Updates. The next Update will be on Monday, July 8. In addition, the next episode of Dithering will be on Tuesday, July 9 and the next episode of Sharp Tech will be on Thursday, July 11. Sharp China will also return the week of July 8. The full Stratechery posting schedule is here. This Article is available as a

                                                                              • O'Reilly Japan - 入門 PySpark

                                                                                PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウを習得する書籍です。はじめに高速になったSpark 2.0の特徴とアーキテクチャを解説し、次に構造化及び非構造化データの読み取り、PySparkで利用できる基本的なデータ型、MLlibとMLパッケージによる機械学習モデルの構築を説明します。さらにGraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学びます。またローカルでのSpark+Python+Jupyter環境の構築方法も紹介。大規模なデータを処理し、活用したいエンジニア必携の一冊です。 序文 訳者まえがき はじめに 1章 Sparkを理解する 1.1 Apache Sparkとは 1.2 SparkのジョブとAPI 1.2.1 実行のプロセス 1.2.2 

                                                                                • Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog

                                                                                  Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか? Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ

