[B! spark] manabouのブックマーク

manabou id:manabou

sparkに関するmanabouのブックマーク (48)

GitHub - lawofcycles/apache-iceberg-101-ja: これからApache Icebergを学びたい人向けの実践的なハンズオンです。コンテナが動く端末1台で始められます
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manabou 2024/03/10
apache

iceberg

minio

spark

kafka

netflix
リンク
MLflowによる機械学習モデルのライフサイクルの管理
2020/6/11 画像センシングシンポジウムオーガナイズドセッション2 「限られたデータからの深層学習」 https://confit.atlas.jp/guide/event/ssii2020/static/organized#OS2 での招待講演資料です。コンピュータビジョン分野を中心とした転移学習についての講演です。パブリックなデータセットも増えていて、物体検出や領域分割などの研究も盛んですが、実際に社会実装しようとするときのデータは学習データと異なる性質（異なるドメイン）のデータである場合も非常に多いです。本講演では、そのような場合に有効なドメイン適応の原理となるアプローチ2つと応用としての物体検出と領域分割の事例を紹介しています。
manabou 2019/06/13
slide

ntt

pandas

lifecycle

spark
リンク
「Apache Spark」×「Scala」で分散処理入門 : エキサイト公式　エンジニアブログ
manabou 2018/12/07
scala

spark
リンク
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
manabou 2017/08/07
hadoop

mapreduce

spark

cloudera
リンク
Spark MLlibの実装を読み解いてみる | DevelopersIO
こんにちは、小澤です。今回は、Sparkの機械学習ライブラリであるMLlibがどのように実装されているのかを見てみましょう。 MLlibには、mllibパッケージとmlパッケージの2つがあります。 mlのほうが新しいパッケージとなりますので、こちらに含まれるものを見ていくことにしましょう。はじめに今回は、Apache Sparkのソースコードを多数掲載しています。これらのライセンスに関しては省略していますが、すべてApache License 2.0となっています。 Apache Sparkのライセンス表記に関しては、LICENSEをご覧ください。また、今回は個々の処理の細かい実装を追っていくことを目的とするわけではなく、Pipelienを利用したMLlibの処理の流れとしてどのようになっているのかを見ていくことを目的としています。そのため、すべてのソースの解説をするわけではあ
manabou 2017/06/16
codereading

spark

mllib

apache
リンク
decode17
分散並列処理の基本に関する解説と，分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です．
manabou 2017/05/29
hadoop

distributed

spark

slide
リンク
Spark 2.0 で Spark SQLを試す - astamuse Lab
こんにちは！Spark大好きな朴です。本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spark 2.0についても先日弊社福田のもう待てない、Spark2.0の導入と実践にも書いてたとおりもう使えるようになりました。ということで少し乗り遅れた感もありますが、本日はSpark 2.0でSpark SQLの実力を試したいと思います。 Spark 2.0でSpark SQLの主な変更点は以下の３つ SparkSession 性能改善サポートするSQLが増えた本日は上記３つの改善について触れてみたいと思います。【変更その１】 SparkSQLのニューエントリポイントSparkSession Spark
manabou 2017/03/01
spark

sql
リンク
JJUG ナイト・セミナー Kotlin（ことりん）でSpark Frameworkの話をしてきました #jjug #kotlin - tehepero note(・ω<)
2017 - 02 - 20 JJUG ナイト・セミナー Kotlin（ことりん）でSpark Frameworkの話をしてきました #jjug #kotlin Kotlin JJUG ナイト・セミナー Kotlin（ことりん）でSpark FrameworkをKotlinで書いて気持ち(・∀・)ｲｲ!!的な話をしてきました。【東京】JJUG ナイト・セミナー「Kotlin（ことりん）」 2/20(月)開催 - 日本 Javaユーザーグループ/Japan Java User Group | Doorkeeper 発表スライドはこちら。本日は悪天候の中ご足労頂きありがとうございました。 speakerdeck.com Server Side Kotlinやっていき〜💪 a-yamada 2017-02-20 22:00 JJUG ナイト・セミナー Kotlin（ことりん）でSpark F
manabou 2017/02/21
slide

java

kotlin

spark
リンク
IntelはApache Spark上で動作する分散型ディープラーニングライブラリであるBigDLをオープンソース化
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
manabou 2017/01/25
spark

intel

machinelearning

bigdl
リンク
【資料公開】Cloudera World Tokyo 2016で登壇しました - DMM.comラボエンジニアブログ
こんにちは！ DMM.comラボビッグデータ部の中野です。 11月8日に開催されたCloudera World Tokyo 2016にビッグデータ部の中野と領家で登壇してきました。資料の公開も含めて簡単に報告させていただければと思います！セッションの概要セッションタイトルはコチラ。『Deep Learningを用いた類似画像レコメンドのSQL on Hadoopによる実現』簡単に申し上げますと・・・ Deep Learningを用いたお手軽類似画像レコメンドのご紹介です！画像の特徴抽出から類似度計算までをHiveなどのSQL on Hadoopで実現しました。 Deep Learningによる画像解析ではアニメや漫画などのイラスト画像から髪型や服装、表情などの特徴を抽出しています。この特徴を用いて、商品のパッケージ画像による類似画像レコメンドの実現に関して説明しました。
manabou 2016/11/14
cloudera

spark

hadoop

ml

sql

bigdata

slide
リンク
CET(Capture EveryThing)プロジェクトにおけるﰀ機械学習・データマイニング最前線
1. ⼀一般社団法⼈人情報処理理学会 SOFTWARE JAPAN 2016 ビッグデータ活⽤用実務フォーラム CET(Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線⾼高柳柳慎⼀一株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部兼株式会社リクルートライフスタイルネットビジネス本部ディベロップメントデザインユニットアーキテクト2 兼リーン開発グループ
manabou 2016/11/08
slide

capture

spark

machinelearning
リンク
Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ
こんにちは、Gunosyデータ分析部に所属している森本です。主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。最近良く聞く音楽はOne Direction - Live While We're Youngです。本記事では、Sparkで利用できるDeep Learningフレームワークをまとめました。 GunosyではChainerで畳み込みニューラルネットワークを応用し、ユーザーのデモグラフィック推定を行っています。 WebDB Forum 2016 gunosy from Hiroaki Kudo Chainer以外にも多数のDeep LearningフレームワークがPythonを中心に数多く存在します。 TensorFlow, Keras, Caffe, Theanoなどなど。どのフレームワークが優れているかという回答は状況に応じて変わりますが、Pythonを使用する大
manabou 2016/09/28
spark

deeplearning

slide
リンク
PlantUML Web APIをSpark Framework + Kotlinなウェブアプリにしてみた - Islands in the byte stream
PlantUML を使うとき、 java -jar plantuml.jar だとほんの小さなダイアグラムの生成にも数秒かかってしまいます。ローカルではそれでいいかもしれませんが、ウェブアプリに組み込むのはちょっとイマイチですよね。 PlantUMLはJava製ツールなのでJavaのウェブアプリにしてしまえば高速になるはず、と思ってやってみました。リポジトリ: https://github.com/gfx/plantuml-service ウェブアプリといってもパスが /svg/:source しかないような最小限のものです。 :source はPlantUML Text Encodingでエンコードされたソース、または生のPlantUMLソースです。特にキャッシュなどはしませんが、手元のMBAだと小さなダイアグラムの生成で70msほどになったので実用に耐えそうです。 PlantUMLは
manabou 2016/08/07
plantuml

kotlin

java

web

webapi

api

framework

spark
リンク
http://www.cs.uoregon.edu/Reports/DRP-201603-Riazi.pdf
manabou 2016/08/03
spark

galaxy

pdf

bigdata
リンク
Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など
Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など分散処理フレームワークの「Apache Spark 2.0」正式版のリリースが、開発元のDatabricksから発表されました。これまでApache Sparkはバージョン1.x（直前の最新版は1.6）でしたので、メジャーバージョンアップとなります。 Spark 2.0で最大の新機能は、新しいSQLパーサーを採用したことによるANSI SQL（SQL 2003）への対応です。ビッグデータのベンチマークの1つであるTPC-DSの99種類のクエリがそのまま実行可能と説明されており、プログラマが慣れ親しんだ一般的なSQL文はすべて実行可能になります。また、DataFrameとDatasetは統合されたAPIとなりました。こうしたAPIの変更や改善が行われた一方で、Spark 2.0ではパフ
manabou 2016/07/28
apache

spark

sql
リンク
「夏真っ盛り！Spark + Python + Data Science祭り」を開催しました＆Ibisを紹介しました #summerDS - once upon a time,
2016/07/25に「夏真っ盛り！Spark + Python + Data Science祭り」を開催しました。 connpass.com 今回はClouderaに入って初めてのコミュニティイベントということでしたが、なんと400人を超える応募をいただいてとてもありがたい限りです。会場をご提供いただいたDMM.comラボ様、発表いただいたサイバーエージェントの内藤さん、DMM.comラボの加嵜さん、LTの皆様ありがとうございました。 togetter.com pandasを大規模データにつなぐIbis Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS from Cloudera Japan www.slideshare.net Ibisはpandasの作者でもある Wes McKinney(@wesmckinn) の作っているライブラリです。ひとこ
manabou 2016/07/27
spark

python

data

pandas

slide

cloudera
リンク
JupyterからSpark clusterを操作できるlivy + sparkmagicを試してみた - once upon a time,
Spark Summit 2016でもトークがあったSparkのREST serverであるlivyですが、MicrosoftがHDInsight上のSpark clusterとJupyterをlivyを使って繋げられるようにしたと聞いて、早速試してみました。 Jupyterって何？という方は簡単に言うと、ブラウザで各種言語のREPLが動くものと思ってもらえばいいです。詳細は過去に書いた以下の記事を読んでみてください。 techlife.cookpad.com livyとは livyはSpark clusterをコントロールするためのREST Serverです。 Microsoftはこれとjupyter notebookのsparkmagicを使ってHDInsightとjupyterをつなげるようにしているそうです。 MSの取り組みはSpark Summit 2016のトークがわかりやす
manabou 2016/07/12
jupyter

spark

cluster

livy

sparkmagic
リンク
【資料公開】 Datapaloozaで登壇してきました - DMM.comラボエンジニアブログ
はじめにこんにちは！ DMM.comラボビッグデータ部の鈴木です。先週の水・木曜日(6/15~6/16)に開催されたIBM Datapalooza Tokyo - Japanに弊社加嵜/鈴木で登壇してきました。主なターゲットはデータサイエンティスト・データエンジニアです。私鈴木は、このイベントが初の登壇となりドキドキでしていましたが･･････無事終了することが出来て安心しています。どんなセッションだったのか？セッションのタイトルがコチラ「DMM.comにおけるビッグデータ処理のためのSQL活用術」セッションの概要現在DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集、データドリブンマーケティングやマーケティングオートメーションに活用しています。本発表では、DMM.comのビッグ
manabou 2016/06/23
slide

spark

sql

bigdata
リンク
株式会社ALBERT（レコメンドエンジン）
データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
manabou 2016/06/17
spark

scala

architecture

java

python

r

aws

emr
リンク
ElasticsearchのApache Sparkサポート機能で遊ぶ - CLOVER🍀
Elasticsearchに、Apache Spark向けのライブラリがあることは知っていたのですが、長らく手をつけていないままだったので、1度試してみることにしました。 Apache Spark support | Elasticsearch for Apache Hadoop [2.3] | Elastic こちらを使うことで、Apache Sparkが提供するAPIをElasticsearchで使うことができるようになるみたいですね。内部的には、elasticsearch-hadoopに依存している模様。日本語記事もあるようです。楽しい可視化： elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社で、何をするかですが、まあ…Spark StreamingとTwitterですかね。今回は、以下のテーマでやってみることにしました。
manabou 2016/06/13
kibana

elasticsearch

spark
リンク
1 2 3 次のページ