You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
2020/6/11 画像センシングシンポジウム オーガナイズドセッション2 「限られたデータからの深層学習」 https://confit.atlas.jp/guide/event/ssii2020/static/organized#OS2 での招待講演資料です。 コンピュータビジョン分野を中心とした転移学習についての講演です。 パブリックなデータセットも増えていて、物体検出や領域分割などの研究も盛んですが、実際に社会実装しようとするときのデータは学習データと異なる性質(異なるドメイン)のデータである場合も非常に多いです。 本講演では、そのような場合に有効なドメイン適応の原理となるアプローチ2つと応用としての物体検出と領域分割の事例を紹介しています。
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
こんにちは、小澤です。 今回は、Sparkの機械学習ライブラリであるMLlibがどのように実装されているのかを見てみましょう。 MLlibには、mllibパッケージとmlパッケージの2つがあります。 mlのほうが新しいパッケージとなりますので、こちらに含まれるものを見ていくことにしましょう。 はじめに 今回は、Apache Sparkのソースコードを多数掲載しています。 これらのライセンスに関しては省略していますが、すべてApache License 2.0となっています。 Apache Sparkのライセンス表記に関しては、LICENSEをご覧ください。 また、今回は個々の処理の細かい実装を追っていくことを目的とするわけではなく、Pipelienを利用したMLlibの処理の流れとしてどのようになっているのかを見ていくことを目的としています。 そのため、すべてのソースの解説をするわけではあ
こんにちは!Spark大好きな朴です。 本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。 弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spark 2.0についても先日弊社福田のもう待てない、Spark2.0の導入と実践にも書いてたとおり もう使えるようになりました。 ということで少し乗り遅れた感もありますが、本日はSpark 2.0でSpark SQLの実力を試したいと思います。 Spark 2.0でSpark SQLの主な変更点は以下の3つ SparkSession 性能改善 サポートするSQLが増えた 本日は上記3つの改善について触れてみたいと思います。 【変更その1】 SparkSQLのニューエントリポイントSparkSession Spark
2017 - 02 - 20 JJUG ナイト・セミナー Kotlin(ことりん)でSpark Frameworkの話をしてきました #jjug #kotlin Kotlin JJUG ナイト・セミナー Kotlin(ことりん)でSpark FrameworkをKotlinで書いて気持ち(・∀・)イイ!!的な話をしてきました。 【東京】JJUG ナイト・セミナー 「Kotlin(ことりん)」 2/20(月)開催 - 日本Javaユーザーグループ/Japan Java User Group | Doorkeeper 発表スライドはこちら。本日は悪天候の中ご足労頂きありがとうございました。 speakerdeck.com Server Side Kotlinやっていき〜💪 a-yamada 2017-02-20 22:00 JJUG ナイト・セミナー Kotlin(ことりん)でSpark F
こんにちは! DMM.comラボ ビッグデータ部の中野です。 11月8日に開催されたCloudera World Tokyo 2016に ビッグデータ部の中野と領家で登壇してきました。 資料の公開も含めて簡単に報告させていただければと思います! セッションの概要 セッションタイトルはコチラ。 『Deep Learningを用いた類似画像レコメンドのSQL on Hadoopによる実現』 簡単に申し上げますと・・・ Deep Learningを用いたお手軽類似画像レコメンドのご紹介です! 画像の特徴抽出から類似度計算までをHiveなどのSQL on Hadoopで実現しました。 Deep Learningによる画像解析ではアニメや漫画などのイラスト画像から髪型や服装、表情などの特徴を抽出しています。 この特徴を用いて、商品のパッケージ画像による類似画像レコメンドの実現に関して説明しました。
こんにちは、Gunosyデータ分析部に所属している森本です。 主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。 最近良く聞く音楽はOne Direction - Live While We're Youngです。 本記事では、Sparkで利用できるDeep Learningフレームワークをまとめました。 GunosyではChainerで畳み込みニューラルネットワークを応用し、ユーザーのデモグラフィック推定を行っています。 WebDB Forum 2016 gunosy from Hiroaki Kudo Chainer以外にも多数のDeep LearningフレームワークがPythonを中心に数多く存在します。 TensorFlow, Keras, Caffe, Theanoなどなど。どのフレームワークが優れているかという回答は状況に応じて変わりますが、Pythonを使用する大
PlantUML を使うとき、 java -jar plantuml.jar だとほんの小さなダイアグラムの生成にも数秒かかってしまいます。ローカルではそれでいいかもしれませんが、ウェブアプリに組み込むのはちょっとイマイチですよね。 PlantUMLはJava製ツールなのでJavaのウェブアプリにしてしまえば高速になるはず、と思ってやってみました。 リポジトリ: https://github.com/gfx/plantuml-service ウェブアプリといってもパスが /svg/:source しかないような最小限のものです。 :source はPlantUML Text Encodingでエンコードされたソース、または生のPlantUMLソースです。特にキャッシュなどはしませんが、手元のMBAだと小さなダイアグラムの生成で70msほどになったので実用に耐えそうです。 PlantUMLは
Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など 分散処理フレームワークの「Apache Spark 2.0」正式版のリリースが、開発元のDatabricksから発表されました。これまでApache Sparkはバージョン1.x(直前の最新版は1.6)でしたので、メジャーバージョンアップとなります。 Spark 2.0で最大の新機能は、新しいSQLパーサーを採用したことによるANSI SQL(SQL 2003)への対応です。ビッグデータのベンチマークの1つであるTPC-DSの99種類のクエリがそのまま実行可能と説明されており、プログラマが慣れ親しんだ一般的なSQL文はすべて実行可能になります。 また、DataFrameとDatasetは統合されたAPIとなりました。 こうしたAPIの変更や改善が行われた一方で、Spark 2.0ではパフ
2016/07/25に「夏真っ盛り!Spark + Python + Data Science祭り」を開催しました。 connpass.com 今回はClouderaに入って初めてのコミュニティイベントということでしたが、なんと400人を超える応募をいただいてとてもありがたい限りです。 会場をご提供いただいたDMM.comラボ様、発表いただいたサイバーエージェントの内藤さん、DMM.comラボの加嵜さん、LTの皆様ありがとうございました。 togetter.com pandasを大規模データにつなぐIbis Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS from Cloudera Japan www.slideshare.net Ibisはpandasの作者でもある Wes McKinney(@wesmckinn) の作っているライブラリです。 ひとこ
Spark Summit 2016でもトークがあったSparkのREST serverであるlivyですが、MicrosoftがHDInsight上のSpark clusterとJupyterをlivyを使って繋げられるようにしたと聞いて、早速試してみました。 Jupyterって何?という方は簡単に言うと、ブラウザで各種言語のREPLが動くものと思ってもらえばいいです。 詳細は過去に書いた以下の記事を読んでみてください。 techlife.cookpad.com livyとは livyはSpark clusterをコントロールするためのREST Serverです。 Microsoftはこれとjupyter notebookのsparkmagicを使ってHDInsightとjupyterをつなげるようにしているそうです。 MSの取り組みはSpark Summit 2016のトークがわかりやす
はじめに こんにちは! DMM.comラボ ビッグデータ部の鈴木です。 先週の水・木曜日(6/15~6/16)に開催されたIBM Datapalooza Tokyo - Japanに 弊社加嵜/鈴木で登壇してきました。 主なターゲットはデータサイエンティスト・データエンジニアです。 私鈴木は、このイベントが初の登壇となりドキドキでしていましたが・・・・・・ 無事終了することが出来て安心しています。 どんなセッションだったのか? セッションのタイトルがコチラ 「DMM.comにおけるビッグデータ処理のためのSQL活用術」 セッションの概要 現在DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、 各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集、 データドリブンマーケティングやマーケティングオートメーションに活用しています。 本発表では、DMM.comのビッグ
データ分析から導き出されたインサイト無しにAI(人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
Elasticsearchに、Apache Spark向けのライブラリがあることは知っていたのですが、長らく手をつけていないままだったので、1度試してみることにしました。 Apache Spark support | Elasticsearch for Apache Hadoop [2.3] | Elastic こちらを使うことで、Apache Sparkが提供するAPIをElasticsearchで使うことができるようになるみたいですね。内部的には、elasticsearch-hadoopに依存している模様。 日本語記事もあるようです。 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社 で、何をするかですが、まあ…Spark StreamingとTwitterですかね。今回は、以下のテーマでやってみることにしました。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く