入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)

入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
秘密主義の「Google X Labs」で働くGoogleの科学者らは、コンピュータを使って人間の脳をシミュレートすることに関して、大幅な進歩を遂げた。 自動運転車や拡張現実メガネの発明で最もよく知られる同研究所は、1万6000個のコンピュータプロセッサを接続して機械学習用のニューラルネットワークを作り出し、インターネットを徘徊させた。その過程で、同ネットワークは猫を認識する能力を自ら身につけた。 インターネット上で猫を見つける行為はそれほど困難なものに思えないが、The New York Times(NYT)の記事によると、同ネットワークの性能は研究者らの予想を上回るものであり、2万個のアイテムリストから物体を識別するときの精度が2倍に向上したという。 猫を見つけるために、同チームは100億件以上のYouTube動画から無作為に選択したサムネイル画像を同ネットワークに与えた。その結果は、
管理が困難―分散処理の常識はZooKeeperで変わる:ビッグデータ処理の常識をJavaで身につける(8)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 分散処理の課題が「管理」なのは常識 複数の計算機上で動作(分散)するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。本稿では、複数の計算機(クラスタ)で動作する各サーバを「インスタンス」と呼びます。 本連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」(以下、Z
Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ
Hadoop環境を整えたら、機械学習好きとしては、Mahoutを試してみたいですよね。 やっちゃいましょう! Hadoopの設定などはこちらでも参考にしてみてください。 本家サイトを見れば簡単、かと思いきや、いくつか落とし穴がありました。 Apache Mahout: Scalable machine learning and data mining mavenのインストール (mavenの説明入れたい。mvn compileとmvn installのところ) いつも通りにmacportsでインストール $port search mavenmaven @1.0.2 (java, devel) A java-based build and project management environment. maven-ant-tasks @2.0.10 (devel, java) Use man
Powered by a free Atlassian Confluence Open Source Project License granted to Apache Software Foundation. Evaluate Confluence today. Čeština Dansk Deutsch Eesti English (UK) English (US) Español Français Íslenska Italiano Magyar Nederlands Norsk Polski Português Română Slovenčina Suomi Svenska Русский 中文 日本語 한국어 Powered by Atlassian Confluence 7.19.30 Printed by Atlassian Confluence 7.19.30 Report
2011-02-19 (土) 15:28:21 (5252d) | Topic path: Top / 機械学習 / MacでMahoutを使う はじめに † Apache Mahoutは,分散環境Hadoopの上で動くスケーラブルな機械学習ライブラリーです. ただし,「Hadoop上でMapReduceを使った機械学習をやりたい」という強い意思がないと,サンプルを動かして終わりになります. 「別にMapReduceでなくてもいい」という人は,別のツールを使ったほうがいいでしょう. この記事の内容は,Mac OS X 10.6.6, Hadoop 0.20.2, Maven 3.0.2, Mahout 0.40で確認しました. ↑ 必要なもの † Java SE 1.6 Mac OS X 10.6.6には標準でJava SE (JDK) 1.6が入っていると思います. ユーティリティーにあ
データマイニングで Mahoutも使い始めてみた。 Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。 導入手順を以下に記載します。 第5回データマイニング+WEB勉強会@東京で id:gogokarubi さんの手順紹介と第3回 パターン認識と機械学習(PRML)復習レーンでのアドバイスを含む、日頃からの karubiさんのアドバイスに感謝。 Mahout Download Mirror Apache Download Mirrors Version選択 http://ftp.riken.jp/net/apache/lucene/mahout/ 03を選択 JAR, Sourceのダウンロード JARもソースもダウンロードできる mahout-0.3.zip mahout-0.3-src.zip JARを入れる ダウンロードした
「Hadoop」は、米Google社が考案した分散データ処理技術「MapReduce」をオープンソース・ソフトウエアで再実装したものです。Web系企業では、ユーザーのアクセスから得られる膨大なデータを解析するツールとして定着が進んでいます。最近ではWeb系以外の一般企業でもHadoopの活用が検討されてきています。 今回は、企業システムでHadoopを利用する意義と、ペタバイト・クラスのデータ処理を実現するHadoopの実装を解説します。 Google論文の衝撃 HadoopやMapReduceは「安価なサーバーで大量のデータを高速処理」「バッチの処理時間が劇的に短縮」などと紹介されています。とても高度な技術ととらえている方もいるかもしれませんが、実はそれほど複雑なものではありません。 MapReduceは、Googleが2004年に論文(http://labs.google.com/pa
業務で発生する様々なイベントの記録を取得し、そこから「正常な状態」や「異常な状態」を示すパターンを見つけ出す。これらのパターンを使って、新たなイベントが発生した際に、異常がないかを判断する(図1)。 クレジットカード会社は、カード不正利用を検知する精度の向上にビッグデータを活用している。 米ビザは2009年、不正検知モデルの計算処理にHadoopを使い始めた。ビザをはじめとするカード会社は以前から、不正利用のパターンを使って不正を検出している。最近では、カード会員ごとに利用パターンを作って、より正確な不正の検知を目指している。 問題は、会員ごとにパターンを作成・維持しようとすると、膨大な計算量が必要になることだ。大手カード会社の場合、会員数は数千万~数億人に上る。 ビザはHadoopを導入した結果、数週間かかっていた全会員の利用モデル作成時間を13分に短縮できた。従来は1カ月に1回だった不
もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。 先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。 発表内容は三部構成になっています。 最初に、機械学習の基本と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの簡単な紹介をしました。 次に、機械学習の最前線ではどのような問題が解かれているかを紹介し、グラフィカルモデルの例、一般の最適化(教師付き学習におけるパラメータ学習)の分散並列化についての話題をしました。 最後に、MapReduceの補完として使えるようなシステムの例としてdremelを紹介しました。このシステムはMapReduceがバッチ型処理で、全データが処理対象の場合が得意なのに対し、一
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
For Creating Scalable Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe
最近、こんなことを聞かれました。 「shiumachi 君、人生のロードマップとかそういうの持ってないの?」 「ありません」 と即答すると、「夢がないねぇ」と不思議そうな顔をされましたが、ないものはしょうがありません。 小学生だか中学生の頃に、「人生の計画を書いてみよう」という授業がありました。22才で就職して、27才で結婚して、……みたいなことを書いてみるという授業です。残念ながら、今の時代には全く役に立たないです。 ロードマップを書くような人生設計って自分の生活基盤が安定していることを大前提にしているのですが、残念ながら今の時代はそんなものは幻想なので、ロードマップを持つ意味は全くありませんし、それに依存するのは非常に高いリスクです。例えば、私は年金をもらえるなんて全く思ってないので、働けなくなってお金が尽きたら死ぬしかないわけです。会社どころか国だってこの先も存続するのかどうかわから
Elastic MapReduceを使ってると何でもかんでもS3にアップロードさせられるので、いちいちManagementConsoleからアップロードするのは結構面倒です。ローカルにHadoopをインストールして、$HADOOP_HOME/conf/core-site.xmlに以下の設定を追加すると、HDFSのバックエンドにS3を使うことができて便利ですよ。 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>fs.s3n.awsAccessKeyId</name> <value>[AWS_ACCESSKEY_ID]</value> </property> <property> <name>fs.s3n.awsS
米IDG傘下のIT情報サイトInfoWorldは9月8日(米国時間)、優れたオープンソースを4カテゴリから選ぶオープンソース賞「Best of Open Source Software(Bossies)」受賞プロジェクトを発表した。NoSQL系、分散データ処理などのトレンドを反映した結果となっている。 Bossiesは、InfoWorldが「Test Center」として行っているテストとレビューに基づき、編集長とレビュー担当者が選択する年次アワード。2011年は「アプリケーション開発」および「アプリケーション」、「デスクトップとモバイル」、「データセンターとクラウド」という4つのカテゴリが用意され、計37のプロジェクトが選ばれた。 「アプリケーション開発」カテゴリでは、「Apache Hadoop」や「CakePHP」、「CoffeeScript」、「Hudson」、「Jenkins」、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く