SQL has gone out of fashion lately—partly due to the NoSQL movement, but mostly because SQL is often still used like 20 years ago. As a matter of fact, the SQL standard continued to evolve during the past decades resulting in the current release of 2016. In this session, we will go through the most important additions since the widely known SQL-92. We will cover common table expressions and window
1. Hive/Pigを使ったKDD'12 track2 の広告クリック率予測 油井 誠 m.yui@aist.go.jp 産業技術総合研究所 情報技術研究部門 Twitter ID: @myui スライド http://www.slideshare.net/myui/dsirnlp-myuilt 1 http://goo.gl/Ulf3A 2. KDDcup 2012 track2 • 検索ログを基に、検索エンジンの広告のクリック 率(Click-Through Rate)を推定するタスク – 中国の3大検索エンジンの一つsoso.comの実データ • 検索語などはHash値などを利用してすべて数値化されてい る – Trainingデータ(約10GB+2.2GB, 15億レコード) – Testデータ(約1.3GB, 2億レコード) • 学習データの1.33割が評価用データセット –
Analytical Queries with Hive: SQL Windowing and Table Functions Hive Query Language (HQL) is excellent for productivity and enables reuse of SQL skills, but falls short in advanced analytic queries. Hive`s Map & Reduce scripts mechanism lacks the simplicity of SQL and specifying new analysis is cumbersome. We developed SQLWindowing for Hive(SQW) to overcome these issues. SQW introduces both Window
Sangchul Song and Thu Kyaw discuss machine learning at AOL, and the challenges and solutions they encountered when trying to train a large number of machine learning models using Hadoop. Algorithms including SVM and packages like Mahout are discussed. Finally, they discuss their analytics pipeline, which includes some custom components used to interoperate with a range of machine learning librarie
2. Contents } 大規模画像データで出来ることの例 } 一般物体認識の紹介 } 大規模化の流れと最近の手法について } 大規模一般物体認識コンペティション } 他分野との融合的領域など 3. 大規模画像データの時代 } Webサービスへの画像投稿は日常の一部 } Flickr: 60億枚の画像(2011年) } Facebook: 毎年30億枚画像投稿 } Youtube: 毎日約8年分の動画がアップロード } 何らかのメタ情報が付与される場合も多い } タグ、コメント、EXIF、位置情報、・・・ } これらの大量のデータを用いることで、従来考えられ なかったさまざまなアプリケーションが登場している 4. 画像補完 } Scene completion using millions of photographs [Hays et
This document discusses using Jenkins to run continuous integration jobs on Amazon EC2 instances. It describes how to launch a Jenkins slave node on an EC2 instance using the EC2 API tools and SSH. The Jenkins slave node runs jobs and reports back to the Jenkins master, and the EC2 instance can be automatically started before jobs and stopped afterwards to avoid costs when not in use.Read less
The document discusses social media, social graphs, personality modeling, data mining, machine learning, and random forests. It references social media, how individuals connect through social graphs, modeling personality objectively, extracting patterns from data through data mining and machine learning techniques, and the random forests algorithm developed by Leo Breiman in 2001.Read less
1. MapR & マルチテナント (include Mesos検証) Hadoopソースコードリーディング 第8回 2012/02/08 (水) 中野 猛 (RECRUIT) @tf0054 - 発表内容 - 高林 貴仁 (RECRUIT) 1. 性能検証 @tatakaba 大坪 正典 (NSSOL) 2. 機能検証(マルチテナント検証) @tsubo0423 3. リクルートにおけるMapRの評価 Copyright(C)2012 Recruit Co.,Ltd All rights reserved 3. DOC.ID 2012/02/08 1. 性能検証 検証内容 サマリ処理のバッチは中古車サイトで実際に行われてい た3つ処理をHiveに置き換え、非パーティション+非圧縮 とパーティション+圧縮の2パターンを測定し検証の実施 VCA01 – 20Tableから、5つのTem
2. ( 最 ) 近傍点探索 ( Nearest Neighbor Search) とは いわゆる、特徴空間内での類似データ探索 二種類の問題が考えられる 定義 ℜ d 空間上の点集合 P が与えられた場合 最近傍点探索 クエリ点 q に対し、 p∈P で、 ||p-q|| を最小とする点 p を求める問題 r- 近傍点探索 クエリ点 q に対し、 p∈P で、 ||p-q||<r となる点 p を ( 存在するのならば ) 列挙する問題 3. 近傍点探索問題 近傍点探索アルゴリズムは、以下のようなタスクにおいて利用される インスタンスベース学習(k-近傍法) クラスタリング データセグメンテーション データベース検索 最短経路木探索(Minimum Spanning Tree) データ圧縮 類似データ検索 4. 近傍点探索アルゴリズム 最も単純なものは、クエリ点 q と、 p∈P の点全
1. Jubatusにおける⼤大規模分散 オンライン機械学習 2011/12/08 @⼤大規模データ処理理勉強会 株式会社Preferred Infrastructure 海野 裕也 (@unnonouno) 2. ⾃自⼰己紹介 l 海野 裕也 (@unnonouno) l Preferred Infrastructure (PFI) 研究開発部⾨門リサーチャー l 社員20⼈人くらい l 検索索・レコメンドエンジンSedueの開発など l 専⾨門 l ⾃自然⾔言語処理理 l テキストマイニング l Jubatusプロジェクト内での役割 l 主に特徴抽出エンジン、機械学習エンジンの研究開発 2 3. Big Data ! l データはこれからも増加し続ける 多いことより増えていくということが重要 l データ量量の変化に対応できるスケーラブルなシ
The document discusses Vim script and provides an introduction to writing Vim script. It begins with an overview of Vim script and discusses using :help to learn syntax. It provides an example function and use of :command. The document encourages learning from good Vim scripts and provides some examples. It discusses uses of Vim script including ftplugin, plugins, and libraries.Read less
2. Today Agenda 本日の概要 CPU上のマルチコア化や,各種ペナルティの増大に対して,ペナルティの軽減, または完全に排除するデータ構造やアルゴリズムの研究に関する話題 ---- 本日は2000年以降のIntel Lab.や関連研究者による成果の俯瞰が目的 本スライドの目的は以下 ・マルチコア/メニーコア時代における性能改善観点の理解 ・具体例でのx86/x64最適化アルゴリズムの概要理解 ⇒探索,整数圧縮,並び替え処理 2 3. Today Agenda • 自己紹介 • Intel Lab.とは? • 最近の研究動向 • 研究分野における最適化の観点 – キャッシュミス/DTLBミスの低減化 – 分岐排除 – メモリバンド使用量の考慮 • 具体例1: SIMD命令を利用した探索の分岐排除 • 具体例2: 整数の固定長圧縮によるPipelineハザードの回避 • 具体例3:
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く