chezouのブックマーク / 2017年2月7日

chezou id:chezou

2017年2月7日のブックマーク (7件)

YouTube-BB Dataset | Google Research
YouTube-BoundingBoxes is a large-scale data set of video URLs with densely-sampled high-quality single-object bounding box annotations. The data set consists of approximately 380,000 15-20s video segments extracted from 240,000 different publ icly visible YouTube videos, automatically selected to feature objects in natural settings without editing or post-processing, with a recording quality often
chezou 2017/02/07
人手でつけたyoutubeのbounding boxデータ…。やばい
リンク
Welcome Prelert to the Elastic Team
chezou 2017/02/07
リンク
LBFGSの実装
2. l−bfgsってなに？ • l-bfgsはscikit-learnやspark MLlibなどで使われている計算機に優しい(メモリ使用量が少ない)最適化アルゴリズム • 準ニュートン法の一種 • 今日はスライドが多いので、15秒/1ページでいきます (局所的)最適解
chezou 2017/02/07
lbfgs
リンク
S3のデータをRStudioとsparklyrで分析する
RStudio社が提供しているsparklyrを使うと、Sparkクラスターに格納されている大規模なデータに対して、普段お使いのR言語から簡単に処理をすることが出来ます。 sparklyrとは、大規模なデータに対してもRを使い容易に操作できるパッケージです。Rユーザーに人気のdplyrと呼ばれるパッケージのバックエンドとして動き、Sparkを直接意識することなく大規模なデータを扱うことが出来ます。Clouderaでは、Pythonのデータ分析用のライブラリpandasからImpalaを使ってデータ分析をしやすくしたIbisというパッケージを開発していますが、これのR+Spark版と言っても過言ではないでしょう。 sparklyrに興味をもったなら、公式ドキュメントから始めるといいでしょう。もしくは、Cloudera DirectorでSparkクラスターを簡単につくり、それとsparkl
chezou 2017/02/07
今日BDATで話すsparklyrのネタ、日本語版です。Cloudera Directorで設定も自動化出来ます :)

sparklyr

spark

cloudera
リンク
Analyzing US flight data on Amazon S3 with sparklyr and Apache Spark 2.0 - Cloudera Blog
Analyzing US flight data on Amazon S3 with sparklyr and Apache Spark 2.0 We posted several blog posts about sparklyr (introduction, automation), which enables you to analyze big data leveraging Apache Spark seamlessly with R. sparklyr, developed by RStudio, is an R interface to Spark that allows users to use Spark as the backend for dplyr, which is the popular data manipulation package for R. If y
chezou 2017/02/07
US blogデビューしました。今日BDATで話します

sparklyr

spark

cloudera
リンク
{sparklyr}でS3バケット上のファイルをRで扱う - Qiita
概要少し前に{sparklyr}というRからSparkを使うパッケージがRStudio社から公開されました。この{sparklyr}にはS3上のファイルも読み込めるspark_read_csvという関数が提供されており、Amazon Athenaが東京リージョンに来るまで代わりに使えないかと試してみました。今回はAWS Public Datasetsにあるデータセットを読み込んでみましたが、入力対象のS3バケットに権限があれば同じように扱えると思います。 sparklyr: R interface for Apache Spark 事前準備 {sparklyr}の活用にあたって対象パッケージのインストールと、Spark環境の設定が必要になります。後者については{sparklyr}に関数が用意されているので、今回はそれを使用してローカルに環境構築します。今回は試しませんが、ローカルでは
chezou 2017/02/07
sparklyr
リンク
論文メモ: Linguistic Benchmarks of Online News Article Quality - skozawa's blog
ACL2016 の論文 Linguistic Benchmarks of Online News Article Quality を読んだのでメモ。自分がやってみたいと思ってることに近いことをやっていて面白い。概要オンラインニュースの質を測れるかを検討した論文。質という1つの指標で表すのではなく、質に関係する14の指標を用意して評価する。14の指標に対して、専門家がニュースに対して5段階評価でそれぞれ点数をつけたコーパスを作成。14の指標と質との関係を分析し、ベンチマークとして質を予測できるかを調査。質を測るための指標 5カテゴリ、14の指標を用意。 Readability: 読みやすさ Fluency: 流暢さ、文が意味的につながっているか Conciseness: 簡潔さ、冗長でないか Informativeness: 情報量 Descriptiveness: 描写性、タイトル
chezou 2017/02/07
リンク
- 2017年2月8日
- 2017年2月7日
- 2017年2月6日