タグ

2017年2月7日のブックマーク (7件)

  • YouTube-BB Dataset | Google Research

    YouTube-BoundingBoxes is a large-scale data set of video URLs with densely-sampled high-quality single-object bounding box annotations. The data set consists of approximately 380,000 15-20s video segments extracted from 240,000 different publicly visible YouTube videos, automatically selected to feature objects in natural settings without editing or post-processing, with a recording quality often

    chezou
    chezou 2017/02/07
    人手でつけたyoutubeのbounding boxデータ…。やばい
  • Welcome Prelert to the Elastic Team

    chezou
    chezou 2017/02/07
  • LBFGSの実装

    2. l−bfgsってなに? • l-bfgsはscikit-learnやspark MLlibなどで使われている計算 機に優しい(メモリ使用量が少ない)最適化アルゴリズム • 準ニュートン法の一種 • 今日はスライドが多いので、15秒/1ページでいきます (局所的)最適解

    LBFGSの実装
    chezou
    chezou 2017/02/07
  • S3のデータをRStudioとsparklyrで分析する

    RStudio社が提供しているsparklyrを使うと、Sparkクラスターに格納されている大規模なデータに対して、普段お使いのR言語から簡単に処理をすることが出来ます。 sparklyrとは、大規模なデータに対してもRを使い容易に操作できるパッケージです。Rユーザーに人気のdplyrと呼ばれるパッケージのバックエンドとして動き、Sparkを直接意識することなく大規模なデータを扱うことが出来ます。Clouderaでは、Pythonデータ分析用のライブラリpandasからImpalaを使ってデータ分析をしやすくしたIbisというパッケージを開発していますが、これのR+Spark版と言っても過言ではないでしょう。 sparklyrに興味をもったなら、公式ドキュメントから始めるといいでしょう。 もしくは、Cloudera DirectorでSparkクラスターを簡単につくり、それとsparkl

    S3のデータをRStudioとsparklyrで分析する
    chezou
    chezou 2017/02/07
    今日BDATで話すsparklyrのネタ、日本語版です。Cloudera Directorで設定も自動化出来ます :)
  • Analyzing US flight data on Amazon S3 with sparklyr and Apache Spark 2.0 - Cloudera Blog

    Analyzing US flight data on Amazon S3 with sparklyr and Apache Spark 2.0 We posted several blog posts about sparklyr (introduction, automation), which enables you to analyze big data leveraging Apache Spark seamlessly with R. sparklyr, developed by RStudio, is an R interface to Spark that allows users to use Spark as the backend for dplyr, which is the popular data manipulation package for R. If y

    Analyzing US flight data on Amazon S3 with sparklyr and Apache Spark 2.0 - Cloudera Blog
    chezou
    chezou 2017/02/07
    US blogデビューしました。今日BDATで話します
  • {sparklyr}でS3バケット上のファイルをRで扱う - Qiita

    概要 少し前に{sparklyr}というRからSparkを使うパッケージがRStudio社から公開されました。この{sparklyr}にはS3上のファイルも読み込めるspark_read_csvという関数が提供されており、Amazon Athenaが東京リージョンに来るまで代わりに使えないかと試してみました。 今回はAWS Public Datasetsにあるデータセットを読み込んでみましたが、入力対象のS3バケットに権限があれば同じように扱えると思います。 sparklyr: R interface for Apache Spark 事前準備 {sparklyr}の活用にあたって対象パッケージのインストールと、Spark環境の設定が必要になります。後者については{sparklyr}に関数が用意されているので、今回はそれを使用してローカルに環境構築します。 今回は試しませんが、ローカルでは

    {sparklyr}でS3バケット上のファイルをRで扱う - Qiita
  • 論文メモ: Linguistic Benchmarks of Online News Article Quality - skozawa's blog

    ACL2016 の論文 Linguistic Benchmarks of Online News Article Quality を読んだのでメモ。 自分がやってみたいと思ってることに近いことをやっていて面白い。 概要 オンラインニュースの質を測れるかを検討した論文。質という1つの指標で表すのではなく、質に関係する14の指標を用意して評価する。14の指標に対して、専門家がニュースに対して5段階評価でそれぞれ点数をつけたコーパスを作成。14の指標と質との関係を分析し、ベンチマークとして質を予測できるかを調査。 質を測るための指標 5カテゴリ、14の指標を用意。 Readability: 読みやすさ Fluency: 流暢さ、文が意味的につながっているか Conciseness: 簡潔さ、冗長でないか Informativeness: 情報量 Descriptiveness: 描写性、タイトル

    論文メモ: Linguistic Benchmarks of Online News Article Quality - skozawa's blog
    chezou
    chezou 2017/02/07