darupantsのブックマーク / 2016年12月10日

data:the_insurance_company_benchmark [http://stat.inf.uec.ac.jp/ に引っ越しました]

darupants 2016/12/10

ml

リンク

Amazon AthenaをBigQueryと比較してみた

こんにちは、データ分析部の阿部です。作業中音楽は聞かない派ですが、ホワイトノイズを聞いていると集中できるという噂を聞いたことがあるので少し気になっています。今回は、re:Invent2016で発表されたばかりのAthenaを紹介します。 Athenaとはデータの準備テーブル作成速度測定まとめ Athenaとは本日、AWSのre:Invent中で、RedshiftやEMRに続くビッグデータサービスとして、Athenaというサービスがリリースされました。 Athenaは、S3上のデータ（CSV, JSON, その他フラットファイル）に対して、インタラクティブにSQLを実行することができます。 RedshiftやEMRに比べて、クラスタの構築や運用を必要とせず、シンプルにクエリを実行できるというメリットがあります。課金形態も、クエリ&読み込んだデータ量に応じて課金という点で、Go

darupants 2016/12/10

gcp
aws

リンク

環境構築レスでAmazonの商品レビューを取得する - プログラマでありたい

世の中、ひょんなことから思いもかけないようなデータが必要になる場合があります。そんな時に備えて、クローラー／スクレイピングのノウハウを持っているのは当たり前の時代です。（大嘘）そんな訳で、Webから簡単にデータを取ってくる方法を紹介します。取得する為に、サーバーやクライアントPCの実行環境を構築すると言った瞬間、8割の人が去っていきます。そこで、環境構築レスでデータを収拾する方法を考えてみます。また、ちょっと癖があるAmazonの商品レビューを例に考えてみます。今回の対象は、この2冊の本のデータを取得するとしましょう。 Amazon Web Services パターン別構築・運用ガイド Rubyによるクローラー開発技法ポイントとしては、次のとおりです。複数の本を引数指定で取ってこれるようにしたいレビュー数が10件以上あるので改ページが必要。取得は、出来るだけ楽にしたいです。その

darupants 2016/12/10

google apps

リンク

Google スプレッドシートの関数でWebからデータを取得する - プログラマでありたい

Excel買うのはちょっと高いなぁと思っている時に重宝するのが、Google スプレッドシートです。ブラウザがあればどこでも使えて嬉しく、あのデータあのパソコンに入ってるのにとか、そういったことから開放されます。さらに他の人との共有も簡単なので、使い所沢山あります。そんなGoogle スプレッドシートですが、Googleならではというような機能もあります。その1つがImport系のセル関数です。幾つかあるのですが、Webからデータを収拾できるものが幾つかあります。地味だけど便利なので、簡単に紹介してみます。 Import関数関数名概要 IMPORTXML XML, HTML, CSV, TSV,RSS/Atom XMLフィードなど、構造化データからデータをインポート IMPORTHTML HTML ページ内の表やリストからデータをインポート IMPORTFEED RSS, Atom

darupants 2016/12/10

google apps

リンク

Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ

こんにちは、Gunosyデータ分析部に所属している森本です。主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。最近良く聞く音楽はOne Direction - Live While We're Youngです。本記事では、Sparkで利用できるDeep Learningフレームワークをまとめました。 GunosyではChainerで畳み込みニューラルネットワークを応用し、ユーザーのデモグラフィック推定を行っています。 WebDB Forum 2016 gunosy from Hiroaki Kudo Chainer以外にも多数のDeep LearningフレームワークがPythonを中心に数多く存在します。 TensorFlow, Keras, Caffe, Theanoなどなど。どのフレームワークが優れているかという回答は状況に応じて変わりますが、Pythonを使用する大

darupants 2016/12/10

リンク

JuliaからRを使う - りんごがでている

先日のWACODE夏期講習でRCall.jlのデモをしたら、やはりウケが良かったようなので改めて紹介をします。 RCall.jlはJuliaからR言語の機能を呼び出すツールです。データの受け渡しからREPLでのインタラクティブな実行・プロットも簡単にできます。Juliaを使ってみたいけど、Rの豊富な資産を捨てる訳にはいかないといった方にはピッタリのライブラリです。インストールは、Juliaの標準的な方法通り、julia -e 'Pkg.update(); Pkg.add(“RCall”)’を実行して下さい。これで最新版のRCall.jlがインストールされることになります。尚、次期Juliaのリリース候補v0.5-RC1では現在動かないようですが、リリースブランチでは直っているのでRC2では使えると思います。簡単な演算で正しくインストールできたかを確認しましょう。JuliaのREPLを起

darupants 2016/12/10

program
ml

リンク

Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO

先日『AWS re:Invent 2016』にて発表された新サービス『Amazon Athena』は、マニュアルにもある通りAWSが提供するフルマネージドHiveサービスと言えるでしょう。DWH用途で考えるとレコードをフルスキャンするよりも特定のカラムを集計・フィルタするというユースケースが多くなりそうですので、カラムナフォーマット『Parquet』を試したみたいと思いました。Parquetファイルの変換や、一般的なCSVとの簡単な比較をしてみました。（意外な結果が...）カラムナフォーマット『Parquet』とはデータ分析では大福帳フォーマットのテーブルデータに対して、特定の列の値を集計したり、フィルタリングすることが多いため、カラム毎にデータが連続して格納されていると必要なデータのみをピンポイントで読み込むことができるからです。また、列方向には同じ種類のデータが並んでいるため、圧縮

darupants 2016/12/10

aws
athena

リンク

統計学の基礎の基礎

統計学レクチャー資料です。全くの初心者が統計学の概要を理解できることをターゲットとした内容となっています。

darupants 2016/12/10

統計

リンク

ケビン・ケリーが考えるテクノロジーの進化／Figure out（解明する）

登壇者：ケビン・ケリー未来研究者ケビン・ケリーの毎日の過ごし方は、テクノロジーについて考えること。このTED Talkでは、それについて彼なりの結論が紹介されている。彼がたどりついた結論とは、テクノロジーは生物と同じように進化し、またその進化には似たようなパターンがあるということだ。すなわち、時間が経つに伴い、遍在、多様性、特化し、複雑さと社交性を増していく。また、テクノロジーは消えることはないとケリー氏は考えている。その証拠として、時代の異なる今でも、蒸気自動車の部品や石器時代に利用されていた刀と同じものを手に入れることができる。そしてまた、テクノロジーは個人が自分の人生のミッションを達成するための手段でもあると彼は結論付けている。各自が自分の可能性を追求できるよう、それに欠かせないテクノロジーを発明する必要性を訴える。このトークは自分の周りにあるテクノロジーを新しい、違った目で考え

darupants 2016/12/10

TED

リンク

はてなブックマーク

タグ

2016年12月10日のブックマーク (9件)

data:the_insurance_company_benchmark [http://stat.inf.uec.ac.jp/ に引っ越しました]

Amazon AthenaをBigQueryと比較してみた

環境構築レスでAmazonの商品レビューを取得する - プログラマでありたい

Google スプレッドシートの関数でWebからデータを取得する - プログラマでありたい

Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ

JuliaからRを使う - りんごがでている

Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO

統計学の基礎の基礎

ケビン・ケリーが考えるテクノロジーの進化／Figure out（解明する）

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス