hohoho_ho2005のブックマーク - はてなブックマーク

Scrapy メモ - Qiita

Webページのスクレイピングと分析・可視化で使用したPython製WebクローラScrapyについて覚えたことについて記載する。本記事はメモ程度の内容であり、情報の正確性については保証しない。必ず公式ドキュメントを参照すること。サンプルコードサンプルコード1 import scrapy class QiitaCalendarSpider(scrapy.Spider): name = "qiita_calendar" allowed_domains = ["qiita.com"] start_urls = ["http://qiita.com/advent-calendar/2016/calendars"] custom_settings = { "DOWNLOAD_DELAY": 1, } def parse(self, response): for href in response

hohoho_ho2005 2017/01/16

リンク

Webページのスクレイピングと分析・可視化 - Qiita

先日、2016年アドベントカレンダーのはてブ数の分析というブログ記事を投稿した。このデータの可視化には様々な技術が使われている。本記事では、どのような技術を活用して作成したのかについて説明する。ソースコードはこちら。概要このVizは、QiitaとAdventarに投稿された、全アドベントカレンダー及びそこに登録された記事のはてなブックマーク数を元に、どのカレンダーや記事が人気なのか、あるいはQiitaとAdventarのどちらが人気なのかを視覚化することを目的として作成された。データソースは、Qiita及びAdventarに登録された、アドベントカレンダー2016の全カレンダーページである。カレンダーには記事のメタデータが含まれている。記事そのもののページやユーザページのクロールはしていない。システムの概要データの収集→ETL→BIという流れで処理を行った。データ収集 Webク

hohoho_ho2005 2017/01/16

scrapy

リンク

Impala 落ち穂拾い - Qiita

この投稿はDistributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の22日目です。昨日はkiszkさんのSparkの記事でした。この記事の概要 Impalaを使い込んでいる人向けの、役に立つ小ネタ集という位置づけ。 Impala入門ではないので、Impala 入門のような情報は下記のようなページを参照すること。 SQL-on-Apache Hadoop – ジョブの特性に適したツールの選択 http://www.cloudera.co.jp/blog/sql-on-apache-hadoop-choosing-the-right-tool-for-the-right-job.html Apache Impala（Incubating）を使ったAmazon S3 上でのアナリティクスとBIの実現 http

hohoho_ho2005 2016/12/22

impala

リンク

[翻訳] Hadoop: Fair Scheduler - Qiita

原文: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html バージョン: 3.0.0-alpha1 ライセンス: Apache License 目的このドキュメントでは、Hadoop用のプラガブルスケジューラであるFairSchedulerについて説明します。このスケジューラは、YARNアプリケーションが大規模なクラスタでリソースを公平に共有できるようにします。イントロダクションフェアスケジューリングは、すべてのアプリケーションが平均して同じリソースの時間を共有するように、アプリケーションにリソースを割り当てる方法です。Hadoop NextGenは、複数のリソースタイプのスケジューリングが可能です。デフォルトでは、フェアスケジューラはスケジューリングフェアネス決定

hohoho_ho2005 2016/11/25

hadoop

リンク

Impalaのパフォーマンスガイドラインとベストプラクティス(翻訳) - Qiita

Clouderaのドキュメントに書かれているImpala Performance Guidelines and Best Practices が非常に素晴らしい内容なので翻訳した。内容は Apache Impala (incubating) (以下 Impala) をターゲットとして記述しているが、パーティション設計などについては Hive にそのまま適用できる内容なので、Impala を使用していない人でも読んで損はないと思う。環境 CDH 5.7.0 (Impala 2.5.0) 本文このドキュメントは、Impalaを利用するCDHクラスタのための、計画、実験、パフォーマンスチューニング時に利用可能なパフォーマンスガイドラインとベストプラクティスです。この情報は全て、Impala ドキュメンテーションの他のページでより詳細に記載されているものです。これらの情報はクックブックとして

hohoho_ho2005 2016/08/18

impala

リンク

Cloudera Quickstart VM に外部からHDFS接続する - Qiita

Cloudera Quickstart VM (以下VM) は、デフォルトで 127.0.0.1 をホスト名 quickstart.cloudera と紐付けているため、このままでは VM 外(例えばMac自身)からの HDFS への接続を行うことができない。すなわち、データの入出力を行うことができない。(REST APIなどを使えば一応可能) 本記事では、VMに外部からHDFS接続する方法について説明する。問題の背景に興味がなく問題解決だけしたい人は「対処法」まで読めばいい。なぜこういう挙動なのか知りたい人は「技術背景」を参照すること。環境 OS: Mac OS X 10.10.3 Cloudera Quickstart VM: C5.4 VMWare Fusion 6 準備 Cloudera Quickstart VM の概要及びインストール方法については、CodeZineの連載記

hohoho_ho2005 2015/12/10

hadoop

リンク

地震データを検索できるようにし、結果を地図上に表示する - Qiita

アメリカ地質調査所が公開している地震の発生データを検索可能にし、結果を地図上にマッピングする方法を紹介する。環境 CDH 5.4.2 Cloudera Manager を使ってクラスタを準備するか、クイックスタートVMを準備すること。VMの準備方法についてはこちらを参考。データセット最近発生した地震のデータセット。アメリカ地質調査所より取得する。検索システムのアーキテクチャデータセットの取得と HBase へのロード HBaseにTSVデータを投入する(ImportTsv)の記事を参照。 Solr から HBase テーブルのインデックス作成 HBaseのデータからSolrの検索インデックスを作成するの記事を参照。検索結果を地図上に表示する http://<hueサーバのノード>:8888/indexer にアクセスし、 earthquake-collection を選択し