タグ

ブックマーク / qiita.com/shiumachi (7)

  • Scrapy メモ - Qiita

    Webページのスクレイピングと分析・可視化で使用したPython製WebクローラScrapyについて覚えたことについて記載する。 記事はメモ程度の内容であり、情報の正確性については保証しない。必ず公式ドキュメントを参照すること。 サンプルコード サンプルコード1 import scrapy class QiitaCalendarSpider(scrapy.Spider): name = "qiita_calendar" allowed_domains = ["qiita.com"] start_urls = ["http://qiita.com/advent-calendar/2016/calendars"] custom_settings = { "DOWNLOAD_DELAY": 1, } def parse(self, response): for href in response

    Scrapy メモ - Qiita
  • Webページのスクレイピングと分析・可視化 - Qiita

    先日、2016年アドベントカレンダーのはてブ数の分析というブログ記事を投稿した。このデータの可視化には様々な技術が使われている。記事では、どのような技術を活用して作成したのかについて説明する。 ソースコードはこちら。 概要 このVizは、QiitaとAdventarに投稿された、全アドベントカレンダー及びそこに登録された記事のはてなブックマーク数を元に、どのカレンダーや記事が人気なのか、あるいはQiitaとAdventarのどちらが人気なのかを視覚化することを目的として作成された。データソースは、Qiita及びAdventarに登録された、アドベントカレンダー2016の全カレンダーページである。カレンダーには記事のメタデータが含まれている。記事そのもののページやユーザページのクロールはしていない。 システムの概要 データの収集→ETL→BIという流れで処理を行った。 データ収集 Webク

    Webページのスクレイピングと分析・可視化 - Qiita
  • Impala 落ち穂拾い - Qiita

    この投稿はDistributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の22日目です。 昨日はkiszkさんのSparkの記事でした。 この記事の概要 Impalaを使い込んでいる人向けの、役に立つ小ネタ集という位置づけ。 Impala入門ではないので、Impala 入門のような情報は下記のようなページを参照すること。 SQL-on-Apache Hadoop – ジョブの特性に適したツールの選択 http://www.cloudera.co.jp/blog/sql-on-apache-hadoop-choosing-the-right-tool-for-the-right-job.html Apache Impala(Incubating)を使ったAmazon S3 上でのアナリティクスとBIの実現 http

    Impala 落ち穂拾い - Qiita
  • [翻訳] Hadoop: Fair Scheduler - Qiita

    原文: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html バージョン: 3.0.0-alpha1 ライセンス: Apache License 目的 このドキュメントでは、Hadoop用のプラガブルスケジューラであるFairSchedulerについて説明します。このスケジューラは、YARNアプリケーションが大規模なクラスタでリソースを公平に共有できるようにします。 イントロダクション フェアスケジューリングは、すべてのアプリケーションが平均して同じリソースの時間を共有するように、アプリケーションにリソースを割り当てる方法です。Hadoop NextGenは、複数のリソースタイプのスケジューリングが可能です。デフォルトでは、フェアスケジューラはスケジューリングフェアネス決定

    [翻訳] Hadoop: Fair Scheduler - Qiita
  • Impalaのパフォーマンスガイドラインとベストプラクティス(翻訳) - Qiita

    Clouderaのドキュメントに書かれているImpala Performance Guidelines and Best Practices が非常に素晴らしい内容なので翻訳した。 内容は Apache Impala (incubating) (以下 Impala) をターゲットとして記述しているが、パーティション設計などについては Hive にそのまま適用できる内容なので、Impala を使用していない人でも読んで損はないと思う。 環境 CDH 5.7.0 (Impala 2.5.0) 文 このドキュメントは、Impalaを利用するCDHクラスタのための、計画、実験、パフォーマンスチューニング時に利用可能なパフォーマンスガイドラインとベストプラクティスです。この情報は全て、Impala ドキュメンテーションの他のページでより詳細に記載されているものです。これらの情報はクックブックとして

    Impalaのパフォーマンスガイドラインとベストプラクティス(翻訳) - Qiita
  • Cloudera Quickstart VM に外部からHDFS接続する - Qiita

    Cloudera Quickstart VM (以下VM) は、デフォルトで 127.0.0.1 をホスト名 quickstart.cloudera と紐付けているため、このままでは VM 外(例えばMac自身)からの HDFS への接続を行うことができない。すなわち、データの入出力を行うことができない。(REST APIなどを使えば一応可能) 記事では、VMに外部からHDFS接続する方法について説明する。 問題の背景に興味がなく問題解決だけしたい人は「対処法」まで読めばいい。なぜこういう挙動なのか知りたい人は「技術背景」を参照すること。 環境 OS: Mac OS X 10.10.3 Cloudera Quickstart VM: C5.4 VMWare Fusion 6 準備 Cloudera Quickstart VM の概要及びインストール方法については、CodeZineの連載記

    Cloudera Quickstart VM に外部からHDFS接続する - Qiita
    hohoho_ho2005
    hohoho_ho2005 2015/12/10
    hadoop
  • 地震データを検索できるようにし、結果を地図上に表示する - Qiita

    アメリカ地質調査所が公開している地震の発生データを検索可能にし、結果を地図上にマッピングする方法を紹介する。 環境 CDH 5.4.2 Cloudera Manager を使ってクラスタを準備するか、クイックスタートVMを準備すること。VMの準備方法についてはこちらを参考。 データセット 最近発生した地震のデータセット。 アメリカ地質調査所 より取得する。 検索システムのアーキテクチャ データセットの取得と HBase へのロード HBaseにTSVデータを投入する(ImportTsv)の記事を参照。 Solr から HBase テーブルのインデックス作成 HBaseのデータからSolrの検索インデックスを作成するの記事を参照。 検索結果を地図上に表示する http://<hueサーバのノード>:8888/indexer にアクセスし、 earthquake-collection を選択し

    地震データを検索できるようにし、結果を地図上に表示する - Qiita
  • 1