タグ

ブックマーク / qiita.com/shiumachi (6)

  • Scrapy メモ - Qiita

    Webページのスクレイピングと分析・可視化で使用したPython製WebクローラScrapyについて覚えたことについて記載する。 記事はメモ程度の内容であり、情報の正確性については保証しない。必ず公式ドキュメントを参照すること。 サンプルコード サンプルコード1 import scrapy class QiitaCalendarSpider(scrapy.Spider): name = "qiita_calendar" allowed_domains = ["qiita.com"] start_urls = ["http://qiita.com/advent-calendar/2016/calendars"] custom_settings = { "DOWNLOAD_DELAY": 1, } def parse(self, response): for href in response

    Scrapy メモ - Qiita
  • Webページのスクレイピングと分析・可視化 - Qiita

    先日、2016年アドベントカレンダーのはてブ数の分析というブログ記事を投稿した。このデータの可視化には様々な技術が使われている。記事では、どのような技術を活用して作成したのかについて説明する。 ソースコードはこちら。 概要 このVizは、QiitaとAdventarに投稿された、全アドベントカレンダー及びそこに登録された記事のはてなブックマーク数を元に、どのカレンダーや記事が人気なのか、あるいはQiitaとAdventarのどちらが人気なのかを視覚化することを目的として作成された。データソースは、Qiita及びAdventarに登録された、アドベントカレンダー2016の全カレンダーページである。カレンダーには記事のメタデータが含まれている。記事そのもののページやユーザページのクロールはしていない。 システムの概要 データの収集→ETL→BIという流れで処理を行った。 データ収集 Webク

    Webページのスクレイピングと分析・可視化 - Qiita
  • 地震データを検索できるようにし、結果を地図上に表示する - Qiita

    アメリカ地質調査所が公開している地震の発生データを検索可能にし、結果を地図上にマッピングする方法を紹介する。 環境 CDH 5.4.2 Cloudera Manager を使ってクラスタを準備するか、クイックスタートVMを準備すること。VMの準備方法についてはこちらを参考。 データセット 最近発生した地震のデータセット。 アメリカ地質調査所 より取得する。 検索システムのアーキテクチャ データセットの取得と HBase へのロード HBaseにTSVデータを投入する(ImportTsv)の記事を参照。 Solr から HBase テーブルのインデックス作成 HBaseのデータからSolrの検索インデックスを作成するの記事を参照。 検索結果を地図上に表示する http://<hueサーバのノード>:8888/indexer にアクセスし、 earthquake-collection を選択し

    地震データを検索できるようにし、結果を地図上に表示する - Qiita
  • java 初心者が hadoop 開発できるようになるまで何を勉強したらいいですか? - Qiita

    質問 java 初心者が hadoop を開発できるレベルになるまで何を勉強したらいいでしょうか? おすすめの書籍、サイト、勉強法等あれば教えてください。 回答 java 初心者ということで, java に話題を絞って回答します. まずは「独習 java」でも Web 上の教材でも何でも良いので, java について構文とか基的なところを押さえましょう. javadoc, jar については知っている必要があります. ant, maven まで概要を押さえられれば尚良いです. 次に hadoop プロジェクトが使用しているライブラリを把握しましょう. これは pom.xml という xml ファイルの dependencies 要素の中に列挙してあります. それぞれのライブラリがどのような目的のものかを把握するくらいで最低限良いでしょう. ライブラリの javadoc を読むのも良いです

    java 初心者が hadoop 開発できるようになるまで何を勉強したらいいですか? - Qiita
  • Hadoopの使い方のまとめ(2016年5月版) - Qiita

    Apache Hadoop (以下Hadoop) が登場して10年が経ち、その間にHadoopとそのエコシステムも誰も予想できないほど大きく進化してきた。当初バッチ処理専用と言われていたHadoopも、今やSQLエンジンや機械学習など様々なアプリケーションを動作させることができる汎用基盤となっている。しかし、「Hadoopとは何か?」「Hadoop入門」のような初心者向け記事は未だに初期の頃のHadoopを想定した説明しかしておらず、現在のHadoopについて正しい情報を伝えていないように見える。一方、「最新のHadoop」といった類の記事は新機能や性能向上ばかりに着目し、それらの進化がどのような意味をもたらしているかについて説明をしていないように感じる。この記事では、10年に渡る進化を遂げたHadoopが現在どのような使われ方をしているのかについて簡単にまとめる。 「Linuxはこう使う

    Hadoopの使い方のまとめ(2016年5月版) - Qiita
  • trunk の hadoop の git log を効率よく追いかける方法 - Qiita

    質問 git log でヒストリを追いかけようとすると、どうも過去にディレクトリツリーを大幅に変更したらしく、追いかけるのが大変です。 なんとかならないでしょうか。 回答 以下の3つのコミットハッシュをチェックアウトして、それぞれブランチを切っておけば多少は追いかけるのが楽になります。 pre-HADOOP-7560 コミットハッシュ eda88e7e1d1653643c959d547f672c9ad98f9dfb 最後のディレクトリ大改造。trunk だと git log 使ってもここまでしか追えないので超絶めんどくさい。そしてディレクトリ編成はこれだけではない。 pre-HADOOP-6671 コミットハッシュ 58ab6d673734f2ee9f514ac10a6d31655a1d1861 HADOOP-6671 でもかなり改造されてる。 pre-directory-name-cha

    trunk の hadoop の git log を効率よく追いかける方法 - Qiita
  • 1