タグ

ブックマーク / qiita.com/shiumachi (2)

  • Webページのスクレイピングと分析・可視化 - Qiita

    先日、2016年アドベントカレンダーのはてブ数の分析というブログ記事を投稿した。このデータの可視化には様々な技術が使われている。記事では、どのような技術を活用して作成したのかについて説明する。 ソースコードはこちら。 概要 このVizは、QiitaとAdventarに投稿された、全アドベントカレンダー及びそこに登録された記事のはてなブックマーク数を元に、どのカレンダーや記事が人気なのか、あるいはQiitaとAdventarのどちらが人気なのかを視覚化することを目的として作成された。データソースは、Qiita及びAdventarに登録された、アドベントカレンダー2016の全カレンダーページである。カレンダーには記事のメタデータが含まれている。記事そのもののページやユーザページのクロールはしていない。 システムの概要 データの収集→ETL→BIという流れで処理を行った。 データ収集 Webク

    Webページのスクレイピングと分析・可視化 - Qiita
  • Hadoopの使い方のまとめ(2016年5月版) - Qiita

    Apache Hadoop (以下Hadoop) が登場して10年が経ち、その間にHadoopとそのエコシステムも誰も予想できないほど大きく進化してきた。当初バッチ処理専用と言われていたHadoopも、今やSQLエンジンや機械学習など様々なアプリケーションを動作させることができる汎用基盤となっている。しかし、「Hadoopとは何か?」「Hadoop入門」のような初心者向け記事は未だに初期の頃のHadoopを想定した説明しかしておらず、現在のHadoopについて正しい情報を伝えていないように見える。一方、「最新のHadoop」といった類の記事は新機能や性能向上ばかりに着目し、それらの進化がどのような意味をもたらしているかについて説明をしていないように感じる。この記事では、10年に渡る進化を遂げたHadoopが現在どのような使われ方をしているのかについて簡単にまとめる。 「Linuxはこう使う

    Hadoopの使い方のまとめ(2016年5月版) - Qiita
  • 1