第6回レポート形式自由自在 ~R MarkdownからWord、PDF形式への変換~ 高橋康介 2015-07-17
前回の(1)はこちらから。 参考にすべきCPANモジュール 以下では古いものから新しいものまで、クローラを作る際に参考になるCPANモジュールを紹介します。 LWP::RobotUA、WWW::RobotRules PerlにおけるHTTPクライアントと言えば、何はともあれLWP::UserAgentです。LWPのパッケージの中にはLWP::RobotUAというrobots.txtを解釈するbot用のUserAgentを作るクラスが含まれています。RobotUAはLWP::UserAgentを継承したクラスで、ユーザエージェント文字列とFromヘッダに使用するためのメールアドレスの指定が必須になっています。また、robots.txtでDisallowの指定があるURLにはアクセスできないようになっていたり、リクエストごとにデフォルトで1分のウェイトが入っていたりと、行儀の良いモジュールです
はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“明確に”わからない。 このような問題を解決するには、
本日12月1日より、プログラマ有志による2013年の技術系Advent Calendarが各所ではじまる 本日12月1日より、プログラマ有志による2013年の各技術系Advent Calendar(アドベントカレンダー)が一日目を担当する人のblogではじまっている。 昨年以上に細分化されたため、昨年よりも今年のAdvent Calendarの数が多くなっているようだ。また、技術系以外の人に対してもこのような形式のAdvent Calendarの認知度が上がり、技術系以外のAdvent Calendarも昨年より増えている。 一般的なAdvent Calendarは、12月25日のクリスマスを楽しみに待つために、12月1日から24日までのカレンダーの日付の部分(扉だったりする)を開けるようになっており、1日ずつその日の日付の部分を開くと天使や動物の絵などが見えるという仕組み(もちろん、様々
その中からTreasure Data(以下、TD)のデータ分析ノウハウについて語った田村氏、柄沢氏の発表をピックアップしてレポートします。 データを集めるのはたいへん 1つめに挙げた課題はデータ収集の問題です。田村氏は、いざデータ分析を始めてみると、集めたデータに間違いがあって、正しく集計、分析ができないということがよく起きると言います。 その原因の1つは、アプリケーションを修正した結果、出力するログが変わっていたというものです。データ分析の現場では、「業務でデータを集める人」と「データを分析する人」が異なるというのはよくあるそうです。そのため、前述のようにほかの担当者がログを分析していることをあまり意識せずに、アプリケーション開発担当者がログの内容を変更してしまうということが起こるのです。 また、データを集めるしくみが複雑過ぎる、というのも一因です。一般的にどんなサービスでも、複数のデ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く