Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
マーケティングメトリックス研究所ではデータ分析に関わる研究者や実務家の方々をお招きしインタビューシリーズにも取り組む運びとなりました。 当サイトにお越し下さる読者の皆様のデータ活用に少しでもお役に立てれば幸いです。記念すべき第1回目は産業技術の幅広い分野の研究を行う国内最大級の公的研究機関である産業技術総合研究所の油井誠研究員をお迎えしてビッグデータを扱う基盤技術や機械学習についてお話を伺います。 2003年芝浦工業大学工学部卒業。奈良先端科学技術大学院大学博士前期・後期課程をそれぞれ短縮修了し2009年3月博士(工学)を取得。2003年7月IPA未踏ユース、スーパークリエータ認定。2009年日本学術振興会特別研究員 (PD 工学)、早稲田大学IT研究機構客員研究員(兼任)。2010年4月より独立行政法人産業技術総合研究所 情報技術研究部門サービスウェア研究グループ研究員、現在に至る。 [
この連載では、HadoopやHBaseのトラブルを解決する手順をご紹介します。第1回目となる今回は、本連載のキーとなるツール「halook」を紹介します。「halook」はオープンソースで開発しているHadoop/HBase用の可視化ツールで、トラブルの発生を可視化して把握し、原因究明するために利用できます。まずは「halook」の概要から紹介します。 Hadoop、HBaseの難しさ Hadoopは大量データの保存と分散処理のために、数十台~数千台のマシンを扱います。そのため、何かトラブルがあったときに、どこに原因があるのか突き止めるのが難しい場合が多く、あるいは、そもそもトラブルが起こっていることに気付くのが遅れてしまうこともあります。たとえば、次のような点が挙げられます。 データは正しく分散配置されているか 処理は分散して実行されているか 設定ミスをしていないか 問題の報告の難しさ
行毎の合算を行うサンプル 以下のような成績表(試験の点数のCSVファイル)から、各学生ごとの合計点数を算出する例。 #番号,名前, 数学,国語,理科,社会,英語 101,天才, 100, 100, 100, 100, 100 201,無気力, 5, 30, 10, 20, 15 102,ひしだま, 90, 85, 80, 50, 10 202,hoge, 10, 30, 25, 45, 20 103,foo, 60, 60, 60, 60, 25 204,xxx, 80, 77, 90, 40, 44 205,yyy, 65, 90, 55, 80, 65 104,zzz, 40, 60, 60, 70, 20 出力イメージ: 101,天才 500 102,ひしだま 315 103,foo 265 104,zzz 250 201,無気力 80 202,hoge 130 204,xxx 33
Hadoop Streaming を使ってみている。 まだあんまりドキュメントがないので、 試行錯誤するしかない。 なわけで、今日の試行錯誤のメモ。 インストールや環境設定については、 書いてあるページがそこそこあるから そっちを見てください。 ※exblogに怒られないように、 ところどころ大文字になっているので、 コピペするときは気をつけてね 前提: (1) input.txt を hdfs に送っておく。 > $HADOOP_HOME/bin/hadoop hdfs -put input.txt (2) -output の temp ディレクトリは毎回削除する。 > $HADOOP_HOME/bin/hadoop hdfs -rmr temp ちなみに >hadoop dfs -rmr temp[1234] とか >hadoop dfs -rmr temp* とかも可能 【1】per
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
CDH4 Configurations with YARN, Capacity Scheduler and Hive 前回の続きで、私がCDH4で利用している外道式設定ファイルの紹介です。 非常に手間暇かけて作成したものなので墓の下まで持って行きたいところですが、某所からの圧力と社会のために、恥ずかしながら放出したいと思います。 はじめに 言うまでもなく、参考・利用においては自己責任でお願いします ホスト名・ファイルパスは適当に変換してください descriptionの日本語は私のメモですので怪しかったらググってください 英文のみの場合はまだ未検証だったり説明するまでもないものになっています 2ヶ月以上これで運用していますが、まだまだ変わると思うので更新日付を書いておきます ファイルはUTF-8です Hadoop設定 CDH3からCDH4への設定変更リスト core 公式 core-def
CDH4(Cloudera's Distribution including Apache Hadoop v4)のインストールについて。 CDH4の概要 CDH(Cloudera's Distribution including Apache Hadoop)は、Hadoopのディストリビューション。 CDH4はHadoop2.0(旧Hadoop0.23)がベースとなっている。 CDH4のHadoopはMapReduce v1(MRv1)とYARN(MRv2)の二種類ある。 MRv1は従来と同じくJobTrackerやTaskTrackerを使用して動作する。 YARNは新しい方式で、ResourceManager・NodeManager(やApplicationMaster/Container)を使用して動作する。 (Hadoop0.23ではインストールは一種類で、パラメーターmapred
I have a map-reduce java program in which I try to only compress the mapper output but not the reducer output. I thought that this would be possible by setting the following properties in the Configuration instance as listed below. However, when I run my job, the generated output by the reducer still is compressed since the file generated is: part-r-00000.gz. Has anyone successfully just compresse
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く