タグ

2017年1月30日のブックマーク (3件)

  • SparkのRDDとDataFrameでそれぞれwordcount - 映画は中劇

    Sparkでデータ処理プログラムを書くためのAPIには、RDDとDataFrameの二種類がある。2つのAPIを用いてwordcountを書いてみる。wordcountは、テキスト中の単語の出現回数を数えるプログラムであり、分散データ処理の必修課題である。 RDDは低レベルなAPIで、データのレコードにはスキーマがない。データ処理は、map関数やflatMap関数などリスト処理的な高階関数によって記述する。reduceByKeyなどいくつかの操作は、レコードが(key, value)のタプルであることを要求するが、その検査はジョブ投入時ではなく、タスク実行時に行われる。総じて、古式ゆかしいMapReduceの感覚で扱える。 DataFrameは高レベルのAPIで、データのレコードにはスキーマが適用される。データ処理は、SQLによって記述するか、あるいはホスト言語上のDSL(以下クエリDSL

    SparkのRDDとDataFrameでそれぞれwordcount - 映画は中劇
  • 機械学習/Deep Learningの仕事が増える2017年、ソフトウェアエンジニアがFPGAを学ぶべき理由

    ソフトウェアエンジニアFPGA(field-programmable gate array)を使うハードルがさらに下がってきている。クラウドサービスでFPGAを活用できたり、Pythonで記述したニューラルネットワークをFPGAに高位合成できる研究成果が出てきたりしているのだ。 ソフトウェア開発者の立場でFPGAに取り組むイベント「FPGAエクストリーム・コンピューティング」を主宰する佐藤一憲氏、FPGAの高位合成によるディープラーニングについて研究している東京工業大学の中原啓貴氏(中原研究室)、そしてFPGAベンダーであるザイリンクスの神保直弘氏が、急激に常識が変わりつつあるFPGAの動向を語り合った。 稿では座談会の中から、ソフトウェアエンジニアFPGAや高位合成が求められる現状、そして、今後どのようなツールを使うべきか、ソフトウェアエンジニアFPGAに取り組む際の課題などにつ

    機械学習/Deep Learningの仕事が増える2017年、ソフトウェアエンジニアがFPGAを学ぶべき理由
  • 竹中工務店、機械学習で予測誤差3%以下に

    竹中工務店は「IoT(Internet of Things)」などの先端技術を使ったビル管理システムのビジネス化に取り組んでいる。2016年7月には複数ビル内の各種センサーデータをクラウド上に収集、分析し、米Microsoft機械学習クラウドサービス「Azure Machine Learning(ML)」で消費電力量を予測する仕組みを構築した。蓄電池などをリアルタイム制御するシステムと組み合わせることで、電力自由化での有利な料金体系を利用しやすくする。 竹中工務店は2016年7月、自社関連の三つのビルをクラウド上で仮想的につなぎ、消費電力量の需要予測から実際の消費までを1棟として制御する仕組みを構築した。同社東京店ビル、東陽町インテスビル、TAK新砂ビルを対象とした「新砂エリアVPP(バーチャルパワープラント)」の構築に向けた実証実験を実施している。 新砂エリアVPPは複数の建物に設置

    竹中工務店、機械学習で予測誤差3%以下に
    nobusue
    nobusue 2017/01/30
    コストが課題とな・・