タグ

Sparkに関するrx7のブックマーク (5)

  • Spark3分クッキング HBaseで作る100万通りの文書分類器 - astamuse Lab

    こんにちは。最近GINZA SIXで当のスタバ*1を知ってしまった福田です。 私たちの身の周りは、様々なデータで溢れています。 ある2つの異なるデータ集合を互いに紐付けたいこともよくあります。 どのように紐付けられるでしょうか。 一方のデータ集合から分類器をつくることができれば、分類結果を媒介として他のデータ集合とのマッチングができるかもしれません。 では、どうやって分類できるでしょう。 ここではSparkとHBaseを使って実装がシンプルで、文書分類でよく使われるナイーブベイズの分類器を実装してみます。 材料と調理器具 材料 特許の要約と分類のデータ 簡単のため以下のように正規化されたテーブル構造のデータがあるとします。 特許出願(appln)を親として、要約テキスト(appln_abstr)と、分類コード(appln_ipc)がぶら下がっています。今回使うのは右側の2つのデータのみで

    Spark3分クッキング HBaseで作る100万通りの文書分類器 - astamuse Lab
    rx7
    rx7 2017/10/04
    弊社らしいクッキングレシピ。是非、次はラーメン屋と製麺業社のデータで考察を(ry
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • Spark 2.0 で Spark SQLを試す - astamuse Lab

    こんにちは!Spark大好きな朴です。 日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。 弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spark 2.0についても先日弊社福田のもう待てない、Spark2.0の導入と実践にも書いてたとおり もう使えるようになりました。 ということで少し乗り遅れた感もありますが、日はSpark 2.0でSpark SQLの実力を試したいと思います。 Spark 2.0でSpark SQLの主な変更点は以下の3つ SparkSession 性能改善 サポートするSQLが増えた 日は上記3つの改善について触れてみたいと思います。 【変更その1】 SparkSQLのニューエントリポイントSparkSession Spark

    Spark 2.0 で Spark SQLを試す - astamuse Lab
    rx7
    rx7 2017/03/01
    S.パクさんがスパークの話をしていると聞いて!
  • もう待てない、Spark2.0の導入と実践 - astamuse Lab

    こんにちは、福田です。 すっかり秋らしくなり、過ごしやすくなりました。皆様いかがお過ごしでしょうか。 前回は、コンパクトで高速な大規模キーワード辞書の実装について書きました。 今回は、先月末(9/29)にリリースされたCDH向けのSpark2.0 β版のセットアップです。 最先端の開発環境を手にすべく、立ち上がります。 Spark2.0の魅力 Whole stage code generationによるSQL、DataFrameライブラリの大幅なパフォーマンス向上(2-10倍) ML(機械学習)ライブラリの改善・充実(RDDベースからDataFrameベースに) DataSet APIの導入によるさらなる型安全性 その他、SQL2003 準拠の関数サポート、ネイティブでのCSVサポートなど、嬉しいアップデートが目白押しです。 ※詳しくはリリースノート参照 Spark Release 2.0

    もう待てない、Spark2.0の導入と実践 - astamuse Lab
    rx7
    rx7 2016/10/26
    "イYARN。"
  • Apache Spark and SPARC M7 Data Analytics Accelerator

    For appeals, questions and feedback about Oracle Forums, please email oracle-forums-moderators_us@oracle.com. Technical questions should be asked in the appropriate category. Thank you! Interested in getting your voice heard by members of the Developer Marketing team at Oracle? Check out this post for AppDev or this post for AI focus group information. by Suman Somasundar Apache Spark's in-memory

    Apache Spark and SPARC M7 Data Analytics Accelerator
    rx7
    rx7 2016/04/13
    "Spark and SPARC"
  • 1