sparkに関するk_osawaのブックマーク (4)

  • Spark Connectの検証における知見と課題 - MicroAd Developers Blog

    マイクロアドでサーバーサイドエンジニアをしている高橋です。 PySpark x Spark Connectの検証によって知見が溜まってきたので共有します。 検証に至った経緯は別の記事で紹介しています。 developers.microad.co.jp Spark Connect関連の情報は検索してもまだ少なく、試行錯誤しながら進めています。 この記事が少しでも参考になれば幸いです。 構成 知見 Spark Connect server起動時にオプションを全て渡さなければならない Decimal型の列同士の四則演算で精度が変わる Hiveのクエリ・UDFが使える 課題点 構成 今回想定する構成は概ね別記事で紹介されているものになります。 データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog Kubernetes上でSpar

    Spark Connectの検証における知見と課題 - MicroAd Developers Blog
  • データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog

    マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基盤移行の概要 諸々の事情1により、データ基盤をHadoopから移行することになりました。 現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。 これらをKubernetes、PySpark、S3互換ストレージ(詳細未確定)を組み合わせたデータ基盤へ移行する計画です。 すぐにすべてを移行するのは難しく、完全移行までは新旧並行稼働がそれなりの期間続く予定です。 今回の記事では、PySparkを使用し

    データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog
  • CDH (Hadoop) 入門 - MicroAd Developers Blog

    はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割 分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

    CDH (Hadoop) 入門 - MicroAd Developers Blog
  • SparkでGeoIP2を使うとjava.lang.NoSuchMethodErrorが発生する問題の回避方法 - MicroAd Developers Blog

    マイクロアドのサーバサイドエンジニアの松宮です。今回はプログラミングのTips的な記事になります。 タイトルの通り、「SparkでGeoIP2を使うとjava.lang.NoSuchMethodErrorが発生する問題の回避方法」を説明したいと思っておりまして、というのも、SparkでGeoIP2ライブラリの依存を上手く解決できずに、結構時間を使ってしまったので、犠牲者を増やさないためにもこの場でみなさんに共有したいと思います。 事象と解決策を先に示して、詳細な原因は後述しますので、解決策だけ早く知りたい方は前半まで読んでもらえれば大丈夫です。 前提 言語はScala/Java ビルドツールはsbt or Maven 実行可能なjarを生成するために記事ではsbt-assemblyを使っている Sparkのバージョンは最新の2.3.2 (2018年8月現在) GeoIP2ライブラリのバー

    SparkでGeoIP2を使うとjava.lang.NoSuchMethodErrorが発生する問題の回避方法 - MicroAd Developers Blog
    k_osawa
    k_osawa 2018/09/12
    sbtでバージョンを強制しても変になる動作には大変困った
  • 1