タグ

2018年2月17日のブックマーク (3件)

  • MacにhiveをセットアップしてS3上のファイルにアクセスするまで | takemikami's note

    Mac上にhadoop/hiveを入れて、 S3上のファイルをhiveでアクセスするまでの手順のメモを残しておきます。 HadoopとhiveのセットアップS3上のファイルへのアクセス設定S3上のTSVファイルへのクエリ実行S3上にクエリの実行結果を保存Hadoopとhiveのセットアップhomebrewを使ってhadoopとhiveのインストール、 その後必要となる設定を行います。 インストールjdk及びhomebrewはセットアップ済みとして、 以下のコマンドでhadoopとhiveをインストールします。 HADOOP_HOMEの設定環境変数「HADOOP_HOME」「HADOOP_CONF_DIR」を設定しておきます。 hadoop versionの出力結果を見て、以下のように設定します。 以下は私の環境の場合の設定です。 $ hadoop version Hadoop 2.7.2

    MacにhiveをセットアップしてS3上のファイルにアクセスするまで | takemikami's note
  • Kaggle Display Advertising ChallengeにHivemall on TDで挑戦 - Qiita

    記事では、KaggleのCriteo Display Advertising ChallengeにTreasure DataとHivemallを使ってbaselineの結果を提出までの手順を紹介します。 なお、記事はTreasure Data Advent Calendar 2015の12/8の投稿になります。 Criteo Display Advertising Challengeについて Criteo Display Advertising Challengeは広告のクリック率を推定するタスクです。訓練事例数は45 millionでサイズが11GBと機械学習のデータセットとしては大きなデータセットです。説明変数は、13の量的変数と26の質的変数からなります。 評価手法はLog lossなので、ロジスティック回帰による予測が有効です。 Beat the Benchmark MLWav

    Kaggle Display Advertising ChallengeにHivemall on TDで挑戦 - Qiita
  • SQLだけで機械学習するぞ-Hivemall入門- - Qiita

    こんにちは。onunuです。 IESHILでエンジニアをしています。主にSQLを描くのがお仕事です。 以前はマッハバイト(旧ジョブセンス)で開発していたのですが、SQLで座標平面を描く能力を評価してもらい、座標上の2点間の距離計算とかいっぱいする不動産のサービスに異動になりました。地球は球なので大変です。 さてさて、記事はLivesense -自- Advent Calendar 2017のために書かれています。 テーマは 自 、ということなので、自分の仕事領域であるSQLに関して書こうと思います。 Hivemallとは HivemallはHadoop/Spark上でSQLクエリを用いて機械学習を行うためのライブラリです。 実際にはHadoop/Spark用のデータウェアハウスであるHive上で動作するUDF(User Defined Function)として実装されています。 ユーザー

    SQLだけで機械学習するぞ-Hivemall入門- - Qiita