Apache Hivemall, a collection of machine-learning-related Hive user-defined functions (UDFs), offers Spark integration as documented here. Now, we will see how it works in PySpark. Note that Hivemall requires Spark 2.1+. This article particularly uses Spark 2.3 and Hivemall 0.5.2, and the entire contents are available at this Google Colabo notebook. Installation We do need to set up Spark and Hado
『自分の小さな「箱」から脱出する方法』という本を読んで、なんというか、いろいろと恥ずかしくなった。 正直、内容をまとめて感想を言語化するにはとても難しい一冊だった。それでも今すぐなにか書いて咀嚼すべきだと思ったので、がんばってキーボードを叩いてみる。 『年報(2018)』で2019年の目標を次のように記した: 来年の目標は「もっといいものを食べる」「ひとを信じない」「ていねいなコミュニケーション」の3本です。 ここではこの話をもう少し掘り下げたい。 去年の自分は控えめに言って最悪だった。あるタイミングから生活リズムが乱れ、こころはゆるゆると不安定になり、いとも簡単に感情をコントロールすることができない状態に陥った。べつに突然暴れたりするわけではないけれど、些細なことでイライラし、結果として人との接し方がひどく雑になったと自覚している。 だから今年は状況を改善して「ていねいなコミュニケーショ
Apache Hivemall at #ODSCEurope, #RecSys2018, and #MbedConnect Apache Hivemall is a scalable machine learning library running on top of the Hadoop ecosystem, and you can freely enjoy its functionalities in your Apache Hive or Spark environment. Do you know Google BigQuery ML? It is a new machine learning solution that runs in their BigQuery data warehousing platform. BigQuery ML enables us to apply
2月19日に開催された PLAZMA: TD Tech Talk 2018 Internal Day で、Treasure Dataがユーザに提供している機械学習・自然言語処理の機能の実体をお話しました。 録画もあがっているようです: PLAZMA TD Internal Day: TD Tech Talk 2018 - YouTube 「業務またはプライベートで機械学習に触れている方」という問いに対して聴衆の半数以上が手を挙げたのには正直驚きました。エンジニアリングとサイエンスの垣根が低くなっているというのは、大変喜ばしいことだと思います。 そんな聴衆の皆様は、まさか2018年に、機械学習に関するトークでロジスティック回帰とTF-IDFの話だけ聞かされるとは思っていなかったことでしょう。 わかりますよ。僕だってもっとゴツい手法をドーンと実装してバーンッって感じの結果を見せてドヤりたい。
"Designing Data-Intensive Applications"は濃密すぎる一冊だったので2018年の自分にも読んでもらいたい 分散システムに関する理解を整理するための一冊として素晴らしい、という声があり気になっていた "Designing Data-Intensive Applications" を一通り読んだ: https://twitter.com/frsyuki/status/846431130437890049 僕のような「用語としては知っている」程度の新人に「なぜそれが大切なのか」「なにが難しいのか」といったポイントを丁寧に説明してくれる、学びの多い充実の一冊だった。 冒頭では『早すぎる最適化(不要不急のスケーラブルなシステムの構築)は制約が増えてシステム設計が不自由になるだけなので無駄』という事実に触れ、適切なツールを選択することの重要性を説いている。本書が50
"Dynamo-style" に学ぶ Replication, Partitioning, Consistent Hashing の気持ち 先日、DynamoDB設計の背景にあった可用性とスケーラビリティの両立に対するAmazonのアツい想いについて書いた: AmazonのDynamoDB論文を眺めた 背景だけだと寂しいので、ここではもう少し詳しく、DynamoDBの実装を支える Replication と Partitioning の基本、そして Consistent Hashing について、"Designing Data-Intensive Applications" (DDIA) の解説も踏まえてまとめておく。 Replication DynamoDB(分散DB)が考えるべき問題の1つに、データのコピーをネットワーク上の複数のマシン(ノード)で保持する Replication(レプ
あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。 こういう話で「あーその手があったかー!」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。 大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。 必要なものリスト ナウいデータサイエンス/機械学習プロジェクトの中には(経験上、ぱっと思い浮かぶだけでも)次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。 ソースコード 役割がいろいろある: 前処理(こ
"Seven Databases in Seven Weeks" や "Designing Data-Intensive Applications" でも度々参考文献に挙がっていたので、AmazonのDynamoDB論文を眺めて思いを馳せていた: Dynamo: Amazon's Highly Available Key-Value Store (SOSP 2007) ここでは特に2章・バックグラウンドの内容を整理しつつ、AmazonがDynamoDBに込めた想いに触れてみる。拙記事『The Amazon Way on IoT - Amazonのビジネスから学ぶ、10の原則』でも紹介した、Amazonの "Customer Obsession"(お客様第一)という理念を踏まえて読むと大変味わい深くてよろしい。 教訓: システムの Reliability と Scalability は、いか
元インターン先であるシルバーエッグ・テクノロジーとのご縁があり、『ビッグデータ解析のためのAI技術の最新事情とビジネスへの応用』という名前だけ聞くと心配になるセミナーで講演の機会をいただき、昨今の推薦システムのトレンドについてお話してきました: ※ 修士研究までの僕個人の経験に基づいた内容であり、これが世の中の全てではありません。 ※ 論文などですでに公開されている情報しか含んでいません。 ※ 内容は、過去および現在のいかなる所属の立場を代表するものでもありません。 はむかず先生が「趣味は筋トレです」と自己紹介していたので便乗したけど、ちゃんとジムに通っている先生に対して、僕は家でプッシュアップ、腹筋ローラー、チューブエクササイズ各3セットを週2〜3回やっているだけで、あとはそこにランニング(6-10km)またはプール(1時間弱)を加えている程度なので本気度が違う。 セミナー後には、公営の
推薦システムの業界で知らぬものはいない、ミネソタ大学のレジェンド級プロフェッサーJoseph Konstan先生が Podcast "Data Skeptic" に出演していた: Recommender Systems (live from Farcon) | Data Skeptic Courseraの推薦システムのコースでお世話になり、その後 RecSys 2016 でユーモア満載の生Konstan先生を見たときはすごく感動したことを覚えている。 振り返れば、RecSys 2016 で他の発表者がアルゴリズム寄りの“普通”の話をしている中、先生のグループ (GroupLens) の研究は真剣に『ユーザ体験』『インタフェース』『HCI』という視点で議論を展開していて、やっぱりこの人はすごい…と感じたものである。推薦システム≠機械学習であり、非常に奥が深い分野なのだと改めて気付かされた。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く