並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 699件

新着順 人気順

hadoopの検索結果161 - 200 件 / 699件

  • You Want Modules, Not Microservices

    Blog Home Archive Sections Some of my Favorites (Collections) Management Tips Speaker Tips Developer Relations Thoughts Interop Briefs Some of my Favorites (Individual posts) O/R-M is the Vietnam of Computer Science The Fallacies of Enterprise Computing SSCLI 2.0 Internals Recommended reading list Functional Java On Finding learning The Value of Failure Programming Promises; a Programmer's Hippocr

    • 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩.pdf

      1 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩 2020年5月28日 アマゾン ウェブ サービス ジャパン 株式会社 シニアソリューションアーキテクト 下佐粉 昭(しもさこ あきら) @simosako 2020年6月発売予定! 2 AWSオンラインセミナーへようこそ ご質問を受け付けております! • 書き込んだ質問は主催者にしか見えません • 最後のQ&A時間で、いただいたご質問から ピックアップしてご回答をさせていただき ます ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック 終了後にアンケートの記入をお願いいたします https://bit.ly/2TFPbps アンケートにお答えいただいた方には本日の資料を後日ご提供させていただきます。 3 自己紹介 下佐粉 昭(しもさこ あきら) 所属: アマゾン ウェブ サービス ジャパン シニアソリューシ

      • AWS Glueをローカル環境で実行してみた | DevelopersIO

        環境変数を設定します。MavenとSparkのパスは個人の環境に合わせて変更してください。 echo 'export PATH=$HOME/.apache-maven-3.6.2/bin:$PATH' >> ~/.bash_profile echo 'export SPARK_HOME=$HOME/.spark-2.2.1-bin-hadoop2.7' >> ~/.bash_profile echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile Pythonでローカル開発 AWS Glue Pythonライブラリを取得 GitHubからAWS Glue Pythonライブラリをダウンロードします。以降の作業はAWS Glue Pythonライブラリのルートディレクトリで行います。 https://

          AWS Glueをローカル環境で実行してみた | DevelopersIO
        • LINE サーバーサイドエンジニア採用説明会(プラットフォーム開発) (2021/07/27 19:00〜)

          *予告なく時間配分や内容が変更になる可能性があります。 参加される方への事前のお願い ・インターネットが良好に繋がる環境にてご視聴ください。 ・18:50頃から入室が可能です。 ・質問がある方は、セッション中に「Q&A」機能に入力してください。 開発組織と登壇者紹介 松野 徳大 / Tokuhiro Matsuno 開発4センター Official Account 開発室室長 / 開発4センター Ad Network and Performance 開発室室長 入社後、様々なLINE関連サービスの開発を担当し、LINEの広告プラットフォームの開発を経て、2019年からLINE公式アカウント開発担当シニアマネージャー。現在はLINE公式アカウント、LINE DMP などの B2B 関連開発の部署のマネジメントをしている。趣味は万年筆を買うこと。 LINE コンテンツプラットフォーム LINE

            LINE サーバーサイドエンジニア採用説明会(プラットフォーム開発) (2021/07/27 19:00〜)
          • Hadoop is Dead. Long live “Hadoop.”

            There has been a resurgence of the “Hadoop is dead” narrative, and it seems like every so often this pops up in the form of a blog post or contributed article. For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company. And today, Cloudera is in the Enterprise Data Cloud market: hybrid/multi-cloud and multi-function analytics with co

              Hadoop is Dead. Long live “Hadoop.”
            • 数億のユーザーデータを使って作る機械学習の仕組み LINEのエンジニアが開発するサービス横断型レコメンデーション

              LINEで働くエンジニアが、各職種別に日々の業務内容や開発体制、働く環境、今後の展望などについて学生向けに話した「新卒採用 職域別エンジニア会」。今回は機械学習エンジニア(ML)会において、Machine Learning室 室長の菊地悠氏が、室の取り組みについて紹介しました。 LINEアプリにおける機械学習を担当 菊地悠氏:LINEのData Scienceセンターという組織のMachine Learning室(以下、ML室)で室長をしています、菊地と申します。今日はよろしくお願いします。 今日みなさんに何をお伝えしたいかというと、やっている仕事がおもしろそうだなと思ってもらいたい、というのが何よりも一番大きくあります。そこでまずは、開発事例の紹介をしたいと思っています。 続けて、どうやって開発してるのか、どの部分を開発しているのかをお話したいと思っています。体制、組織、業務の進め方につ

                数億のユーザーデータを使って作る機械学習の仕組み LINEのエンジニアが開発するサービス横断型レコメンデーション
              • MLOpsの事例やツールの情報収集 - kuromt blog

                この記事はMLOps Advent Calendar 2020の6日目の記事です。 MLOps関連の情報を入手するのに大変お世話になっている便利なサイト等を紹介します。 情報収集のために毎朝見ているサイトや購読しているメルマガからMLだけに興味があるという人向けに次の条件を満たすものを選びました。 MLのトピックが1/3以上ある 情報の質が高い 定期的に更新されている 更新されている内容が一目で分かる Githubのリポジトリ、Twitterアカウント、Slackのワークスペースは除外 日本語 ML-News 何か新しい話がないかと思ったときにまず見に行くのがこのサイトです。おそらくTwitterのアクティビティを見て掲載する記事が決まっており、Twitterを見ていなくてもここを見るだけで注目度が高い記事を知ることができます。 取り上げられるのは日本語の記事が多いですが海外の記事でも注目

                  MLOpsの事例やツールの情報収集 - kuromt blog
                • TwitterがGoogle Cloudプラットフォームと戦略的パートナーシップを拡大する複数年契約に署名

                  Googleが2021年2月4日に、Google Cloudを通じた戦略的パートナーシップの拡大に関する複数年契約をTwitterと締結したと発表しました。この契約はTwitterが自社で行っていたツイートの分析や機械学習のワークロードをGoogle Cloudプラットフォームに移行するもので、Twitterはさらに高速なデータ処理を行えるようになるとのことです。 Twitter Expands Strategic Partnership with Google Cloud to Improve Data Insights and Enhance Productivity https://www.prnewswire.com/news-releases/twitter-expands-strategic-partnership-with-google-cloud-to-improve-da

                    TwitterがGoogle Cloudプラットフォームと戦略的パートナーシップを拡大する複数年契約に署名
                  • 3大クラウドAWS、Azure、GCPの機能を比較したら見えてきたサービスごとの違いと特徴とは? | 株式会社トップゲート

                    削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                      3大クラウドAWS、Azure、GCPの機能を比較したら見えてきたサービスごとの違いと特徴とは? | 株式会社トップゲート
                    • Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ

                      はじめに DRE Team の hyamamoto です. 皆さん,Spark は利用されていますか? Gunosy では Digdag + Athena によるデータ整形が増えてきており,徐々に Spark の利用は減ってきています. 思い返すと,昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした. 一方で,決して多くはないものの,この構成ではカバーし切れない処理もあり,そういったものに関しては Spark を用いています. 話は少し飛びますが,DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています. また,一部のタスクは Kubernetes の Job として Digdag から投げることで,リソースをスケールさせつつ様々な処理が可能となっていま

                        Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ
                      • DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog

                        本記事では6月に開催されたDATA+AI Summit 2024でGeneral Availabilityが発表されたDatabricksのDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDeltaLake Universal Formatの機能を有効にしたテーブルを作成し、Amazon AthenaからApache Iceberg形式でクエリを発行するサンプルを用いて、機能の使い方と本機能のメリットについて解説します。 目次 目次 はじめに データレイクとOpen Table For

                          DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog
                        • [論文紹介] TiDB:a Raft-based HTAP database

                          今回はTiDB(PingCAP) 久しぶりに論文紹介シリーズの第2弾である。 今回は分散DBのど真ん中、PingCAPが開発しているTiDBについての論文「TiDB:a Raft-based HTAP database」(VLDB2020)を紹介する。 この論文に関しては、PingCAP社が自身のブログでも解説している。 TiDBとは 念のため、TiDBとは何なのかを触れておこう。 一言でいうと、「MySQL互換のNewSQL(=分散SQLデータベース)」である。 NewSQLとは何かについての説明は今回記事では省略するが、過去に書いたこちらの入門編やこちらの詳解編に解説をしている。 TiDBはMySQLと互換性を持つだけでなく、、今回の論文に示されているように、OLAP用途の機能強化を行っており、これもまたMySQLの弱点を補強する良い方向性と言える。この辺りのNewSQLの機能強化につ

                            [論文紹介] TiDB:a Raft-based HTAP database
                          • Apache Kafka が生まれた理由

                            今データを使って何かした方がいいと考えているお客様は多いのではないかと思います。Red Hat の金融セミナーでもこの手のお話があり、マネーソーの登壇者が以下の話をしていました。 義務化されるものがある一方で、オープンバンキングを実装するための様々なアプローチがあるのですが、一貫したテーマが一つあることに気付きました。〜略〜 今や誰もが同じデータへアクセスすることが可能で勘定系システムの中にある貴重なデータに基づいて活動できるのは私だけではありません。ではどうしたら差別化できるでしょうか。〜略〜 その答えとは次のようなものです。 データを使っていますぐ何かした方がよい。〜略〜 データに基づく活動が次の未開拓領域です。 ETL を使っていたときの LinkedIn の課題前提 : アクテビティデータActivity data is one of the newer ingredients i

                              Apache Kafka が生まれた理由
                            • AWS Security Roadshow Tokyo 2019午前セッションレポート | DevelopersIO

                              非常に濃密であったAWS Security Roadshow Tokyo 2019の午前セッションレポートです。重要なキーワードはBuilders、ゲートからガードレールへ。これからどのような世の中になっていくかを感じられるイベントでした。 こんにちは、臼田です。 皆さん、日々AWSでのセキュリティについて考えていますか?(挨拶 今回は2019年9月25日に開催されたAWS Security Roadshow Tokyo 2019に参加してきましたので、午前のセッションをレポートします。 はじめに軽く感想を述べておくと、先日行われたre:Invent 2018やre:Inforce 2019から言われているような「Builders」「ゲートからガードレールへ」というキーワードが非常に強調され、AWSから私達がどのようにこれからのAWSセキュリティと付き合っていくべきかという道標が明確に打ち

                                AWS Security Roadshow Tokyo 2019午前セッションレポート | DevelopersIO
                              • オープンソースデータベースの現状--複数のデータベース利用、クラウド、ライセンス

                                George Anadiotis (Special to ZDNET.com) 翻訳校正: 石橋啓一郎 2019-10-28 06:30 460億ドル(4兆9000億円)の市場の70%と言えば大変な規模だが、Gartnerの予想によれば、新しい社内アプリケーションの70%以上がいずれオープンソースのデータベース管理システム(OSDBMS)上で開発されるようになるという。Perconaが最近実施した大規模な調査では、そのオープンソースデータベースに関する市場動向が明らかになった。 この「Open Source Data Management Software Survey」は、オープンソースデータベース関連のさまざまなサービスを提供する企業であるPerconaが、オープンソースデータベース利用者の利用パターンや意見を把握するために実施した調査だ。アムステルダムで開催されたPercona主催の

                                  オープンソースデータベースの現状--複数のデータベース利用、クラウド、ライセンス
                                • 代表取締役の逝去に関するお知らせ(訃報) | 株式会社トップゲート

                                  削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                    代表取締役の逝去に関するお知らせ(訃報) | 株式会社トップゲート
                                  • From Lambda to Lambda-less: Lessons learned

                                    Co-authors: Xiang Zhang and Jingyu Zhu Introduction The Lambda architecture has become a popular architectural style that promises both speed and accuracy in data processing by using a hybrid approach of both batch processing and stream processing methods. But it also has some drawbacks, such as complexity and additional development/operational overheads. One of our features for Premium members on

                                      From Lambda to Lambda-less: Lessons learned
                                    • [レポート] Generating value with AI (Cloud AI 基調講演) – Google Cloud Next ’20: OnAir #GoogleCloudNext | DevelopersIO

                                      [レポート] Generating value with AI (Cloud AI 基調講演) – Google Cloud Next ’20: OnAir #GoogleCloudNext こんにちは、Mr.Moです。 現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next ’20: OnAir』が開催されています。 当エントリでは、その中から「Cloud AI」シリーズのセッションとして公開された『Generating value with AI (Cloud AI 基調講演)』の内容をまとめてみたいと思います。(独自の解釈なども含まれると思いますのであらかじめご了承ください) はじめに 今年は激動の年となりました。それゆえ、ビジネスにおいても課題がより明確になってきており、企業はより良い改善に向けてフ

                                        [レポート] Generating value with AI (Cloud AI 基調講演) – Google Cloud Next ’20: OnAir #GoogleCloudNext | DevelopersIO
                                      • Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も

                                        Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も Amazon Web Services(AWS)は、データベースサービスとして提供しているAmazon RDSやAmazon Auroraのスナップショットを、Amazon S3にApache Parquetフォーマットで保存する機能が追加されたことを発表しました。 Parquetフォーマットは、もともとHadoop上で高速な分析を可能にする「Parquet」で用いられていたデータフォーマットです。 カラム型データベースではデータを列方向に格納することでデータの連続的な読み出し性能が高く、高速な分析が可能です(ただしトランザクション処理は遅いか、できないことが一般的です)。しかも列方向のデータは基本的にすべて同じ型であり、似たような値が並んでいる可能性も高いため、

                                          Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も
                                        • AaaSからZaaSまで「as a Service」を探したら色々なサービスが見えた話 - Qiita

                                          はじめに 近年IT界隈では、IaaS(Infrastructure as a Service)やPaaS(Platform as a Service)などの~~ as a Serviceという言葉をよく聞くと思います。 ここでは、それらをまとめて、 [A-Z]aaS と呼びたいと思います。 FirebaseなどのBaaS(Backend as a Service)やAWS LambdaなどのFaaS(Function as a Service)など色々な[A-Z]aaSを聞く機会が増えてきたんじゃないでしょうか。 今回は色々な[A-Z]aaSを探してみました。結果としては 910個 もの[A-Z]aaSを見つけることができました。(探した結果を全て、後半に表示してあります。) [A-Z]aaSの探し方 最初の二文字を固定して、グーグル検索のサジェストに表示されるものを収集することにします。

                                            AaaSからZaaSまで「as a Service」を探したら色々なサービスが見えた話 - Qiita
                                          • SaaS最初のプライシングをどう決める? Fond福山太郎、Treasure Data太田一樹と芳川裕誠に聞く、それぞれの実践

                                            はじめてSaaSのプロダクトをリリースする際、避けて通れないのがプライシング。会社の成長スピードを大きく左右するものでありながら具体的な方法論が確立されておらず、誰もが頭を悩ませる問題です。 適切なプライシングを行うためには、どんな視点が必要なのか。Fondの福山太郎さん、Treasure Data太田一樹さんと芳川裕誠さんに、それぞれのプライシングの考えをうかがいました。 聞き手は、ALL STAR SAAS FUNDの前田ヒロです。 アメリカで起業し、2012年から福利厚生代行サービスを提供するFond。その創業者でありCEOを務める福山太郎さんは、プライシングについて「最初は安く、徐々に高めていくのがいい」と語ります。 適正価格に近づいている手応えを感じる反応や値上げの頻度まで、具体的なテクニックを聞かせてくれました。 最初の価格設定は重要ではない前田:福山さんがこれから新しいプロダ

                                              SaaS最初のプライシングをどう決める? Fond福山太郎、Treasure Data太田一樹と芳川裕誠に聞く、それぞれの実践
                                            • Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG

                                              こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。 この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。 全体構成 データ処理基盤の全体構成は次のようになっています。 以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。 以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h

                                                Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
                                              • Distributed Deep Learning with Chainer and Hadoop

                                                「できる!」を増やすGitHub Copilot活用法 / How to use GitHub Copilot to expand your possibilities

                                                  Distributed Deep Learning with Chainer and Hadoop
                                                • AWS 認定 データアナリティクス – 専門知識(AWS Certified Data Analytics – Specialty)の学習方法 - NRIネットコムBlog

                                                  小西秀和です。 この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS 認定 データアナリティクス – 専門知識(AWS Certified Data Analytics – Specialty)」に特化した形で紹介するものです。 重複する内容については省略していますので、併せて元記事も御覧ください。 また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL Networking Security Database Analytics ML SAP on AWS Alexa DevOps Developer SysOps SA Pro SA Associate Cloud Practitioner 「AWS 認定 データアナリティクス – 専門知識」と

                                                    AWS 認定 データアナリティクス – 専門知識(AWS Certified Data Analytics – Specialty)の学習方法 - NRIネットコムBlog
                                                  • The Death of Hype: What's Next for Scala

                                                    A recent tweet by a friend of mine noted how the public interest in the Scala programming language seems to have plateaued or waned, which matches my feeling of the latest trends and zeitgeist. This blog post will go into why I think that has happened, where Scala stands now, and what the future holds for the Scala community. About the Author: Haoyi is a software engineer, and the author of many o

                                                    • LINE公式アカウントの“メッセージ送りすぎ問題” 機械学習でどのように解決したのか

                                                      2020年11月25〜27日の3日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2020」がオンラインで開催されました。そこでData Science4チーム の西手嘉昭氏とMachine Learning Solutionチームの吉永尊洸氏が、「自社LINE公式アカウントのメッセージ送りすぎ問題をデータサイエンスで解決する」というテーマで、機械学習を使ったLINE公式アカウントからのメッセージ量のコントロール方法について共有しました。 LINE公式アカウントの「メッセージが多すぎる」問題 西手嘉昭氏(以下、西手):本セッションでは「自社LINE公式アカウントのメッセージ送りすぎ問題をデータサイエンスで解決する」というテーマで、Data Scienceチームの西手とMachine Learning Solutionチームの吉永の2名で

                                                        LINE公式アカウントの“メッセージ送りすぎ問題” 機械学習でどのように解決したのか
                                                      • OSSの世界で「インスパイア系ラーメン屋」はもう不要なのか

                                                        OSS(オープンソースソフトウエア)ビジネスの潮流は「Kubernetes」によって一変してしまった。そのことを改めて感じさせる出来事があった。OSSビジネスを営む米メソスフィア(Mesosphere)が、社名と事業モデルを変更すると発表したのだ。 メソスフィアは2019年8月5日(米国時間)に社名を「D2iQ」に変更したと発表した。同社はOSSである「Apache Mesos」の主要開発元であり、Mesosの商用版である「Mesosphere」や「DC/OS」を販売していた。MesosやDC/OSが何なのかを分かりやすく言うと「Kubernetesのようなもの」である。 MesosやKubernetesはいずれも「コンテナオーケストレーション」のソフトウエアだ。サーバーやストレージからなるリソースプールを構築して、その上でコンテナ化したアプリケーションを自動運用するのに使う。 Mesos

                                                          OSSの世界で「インスパイア系ラーメン屋」はもう不要なのか
                                                        • DNSリバインディング攻撃: 悪意のあるWebサイトがプライベートネットワークを悪用する方法

                                                          By Zhanhao Chen August 31, 2021 at 6:00 AM Category: Unit 42 Tags: command and control, DNS, DNS rebinding, DNS security, threat prevention, WildFire This post is also available in: English (英語) 概要 Webベースのコンソールが管理用のソフトウェアやスマートデバイスに広く使われるようになったおかげで、データをインタラクティブに可視化したり、設定をユーザーフレンドリーに行えるようになりました。こうした流れは企業コンピュータシステムの複雑化や家庭用最新IoTデバイス(Internet of Things モノのインターネット)の利用数増加につれて勢いを増しています。こうしたWebアプリケーションはふつう

                                                            DNSリバインディング攻撃: 悪意のあるWebサイトがプライベートネットワークを悪用する方法
                                                          • Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮

                                                            Hadoop DistCp (distributed copy, でぃすとしーぴー、でぃすとこぴー) は、MapReduceを用いてHadoopクラスタ間でデータコピーするためのツールです。保守運用している場合を除き、おそらく2020年においても運用上の選択肢として残っている最後のMapReduceのツールです。この記事では、DistCpの紹介と実践的な使い方の基本について説明していきます。内容としては以下の通りです。 Distcpの概要と原理 実践DistCp DistCpにドライランはない コピーとアップデートの挙動の違いを押さえる スナップショットを取得する ソースと宛先、どちらのクラスタでDistCpを実行するか 異なるメジャーバージョン間でのデータ転送にwebhdfsを使う -p オプションの挙動 2つのコピー戦略: uniformizeとdynamic map数の調整 転送帯域

                                                              Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮
                                                            • Apache Hadoop 3.3.1がリリースされました - Memo

                                                              2021/6/15にApache Hadoop 3.3.1がリリースされたので、リリースしてからしばらく時間が経つけどまとめておきます。 Hadoop 3.3.1に対する個人的な所感 Hadoop 3.3.1はHadoop 3.3.0からおよそ1年後にリリースされました、1年も経っているので、普段のbug fix releaseでは考えられないほどの修正がされ、もはやHadoop 3.2.0とHadoop 3.3.0との差分よりもHadoop 3.3.0とHadoop 3.3.1との差分のほうが大きいのではないかと思っています。Hadoop CommonとHDFSを中心に、その大きな差分についてこれから紹介していこうと思います。 NameNodeLayoutVersionの更新 Hadoop 3.3.1では、なんとNameNodeLayoutVersionが上がっています。普通のbug f

                                                                Apache Hadoop 3.3.1がリリースされました - Memo
                                                              • Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog

                                                                こんにちは。スタディサプリ ENGLISH SREグループの木村です。 はじめに 障害調査などでALBのアクセスログを解析したいというときが皆あると思います。 私はあります。 今回はAthenaを使ってALBのログを解析する方法と新機能で発表されたPartition Projectionを利用するとどのようなメリットがあるのか説明したいと思います。 ALBのアクセスログ ALBには標準でアクセスログを出力する機能があり、有効化することで自動でS3にアクセスログを保存することができます。 しかし、標準でアクセスログはgz形式で出力されており、通常解析するにはS3からダウンロードをしてきて、その後にgzを解凍してから、別途ツールを使って分析するなどの面倒な作業が発生してしまいます。 また、アクセスログはデータが大量になることも多く、DLして利用する場合でも一度に多くの範囲を分析するのは困難です

                                                                  Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog
                                                                • PyData Tokyo Meetup #21 LightGBM

                                                                  LightGBM PyData.Tokyo Meetup #21 AlphaImpact • (@henry0312) • (2015.04−2019.06) • Dwango Media Village • AlphaImpact (2019.02−) • • LightGBM • 2 LightGBM • 2016 10 GBDT + • Python 12 • PR OSS 3 • LightGBM • LightGBM • XGBoost CatBoost • LightGBM • 4 LightGBM LightGBM • Microsoft • • Kaggle (2019/4/4) 6 7 https://twitter.com/fchollet/status/1113476428249464833 GBM • Gradient Boosting Machines • 1 N

                                                                  • Apache Arrow 1.0.0 Release

                                                                    Published 24 Jul 2020 By The Apache Arrow PMC (pmc) The Apache Arrow team is pleased to announce the 1.0.0 release. This covers over 3 months of development work and includes 810 resolved issues from 100 distinct contributors. See the Install Page to learn how to get the libraries for your platform. Despite a “1.0.0” version, this is the 18th major release of Apache Arrow and marks a transition to

                                                                      Apache Arrow 1.0.0 Release
                                                                    • A Second Conversation with Werner Vogels – Communications of the ACM

                                                                      CACM Web Account Membership in ACM includes a subscription to Communications of the ACM (CACM), the computing industry's most trusted source for staying connected to the world of advanced computing. Sign In Sign Up When I joined Amazon in 1998, the company had a single U.S.-based website selling only books and running a monolithic C application on five servers, a handful of Berkeley DBs for key/va

                                                                      • アプリログを BigQuery に入れるまで | BLOG - DeNA Engineering

                                                                        また、 BigQuery のストレージ料金は非圧縮の状態のデータサイズが課金対象となります。 Cloud Storage 上に gzip で圧縮した状態で保持することで、ストレージ料金を大きく下げることができます。 Cloud Storage から BigQuery にエクスポートする際に料金が少しかかりますが、それについては後述します。 安定性 BigQuery のテーブルは型を持っているため、何かしらのバグでログに不正な文字列が入ると、 BigQuery へのインサートは失敗します。その場合にログを web server 内部に溜めてしまうと web server のディスク領域が逼迫したり、本番稼働しているサーバーに入っての復旧作業が必要となったりするデメリットがあります。 まずはどんなデータでも受け入れてくれる Cloud Storage にデータを入れてしまい、その後起きうる問題

                                                                          アプリログを BigQuery に入れるまで | BLOG - DeNA Engineering
                                                                        • Rubyist Hotlinks 【第 39 回】古橋貞之 さん

                                                                          はじめに 著名な Rubyist にインタビューを行う企画「Rubyist Hotlinks」。第 39 回となる今回は、古橋貞之さん。 では、お楽しみください。 インタビュー 聞き手 卜部さん (@shyouhei) 語り手 古橋貞之さん (記事中「古橋」) 野次馬(古橋さんの現職であるトレジャーデータの同僚と元同僚のみなさん) 国分さん、成瀬さん、田籠さん、金子さん、三村さん 日にち 2023 年 5 月 11 日 写真提供 : 目次 Table of content プロフィール 卜部 はい、じゃあお疲れ様です。ゆるりと始めていきますが。るびまのインタビューはポッドキャストにしないという信念の元に、ポッドキャストにしていなくて。 三村 そんな信念が。 卜部 なんでかっていうと、いくら迂闊なことをゆっても後から編集できるからっていう。これがね、やっぱ迂闊なことを言ってもらわないと楽しい

                                                                          • 社内でデータ分析コンペティションを開催しました

                                                                            こんにちは、デジタル改革推進部の河合と浅野です! 私たちデジタル改革推進部では、普段から全社で使うためのデータ分析環境の開発・提供を行っています。 今回は社内でデータ分析コンペティションを開催したのでその内容を報告します。 社内データ分析コンペティションとは? 社内にある様々なデータ活用課題をコンペティション形式に落とし込み、全社で知恵をしぼって解こうという試みです。 もともと、データサイエンスの界隈ではKaggleやatmaCupと呼ばれる分析力を競うコンペが行われており、課題や技術を集団で共有して解く文化があります。 今回はそれらを参考に、社内のデータを使ったコンペを 6/21~7/2 の2週間にかけて初開催しました。 開催にあたって期待したことは、以下の3つです。 様々な部署に散らばっているサービス特有のドメイン知識、データ、分析技術を一箇所に集める 優れたソリューションを集合知によ

                                                                              社内でデータ分析コンペティションを開催しました
                                                                            • A handy new Google Cloud, AWS, and Azure product map | Google Cloud Blog

                                                                              A handy new Google Cloud, AWS, and Azure product map Any craftsman will tell you that choosing the right tool for the job is essential for getting it done right. Cloud technologies are no different. Many cloud professionals look for the best products across vendors, but they remember ‘best’ is always subjective. It depends on highly-individualized criteria like language support, compatibility with

                                                                                A handy new Google Cloud, AWS, and Azure product map | Google Cloud Blog
                                                                              • Python: MLflow Tracking を使ってみる - CUBE SUGAR CONTAINER

                                                                                MLflow は MLOps に関連した OSS のひとつ。 いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。 今回は、その中でも実験の管理と可視化を司る MLflow Tracking を試してみることにした。 機械学習のプロジェクトでは試行錯誤することが多い。 その際には、パラメータやモデルの構成などを変えながら何度も実験を繰り返すことになる。 すると、回数が増えるごとに使ったパラメータや得られた結果、モデルなどの管理が煩雑になってくる。 MLflow Tracking を使うことで、その煩雑さが軽減できる可能性がある。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G5033 $ python -V Python 3.7.

                                                                                  Python: MLflow Tracking を使ってみる - CUBE SUGAR CONTAINER
                                                                                • EC2インスタンスタイプの整理 - NRIネットコムBlog

                                                                                  本記事は 【Advent Calendar 2023】 4日目の記事です。 🎄 3日目 ▶▶ 本記事 ▶▶ 5日目 🎅 こんにちは、西内です。 突然ですが、皆さんはAmazon Elastic Compute Cloud(EC2)のインスタンスタイプが何を表しているかご存知でしょうか?(t2.microとかのアレ) 私は今年9月からTECH AND DESIGN STUDYのサービスアップデート担当していて、その中で新たにリリースされたインスタンスをご紹介しているのですが、種類が多すぎてよく頭がこんがらがります。 今回の記事ではインスタンスタイプについてご説明しつつ、最後に現行のインスタンスタイプの一覧を掲載したいと思います。 インスタンスタイプに関しては佐々木さんも過去に記事を書かれていますが、今回はインスタンスファミリー部分をより詳細に調査いたしました。 また、記事の最後にインスタ

                                                                                    EC2インスタンスタイプの整理 - NRIネットコムBlog