並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 739件

新着順 人気順

hadoopの検索結果281 - 320 件 / 739件

  • 少人数で大規模環境運用には監視運用の効率化は必須 Yahoo! JAPANの月間800億ページビューを支えるIaaS基盤の舞台裏

    Cloud Operator Days Tokyo は、クラウドの運用者に焦点を当てた技術者向けの新しいテックイベントです。このセッションでは、Yahoo! JAPNNのインフラエンジニアの奥村氏と奥野氏が、2万台もの大規模IaaS環境ハイパーバイザーを、どのように構築・運用しているのか、そのノウハウを語ります。後半は実際の運用について奥野氏が話をしました。 運用編の紹介 奥野修平氏(以下、奥野):それでは運用編をお話しします。 まず私の自己紹介をさせてください。私は2014年にヤフー株式会社に新卒で入社しまして、プライベートクラウドに一貫して従事しています、奥野と申します。よろしくお願いします。 それでは運用編のアジェンダです。まず守りの運用として監視・アラート対応編で1つ。こちらは少ない人数でいかに大規模環境を運用するかのために工夫している点を何点か紹介いたします。もう1つは攻めの運用

      少人数で大規模環境運用には監視運用の効率化は必須 Yahoo! JAPANの月間800億ページビューを支えるIaaS基盤の舞台裏
    • 一言で言うと非常にエキサイティング LINEのDMP開発チームで大規模データを扱う楽しさ

      LINEでは、コミュニケーションアプリ「LINE」を軸に、広告、金融、AI、エンタメ・コンテンツ系サービスなど多様な事業を展開。それらのサービスの中でも、法人向け/開発者向けサービスの開発を担うエンジニアが、日々の業務内容や開発体制、働く環境などについて紹介しました。渡邉直樹氏は、DMP開発チームで大規模データを扱うことの魅力について話しました。 LINE DMPとはなにか 渡邉直樹氏:私からは、LINE DMPというサービスについて紹介いたします。最初に自己紹介を簡単にします。私は渡邉直樹と申します。先ほど発表にあったCRSっていうサービスと、これから紹介するLINE DMPを開発しているチームのマネージャーをしています。 けっこう社歴は長くて、今までBtoCのサービスを中心に開発してきましたが、ここ数年はBtoBのサービス開発に携わっています。趣味は書いてあるとおり、料理とスプラトゥー

        一言で言うと非常にエキサイティング LINEのDMP開発チームで大規模データを扱う楽しさ
      • Building a large-scale distributed storage system based on Raft

        Guest post by Edward Huang, Co-founder & CTO of PingCAP In recent years, building a large-scale distributed storage system has become a hot topic. Distributed consensus algorithms like Paxos and Raft are the focus of many technical articles. But those articles tend to be introductory, describing the basics of the algorithm and log replication. They seldom cover how to build a large-scale distribut

          Building a large-scale distributed storage system based on Raft
        • CKA受験体験記 - Qiita

          2019/9にCertified Kubernetes Administrator(CKA) 合格できました。 体験記を書くのは、3度目。体験記を書くのは、内省にも役に立つと思っています。 統計検定2級 国家資格キャリアコンサルタント で、今回の CKA。 3つは全然関係性がないものになってますが、それは私のキャリアに関係しています。。。 体験記は自身の内省にもなる。 *当然ですが、試験の詳しい内容は明かしていません。 *他の方と共通するような部分は短めに。 読者ターゲット 現場離れたエンジニアリングマネージャ 技術好きな中間管理職や役員 副業・兼業もしている多忙なエンジニア 多忙なテックリード、エバンジェリスト、アドボケイト 他の体験記の方々とは違いそうな、私の特徴的な部分をサマリーします。 ITインフラエンジニア育ちであるが、現在の主業はエンジニアリングマネージャ + テックリード +

            CKA受験体験記 - Qiita
          • [レポート] The Modern Data Stack: Past, Present, and Future #futuredataconf | DevelopersIO

            [レポート] The Modern Data Stack: Past, Present, and Future #futuredataconf 奈良県でリモートワーク中の玉井です。 9月8日〜9月9日の2日間、FUTURE DATA CONFERENCE 2020というオンラインイベントが開催されていました。今回、そのイベントの下記のウェビナーを受講したので、レポートします。 イベント全体の概要ですが、名前の通り、「データ分析(とそれに関するテクノロジー)の今後」について、多種多様な業界の方々が語るって感じのイベントのようです。 今回はその中の「The Modern Data Stack: Past, Present, and Future」というセッションについてレポートします。 ウェビナー情報 公式情報 ※本カンファレンスは、既に2021年分が開催済であり、ウェブサイトの内容も2021

              [レポート] The Modern Data Stack: Past, Present, and Future #futuredataconf | DevelopersIO
            • 【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO

              みなさんこんにちは、杉金です。 今回は 2022 年 5 月 25 - 26 日の 2 日間開催された AWS Summit Onlineのセッションレポートをしていきます。セッションのサマリーを理解し、興味があるセッションをチェックすることにご活用ください。また、セッションのアーカイブも公開されておりますので、詳細が気になった方は是非そちらをチェックして下さい。 セッション概要 生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに

                【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO
              • 並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto

                並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。

                  並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
                • データエンジニアとは?仕事内容から年収、必要スキル、資格まで徹底解説 | AIdrops

                  データエンジニアとは?仕事内容から年収、必要スキル、資格まで徹底解説 データアナリティクスやAI技術の発展により、データサイエンスに取り組む企業が増加しました。それに伴い「データエンジニア」という職業が注目されています。データ処理システムの構築だけでなく、運用や機械学習などにも関わる職種です。要求されるスキルの幅は広いですが、将来的な需要が高く長期的なキャリア形成が可能な職種といえるでしょう。 今回の記事では、そんなデータエンジニアの仕事内容、気になる年収と給料、なるために必要なスキル、取得したい資格などを紹介します。 データエンジニアとは データエンジニアは、大規模なデータの活用を支える基盤構築と運用の専門職です。インフラ・データベース・開発などITエンジニアとしての基本スキルに加え、ビッグデータを扱うための分散処理やデータマネジメントに関するスキルが要求されます。 活躍する場所として機

                    データエンジニアとは?仕事内容から年収、必要スキル、資格まで徹底解説 | AIdrops
                  • 2020年のApache Hadoop振り返り - Memo

                    Apache Hadoopについて、2020年にどんなことがあったのかざっくりと振り返りたいと思います。Advent Calendar枠です(大遅刻)。 Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 - Qiita Apache Ozoneが分離 オブジェクトストレージを担当するOzoneはすでにHadoop本体のソースコードからは分離されていましたが、新規のTLP(Top-Level Project)としてスピンオフしました。2019年にApache SubmarineがTLPになったのを見て、Ozoneもいずれそうなると思っていたので個人的には特に驚きはないです。プロジェクトが分離すると具体的に何が起こるかというと、committerやPMCなどが別々になります(他にもあるけど

                      2020年のApache Hadoop振り返り - Memo
                    • 柔軟なKubernetes活用で分散機械学習や負荷テストも実現 LINEが開発した分散処理用RPCライブラリ

                      2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでMachine Learning Infrastructure Managerの大東氏が「機械学習で使っている分散処理用RPCライブラリ」というテーマで、Kubernetesでジョブを走らせる方法と、そのための便利なライブラリについて共有しました。 Kubernetesジョブ定義の例 大東哲平氏(以下、大東):こんにちは。Machine Learning Infrastructureチームの大東と言います。このセッションでは、機械学習のために開発した、RPCライブラリを紹介します。 Machine Learning室では、Kubernetesを使い、GPUやCPUのノードを必要な数だけ確保して、相互に通信する

                        柔軟なKubernetes活用で分散機械学習や負荷テストも実現 LINEが開発した分散処理用RPCライブラリ
                      • Bigtable と BigQuery: その違いは何か | Google Cloud 公式ブログ

                        ※この投稿は米国時間 2021 年 4 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。 BigQuery と Bigtable のどちらを使うべきかで迷っているユーザーは多いと思います。この 2 つのサービスは、名前に「Big」が含まれているなど多くの共通点がありますが、ビッグデータのエコシステムにおいてこの両者がサポートするユースケースは大きく異なります。 大まかに言うと、Bigtable は NoSQL ワイドカラム型データベースであり、低レイテンシ、大量の読み取りと書き込み、大規模なパフォーマンスの維持向けに最適化されています。IoT、アドテック、フィンテックなど、一定の規模やスループットでレイテンシ要件が厳しいものは、Bigtable のユースケースに該当します。大規模な高スループットと低レイテンシが優先事項でない場合は、Firestore などの

                          Bigtable と BigQuery: その違いは何か | Google Cloud 公式ブログ
                        • TechCrunch | Startup and Technology News

                          Cloudera, the once high flying Hadoop startup, raised $1 billion and went public in 2018 before being acquired by private equity for $5.3 billion 2021. Today, the company announced that…

                            TechCrunch | Startup and Technology News
                          • Introducing Amazon EKS Distro (EKS-D) | Amazon Web Services

                            AWS Open Source Blog Introducing Amazon EKS Distro (EKS-D) This post was contributed by Allan Naim, Chandler Hoisington, Raja Jadeja, Micah Hausler, and Michael Hausenblas. Today we announced Amazon EKS Distro (EKS-D), a Kubernetes distribution based on and used by Amazon Elastic Kubernetes Service (Amazon EKS) to create reliable and secure Kubernetes clusters. With EKS-D, you can rely on the same

                              Introducing Amazon EKS Distro (EKS-D) | Amazon Web Services
                            • Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER

                              今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。 サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いる サードパーティ製のライブラリとして scikit-learn を想定する scikit-learn の学習済みモデルを、あらかじめローカルで用意しておく Iris データセットと学習済みモデルを使った推論を PySpark で分散処理する 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) $ uname -r 3.10.0-957.21.3.el7.x86_64 $ python3 -V Python 3.6.8 $ pyspark --version Welcome

                                Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER
                              • What I Love about Scrum for Data Science

                                A couple of years ago, I started (read: was made) to adopt scrum in my work. I didn’t like it. The concept of estimation was vague to me: How do we estimate effort for data exploration or research? And after we move something from In Progress to Done, can we move it back? This happens often (in data science) where we need to revisit an upstream step, such as data preparation or feature engineering

                                  What I Love about Scrum for Data Science
                                • ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ

                                  Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。 「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません…… モチベーション Hadoopエコシステムは大量のコンポーネントから成り立っており、その混沌はしばしば動物園に例えられます。手軽に起動する手段が用意されているプロジェクトもありますが、それでもローカルマシンで満足な検証をするには困難を伴います。公私ともに様々なバージョンのHive/Hadoopやそれらへのパッチを検証すること

                                    ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ
                                  • イベントストリーミングプラットフォームの活用によるKappa アーキテクチャ実装 - Qiita

                                    はじめに 下記の記事では、Cassandraデータベースの利用によるKappaアーキテクチャーについての情報を整理しました。 また、下記の記事では、LambdaアーキテクチャーからKappaアーキテクチャーへの移行についての情報を整理しました。 上記の記事は下記のKai Waehnerによる記事の内容を元にしていました。 本稿では、同記事から、「イベントストリーミングプラットフォームの活用によるKappa アーキテクチャ実装」についての情報を整理し、記事では特に掘り下げられていない、KafkaとPulsarの違いについての情報を追記したいと思います。 費用対効果が高くスケーラブルな Kappa アーキテクチャ これまでイベントストリーミングプラットフォームを活用して、Kappa アーキテクチャを実現する上での大きな問題は、イベント ストリーミング プラットフォームに膨大な量のデータを格納す

                                      イベントストリーミングプラットフォームの活用によるKappa アーキテクチャ実装 - Qiita
                                    • MNTSQがMLOpsを成功させる5つのポイントを解説! | AI専門ニュースメディア AINOW

                                      最終更新日: 2021年12月13日 ※本稿は、MNTSQ株式会社による寄稿です。 今、機械学習の実用性が注目され、さまざまな分野で機械学習の活用可能性が広がっています。あわせて、ピンポイントではなく、幅広い分野で長期的で安定的に機械学習のモデルを開発・運用できるようにMLOpsへの注目が高まっています。 MLOpsでは、機械学習システムの開発や運用にまつわるさまざまな困難を解消するべく、機械学習システムの運用がしやすい開発基盤づくりが目指されています。一方で、このMLOpsには明確な定義はなく、さまざまな要求に応える技術がMLOpsの名の下に乱立している状況です。 この記事では、MLOpsの導入を検討する際に押さえておきたいポイントを5つに分けて紹介します。 ポイント① MLOpsを理解する|その1:DevOpsとMLOps MLOpsは、DevOpsを元にした表現で、MLOpsの多くの

                                        MNTSQがMLOpsを成功させる5つのポイントを解説! | AI専門ニュースメディア AINOW
                                      • HPEがKubernetes対応のコンテナプラットフォーム「HPE Container Platform」を国内で提供開始。大規模なデータ統合基盤の構築が狙い

                                        ヒューレット・パッカード エンタープライズ(HPE)は、KubernetesやDockerコンテナなどを統合したパッケージソフトウェアとして「HPE Container Platform」の国内提供を開始したと発表しました。 HPE Container Platformは、ベアメタルもしくは仮想マシン上のRed Hat Enterprise LinuxもしくはCentOSに対応し、その上にKubernetes、Dockerコンテナ環境を構築します。オンプレミスやAWSなどさまざまなシステム基盤上に展開可能です。 最大の特徴は、マルチテナントなクラスタ管理のためのBlueDataと、ストレージ機能としてMapRを統合している点です。 BlueDataを用いることで、おもにHadoopやSparkといったビッグデータ処理のためのミドルウェアを部門ごとなどにセキュアに分離したマルチテナントを構築

                                          HPEがKubernetes対応のコンテナプラットフォーム「HPE Container Platform」を国内で提供開始。大規模なデータ統合基盤の構築が狙い
                                        • 2020年、IoT実践のための「エンジニアの鍛え方」 | gihyo.jp

                                          IoTの2019年を振り返ると、IoT実践の拡がりを感じた1年となりました。IoT活用は、製造業や社会インフラ、物流・小売業、さらには地域社会や農業・畜産・漁業などの1次産業にも拡がっています。さらに、コンシューマー製品、シェアリングエコノミーなどの新たな製品・サービスにも IoT の活用が拡がっています。 昨年はソラコムからは、松下が「IoTを変革の原動力に~その時、技術者が持つべき心構えとは」を寄稿し、「⁠好奇心がスタート地点」という心構えは本年も変わりません。2020年の本記事では、実際に数々のお客様のIoTプロジェクトに参加し、IoTプロジェクト成功にむけて全方位で支援するソラコムのソリューションアーキテクト4名に聞いた「2020年のIoT実践にむけた鍛え方」をお届けします。 お話を伺った皆さん。左から、大瀧氏、横田氏、松本氏(今井氏はリモート参加のため写真なし) 現実社会のデータ

                                            2020年、IoT実践のための「エンジニアの鍛え方」 | gihyo.jp
                                          • 外部データとの連携 ~FDWで様々なデータソースとつなぐ~|PostgreSQLインサイド

                                            デジタル技術の進化により、ビジネスは大きく変わりつつあります。IoTにより取得できる多種多様なデータと、既存の業務データとを組み合わせて、新たな価値へとつなげるなど、システムは様々なデータ(システム)と連携できることが求められています。PostgreSQLには、Foreign Data Wrapper(日本語では「外部データラッパー」と呼ばれ、以降「FDW」と略します)という機能があり、RDBやNoSQLなど様々な外部データにアクセスできます。ここでは、FDWの概要と仕組み、利用時のポイントについて説明します。なお、この記事は、PostgreSQL 11.1で検証しています。 1. FDWとは FDWとは、SELECT文やUPDATE文などのSQL文を使用して、外部にあるデータにアクセスできるようにするための、PostgreSQLの拡張機能です。 FDWは、PostgreSQLが公開してい

                                              外部データとの連携 ~FDWで様々なデータソースとつなぐ~|PostgreSQLインサイド
                                            • AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ

                                              はじめにこんにちは。TIG DXチームの村瀬です。 AWS Glue利用していますか?ETL処理をする上で大変便利ですよね。しかしながら開発に必要不可欠な開発エンドポイントが少々お高く、もう少し安価に利用できればなーと思っていたところ、さすがAWSさん素敵なリリースをしてくれました。 https://aws.amazon.com/jp/about-aws/whats-new/2019/08/aws-glue-releases-binaries-of-glue-etl-libraries-for-glue-jobs/ AWS Glueとは過去のこちらの記事もご参考ください。 5TB/日 のデータをAWS Glueでさばくためにやったこと(概要編 5TB/日 のデータをAWS Glueでさばくためにやったこと(性能編) ローカルPCの環境を汚さない為に作業を開始する前に確認したところ、Glue

                                                AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ
                                              • DREの使命とは?「数が神より正しい」と言うための正確性を求められる技術力 -

                                                こんにちは、採用広報のやざわです。 全プロダクトのデータを全社員が見れる環境のGunosyでは、数字が共通言語となり、意思決定が行われています。そこで今回は、Gunosyが持つすべてのデータ基盤を構築しているDRE*1の皆さんにお話を伺ってきました。また、所属しているGunosy Tech Labでのミッションもお伝えしています。ぜひご覧ください。 Profile 阿部さん(写真左)/Gunosy Tech Lab DR & MLOpsチーム 新卒で株式会社サイバーエージェントに入社し、広告配信の最適化などに従事。2016年Gunosy入社。現在は、Gunosy Tech Labにてアプリのデータ分析を行う。 小出さん(写真中央)/CTO 兼 Gunosy Tech Lab 部長 外資系IT企業を経て、2014年Gunosy入社。インフラ構築の自動化、CI/CDの推進などプロダクトのアーキ

                                                  DREの使命とは?「数が神より正しい」と言うための正確性を求められる技術力 -
                                                • [増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ

                                                  2021年2月13日紙版発売 2021年2月10日電子版発売 西田圭介 著 A5判/368ページ 定価3,520円(本体3,200円+税10%) ISBN 978-4-297-11952-2 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 「ビッグデータ」をテーマに,データ分析基盤技術をまとめた解説書。 AIの発展,コンテナ技術の進歩をはじめ,ビッグデータを取り巻く技術が大きく変わり始めました。ビッグデータの技術には,元々大きく分けて2つのバックグラウンドがありました。一つは業務系システムで,RDB(Relational Database)から取り出したデータをバッ

                                                    [増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ
                                                  • New – Amazon EBS gp3 Volume Lets You Provision Performance Apart From Capacity | Amazon Web Services

                                                    AWS News Blog New – Amazon EBS gp3 Volume Lets You Provision Performance Apart From Capacity Amazon Elastic Block Store (EBS) is an easy-to-use, high-performance block storage service designed for use with Amazon EC2 instances for both throughput and transaction-intensive workloads of all sizes. Using existing general purpose solid state drive (SSD) gp2 volumes, performance scales with storage cap

                                                      New – Amazon EBS gp3 Volume Lets You Provision Performance Apart From Capacity | Amazon Web Services
                                                    • AWS提供のマネージドルールでDevelopersIOへの攻撃を検出してみた | DevelopersIO

                                                      AWSチームのすずきです。 Developers.IO の コンテンツ配信環境に対する攻撃の緩和対策としての有効性を確認するため、 AWS提供のマネージドルールを IDS(不正侵入検知システム)相当とした AWS WAFを設定、 そのフルログを Athen と QuickSight を利用して解析する機会がありましたので、紹介させていただきます。 環境について 構成図 WordPress 宛の リクエストを AWS WAF の対象としました。 環境の詳細は以下記事をご覧ください。 経緯 2016年頃 過去の Developers.IO、大量アクセスによるサーバダウンが起きやすい環境であったため、 AWS WAFのレートルールや、Kinesis、Norikra を 利用した 異常アクセスの遮断を実施していました。 2020年春 2020年春のリニューアル後、WAFによる保護を必要とする機会は

                                                        AWS提供のマネージドルールでDevelopersIOへの攻撃を検出してみた | DevelopersIO
                                                      • より使いやすいデータ分析基盤にするために - MicroAd Developers Blog

                                                        京都研究所・TechLabの田中です。 今回は、データ分析基盤をより使いやすくするために実施した取り組みをご紹介します。 この記事では、結論だけでなくそこに至るまでの過程も一緒に紹介しているので、実務の雰囲気の一端も感じ取っていただければ幸いです。 1.ことの始まり 2.状況の整理 2-1 Hive on MR 2-2 Complex型のカラムに対する pushdown が機能しない 3.対策を考える 3-1 Hive on MR 以外の選択肢 3-2 ネストしたカラムへのpushdown 3-3 必要なアクションは? 4.つまづきポイント 4-1 HDFSファイルが圧縮できていない 4-2 そのDDLは無力 4-3 SETで指定するパラメータ 4-4 HDFSファイルの圧縮形式を確認 5.対策の効果 参考リンク 1.ことの始まり マイクロアドでは、すべてのデータを1つのHadoopクラス

                                                          より使いやすいデータ分析基盤にするために - MicroAd Developers Blog
                                                        • 余ったPC1台を使ってオンプレKubernetesクラスタを構築してみる | ゲンゾウ用ポストイット

                                                          ゲンゾウ用ポストイット シェル / Bash / Linux / Kubernetes / Docker / Git / クラウドのtipsを発信。 はじめに仕事ではGoogle Kubernetes Engine (GKE)を使ってのKubernetesクラスタ構築をしています。 仕事以外の時間でもKubernetesクラスタをゴリゴリ触ってみたいと思いました。 そこで、家の使っていない古いPCを使ってKubernetesクラスタをいちから作成してみることにしました。 (2020-01-26 追記) 当エントリでまとめたセットアップ手順をシンプルなシェルスクリプトにまとめ、公開しました。 GitHub - genzouw/standalone_kubernetes_cluster: This simple shell script helps build a "standalone" K

                                                            余ったPC1台を使ってオンプレKubernetesクラスタを構築してみる | ゲンゾウ用ポストイット
                                                          • Towards MLOps: Technical capabilities of a Machine Learning platform

                                                            Table of contentsIntroduction 1.1 The workflows of data science and software development are different 1.2 The ML pipeline has to include Continuous Training 1.3 Model driftFeature Store 2.1 Centralised data access 2.2 Data Versioning 2.3 Data pipelines 2.4 Data labeling 2.5 Feature repository and data discoveryTraining pipeline 3.1 Model and experiment management 3.2 Pipeline orchestration 3.3 Au

                                                              Towards MLOps: Technical capabilities of a Machine Learning platform
                                                            • Apache Foundation Calls Out Open-Source Leechers

                                                              Application Security Apache Foundation Calls Out Open-Source Leechers The Apache Software Foundation (ASF) is calling out for-profit companies leeching on open-source code, warning that “only a tiny percentage” of downstream vendors are contributing to securing the open-source ecosystem. The Apache Software Foundation (ASF) is calling out for-profit companies leeching on open-source code, warning

                                                                Apache Foundation Calls Out Open-Source Leechers
                                                              • 並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)

                                                                並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門 Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ システム技術本部 利光 宏平Read less

                                                                  並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)
                                                                • 北海道テレビ放送株式会社:Google Cloud による放送アクセスログ分析で、放送業界全体が利益を創出できる仕組みを目指す | Google Cloud 公式ブログ

                                                                  北海道テレビ放送株式会社:Google Cloud による放送アクセスログ分析で、放送業界全体が利益を創出できる仕組みを目指す 数多くの受賞歴を持つニュース・ドキュメンタリーやバラエティ番組、ドラマなど、さまざまな分野の番組制作や放送を通じ、「ユメミル、チカラ」を応援し、 地域の未来への貢献を目指す北海道テレビ放送株式会社(以下、HTB)。放送サービス向上の一環として、1 秒間に 100 万回のアクセスにも耐える放送アクセスログ分析システムを構築。HTB のネットデジタル事業担当者に、今回のシステム構築について話を伺いました。 利用している Google Cloud サービス:Cloud Functions、Cloud Pub/Sub、Cloud Dataflow、BigQuery、Cloud Datalab、Google データポータル BigQuery にアクセスログ データを蓄積して

                                                                    北海道テレビ放送株式会社:Google Cloud による放送アクセスログ分析で、放送業界全体が利益を創出できる仕組みを目指す | Google Cloud 公式ブログ
                                                                  • TechCrunch | Startup and Technology News

                                                                    Cloudera, the once high flying Hadoop startup, raised $1 billion and went public in 2018 before being acquired by private equity for $5.3 billion 2021. Today, the company announced that…

                                                                      TechCrunch | Startup and Technology News
                                                                    • データと歩んだ 10 年間を祝して: BigQuery 10 周年 | Google Cloud 公式ブログ

                                                                      ※この投稿は米国時間 2020 年 5 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。 編集者注: これまで 10 年間以上にわたり BigQuery の構築に携わってきたチームメンバーの一部からメッセージが届いています。Jeremy Condit、Dan Delorey、Sudhir Hasbe、Felipe Hoffa、Chad Jennings、Jing Jing Long、Mosha Pasumansky、Tino Tereshko、William Vambenepe、Alicia Williams に感謝の意を表します。 今月、Google のクラウド データ ウェアハウスである BigQuery が 10 周年を迎えました。Google 内部のプロダクトとしての草創期から、情報に基づくビジネス上の意思決定に役立つペタバイト規模のデータ ウェアハ

                                                                        データと歩んだ 10 年間を祝して: BigQuery 10 周年 | Google Cloud 公式ブログ
                                                                      • Feature Storeを概観する - temple

                                                                        はじめに Feature Storeについて調べた際に日本語で資料がまとまったものがなかったのでまとめる。とはいえ、この記事もまとまってはいないかもしれない。 はじめに Feature Storeって何 Feature Storeを利用するモチベーション Feature Storeのコンポーネント 1. Serving 2. Storage 3. Transform 4. Monitoring 5. Registry どんなFeature Storeがあるか まとめ Feature Storeって何 端的に言うと「機械学習モデルで扱う特徴量をひとまとめにして管理し、かつ特徴量の提供も行う基盤」。これだけ聞くと特徴量専用のデータストレージを作ればいいじゃんと思うかもしれないので、Feature Storeを使うモチベーションを述べる。 より詳しく知りたい方はUberのMichelangelo

                                                                          Feature Storeを概観する - temple
                                                                        • よりセキュアに!より低コストに!Anthosの概要から検証まで、2020年最新情報を全てお届け | 株式会社トップゲート

                                                                          削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                                            よりセキュアに!より低コストに!Anthosの概要から検証まで、2020年最新情報を全てお届け | 株式会社トップゲート
                                                                          • バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」

                                                                            バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」:Google Cloud Data Platform Dayで説明(1/2 ページ) バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズといった、データを武器にしていかなければならない企業は、データ分析基盤をどのように進化させているか。Google Cloudが2020年3月31日に開催したGoogle Cloud Data Platform Dayで3社が語った、それぞれのデータ基盤改革をお伝えする。 Google Cloudが2020年3月31日にオンライン開催したGoogle Cloud Data Platform Dayでは、バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが、それぞれのデータ基盤改革について語った。

                                                                              バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」
                                                                            • Twitter の広告エンゲージメント分析プラットフォームをモダナイズ | Google Cloud 公式ブログ

                                                                              ※この投稿は米国時間 2020 年 3 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。 Twitter の広告プラットフォームでは、日常業務の一環として数十億もの広告エンゲージメント イベントが日々発生しています。そしてこれらのイベントのひとつひとつが、ダウンストリームの数百もの集約指標に影響を及ぼす可能性があります。広告主がユーザー エンゲージメントを測定し、広告キャンペーンを効率よく追跡できるように、Twitter はさまざまな分析ツール、API、ダッシュボードを提供しています。これらは 1 秒あたりに数百万もの指標をほぼリアルタイムで集約することが可能です。 本投稿では、Steve Niemitz がリードを務めるTwitter の収益データプラットフォームエンジニアチームが、Twitter の広告分析プラットフォームの収益正確性と信頼性を向上させる

                                                                                Twitter の広告エンゲージメント分析プラットフォームをモダナイズ | Google Cloud 公式ブログ
                                                                              • 「日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画」とは? - TECH PLAY Magazine

                                                                                6月26日に開催された「SoftBank AI Meetup - 日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画 –」。本イベントにはソフトバンクの「AI&データ推進部」「AIデータエンジニアリング部」「AIエンジニアリング部」のマネジメント層3名が登壇。事例なども交えながらソフトバンクのAIの活用状況について紹介。Q&Aや懇親会も行われた。 参加者100名の属性は、データサイエンティストが最も多く26.8%、開発エンジニア18.9%、機械学習エンジニア14.7%、事業企画担当者12.6%、データエンジニア12.1%、コンサルタント11.6%。AIの実務経験については1~3年未満の人が45.2%、1年未満の人が34.7%、3~5年の人が13.6%、5年以上の人が6.5%であった。 AIを活用し、新たな領域のビジネスを事業化する

                                                                                  「日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画」とは? - TECH PLAY Magazine
                                                                                • 週刊AWS – re:Invent 2021特別号(2021/11/29週) | Amazon Web Services

                                                                                  Amazon Web Services ブログ 週刊AWS – re:Invent 2021特別号(2021/11/29週) みなさん、こんにちは。ソリューションアーキテクトの下佐粉です。 今週も週刊AWSをお届けします。 先週はAWS re:Inventが開催されましたね。各種キーノートやテクニカルセッションなどに、日本からもオンライン参加された方が多かったのではと思いますが、楽しんでいただけましたでしょうか? 期間中は例年通りエキサイティングな発表が多数ありました。そこで今号はre:Invent特別号として、いつもとは違いサービスのジャンルごとにいくつかピックアップ&サマリして紹介する形になっています。発表内容をほぼ網羅したセミナー「AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報」での資料と動画が以下に出ていますので、こ

                                                                                    週刊AWS – re:Invent 2021特別号(2021/11/29週) | Amazon Web Services