並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 720件

新着順 人気順

hadoopの検索結果281 - 320 件 / 720件

  • 2020年のApache Hadoop振り返り - Memo

    Apache Hadoopについて、2020年にどんなことがあったのかざっくりと振り返りたいと思います。Advent Calendar枠です(大遅刻)。 Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 - Qiita Apache Ozoneが分離 オブジェクトストレージを担当するOzoneはすでにHadoop本体のソースコードからは分離されていましたが、新規のTLP(Top-Level Project)としてスピンオフしました。2019年にApache SubmarineがTLPになったのを見て、Ozoneもいずれそうなると思っていたので個人的には特に驚きはないです。プロジェクトが分離すると具体的に何が起こるかというと、committerやPMCなどが別々になります(他にもあるけど

      2020年のApache Hadoop振り返り - Memo
    • 柔軟なKubernetes活用で分散機械学習や負荷テストも実現 LINEが開発した分散処理用RPCライブラリ

      2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでMachine Learning Infrastructure Managerの大東氏が「機械学習で使っている分散処理用RPCライブラリ」というテーマで、Kubernetesでジョブを走らせる方法と、そのための便利なライブラリについて共有しました。 Kubernetesジョブ定義の例 大東哲平氏(以下、大東):こんにちは。Machine Learning Infrastructureチームの大東と言います。このセッションでは、機械学習のために開発した、RPCライブラリを紹介します。 Machine Learning室では、Kubernetesを使い、GPUやCPUのノードを必要な数だけ確保して、相互に通信する

        柔軟なKubernetes活用で分散機械学習や負荷テストも実現 LINEが開発した分散処理用RPCライブラリ
      • Bigtable と BigQuery: その違いは何か | Google Cloud 公式ブログ

        ※この投稿は米国時間 2021 年 4 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。 BigQuery と Bigtable のどちらを使うべきかで迷っているユーザーは多いと思います。この 2 つのサービスは、名前に「Big」が含まれているなど多くの共通点がありますが、ビッグデータのエコシステムにおいてこの両者がサポートするユースケースは大きく異なります。 大まかに言うと、Bigtable は NoSQL ワイドカラム型データベースであり、低レイテンシ、大量の読み取りと書き込み、大規模なパフォーマンスの維持向けに最適化されています。IoT、アドテック、フィンテックなど、一定の規模やスループットでレイテンシ要件が厳しいものは、Bigtable のユースケースに該当します。大規模な高スループットと低レイテンシが優先事項でない場合は、Firestore などの

          Bigtable と BigQuery: その違いは何か | Google Cloud 公式ブログ
        • Introducing Amazon EKS Distro (EKS-D) | Amazon Web Services

          AWS Open Source Blog Introducing Amazon EKS Distro (EKS-D) This post was contributed by Allan Naim, Chandler Hoisington, Raja Jadeja, Micah Hausler, and Michael Hausenblas. Today we announced Amazon EKS Distro (EKS-D), a Kubernetes distribution based on and used by Amazon Elastic Kubernetes Service (Amazon EKS) to create reliable and secure Kubernetes clusters. With EKS-D, you can rely on the same

            Introducing Amazon EKS Distro (EKS-D) | Amazon Web Services
          • Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER

            今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。 サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いる サードパーティ製のライブラリとして scikit-learn を想定する scikit-learn の学習済みモデルを、あらかじめローカルで用意しておく Iris データセットと学習済みモデルを使った推論を PySpark で分散処理する 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) $ uname -r 3.10.0-957.21.3.el7.x86_64 $ python3 -V Python 3.6.8 $ pyspark --version Welcome

              Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER
            • What I Love about Scrum for Data Science

              A couple of years ago, I started (read: was made) to adopt scrum in my work. I didn’t like it. The concept of estimation was vague to me: How do we estimate effort for data exploration or research? And after we move something from In Progress to Done, can we move it back? This happens often (in data science) where we need to revisit an upstream step, such as data preparation or feature engineering

                What I Love about Scrum for Data Science
              • ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ

                Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。 「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません…… モチベーション Hadoopエコシステムは大量のコンポーネントから成り立っており、その混沌はしばしば動物園に例えられます。手軽に起動する手段が用意されているプロジェクトもありますが、それでもローカルマシンで満足な検証をするには困難を伴います。公私ともに様々なバージョンのHive/Hadoopやそれらへのパッチを検証すること

                  ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ
                • イベントストリーミングプラットフォームの活用によるKappa アーキテクチャ実装 - Qiita

                  はじめに 下記の記事では、Cassandraデータベースの利用によるKappaアーキテクチャーについての情報を整理しました。 また、下記の記事では、LambdaアーキテクチャーからKappaアーキテクチャーへの移行についての情報を整理しました。 上記の記事は下記のKai Waehnerによる記事の内容を元にしていました。 本稿では、同記事から、「イベントストリーミングプラットフォームの活用によるKappa アーキテクチャ実装」についての情報を整理し、記事では特に掘り下げられていない、KafkaとPulsarの違いについての情報を追記したいと思います。 費用対効果が高くスケーラブルな Kappa アーキテクチャ これまでイベントストリーミングプラットフォームを活用して、Kappa アーキテクチャを実現する上での大きな問題は、イベント ストリーミング プラットフォームに膨大な量のデータを格納す

                    イベントストリーミングプラットフォームの活用によるKappa アーキテクチャ実装 - Qiita
                  • MNTSQがMLOpsを成功させる5つのポイントを解説! | AI専門ニュースメディア AINOW

                    最終更新日: 2021年12月13日 ※本稿は、MNTSQ株式会社による寄稿です。 今、機械学習の実用性が注目され、さまざまな分野で機械学習の活用可能性が広がっています。あわせて、ピンポイントではなく、幅広い分野で長期的で安定的に機械学習のモデルを開発・運用できるようにMLOpsへの注目が高まっています。 MLOpsでは、機械学習システムの開発や運用にまつわるさまざまな困難を解消するべく、機械学習システムの運用がしやすい開発基盤づくりが目指されています。一方で、このMLOpsには明確な定義はなく、さまざまな要求に応える技術がMLOpsの名の下に乱立している状況です。 この記事では、MLOpsの導入を検討する際に押さえておきたいポイントを5つに分けて紹介します。 ポイント① MLOpsを理解する|その1:DevOpsとMLOps MLOpsは、DevOpsを元にした表現で、MLOpsの多くの

                      MNTSQがMLOpsを成功させる5つのポイントを解説! | AI専門ニュースメディア AINOW
                    • HPEがKubernetes対応のコンテナプラットフォーム「HPE Container Platform」を国内で提供開始。大規模なデータ統合基盤の構築が狙い

                      ヒューレット・パッカード エンタープライズ(HPE)は、KubernetesやDockerコンテナなどを統合したパッケージソフトウェアとして「HPE Container Platform」の国内提供を開始したと発表しました。 HPE Container Platformは、ベアメタルもしくは仮想マシン上のRed Hat Enterprise LinuxもしくはCentOSに対応し、その上にKubernetes、Dockerコンテナ環境を構築します。オンプレミスやAWSなどさまざまなシステム基盤上に展開可能です。 最大の特徴は、マルチテナントなクラスタ管理のためのBlueDataと、ストレージ機能としてMapRを統合している点です。 BlueDataを用いることで、おもにHadoopやSparkといったビッグデータ処理のためのミドルウェアを部門ごとなどにセキュアに分離したマルチテナントを構築

                        HPEがKubernetes対応のコンテナプラットフォーム「HPE Container Platform」を国内で提供開始。大規模なデータ統合基盤の構築が狙い
                      • 2020年、IoT実践のための「エンジニアの鍛え方」 | gihyo.jp

                        IoTの2019年を振り返ると、IoT実践の拡がりを感じた1年となりました。IoT活用は、製造業や社会インフラ、物流・小売業、さらには地域社会や農業・畜産・漁業などの1次産業にも拡がっています。さらに、コンシューマー製品、シェアリングエコノミーなどの新たな製品・サービスにも IoT の活用が拡がっています。 昨年はソラコムからは、松下が「IoTを変革の原動力に~その時、技術者が持つべき心構えとは」を寄稿し、「⁠好奇心がスタート地点」という心構えは本年も変わりません。2020年の本記事では、実際に数々のお客様のIoTプロジェクトに参加し、IoTプロジェクト成功にむけて全方位で支援するソラコムのソリューションアーキテクト4名に聞いた「2020年のIoT実践にむけた鍛え方」をお届けします。 お話を伺った皆さん。左から、大瀧氏、横田氏、松本氏(今井氏はリモート参加のため写真なし) 現実社会のデータ

                          2020年、IoT実践のための「エンジニアの鍛え方」 | gihyo.jp
                        • 外部データとの連携 ~FDWで様々なデータソースとつなぐ~|PostgreSQLインサイド

                          デジタル技術の進化により、ビジネスは大きく変わりつつあります。IoTにより取得できる多種多様なデータと、既存の業務データとを組み合わせて、新たな価値へとつなげるなど、システムは様々なデータ(システム)と連携できることが求められています。PostgreSQLには、Foreign Data Wrapper(日本語では「外部データラッパー」と呼ばれ、以降「FDW」と略します)という機能があり、RDBやNoSQLなど様々な外部データにアクセスできます。ここでは、FDWの概要と仕組み、利用時のポイントについて説明します。なお、この記事は、PostgreSQL 11.1で検証しています。 1. FDWとは FDWとは、SELECT文やUPDATE文などのSQL文を使用して、外部にあるデータにアクセスできるようにするための、PostgreSQLの拡張機能です。 FDWは、PostgreSQLが公開してい

                            外部データとの連携 ~FDWで様々なデータソースとつなぐ~|PostgreSQLインサイド
                          • AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ

                            はじめにこんにちは。TIG DXチームの村瀬です。 AWS Glue利用していますか?ETL処理をする上で大変便利ですよね。しかしながら開発に必要不可欠な開発エンドポイントが少々お高く、もう少し安価に利用できればなーと思っていたところ、さすがAWSさん素敵なリリースをしてくれました。 https://aws.amazon.com/jp/about-aws/whats-new/2019/08/aws-glue-releases-binaries-of-glue-etl-libraries-for-glue-jobs/ AWS Glueとは過去のこちらの記事もご参考ください。 5TB/日 のデータをAWS Glueでさばくためにやったこと(概要編 5TB/日 のデータをAWS Glueでさばくためにやったこと(性能編) ローカルPCの環境を汚さない為に作業を開始する前に確認したところ、Glue

                              AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ
                            • DREの使命とは?「数が神より正しい」と言うための正確性を求められる技術力 -

                              こんにちは、採用広報のやざわです。 全プロダクトのデータを全社員が見れる環境のGunosyでは、数字が共通言語となり、意思決定が行われています。そこで今回は、Gunosyが持つすべてのデータ基盤を構築しているDRE*1の皆さんにお話を伺ってきました。また、所属しているGunosy Tech Labでのミッションもお伝えしています。ぜひご覧ください。 Profile 阿部さん(写真左)/Gunosy Tech Lab DR & MLOpsチーム 新卒で株式会社サイバーエージェントに入社し、広告配信の最適化などに従事。2016年Gunosy入社。現在は、Gunosy Tech Labにてアプリのデータ分析を行う。 小出さん(写真中央)/CTO 兼 Gunosy Tech Lab 部長 外資系IT企業を経て、2014年Gunosy入社。インフラ構築の自動化、CI/CDの推進などプロダクトのアーキ

                                DREの使命とは?「数が神より正しい」と言うための正確性を求められる技術力 -
                              • [増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ

                                2021年2月13日紙版発売 2021年2月10日電子版発売 西田圭介 著 A5判/368ページ 定価3,520円(本体3,200円+税10%) ISBN 978-4-297-11952-2 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 「ビッグデータ」をテーマに,データ分析基盤技術をまとめた解説書。 AIの発展,コンテナ技術の進歩をはじめ,ビッグデータを取り巻く技術が大きく変わり始めました。ビッグデータの技術には,元々大きく分けて2つのバックグラウンドがありました。一つは業務系システムで,RDB(Relational Database)から取り出したデータをバッ

                                  [増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ
                                • New – Amazon EBS gp3 Volume Lets You Provision Performance Apart From Capacity | Amazon Web Services

                                  AWS News Blog New – Amazon EBS gp3 Volume Lets You Provision Performance Apart From Capacity Amazon Elastic Block Store (EBS) is an easy-to-use, high-performance block storage service designed for use with Amazon EC2 instances for both throughput and transaction-intensive workloads of all sizes. Using existing general purpose solid state drive (SSD) gp2 volumes, performance scales with storage cap

                                    New – Amazon EBS gp3 Volume Lets You Provision Performance Apart From Capacity | Amazon Web Services
                                  • AWS提供のマネージドルールでDevelopersIOへの攻撃を検出してみた | DevelopersIO

                                    AWSチームのすずきです。 Developers.IO の コンテンツ配信環境に対する攻撃の緩和対策としての有効性を確認するため、 AWS提供のマネージドルールを IDS(不正侵入検知システム)相当とした AWS WAFを設定、 そのフルログを Athen と QuickSight を利用して解析する機会がありましたので、紹介させていただきます。 環境について 構成図 WordPress 宛の リクエストを AWS WAF の対象としました。 環境の詳細は以下記事をご覧ください。 経緯 2016年頃 過去の Developers.IO、大量アクセスによるサーバダウンが起きやすい環境であったため、 AWS WAFのレートルールや、Kinesis、Norikra を 利用した 異常アクセスの遮断を実施していました。 2020年春 2020年春のリニューアル後、WAFによる保護を必要とする機会は

                                      AWS提供のマネージドルールでDevelopersIOへの攻撃を検出してみた | DevelopersIO
                                    • より使いやすいデータ分析基盤にするために - MicroAd Developers Blog

                                      京都研究所・TechLabの田中です。 今回は、データ分析基盤をより使いやすくするために実施した取り組みをご紹介します。 この記事では、結論だけでなくそこに至るまでの過程も一緒に紹介しているので、実務の雰囲気の一端も感じ取っていただければ幸いです。 1.ことの始まり 2.状況の整理 2-1 Hive on MR 2-2 Complex型のカラムに対する pushdown が機能しない 3.対策を考える 3-1 Hive on MR 以外の選択肢 3-2 ネストしたカラムへのpushdown 3-3 必要なアクションは? 4.つまづきポイント 4-1 HDFSファイルが圧縮できていない 4-2 そのDDLは無力 4-3 SETで指定するパラメータ 4-4 HDFSファイルの圧縮形式を確認 5.対策の効果 参考リンク 1.ことの始まり マイクロアドでは、すべてのデータを1つのHadoopクラス

                                        より使いやすいデータ分析基盤にするために - MicroAd Developers Blog
                                      • 余ったPC1台を使ってオンプレKubernetesクラスタを構築してみる | ゲンゾウ用ポストイット

                                        ゲンゾウ用ポストイット シェル / Bash / Linux / Kubernetes / Docker / Git / クラウドのtipsを発信。 はじめに仕事ではGoogle Kubernetes Engine (GKE)を使ってのKubernetesクラスタ構築をしています。 仕事以外の時間でもKubernetesクラスタをゴリゴリ触ってみたいと思いました。 そこで、家の使っていない古いPCを使ってKubernetesクラスタをいちから作成してみることにしました。 (2020-01-26 追記) 当エントリでまとめたセットアップ手順をシンプルなシェルスクリプトにまとめ、公開しました。 GitHub - genzouw/standalone_kubernetes_cluster: This simple shell script helps build a "standalone" K

                                          余ったPC1台を使ってオンプレKubernetesクラスタを構築してみる | ゲンゾウ用ポストイット
                                        • Towards MLOps: Technical capabilities of a Machine Learning platform

                                          Table of contentsIntroduction 1.1 The workflows of data science and software development are different 1.2 The ML pipeline has to include Continuous Training 1.3 Model driftFeature Store 2.1 Centralised data access 2.2 Data Versioning 2.3 Data pipelines 2.4 Data labeling 2.5 Feature repository and data discoveryTraining pipeline 3.1 Model and experiment management 3.2 Pipeline orchestration 3.3 Au

                                            Towards MLOps: Technical capabilities of a Machine Learning platform
                                          • Apache Foundation Calls Out Open-Source Leechers

                                            Application Security Apache Foundation Calls Out Open-Source Leechers The Apache Software Foundation (ASF) is calling out for-profit companies leeching on open-source code, warning that “only a tiny percentage” of downstream vendors are contributing to securing the open-source ecosystem. The Apache Software Foundation (ASF) is calling out for-profit companies leeching on open-source code, warning

                                              Apache Foundation Calls Out Open-Source Leechers
                                            • 並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)

                                              並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門 Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ システム技術本部 利光 宏平Read less

                                                並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)
                                              • 北海道テレビ放送株式会社:Google Cloud による放送アクセスログ分析で、放送業界全体が利益を創出できる仕組みを目指す | Google Cloud 公式ブログ

                                                北海道テレビ放送株式会社:Google Cloud による放送アクセスログ分析で、放送業界全体が利益を創出できる仕組みを目指す 数多くの受賞歴を持つニュース・ドキュメンタリーやバラエティ番組、ドラマなど、さまざまな分野の番組制作や放送を通じ、「ユメミル、チカラ」を応援し、 地域の未来への貢献を目指す北海道テレビ放送株式会社(以下、HTB)。放送サービス向上の一環として、1 秒間に 100 万回のアクセスにも耐える放送アクセスログ分析システムを構築。HTB のネットデジタル事業担当者に、今回のシステム構築について話を伺いました。 利用している Google Cloud サービス:Cloud Functions、Cloud Pub/Sub、Cloud Dataflow、BigQuery、Cloud Datalab、Google データポータル BigQuery にアクセスログ データを蓄積して

                                                  北海道テレビ放送株式会社:Google Cloud による放送アクセスログ分析で、放送業界全体が利益を創出できる仕組みを目指す | Google Cloud 公式ブログ
                                                • データと歩んだ 10 年間を祝して: BigQuery 10 周年 | Google Cloud 公式ブログ

                                                  ※この投稿は米国時間 2020 年 5 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。 編集者注: これまで 10 年間以上にわたり BigQuery の構築に携わってきたチームメンバーの一部からメッセージが届いています。Jeremy Condit、Dan Delorey、Sudhir Hasbe、Felipe Hoffa、Chad Jennings、Jing Jing Long、Mosha Pasumansky、Tino Tereshko、William Vambenepe、Alicia Williams に感謝の意を表します。 今月、Google のクラウド データ ウェアハウスである BigQuery が 10 周年を迎えました。Google 内部のプロダクトとしての草創期から、情報に基づくビジネス上の意思決定に役立つペタバイト規模のデータ ウェアハ

                                                    データと歩んだ 10 年間を祝して: BigQuery 10 周年 | Google Cloud 公式ブログ
                                                  • Feature Storeを概観する - temple

                                                    はじめに Feature Storeについて調べた際に日本語で資料がまとまったものがなかったのでまとめる。とはいえ、この記事もまとまってはいないかもしれない。 はじめに Feature Storeって何 Feature Storeを利用するモチベーション Feature Storeのコンポーネント 1. Serving 2. Storage 3. Transform 4. Monitoring 5. Registry どんなFeature Storeがあるか まとめ Feature Storeって何 端的に言うと「機械学習モデルで扱う特徴量をひとまとめにして管理し、かつ特徴量の提供も行う基盤」。これだけ聞くと特徴量専用のデータストレージを作ればいいじゃんと思うかもしれないので、Feature Storeを使うモチベーションを述べる。 より詳しく知りたい方はUberのMichelangelo

                                                      Feature Storeを概観する - temple
                                                    • よりセキュアに!より低コストに!Anthosの概要から検証まで、2020年最新情報を全てお届け | 株式会社トップゲート

                                                      削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                        よりセキュアに!より低コストに!Anthosの概要から検証まで、2020年最新情報を全てお届け | 株式会社トップゲート
                                                      • バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」

                                                        バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」:Google Cloud Data Platform Dayで説明(1/2 ページ) バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズといった、データを武器にしていかなければならない企業は、データ分析基盤をどのように進化させているか。Google Cloudが2020年3月31日に開催したGoogle Cloud Data Platform Dayで3社が語った、それぞれのデータ基盤改革をお伝えする。 Google Cloudが2020年3月31日にオンライン開催したGoogle Cloud Data Platform Dayでは、バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが、それぞれのデータ基盤改革について語った。

                                                          バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」
                                                        • Twitter の広告エンゲージメント分析プラットフォームをモダナイズ | Google Cloud 公式ブログ

                                                          ※この投稿は米国時間 2020 年 3 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。 Twitter の広告プラットフォームでは、日常業務の一環として数十億もの広告エンゲージメント イベントが日々発生しています。そしてこれらのイベントのひとつひとつが、ダウンストリームの数百もの集約指標に影響を及ぼす可能性があります。広告主がユーザー エンゲージメントを測定し、広告キャンペーンを効率よく追跡できるように、Twitter はさまざまな分析ツール、API、ダッシュボードを提供しています。これらは 1 秒あたりに数百万もの指標をほぼリアルタイムで集約することが可能です。 本投稿では、Steve Niemitz がリードを務めるTwitter の収益データプラットフォームエンジニアチームが、Twitter の広告分析プラットフォームの収益正確性と信頼性を向上させる

                                                            Twitter の広告エンゲージメント分析プラットフォームをモダナイズ | Google Cloud 公式ブログ
                                                          • 「日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画」とは? - TECH PLAY Magazine

                                                            6月26日に開催された「SoftBank AI Meetup - 日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画 –」。本イベントにはソフトバンクの「AI&データ推進部」「AIデータエンジニアリング部」「AIエンジニアリング部」のマネジメント層3名が登壇。事例なども交えながらソフトバンクのAIの活用状況について紹介。Q&Aや懇親会も行われた。 参加者100名の属性は、データサイエンティストが最も多く26.8%、開発エンジニア18.9%、機械学習エンジニア14.7%、事業企画担当者12.6%、データエンジニア12.1%、コンサルタント11.6%。AIの実務経験については1~3年未満の人が45.2%、1年未満の人が34.7%、3~5年の人が13.6%、5年以上の人が6.5%であった。 AIを活用し、新たな領域のビジネスを事業化する

                                                              「日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画」とは? - TECH PLAY Magazine
                                                            • 週刊AWS – re:Invent 2021特別号(2021/11/29週) | Amazon Web Services

                                                              Amazon Web Services ブログ 週刊AWS – re:Invent 2021特別号(2021/11/29週) みなさん、こんにちは。ソリューションアーキテクトの下佐粉です。 今週も週刊AWSをお届けします。 先週はAWS re:Inventが開催されましたね。各種キーノートやテクニカルセッションなどに、日本からもオンライン参加された方が多かったのではと思いますが、楽しんでいただけましたでしょうか? 期間中は例年通りエキサイティングな発表が多数ありました。そこで今号はre:Invent特別号として、いつもとは違いサービスのジャンルごとにいくつかピックアップ&サマリして紹介する形になっています。発表内容をほぼ網羅したセミナー「AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報」での資料と動画が以下に出ていますので、こ

                                                                週刊AWS – re:Invent 2021特別号(2021/11/29週) | Amazon Web Services
                                                              • LINEの機械学習チームが語る、「おすすめのLINEスタンプ」のレコメンドアルゴリズム

                                                                2018年11月21日、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2018」が開催されました。4度目の開催となる今回のテーマは「Next LINE」。メッセージアプリだけでなく、さまざまなサービスの開発や新たな技術領域への投資を行っているLINEが目指すビジョンと各分野での取り組みについて、エンジニアたちが技術的側面から紹介します。セッション「Machine Learning at LINE」に登壇したのはLINE株式会社Machine Learningチームの菊地悠氏。機械学習を専門とするチームの紹介と、LINEのさまざまなサービスで用いられているレコメンド機能などの裏側について語りました。講演資料はこちら LINE Data Labsという組織 菊地悠氏:LINE Data Labsの機械学習チームで、マネージャー兼PMをやってい

                                                                  LINEの機械学習チームが語る、「おすすめのLINEスタンプ」のレコメンドアルゴリズム
                                                                • 未来予想 / morrita - Message Passing

                                                                  唐突ですが未来予想をするターンです。10 年後のプログラマ事情(じゃなくてもいいけど)を予想してみたい。 背景としては、むかしむかしの 2005 年に Steve Yegge という当時人気だった blogger が Ten Predictions という記事を書き、それを十年後の 2015 年に Dan Luu (森田が好きな blogger)が採点する、という出来事がありました。我々もいまテキトーなことを書いて 10 年後に採点したら面白いんじゃないかな。という動機。Caveat としては 2005 年の Steve Yegge はテック業界に詳しい若者ブロガーでしたが、2021 年の森田は業界動向とか真面目にウォッチしてないおっさんなのであまり面白い予想は書けない恐れがあります。が、まあそれは仕方なしということで。 一人10件を目標に、あまり保守的でもアグレッシブ過ぎても面白くないの

                                                                    未来予想 / morrita - Message Passing
                                                                  • 分散処理を民主化するRay - Qiita

                                                                    イントロ 日立製作所 研究開発グループの中田です。普段、エッジコンピューティングや分散システムの研究開発、またシステムアーキテクトをやっています。 公私ともにQiitaは初投稿です。 今回は、Rayを紹介します。 Rayは、分散処理を含むアプリを開発するためのライブラリおよび実行環境です。まだ日本では情報が少ないのですが、海外では有名企業や大学がこぞって活用しており、かなりホットなライブラリだと思います。今年2020年10月1日にバージョン1.0がリリースされました。また同じタイミングにRay Summitが開催され、50本程のセッションで多数の活用事例が紹介されました。 Rayは、通常の手続き型言語を容易に分散処理化できるものであり、データ分析やエッジ/IoTの分野で有用に思えるので、日本でも広まって欲しいと思っている次第です。 本記事では、そもそもここでの分散処理とは何か、から始めて、

                                                                      分散処理を民主化するRay - Qiita
                                                                    • 達人出版会

                                                                      探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワールド 瀬戸美月 徹底攻略 情報セキュリティマネジメント予想問題集 令和6年度 五十嵐 聡 詳説 ユーザビリティのための産業共通様式 福住 伸一, 平沢 尚毅 DX時代の観光と社会

                                                                        達人出版会
                                                                      • LINEがApache Software FoundationのSilver Sponsorになりました

                                                                        LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。Open Source Program Office TF (タスクフォース)です。私たちはLINEのエンジニア組織とオープンソースエコシステムを融合し、より密接な関係を築いてコミュニティと共に成長できる文化を作るために様々な取り組みを行っています。今回は、この3月にLINEがApache Software FoundationのSilver Sponsorに加わることになった背景について紹介します。 Apache Software Foundationについて Apache Software Foundation (ASF)は、オープンソースプロジェクト開発に必要な資源を支援するために1999年に米国で設立された

                                                                          LINEがApache Software FoundationのSilver Sponsorになりました
                                                                        • [Google 認定資格] GCP Professional Data Engineer の勉強方法と対策 | エスタイルAIメディア

                                                                          [Google 認定資格] GCP Professional Data Engineer の勉強方法と対策 2022 12/30 本記事では、Google 認定資格の 1 つである Professional Data Engineer に一発合格するためにやるべきことをまとめています。Google 公認資格は国際資格ということもあり、国内の出版社から決定版といえる対策本が出ていないのが現状です。私も Professional Data Engineer を受験するにあたり、参考となる書籍の少なさから、受験対策として何をすべきか非常に迷いました。この記事では、そんな私がお勧めする効率的な Professional Data Engineer のための勉強方法についてまとめています。 ちなみに、私の簡単なプロフィールは次の通りです。 新卒 1 年目 大学で Deep Learning の研究に

                                                                            [Google 認定資格] GCP Professional Data Engineer の勉強方法と対策 | エスタイルAIメディア
                                                                          • 無料でここまでできる!GCPの無料枠を使いこなして、ランニングコストを最適化しよう! | 株式会社トップゲート

                                                                            削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                                              無料でここまでできる!GCPの無料枠を使いこなして、ランニングコストを最適化しよう! | 株式会社トップゲート
                                                                            • ORC について最初に知っておきたかったこと - Qiita

                                                                              数テラバイト越えあたり or パーティション数大量になったあたりで、ORC ファイルについて詳しくなったけど最初から知っておきたかった事。 がまとまったので書いておくけど、もう一桁増えると更に知っておきたかった事が増える気がする。随時更新。 BigData を扱うデータフォーマット ORC とは Hive / Spark / Presto 等と言った(以下 Hive 等)のビッグデータ基盤で使えるカラムナデータフォーマットだ。 MySQL では、実際のデータファイルは .idb ファイル等の形式で保存されるが、Hive 等ではフォーマットを複数選ぶことができ、ORC はデファクトスタンダートだ。次点に Perquet1 等がある。 HDFS に収納されて Hive 等 Query 対象となることが多い。 Reference Primary 公式サイト - https://orc.apach

                                                                                ORC について最初に知っておきたかったこと - Qiita
                                                                              • Tricks of the Trade: Tuning JVM Memory for Large-scale Services

                                                                                You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Running queries on Uber’s data platform lets us make data-driven decisions at every level, from forecasting rider demand during high traffic events to identifying and addressing bottlenecks in the driver sign-up process. Our Apache Hadoop-based data platform ingests hun

                                                                                  Tricks of the Trade: Tuning JVM Memory for Large-scale Services
                                                                                • AWSコンソールからS3 Selectを使ってみた | DevelopersIO

                                                                                  こんにちは、CX事業本部の若槻です。 今回はAWSコンソールからAmazon S3 Selectを使ってS3バケット上のファイルを抽出してみました! Amazon S3 Selectとは Amazon S3 Selectとは、Amazon S3バケット上のCSVやJSON形式のオブジェクトから、必要なデータをSQLライクな構文で効率的に抽出できるAWSの機能です。2018年4月にGAされました。 Amazon S3 Select が一般公開 - What's New with AWS 使ってみた 早速AWSコンソールからS3 Selectをしていきます。 今回はバケットへアップロードした以下の2ファイルに対して行ってみます。 CSV形式のファイル「participant.csv」 JSON Lines形式のファイル「result.json」 CSVファイルの場合 まずCSVファイル「par

                                                                                    AWSコンソールからS3 Selectを使ってみた | DevelopersIO