並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 699件

新着順 人気順

hadoopの検索結果361 - 400 件 / 699件

  • Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services

    Amazon Web Services ブログ Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 AWS 上でビッグデータの ETL ワークフローを実行している大企業は、多数の内部エンドユーザーにサービスを提供できるようなスケールで運用しており、何千もの同時パイプラインを実行しています。このことは、新しいフレームワークと、ビッグデータ処理フレームワークの最新のリリースに遅れずについていくため、ビッグデータプラットフォームを更新し、拡張する点での継続的なニーズと相まって、ビッグデータプラットフォームの管理を簡素化することと、ビッグデータアプリケーションへの容易なアクセスを促すことの両方を可能にする、効率的なアーキテクチャと組織構造を要求しています。 この投稿では、一元管理型のプラットフォームチームが

      Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services
    • OpenStack と OpenShift の関係って? - ts0818のブログ

      OpenStack と OpenShift ってどんな関係なん?という情弱な私...どうもボクです。 というわけで、今回は、OpenStack と OpenShiftの関係について調べてみました。 レッツトライ~。 OpenStackって? 何はともあれ、Wikipediaさ~ん! OpenStackは、クラウドコンピューティングのためのオープンソース・フリーソフトウェアであり、クラウドの分類のIaaSサービスとして仮想マシンやその他のリソースを提供する。 OpenStack - Wikipedia ⇧ IaaS サービスなんですと。 IaaSって? IaaS(Infrastructure as a Service の略。インターネットを利用したコンピュータの利用形態である。IaaSでは、コンピュータシステムを構築および稼動させるための基盤(仮想マシンやネットワークなどのインフラ)そのもの

        OpenStack と OpenShift の関係って? - ts0818のブログ
      • Migrating Apache Spark workloads from AWS EMR to Kubernetes

        IntroductionESG research found that 43% of respondents considering cloud as their primary deployment for Apache Spark. And it makes a lot of sense because the cloud provides scalability, reliability, availability, and massive economies of scale. Another strong selling point of cloud deployment is a low barrier of entry in the form of managed services. Each one of the ‘Big Three’ cloud providers co

          Migrating Apache Spark workloads from AWS EMR to Kubernetes
        • データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート ~データ基盤システム編~ | gihyo.jp

          「実践的データ基盤への処方箋」輪読会のレポートは、以下の記事に分けて掲載しています。 データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート 〜データ整備編〜(第1回) データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート ~データ基盤システム編~(今回) データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート 〜データ組織編〜(第3回) 2022年1月から2月にかけて、データエンジニアリング、データ活用の知見の共有を目的としたコミュニティdatatech-jpおよび株式会社風音屋の協力のもと「実践的データ基盤への処方箋」の輪読会がオンライン形式で開催されました。輪読会は3回に分けて開催され、合計9名の発表者と、多くの参加者が集まり、さまざまな議論が交わされました。本稿ではこの輪読会の第2回の様子をダイジェストで紹介します。 データ収集は試行錯誤

            データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート ~データ基盤システム編~ | gihyo.jp
          • Apache Software Foundation retires slew of Hadoop-related projects

            Apache Software Foundation retires slew of Hadoop-related projects Retirements of 13 big data-related Apache projects -- including Sentry, Tajo and Falcon -- have been announced in 11 days. It looks like the idealistic days of Hadoop and big data are officially over. It's been no secret lately that Apache Hadoop, once the poster child of big data, is past its prime. But since April 1st, the Apache

              Apache Software Foundation retires slew of Hadoop-related projects
            • データレイクとストリームデータ処理を理解する

              はじめに 前回は、DX時代のデータ活用のトレンドと3大クラウドベンダのデータ活用サービスの概要を説明した。 今回のテーマであるIoTデバイスやWebアプリケーションが生成するストリームデータの処理は、従来型のデータウェアハウス(Data Warehouse)とは大きく異なる特性がある。そこで今回は、各社のクラウド・サービスを理解し、比較するための基礎知識として、以下の項目を説明する。 データウェアハウスとデータレイク(Data Lake)の違いバッチ処理とストリームデータ処理の違いデータ分析で知っておきたいこと データウェアハウス、データレイクとは何か データ活用と聞いてデータウェアハウスやビジネスインテリジェンスツールを思い浮かべる人も多いだろう。また近年はデータレイクという用語も登場している。特に、データウェアハウスとデータレイクは大きく異なるものなので、注意したい。 データウェアハウ

                データレイクとストリームデータ処理を理解する
              • 最新のDWH、ETLの技術的背景について"超ざっくり"とまとめる - Qiita

                はじめに DWHおよびETLで必要とされる大規模な処理がどういう背景と考え方で実現されているのか"超ざっくり"まとめます。 データ処理技術のトレンド まずはETL処理に関してです。DWHもそうですが、分散処理がキーワードとなります。 求められるBigdataへの対応 いわゆる3V(Variety,Velocity,Volume)で定義されることの多いBigdataの出現に伴い、それを分析処理するソフトウェアにはまず第一に「大量のデータに対する処理を現実的な時間内で終わらせること」が求められました。 分散処理フレームワークの台頭 大量のデータを効率的に処理させるための対応として、Hadoopと呼ばれるような処理技術が利用されるようになりました。 Hadoopは以下のような仕組みで大量データを効率的に処理することを実現しました。 「データを分割して多数のサーバーで処理」(Map) 「それぞれの

                  最新のDWH、ETLの技術的背景について"超ざっくり"とまとめる - Qiita
                • RedisとApache HBaseで高性能・高信頼性・高可用性なストレージを LINEアプリの大規模トラフィックを支えるストレージ

                  2020年11月25〜27日の3日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2020」がオンラインで開催されました。そこでLINE Z Part チーム シニアソフトウェアエンジニアのルカデテナ ハビエル アキラ 氏が、「LINEアプリにおける大規模トラフィックを支えるストレージ」について共有。前半はRedisとApache HBaseを使ったストレージについて紹介しました。 ルカデテナ ハビエル アキラ氏:ハビエル アキラ ルカデテナと申します。2017年からLINEのソフトウェアエンジニアとして働いています。今日は、LINEのメッセージングアプリケーションのトラフィック・インテンシブ・ストレージについてお話しします。 まずはメッセージングアプリケーションを紹介して、そのストレージの要件とApache HBaseでどうやってその

                    RedisとApache HBaseで高性能・高信頼性・高可用性なストレージを LINEアプリの大規模トラフィックを支えるストレージ
                  • MLOpsことはじめ ~実験管理導入と学習基盤の構築~ | フューチャー技術ブログ

                    はじめにはじめまして、Strategic AI Group(以降SAIG)に在籍しています、2019年度入社の真鍋です。学生の頃よりクラウドやHadoop等、大規模分散システムの研究をしていました。その経験と私自身の希望もあり、SAIGでは主にインフラ担当として業務に取り組んでいます。 今回は私がAI分野のインフラに触れ、MLOpsを知り、SAIG全体で利用する学習基盤を構築するまでに得た知見を、一部ではありますが共有させていただければと思い筆を取りました。MLOpsについて興味を持たれていて、具体的な取り組みについて知りたいといった方に読んでいただければ幸いです。 概要本稿は下記の内容で構成しています。 MLOpsとは SAIGの課題 施策1:実験管理についての取り組み 施策2:SAIG学習基盤の構築 まとめと今後の展望 1. MLOpsとは私がアサインされたSAIGは、フューチャーの一

                      MLOpsことはじめ ~実験管理導入と学習基盤の構築~ | フューチャー技術ブログ
                    • Avro,SchemaRegistryことはじめ - Qiita

                      はじめに 30才になったのを機にアウトプットを意識していこうと思います。 最初のテーマは地味ですが、ご興味あれば。 現在、自分は、Hadoop,Spark,Kafka,Fluentdなどを導入し、社内のログ基盤を整えようとしています。 Kafkaでシリアライズするには、Avro,SchemaRegistryを利用するのがメジャーであるが、 何も考えずにすぐ動くAvroのソースや一歩踏み込んだ説明がなかなか見つからず、なかなか理解できず苦しんだので、誰かの助けになればと思います。 SchemaRegistryはAvroについて理解できれば難しくないと思うので軽く触れる程度です。 また、コードはGitHubにあげてますので、参考までに。 なお、基本的に既に良質なものがあればリンクだけ張って、説明はそちらに譲るというスタンスでいきます。 Avroとは 1分で読めるので、Avro本家のOvervi

                        Avro,SchemaRegistryことはじめ - Qiita
                      • 【万が一に備えよう】クラウドの高額請求が届いたときの対処法とは? | 株式会社トップゲート

                        削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                          【万が一に備えよう】クラウドの高額請求が届いたときの対処法とは? | 株式会社トップゲート
                        • Snowflake vs. BigQuery 選択ガイド

                          ビジネスのニーズや目的に適したデータウェアハウスを選定することは、ビッグデータ戦略の重要な要素です。残念なことに、あまりにも多くの企業が、自社に最適なデータウェアハウスをどのように選択すれば良いかという問題に悩んでいます。 大方の予測では、データウェアハウスのプロジェクトの60~70%は失敗するとされています。。その理由は、コストや時間の見積もりが悪かったり、組織内の賛同が得られなかったり、最初から間違ったテクノロジーを選択していたりと、さまざまな理由があります。 しかし、データウェアハウス・プロジェクトが成功すれば、強力なROIを実現し、より鋭いデータドリブンなインサイトを提供することでビジネスを変革することができます。 Snowflake、Google BigQuery、Amazon Redshiftは、成熟した堅牢なクラウドベースのデータウェアハウスの巨人であり、何千もの顧客に利用さ

                            Snowflake vs. BigQuery 選択ガイド
                          • AWS Glueデータカタログのスキーマが後から変更された際の挙動について調べてみた | DevelopersIO

                            Terraformのテンプレート variablesの部分をお好みで変更してください。 # Terraform Setting terraform { required_version = "0.12.6" } # Provider provider "aws" { region = "ap-northeast-1" } # Kinesis Firehose resource "aws_kinesis_firehose_delivery_stream" "firehose_delivery_stream" { name = "${var.firehose_name}" destination = "extended_s3" extended_s3_configuration { bucket_arn = "${aws_s3_bucket.s3_bucket.arn}" buffer_int

                              AWS Glueデータカタログのスキーマが後から変更された際の挙動について調べてみた | DevelopersIO
                            • クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説! | 株式会社トップゲート

                              削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説! | 株式会社トップゲート
                              • [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 | DevelopersIO

                                [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。 先日2024年02月20日(火)、クラスメソッド株式会社と株式会社メソドロジックの共催イベント『【毎週開催】メソドロジック社共催!イチから始めるデータ活用!8週連続ウェビナー』の第1回開催回である『データメッシュによるデータガバナンス編』を開催しました。 当エントリではその内容についてレポート致します。 目次 イベント概要 イベントレポート データ活用支援サービスのご紹介 イチから学ぶデータメッシュによるデータガバナンス 全体質疑応答 まとめ イベント概要 第1回目となる今回取り扱うテーマは『データメッシュによるデータガバナンス』です。 イベントレポート データ活用

                                  [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 | DevelopersIO
                                • 急成長する《現場》の、データエンジニアというお仕事。 - Qiita

                                  なんの話? 三行で。 サービスが急成長しデータ量が増えた際にデータエンジニアリングは必要とされる。 エンジニアリングに必要なスキルセットは比較的明確で、駆け出しエンジニアにもポジションあるよ。 データエンジニアリング業務を経て、データサイエンティストなど他職種にランクアップすることは可能。 [おまけ1] "data+engineer+positionでググる"と、主に海外のData Engineer(DE職)のお仕事が入門者レベルからエキスパートレベルまで見つかるよ...Tokyoをつけると、東京でのDE職も見つかる。転職活動で普通に有用。 *[おまけ2] 末尾におまけとして、現在私が取り組んでいる『2020年代のデータ分析基盤の基本設計』に関して日々調べていることを、公開できる範囲で書いておきたい(内容はコメント欄に随時更新)。実際のデータエンジニアリング実務の一端を知ってもらう意味で。

                                    急成長する《現場》の、データエンジニアというお仕事。 - Qiita
                                  • プライベートクラウド「Verda」の20代エンジニアが感じたこと LINEのインフラ開発の魅力とは

                                    Verdaに関わる20代エンジニアたちの仕事 城倉弘樹氏(以下、城倉):「Verdaに関わる20代の若手エンジニアが語る、インフラ開発エンジニアの魅力」というテーマで、カジュアルセッションを始めたいと思います。よろしくお願いします。 このセッションは、LINEの基盤がVerdaというプライベートクラウドの上で動いているんですけど、それに関わっている比較的若めなエンジニアがしゃべるカジュアルなセッションです。 アジェンダは、まず我々の自己紹介をしたのち、Verdaというのがどうなのか、何なのかを簡単に紹介します。そのあとはここにディスカッションと書いてあるトピックのとおり、入ってどう変わったか、自分たちの強みだなどのポイントに関してかいつまんでしゃべっていこうかなと思っています。 みなさんは「LINE LIVE」のQ&Aで質問できるんですけど、そこに書いてある質問が適宜取り上げるべき内容だっ

                                      プライベートクラウド「Verda」の20代エンジニアが感じたこと LINEのインフラ開発の魅力とは
                                    • 技術的ゼネラリストがますます重要になる理由 - Yuichi Murata's Engineering Blog

                                      開発組織のマネジメントについて議論していると「専門性人材が活躍できる職場づくり」「専門性人材のためのキャリアパス」といったフレーズを良く耳にする。『専門性人材=技術的』という無意識の仮定をおいてしまっていないだろうか。一昔前ならこの仮定は成り立っただろう。だが、今となっては小学校からプログラミング教育を実施するし、専門学校はたくさんある。転職市場には新卒教育で技術的スキルを身に着けた人材があふれている。もはやプログラミングやシステム開発の知識は専門的ではない。リテラシーとなりつつある。こうした背景の中で、『専門性人材=技術者』と仮定してしまうと技術者キャリアの本質を見落としてしまうのではないかと思う。 特に思うのが、技術的ゼネラリストの重要性である。ココの人材が組織に一人いるだけで組織が生み出すシステムの全体感がぐっと高まる。この記事では技術的ゼネラリストとその重要性について議論する。 開

                                        技術的ゼネラリストがますます重要になる理由 - Yuichi Murata's Engineering Blog
                                      • The state of the AWK [LWN.net]

                                        Please consider subscribing to LWNSubscriptions are the lifeblood of LWN.net. If you appreciate this content and would like to see more of it, your subscription will help to ensure that LWN continues to thrive. Please visit this page to join up and keep LWN on the net. AWK is a text-processing language with a history spanning more than 40 years. It has a POSIX standard, several conforming implemen

                                        • Applied-ML Papers

                                          Curated papers, articles, and blogs on machine learning in production. Designing your ML system? Learn how other organizations did it. Star Table of Contents Data QualityData EngineeringData DiscoveryFeature StoresClassificationRegressionForecastingRecommendationSearch & RankingEmbeddingsNatural Language ProcessingSequence ModellingComputer VisionReinforcement LearningAnomaly DetectionGraphOptimiz

                                            Applied-ML Papers
                                          • 非中央集権型データマネジメント データメッシュとは

                                            データ活用を目指す様々な企業がデータ基盤を整備してきたが、それによる業務変革に成功した企業は多くない。「データを業務に活かす」ためのデータマネジメントとデータアーキテクチャの手法として今注目を浴びている「データメッシュ」を紹介する。 目次データレイクの課題 分断、統合、また分断新たなデータマネジメントのかたち データメッシュデータメッシュによって生まれる価値と課題「現場」主導のデータ活用への挑戦データレイクの課題 分断、統合、また分断この20年以上、データに関わる業界では、「データがサイロ化している、統合しなければならない」と言われ続けてきました。システムや業務ごとのサイロ化を解消し、データを統合すれば新たなインサイトが生まれ、価値を創出できるという言説です。実際、データのサイロ化の課題感は非常に浸透しており、それを解消するための技術や体制を取り入れる企業は多くなっています。 テクノロジー

                                              非中央集権型データマネジメント データメッシュとは
                                            • LinkedIn製のOSSデータカタログ「DataHub」の概要とチュートリアル | DevelopersIO

                                              どうも!DA部の春田です。 先日までre:Invent2020のAnalytics系のセッションレポートを書いていたのですが、海外企業のほとんどがデータポータルなるものを構築・稼働させていた点が印象的でした。このデータポータルを構成する要素の中でも、最近データカタログというサービスが注目を集めており、まだ成熟しきっていない分野ですが、探してみると新興OSSが結構見つかるんですよね。 さて、その中でも今回はLinkedIn製のOSSデータカタログ、DataHubについてご紹介していきたいと思います。 DataHubとは? DataHubは一言で言うと、データソースのメタデータの検索とディスカバリーを実現するツールです。LinkedIn社の長年のメタデータ管理の経験の末、設計思想として以下の5点が掲げられています。 DataHub: A generalized metadata search

                                                LinkedIn製のOSSデータカタログ「DataHub」の概要とチュートリアル | DevelopersIO
                                              • クラウドデータベース・アナリティクス技術の進化について|Eugene Kawamoto / 川本雄人

                                                クラウドの世界にいると、面白いことに当事者であってもマーケットポテンシャルは正確に理解していなく、伸びるマーケットは想像を超えて大きくなって行きます。AWSでクラウドデータベースやアナリティクスと言う領域で10年以上携わってきたが、そんなマーケットの広がりや様々な技術の進化について考察します。 クラウドデータベース・アナリティクス技術の進化10年前はリレーショナルデータベースに代表される領域が引き続き主流となりここから派生するオープンソース技術(MySQLやPostgreSQLなど)がほとんどのマーケットシェアを占めると思っていましたが、それは大きな間違いでした。データの様々なニーズに応えるべく、新しい技術が次々と開発されました。 当時からクラウドストレージのスタンダードになっていたS3があることで、安価に大量のデータを安全にストアすることが出来、データのニーズは益々増えていく確信はあった

                                                  クラウドデータベース・アナリティクス技術の進化について|Eugene Kawamoto / 川本雄人
                                                • 最近のRDBMSとGISザッピング2020 | キムラデービーブログ

                                                  オープンソースデータベースを加速する「キムラデービー」のブログです。カレー日記を兼ねてます。なお著者は2010-06-01より日本オラクルに在籍していますが、本サイト(ブログ、またはウェブサイト)において示されている見解は、私自身の見解であって、オラクルの見解を必ずしも反映したものではありません。 最近のRDBMSとGISザッピング この日記は、RDBMS-GIS(MySQL,PostgreSQLなど) Advent Calendar 2020 の15日目の記事です。 # 遅れて実際は2021-01-01に書いています。 最近はJSONが熱い! と思ってましたが、まさかのGISが熱いRDBMS界隈です。 なんかいろいろ試してみたかった本ブログエントリですが、ネタとそれにかける時間がなく、 テキトーにRDBMS & GIS でザッピングしてみましたー。 1.Oracle DB 去年のエントリ

                                                    最近のRDBMSとGISザッピング2020 | キムラデービーブログ
                                                  • What's so great about Go? - Stack Overflow

                                                    To paraphrase the indie band Cracker, what the world needs now is another programming language like I need a hole in the head. That said, Go has slowly but surely inundated the development world like a creeping vine, covering everything that came before it in a lush—and in many ways superior—cover of programming power. With its growing popularity, there are a number of reasons you should take a cl

                                                      What's so great about Go? - Stack Overflow
                                                    • Web API The Good Parts

                                                      Technical Notes ▼ IDE ▼ IntelliJ PhysicalSimulation ▼ mechanics ▼ 質点の運動 DataMining ▼ 時系列データ分析 ▼ ホワイトノイズ(白色雑音) models ▼ GARCH モデル 自己回帰モデル(AR モデル) ARCH モデル 見せかけの回帰 特異スペクトル変換 単位根過程 定常過程 ウェーブレット変換 Network ▼ ssl-server-certificate ▼ CSR ルート証明書 ネットワーク用語 Management ▼ 心理的安全性 オートクライン効果 QC 7つ道具 external-and-internal-career.md キャリア・アンカー 計画的偶発性理論 振り返り 権限移譲 Others ▼ Software ▼ Slack Jekyll Tex 数式 Principle ▼ ソ

                                                      • サーバーレス ETL 処理の使い分けを教えてください | DevelopersIO

                                                        困っていること サーバーレス ETL 処理を実装予定です。AWS ではサーバーレス ETL 処理の可能なサービスが幾つかあるのですが、どれを選択すれば良いか解りません。判断可能な基準などあれば教えてください。 どう対応すればいいの? AWS では 参考資料 [1](P9,41,42)記載の通り、軽量級タスクか、重量級タスクであるかを先ずは、サービス選択の判断ポイントにしています。 なお、今回はお困りの内容が「サーバーレス ETL 処理」の条件であるため、以下の AWS サービスが考えられます。 AWS Lambda AWS Glue(Python Shell, Apache Spark, Ray, DataBrew) (Amazon EMR) サーバーレス ETL 処理の使い分けにおいても、前途と同様に先ずはデータの規模やETL処理の中でやりたいことによって使い分けることで選定してください

                                                          サーバーレス ETL 処理の使い分けを教えてください | DevelopersIO
                                                        • Apache Flinkを使いKinesisストリームデータを処理する

                                                          ※上記はあくまで私の視点での評価です。Akkaの熟練者であれば評価が変わると思います。 Akkaを使いたかってみたったのですが、学習コストが他と比較してかかってしまうため今回はFlinkを使うことにしました。 またAkkaに詳しい方より、「Akkaはフレームワークではなく、ライブラリなので、フレームワークはAkkaをベースに作ってくれ」 という立ち位置であり、フレームワークと比較するとトレーサビリティなどで見劣りするかもしれませんと教えて頂きました。 後で後述しますが、Flinkにも内部でAkkaが使われていて、Akkaベースで作られておりました。 AkkaはSpark、またはFlinkよりも低レベルのライブラリで、より多くのパワーがあるが、考慮すべき考慮事項も多くなるということだということかなと思います。 Flinkの強み データの保証 Exactly once メッセージは欠損も重複も

                                                            Apache Flinkを使いKinesisストリームデータを処理する
                                                          • LINEには開発に専念できる環境がそろっている 機械学習・データ基盤開発・AIサービス開発部門でサーバーサイドエンジニアとして働く意義

                                                            エンジニアの1日の業務の流れ、打ち合わせの方法や頻度など 三木鉄平氏(以下、三木):質問がたくさん届いているので、まず上からいきたいと思います。「エンジニアの1日の業務の流れ、打ち合わせの方法や頻度などを教えてください」。これは順番に3部門に答えていただきましょうか。まず機械学習の部門はどうでしょう。 大東哲平氏(以下、大東):だいたい1日の業務の流れだと、出勤というかノートPCをつけてから、人によりますが、チームごとに会議があります。私の場合はインフラエンジニアの定例会議が週に1回か2回、さらにMachine Learning室の会議も2回ありますね。 樋村隆弘氏(以下、樋村):DSP MLチームも業務の流れはだいたいたぶん一緒だと思います。打ち合わせについては、先ほど大東さんからあったとおり、Machine Learning室として週に2回、各自の進捗を話したり、リリース情報や障害対応

                                                              LINEには開発に専念できる環境がそろっている 機械学習・データ基盤開発・AIサービス開発部門でサーバーサイドエンジニアとして働く意義
                                                            • Amazon AthenaのPartition Projectionを使ったALB Access Logの実例 (w/ terraform & glue catalog) - Gunosy Tech Blog

                                                              こんにちは、グノシー広告技術部、Adnwチームでマネージャーをやっているサンドバーグです! この記事は Gunosy Advent Calendar 2020 18日目の物となります。 昨日はsyouitさんの変更に強いリスト面とUICollectionViewの話でした。 内容としては弊社のiOSアプリでUITableViewの代わりにUICollectionViewを使っている理由と利点でした。 自分はiOSの開発やアプリ開発自体には関わることがほぼないのですが、わかりやすい説明だったので、まだ読まれていない方は是非読んでください! はじめに 使ったツール・サービス・機能 Terraform Amazon Athena Link Partition Projection Link ALB Access logs Link 実装 Terraform - バケット・バケットポリシーの作成

                                                                Amazon AthenaのPartition Projectionを使ったALB Access Logの実例 (w/ terraform & glue catalog) - Gunosy Tech Blog
                                                              • プロダクトのあちこちに使われている技術 マシンラーニング領域におけるLINEの開発事例

                                                                LINE、ディー・エヌ・エー、サイバーエージェントにより合同で開催された「機械学習エンジニア 新卒採用説明会」。LINE社からは、Machine Learning Solution室およびMachine Learning Platform室室長の菊地悠氏が登壇。マシンラーニング領域における開発事例や働き方を紹介しました。 菊地氏の自己紹介とアジェンダ紹介 菊地悠氏:LINEの菊地と申します。今日はよろしくお願いします。私はMachine Learning Solution室とMachine Learning Platform室という2つの部署を見ています。私自身はプロダクトマネジメントを主に仕事としてやっていて、プラスアルファで組織を見ています。 私自身の過去の経歴は書いてあるとおりですが、機械学習をずっと専門にしていたというよりは、さまざまな分野をけっこうとっかえひっかえやって今に至って

                                                                  プロダクトのあちこちに使われている技術 マシンラーニング領域におけるLINEの開発事例
                                                                • 順調なスタート: Twitter に Google Cloud BigQuery を導入するためのリソース階層 | Google Cloud 公式ブログ

                                                                  ※この投稿は米国時間 2022 年 6 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。 編集者注: BigQuery へのオンプレミス データ ウェアハウジングの移行の一環として、Twitter と Google Cloud の両チームで Google Cloud リソース階層アーキテクチャを構築し、Hadoop 分散ファイル システム(HDFS)と BigQuery の 1 対 1 のマッピングを実現しました。スケーラビリティとセキュリティを重視して設計されたこのアーキテクチャは、HDFS / Google Cloud Storage(GCS)データ レイアウト構造とアクセス制御をミラーリングすることで BigQuery のスムーズな導入を実現するよう設定されており、スケーラブルなコンピューティングの導入が可能です。このブログ記事作成にご協力いただいた

                                                                    順調なスタート: Twitter に Google Cloud BigQuery を導入するためのリソース階層 | Google Cloud 公式ブログ
                                                                  • Modern Data Lakes Overview | Developer.sh | Analytics [ Consulting | System Integration | Services ]

                                                                    BackgroundAs Data volumes grow to new, unprecedented levels, new tools and techniques are coming into picture to handle this growth. One of the fields that evolved is Data Lakes. In this post we'll take a look at the story of evolution of Data Lakes and how modern Data Lakes like Iceberg, Delta Lake are solving important problems. Traditionally Data Warehouse tools were used to drive business inte

                                                                      Modern Data Lakes Overview | Developer.sh | Analytics [ Consulting | System Integration | Services ]
                                                                    • AWSのマネージドAirflow "MWAA" 所感

                                                                      Google Cloud Composerのリリース(2018年7月19日GA)から遅れること2年数ヶ月、AWSは2020年11月24日に Managed Workflows for Apache Airflow (MWAA) をリリースした。 Introducing Amazon Managed Workflows for Apache Airflow (MWAA) それから1年、遅ればせながら自分でも軽く試してみた。AWSコンソールからAirflow UIに飛ぶのに違和感を覚えつつも1、種々のAWSサービスとの連携を考えると「むしろなんで今まで無かったんだろう」という気さえする。 概要 公式のデモ動画が分かりやすいので、まずはそれを見てみよう。 ポイントは次の通り。 DAGファイル(Pythonコード)は専用のS3バケットに置く OSSのAirflowに完全準拠 (事前に設定した上限値

                                                                        AWSのマネージドAirflow "MWAA" 所感
                                                                      • RocksDB Is Eating the Database World

                                                                        Hear talks on search and AI from engineers at Netflix, DoorDash, Uber and more. A Brief History of Distributed Databases The era of Web 2.0 brought with it a renewed interest in database design. While traditional RDBMS databases served well the data storage and data processing needs of the enterprise world from their commercial inception in the late 1970s until the dotcom era, the large amounts of

                                                                          RocksDB Is Eating the Database World
                                                                        • Uberの機械学習基盤Michelangelo (ミケランジェロ)

                                                                          要点Uberの機械学習基盤MichelangeloはUberのすべてのトランザクションデータとログデータを保存するデータレイクであり、同社の機械学習、データサイエンスのためのデータソースとその加工を一手に支えており、同社が配車マッチング、ダイナミックプライシング、食品配達マッチング等の製品を投入するのを助けている。 Uberのエンジニアリング部門は人工知能(AI)と機械学習(ML)への投資を増やしていることで知られている。Uberでは、この分野への貢献として、機械学習を民主化し、AIをビジネスのニーズに合わせてスケーリングすることを、乗車をリクエストするのと同じくらい簡単にできるようにする、社内のML-as-a-serviceプラットフォームであるMichelangelo(ミケランジェロ)を構築している。 Michelangeloは、社内チームがUberの規模で機械学習ソリューションをシー

                                                                            Uberの機械学習基盤Michelangelo (ミケランジェロ)
                                                                          • Welcome to AWS Storage Day 2020 | Amazon Web Services

                                                                            AWS News Blog Welcome to AWS Storage Day 2020 Our first-ever Storage Day in November 2019 (Welcome to AWS Storage Day) was a big success. We were able to take a multitude of significant announcements related to AWS Storage services and summarize them in a single post, with longer and more detailed posts as needed. Today, we are doing it again, so welcome to AWS Storage Day 2020! If you use Amazon

                                                                              Welcome to AWS Storage Day 2020 | Amazon Web Services
                                                                            • データ分析における課題を解決する「データ仮想化」とは?(5) 機械学習(ML)の利用を容易にするデータ仮想化

                                                                              データ活用・統合の新潮流であるデータ仮想化について、背景や需要、ユースケースを紹介する本連載。前回は、IT業界のトレンドの1つであるエッジコンピューティングとデータ仮想化について説明しました。今回は、機械学習(ML)とデータ仮想化について見ていきます。 機械学習利用における課題を解決 著名なコンピューター科学者であり、機械学習の先駆者でもあるTom M. Mitchell(トム・M・ミッチェル)氏は、機械学習を「経験により、コンピュータープログラムの自動的な改善を可能にするコンピューターアルゴリズムに関する研究」と定義しています。言い換えれば、機械学習とは、膨大な量のデータを与えてコンピューターアルゴリズムを訓練し、与えたデータに基づいてアルゴリズムにデータ駆動型の推奨をさせることを可能にする、コンピューターサイエンスの一分野です。 このアルゴリズムは、エラーに関連する情報を特定し、将来的

                                                                                データ分析における課題を解決する「データ仮想化」とは?(5) 機械学習(ML)の利用を容易にするデータ仮想化
                                                                              • サイトマップ

                                                                                金子研究室ホームページサイトマップ. 金子研究室ホームページでは,約2000ページを公開している.ページは,データベース関連技術,データの扱い,インストール,設定,利用,プログラミング,サポートページ,連絡先,業績に分けて構成している.サイトマップでは,ホームページ内の全てのページについてのサイトマップを示している. 【サイト構成】 人工知能 3次元,地図 プログラミング 情報工学全般 インストール データ処理 支援 連絡先,業績など 金子邦彦研究室 ▶ サイトマップ ▶ サイト内検索 ▶ アクセスログ(直近28日分), Google Search Console ▶ まとめページ(目次ページ) ▶ 人工知能応用,データ応用,3次元のまとめ ▶ Windows のまとめ ▶ Ubuntu の使い方 ▶ Python のまとめ(Google Colaboratory を含む) ▶ C/C++

                                                                                • Resilience Engineering on Kubernetes

                                                                                  Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...NTT DATA Technology & Innovation

                                                                                    Resilience Engineering on Kubernetes