並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 119件

新着順 人気順

gsutilの検索結果1 - 40 件 / 119件

  • GitHub Actions入門 ── ワークフローの基本的な構造からOIDCによる外部サービス認証まで - エンジニアHub|Webエンジニアのキャリアを考える!

    GitHub Actions入門 ── ワークフローの基本的な構造からOIDCによる外部サービス認証まで GitHubが公式に提供するGitHub Actionsは、後発ながらよく使われるワークフローエンジンとなっています。本記事では、藤吾郎(gfx)さんが、典型的なCI/CDのユースケースに即したワークフローの設定と管理について解説するとともに、注目されているGitHub OIDC(OpenID Connect)の利用についても紹介します。 GitHub Actionsは、GitHubが提供するCI/CDのためのワークフローエンジンです。ワークフローエンジンは、ビルド、テスト、デプロイといったCI/CD関連のワークフローを実行し、定期実行するワークフローを管理するなど、開発におけるソフトウェア実行の自動化を担います。 ▶ GitHub Actions - アイデアからリリースまでのワーク

      GitHub Actions入門 ── ワークフローの基本的な構造からOIDCによる外部サービス認証まで - エンジニアHub|Webエンジニアのキャリアを考える!
    • GCPにクラウドゲーミングPCを用意してQuest2 + VirtualDesktopでVRゲームを遊ぶ - TouTouTree

      はじめに 誰向け ことわり 事前に用意するもの 手順 GCPでの前準備 VMインスタンスの作成 インスタンスの実行とRDPでの接続確認 VR用ゲーミングPCの環境構築 最新のNVIDIAドライバーのインストール Oculus、Steam、VirtualDesktop、VRChatなどのVRゲームのインストール、マイクの設定 ファイアウォールの設定 インスタンスを起動しVRアプリケーションを起動する。 インスタンスの停止 パフォーマンス 費用 GCP VirtualDesktop その他のトラブルシューティングなど RDPの接続が上手くいかない。RDPを切断するとVirtualDesktopが繋がらなくなる。VirtualDesktopで接続後すぐに切断される。 Oculusのインストール時のエラー Virtual Desktopでネットワークプロフィールに関するWarning 「VRCha

        GCPにクラウドゲーミングPCを用意してQuest2 + VirtualDesktopでVRゲームを遊ぶ - TouTouTree
      • GCP の Application Default Credentials を使った認証 - ぽ靴な缶

        公式ドキュメントで説明されているけど、同僚に何度か説明する機会があったり、作る必要のないサービスアカウントキーを目にすることも多いのでまとめておく。 認証情報が登場しないアプリケーションコード 例えば以下のコードで Secret Manager に保存したトークンを取得することができる。SecretManagerServiceClient にサービスアカウントキーを渡さずとも動作する。 const {SecretManagerServiceClient} = require('@google-cloud/secret-manager'); const client = new SecretManagerServiceClient(); (async () => { const [secret] = await client.accessSecretVersion({ name: 'proj

          GCP の Application Default Credentials を使った認証 - ぽ靴な缶
        • モノレポの開発環境でDocker ComposeをやめてTaskfileを導入した話

          こんにちは、Sally社 CTO の @aitaro です。 マーダーミステリーアプリ「ウズ」とマダミス制作ツール「ウズスタジオ」、マダミス情報サイト「マダミス.jp」を開発しています。 はじめに この記事ではウズの開発当初から利用していた Docker Compose をやめることにした背景についてご紹介します。 Docker Compose は各マシンの開発環境での差異を吸収するというメリットがあり、多くの開発現場で導入されていますが、Docker Composeの抱えているデメリットを勘案して、最終的に一部を残して辞める決断をしました。 Docker Composeの特徴 Docker Composeは、複数のコンテナを定義し、管理するためのツールです。ウズの開発環境では、バックエンド、フロントエンド、データベースなどをそれぞれコンテナ化して、Composeで一括管理していました。こ

            モノレポの開発環境でDocker ComposeをやめてTaskfileを導入した話
          • バッチ処理のスケジューリングパターン

            この記事はこの記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 12日目の記事です。 はじめにGoogle Cloud Platform (GCP) でバッチ処理を起動するための以下のパターンについてご紹介したいと思います。以下、8パターンあげてみました。とはいえ、最後の3つは GCP のバッチスケジューリングという観点からは少し外れますが、バッチの起動時に使われるということでご容赦を。 Cloud Scheduler : フルマネージドな cron ジョブスケジューラです。フルマネージドという点が非常に大きなメリットであり、多くの処理を自動化し実行することが可能です。Google App Engine cron サービス : HTTP GET を利用して、特定の URLを呼び出します。Google AppEng

              バッチ処理のスケジューリングパターン
            • お手軽な検索API構築 | メルカリエンジニアリング

              こんにちは、メルペイソリューションチーム所属エンジニアの@orfeonです。 この記事は Merpay Tech Openness Month 2021 5日目の記事です。 メルペイソリューションチームでは、社内向けの技術コンサルや技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。 自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。 この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。 基本的なアイデア 全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二

                お手軽な検索API構築 | メルカリエンジニアリング
              • PythonでApache beam 入門

                2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。 興味が湧いたモチベーションとしては、 データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列

                  PythonでApache beam 入門
                • 10TB超えのBigQuery巨大データを高速にS3に同期する - ZOZO TECH BLOG

                  こんにちは。SRE部MA基盤チームの川津です。 私たちのチームでは今年サービスを終了した「IQON」の10TBを超える大規模データをBigQueryからS3へ移行しました。本記事ではデータ移行を行った際に検討したこと、実際にどのようにデータ移行を行ったかを紹介します。 データ移行の経緯 IQONは2020年4月6日をもってサービスを終了しました。そのIQONではデータ分析にBigQueryを利用していましたが、Amazon Web Services(AWS)上にもIQONに関するリソースが存在します。そのため、IQONはGCPとAWSの2つのクラウドで運用していました。 しかし、サービス終了に伴いGCP・AWSどちらかにリソースを統一する必要が出てきました。統一する意図としては、終了したサービスが利用する取引先を減らし、請求対応などの事務的なコストを減らしたい意図がありました。そのためGC

                    10TB超えのBigQuery巨大データを高速にS3に同期する - ZOZO TECH BLOG
                  • GCPで基本に戻って始める実践 Infrastructure as code再入門#1 - VISASQ Dev Blog

                    こんにちは! 2020年2月からSREチームにJoinしました木村です! 仕事をする上での座右の銘は「明日交通事故にあってもシステムと仕事を回せるようにすること」です。 基本に戻って始める。と表題では書いていますが、私元々はAWS職人でGCPに本格的にコミットしてからまだ3ヶ月位です! なのでヒィヒィ?言いながらGCPのキャッチアップに努めているわけですが今回は過去にAWSで得たInfrastructure as Codeの知識とビザスクに入社してキャッチアップで培ったGCPの知識を元に基本に戻って始めるGCPのInfrastructure as Code再入門ということで書かせていただきます。 尚実際に書き始めたら量が膨大になってしまったのでいくつかパートに分けて 書いていきたいと思っております。 今回やること GCPのCompute Engineをスコープとして Terraformを使

                      GCPで基本に戻って始める実践 Infrastructure as code再入門#1 - VISASQ Dev Blog
                    • シェルスクリプトの長所と短所のまとめ - Qiita

                      はじめに シェルスクリプトに関しての長所と短所をまとめてみました。多くの短所を上げていますが、私はシェルスクリプトを嫌っているわけではなく(むしろ逆)、現在のシェルスクリプトが抱える問題点を明らかにし、シェルスクリプトはどう使うべきか? またはどう使うべきではないか? 問題点があるならばそれを解決することはできないか? を考えるためにまとめています。問題を解決するにはまず問題点を明らかにしなければいけません。 またシェルスクリプトを本来の用途に合わないものに使うと逆に開発が難しくなってしまいます。それは使い方が悪いわけでシェルスクリプトの問題ではありません。間違った使い方によってシェルスクリプトの価値が不当に下げられてしまうことを減らすために、あえて多くの短所をあげています。つまり最初からこんな用途に使おうと思うな。ということです。(使うことを禁止はしませんが、わかった上でやりましょう。実

                        シェルスクリプトの長所と短所のまとめ - Qiita
                      • Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし

                        機械学習ワークフロー管理ツールであるKubeflowのPipelines機能を使って日本語テキスト分類の実験管理を行います。 この記事ではKubeflowのチュートリアルに従ってKubeflowのクラスタを構築してPipelinesを動かし、最後に日本語のデータセットをKubeflow Pipelinesに実際に乗せて機械学習のワークフロー管理を行うところまでまとめていきます。 Kubeflow Kubeflowとは Pipelinesとは GKEでKubeflowクラスタの構築 クラスタ構築 Workload Identityの設定 Pipelinesの基本的な使い方 Pipeline/Experiment/Run PipelineとComponent PipelineとDSL 実験管理としてのKubeflow Pipelines 日本語テキスト分類 with Pipelines Pip

                          Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし
                        • KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部

                          2020.10.05 KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ こんにちは。次世代システム研究室のY. O.です。 筆者はデータ分析のスキルアップのためにkaggleというデータ分析プラットフォームを活用しています。kaggleを始めてから約2年間を経て、スキルアップの枠を超え、趣味・生活の一部・etc.になってきてしまっているのも認めざるを得ません。。。 今回は、先日kaggleの自然言語処理コンペ(Tweet Sentiment Extraction)で2位になった結果を題材に、振り返りの意味を込めて”こうしておけば良かった”という点をMLOpsの観点でまとめていきたいと思います。 ここで、kaggleを取り巻くMLOpsの構成をKaggleOpsと勝手に呼ぶこととし、少なくとも筆者は今後のコンペでも以下にまとめ

                            KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部
                          • GoとGCSで100GBの巨大zipファイルを展開する | Re:Earth Engineering

                            はじめに ファイルをアップロードすることができる機能を持ったWebアプリケーションやクラウドサービスは世の中に多数あります。しかし、アップロードしたzipファイルを自動で展開(解凍)してくれて、中身のファイルが閲覧できる機能を持ったサービスは、あまり多くはないかもしれません。 もし、Google Cloud上で、zipファイルをアップロードし自動的に展開してGCSに配置するシステムを作るとしたら、どうやって実現すればよいでしょうか。たとえ100GBのzipファイルでも問題なく展開できるようにするには? そんな難題に挑み、GCSにアップロードされた100GB級のzip/7zファイルを自動的に展開することができるシステムをGoで実装し、プロダクションレベルで実現しました。その技術について解説します。 背景 PLATEAU VIEWの画面 Eukaryaでは、国土交通省が主導しているProjec

                              GoとGCSで100GBの巨大zipファイルを展開する | Re:Earth Engineering
                            • Cloud Runで手軽にサーバーレス・SSR(サーバーサイドレンダリング) - dely Tech Blog

                              こんにちはdelyでサーバーサイドエンジニアをしているyamanoiです この記事は「dely #2 Advent Calendar 2020」の12日目の記事です。 adventar.org adventar.org 昨日は@yochidrosさんの「KMMでiOS・Android
を共通化しよう」でした。 みなさんwebサイトを作成する時にSPAを利用していますか? SPAはユーザーに対してメリットが大きいですが、SEO観点やOGPタグのレンダリング等で SSRが避けられない場面に出くわすことがあると思います。 SSRが不要であればビルドして生成された成果物をs3等でホスティングするだけなのでデプロイや、運用が楽なのですが、 SSRをするとなるとNode jsの実行環境必要になります。 ある程度大きなプロジェクトであればECSやGKE, GAEに載せてガッチリと運用すべきだと思いますが

                                Cloud Runで手軽にサーバーレス・SSR(サーバーサイドレンダリング) - dely Tech Blog
                              • 【解説編】CircleCIからOIDCを用いて安全にGoogle Cloudにアクセスする - KAYAC Engineers' Blog

                                SREチーム(新卒)の市川恭佑です。これはカヤックSRE連載の2月号です。 よく見ると投稿日が3月になっていますが、どちらかと言うと2月が28日までしかない方に問題があるので、大丈夫です。(何が?) ということで、2023年も滑り出し好調のカヤックSRE連載ですが、前回の記事ではCircleCIからGoogle CloudにOIDCでアクセスする方法について、 ちゃんと動く(はずの)ソースコードをサクッと紹介いたしました。 techblog.kayac.com さて、Google CloudとCircleCIをお使いの皆様、もうOIDC対応は完了しましたか? 安心してください。私のプロジェクトでも一部未完遂です。(おい) ということで今回は、前回紹介したソースコードを深掘りして解説します。 私と同じように、途中でなんか面倒になって一旦塩漬けにしたら正直忘れかけてる長い道のりの途中にいる皆様

                                  【解説編】CircleCIからOIDCを用いて安全にGoogle Cloudにアクセスする - KAYAC Engineers' Blog
                                • もっとGCPが使いやすくなる!? GKE Config Connectorを試してみた!

                                  TL;DR先日、GAとなったConfig Connector を使うと、Kubernetes のリソースのようにGCPのリソースを作成・管理できます。 はじめに昨今、クラウドを利用することが増えてきたエンジニアの方々は、様々な構成管理システム、API、ツールなどを組み合わせてインフラを管理していると思います。これらの要素は、どんどん複雑化し把握するのも困難になってしまいがちです。Config Connectorは、Kubernetesを介して、Google Cloud Platform 上でリソースの構成をシンプルにしてくれます。 Config Connectorとは?Config Connector とは、Kubernetes を介して Google Cloud のリソースを管理出来るようにするための、Google Kubernetes Engine(GKE)のアドオンです。Agones

                                    もっとGCPが使いやすくなる!? GKE Config Connectorを試してみた!
                                  • Firebase Test Labで動かしていたiOSのE2Eテストを実機で動かして安定化させたら開発者の喜びが爆上がりした話 - Uzabase for Engineers

                                    本記事は、NewsPicks Advent Calendar 2022 の 12/14 公開分の記事になります。 こんにちは。NewsPicks SREチームの 海老澤 です。 今回は iOSのE2Eテストを実機で動かす上でのインフラ周りの設定方法を紹介しようと思います。 課題 構成図 詳細 cdk Mac側の処理 結果 課題 NewsPicksではサーバーリリース時に Firebase Test Labで iOSのE2Eテストを実行していました。 Firebase Test Labは時間帯(夕方くらいになると混んでくる傾向)によってはテスト開始が遅い場合があり、リリースサイクルを高速化するために実機iPhoneでの安定したE2Eテストの実行に取り組みました。 構成図 構成図は以下です。 まずリリース時にAWS Step Functionsから SQSにメッセージを送信し、S3のテスト結果

                                      Firebase Test Labで動かしていたiOSのE2Eテストを実機で動かして安定化させたら開発者の喜びが爆上がりした話 - Uzabase for Engineers
                                    • 複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ

                                      こんにちは、インフラの天津です。今日は 複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。 前提 モチベーション AWS Security Hub とは 構想 ツール・サービスの選定 検出結果データのエクスポートについて 可視化用データベース(またはクエリサービス)と可視化ツールについて 構築 全体像 検出結果データエクスポート 検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件 自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->

                                        複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
                                      • Cloud Buildで何かを定期的に実行するノウハウ | メルカリエンジニアリング

                                        この記事は、Merpay Advent Calendar 2022 の10日目の記事です。 こんにちは。メルペイ Data Management TeamのData Managerのhyrrot(@hyrrot)です。 メルカリグループでは、社員がデータに基づく意思決定を行えるようにするために、Google BigQueryを使って構築したデータウェアハウスを管理・運用しています。様々なデータソースからBigQueryにデータを取り込んでから、dbt(data build tool)を利用してデータウェアハウスに取り込まれたデータを変換し、利用者がスムーズにデータを利用できるようにしています。 引用: mercari engineering 本記事では、こちらのdbtを実行するシステムをどのように設計・実装したかについて説明します。 dbtに限らず、何かを定期的に実行するシステムをGCP

                                          Cloud Buildで何かを定期的に実行するノウハウ | メルカリエンジニアリング
                                        • 【エラー】gsutil TypeError: cannot pickle '_io.TextIOWrapper' object - ITips

                                          Python 【エラー】gsutil TypeError: cannot pickle '_io.TextIOWrapper' object コマンドラインからGoogle Cloud Storage (GCS) を操作することができる gsutil パッケージ。 GCSからファイルをコピーする際に gsutil cp コマンドを使うのだが、複数ファイルの場合直列に処理すると遅い。 そこで並列に処理するために gsutil -m cp を実行したら以下のエラーが発生した。 gsutil TypeError: cannot pickle '_io.TextIOWrapper' object 一体何が間違っているのだろうか。 今回はこの gsutil TypeError: cannot pickle '_io.TextIOWrapper' object のエラー原因と対処法について解説する。

                                            【エラー】gsutil TypeError: cannot pickle '_io.TextIOWrapper' object - ITips
                                          • はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場

                                            前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transformer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに 本記事では Google の T5(Text-to-Text Transfer Transformer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います

                                              はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場
                                            • Google BigQueryからAmazon Redshiftにデータを移行してみる | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ

                                              更新履歴 – 2020/1/8 記事内容の修正を行いました。 はじめに こんにちは。データサイエンスチームのmotchieです。 データウェアハウス(DWH)を使うことで、大規模なデータに対する高速なクエリ処理が実現し、BIを初めとした様々なデータ活用が可能になります。 クラウドDWHといえば、Amazon RedshiftやGoogle BigQueryなどが有名です。 re:Invent2019では、Redshiftの新機能 Amazon Redshift RA3 ノードが発表されました。 RA3ノードはAWS Nitro Systemベースの次世代コンピュートインスタンスで、頻繁にアクセスされるデータはノード上のSSD、それ以外はS3へ自動で配置されるマネージドストレージを備えています。 RA3ノードによって、以下のように、Redshiftは大きな進歩を遂げました。 ・従来のDS2ノ

                                                Google BigQueryからAmazon Redshiftにデータを移行してみる | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ
                                              • Aurora->CloudSQLへMySQLレプリケーションはできるのか - Qiita

                                                ご注意 本ドキュメントは 2019/12 時点の状況での検証結果をまとめています。 コメントに頂きましたが 2020/9 に CloudSQL がレプリ元をFQDNで指定可能となった (ref) ようで、Aurora -> CloudSQL へ MySQL レプリケーションができるようになった可能性がありますのでご注意ください。 はじめに ZOZOテクノロジーズでSREチームに所属している@hkameです 普段はZOZOTOWNのオンプレ基盤を運用しております ZOZOTOWNはレガシーなシステムから徐々にパブリッククラウドへのリプレイスを実施していまして そのプロジェクトに関わりながら、日々クラウドやk8s・CICDのスキルを吸収している人です マルチクラウドでサービスを構築するための検証として Aurora->CloudSQLの2サービスのみで、MySQLのレプリケーションができるか

                                                  Aurora->CloudSQLへMySQLレプリケーションはできるのか - Qiita
                                                • BigQuery の外部テーブルと Hive パーティショニングレイアウトで優勝する記事 | メルカリエンジニアリング

                                                  こんにちは、メルペイ DataPlatform チームの @syu_cream です。 突然なのですが皆さんは BigQuery は使っていますか? うんうん、やっぱり使っていますよね。 メルカリ、メルペイでも KPI 分析や機械学習への応用、お客様からのお問い合わせに関わる調査、開発用ログへのクエリなど様々な用途で活用しています。 筆者が所属する DataPlatform チームでも様々なマイクロサービスと BigQuery を繋ぎこむのに一役買ってたりもします。 この記事では、そんな BigQuery が持つ便利であるがあまり触れられる機会がない外部テーブルと、最近追加された機能である Hive パーティショニングレイアウトのサポートについて触れていきます。 いかにして BigQuery でクエリできるようにするか 先述の通り、メルカリ及びメルペイでは BigQuery が多様なシーン

                                                    BigQuery の外部テーブルと Hive パーティショニングレイアウトで優勝する記事 | メルカリエンジニアリング
                                                  • gsutil cpでリストで指定したファイルをコピーする方法 - ITips

                                                    開発者がコマンドラインからGoogle Cloud Storage (GCS) を操作できるようにした gsutil パッケージ。 複数のファイルをGCPにコピーする場合は gsutil cp コマンドを並列に処理する為に gsutil -m cp src_dir/*.txt gs://my-bucket といった感じで使う。 複数コピーは可能だが、指定したファイルのみ複数コピーするにはどうしたらよいのか。

                                                      gsutil cpでリストで指定したファイルをコピーする方法 - ITips
                                                    • GCPでできるだけ安くディープラーニング

                                                      私は仕事でも趣味でもディープラーニングをしています。趣味ではいつもGoogle Colaboratoryを使ってお金をかけずにディープラーニングしていたのですが、Colabは1日12時間ほどしかGPUを使えず、しかも頻繁に学習タスクを回していると弱いGPUしか利用できなくなるので、進捗があまりよくありませんでした。そこで、お金を使って進捗を出すことを考えました。 Google Cloud Platform(GCP)なら、ちょっと弱めのGPU(Tesla T4)を1時間あたり約12円で借りられます。これならまあ趣味の予算で可能だと感じたので実際にやってみたのですが、GCPは思った以上に複雑で、わかりづらい点が多くありました。そこでこのブログでは、GCPに登録するところから、1コマンドでディープラーニングできる環境を構築するまでの方法を紹介します。 手順Google Cloud Platfor

                                                        GCPでできるだけ安くディープラーニング
                                                      • CLI で覚える Google BigQuery

                                                        こんにちは。データサイエンスチームの t2sy です。 Google BigQuery は、Google が提供する高スケーラビリティでコスト効率に優れたサーバーレス型のクラウド データウェアハウス (DWH) です。BigQuery 以外のクラウド DWH は AWS が提供する Amazon Redshift や Microsoft が提供する Azure Synapse Analytics などが挙げられます。 BigQuery を操作する方法は Cloud Console の Web UI、bq コマンドラインツール、REST API、クライアントライブラリの4つがあります。この記事では、bq コマンドラインツールで BigQuery を操作し、使い方を確認してみます。内容としては初学者向けです。 今回、使用する Google Cloud Platform(GCP)のサービスは G

                                                          CLI で覚える Google BigQuery
                                                        • Data EngineeringとKubernetes Executorの話 | メルカリエンジニアリング

                                                          Cityカラムが英語表記へ統一 Temperatureカラムは摂氏(℃)へ統一 Dateのカラムは、タイムゾーンをUTCに固定し、YYYY-MM-DDフォーマットへ こうしてDataが整理されてInformationになることで、「最高気温を比較すると、UTC 11月15日の時点ではPalo Altoの方が高かったが、12月5日の時点では東京の方が高かった」といった事実を見ることができるようになります。このInformationから導き出される傾向や規則性を導出されたものが、DIKWピラミッドにおけるKnowledgeになります。そして頂点であるWisdomは、導き出されたKnowledgeに基づいて人により下される判断のことそのものを示します。 Data Engineeringの仕事は、このDataを過不足無く蓄えること、DataからInformationへの変換・蓄積する作業がメインと

                                                            Data EngineeringとKubernetes Executorの話 | メルカリエンジニアリング
                                                          • bashスクリプトのエラー処理のベストプラクティス – marketechlabo

                                                            データ処理バッチでシェルスクリプトは便利 データ処理などでバッチプログラムを書くことは多い。Pythonなどのプログラム言語を使って全部記述する方法もあるし、最近ではGUIのワークフローを描けるツールも出てきている。 ただシェルスクリプトは依然として強い。シェルスクリプトは概して動作が高速で、イレギュラー処理に対しても柔軟に対応できる。gcloudやawscliなどのコマンドを使って記述できるので、できないことはない。機能がなければコマンドをインストールすることも可能。困ったときにも確実にゴールにたどり着くメリットがある。プログラム言語だとライブラリの出来に依存するし、ワークフロー系のツールは機能が実装されていないと詰む。イレギュラー処理を扱えない場合がある。 便利なツールが出てきている時代ではあるが、シェルスクリプトを覚えておくのはおすすめである。バッチ処理ではエラーハンドリングが必須だ

                                                            • GCP連載#6 Terraform Validatorを使って、GCPのセキュリティポリシーの自動チェックを行う | フューチャー技術ブログ

                                                              GCP連載#6 Terraform Validatorを使って、GCPのセキュリティポリシーの自動チェックを行う GCP連載の6回目です。今回はTerraform Validatorを使って、組織のセキュリティポリシーの自動チェックを継続的に行う方法を紹介します。併せて、ポリシーをコードとして管理する方法も紹介します。Policy as code です。もちろんセキュリティポリシーのみだけではなく、命名規則やリージョン制限なども扱えます。 Infrastructure as code 理想と現実Infrastructure as code (以下 IaC)、ここ最近大分一般的になってきました。弊社でも大半のプロジェクトは導入しています。3年前とかに導入するために一苦労していた時代が懐かしい.. IaCが当たり前になった今、インフラの構成管理はもう問題ないかというとそうではありません。特にプ

                                                                GCP連載#6 Terraform Validatorを使って、GCPのセキュリティポリシーの自動チェックを行う | フューチャー技術ブログ
                                                              • 『GCPからAWSへのデータ移動』について考えて&まとめてみる | DevelopersIO

                                                                最近では『マルチクラウド』環境で仕事を回すというのも珍しい話では無くなって来ました。クラウドプラットフォーム間を連携するというのも普通に挙がってくるテーマかと思います。 そんな『マルチクラウド』の環境間で『データの移動』という部分について考えてみた場合、ざっと見てみた感じだと『AWS』から『GCP』については比較的情報量が多いなという印象を受けました。GCPが公式で『AWS向け』のドキュメントを展開しているというのも大いに関係しているかと思います。 ですが一方で、『GCP』から『AWS』という逆のパターンだとどうでしょう。AWSが個別に『GCP向け』の情報を展開しているというのは現状無さそうです。また、その他情報源についてはどうでしょうか?感覚値的には『AWS→GCP』程は情報量的に多くないのでは、という感じがします。 そこで当エントリでは、『GCP(Google Cloud Platfo

                                                                  『GCPからAWSへのデータ移動』について考えて&まとめてみる | DevelopersIO
                                                                • Your Makefiles are wrong

                                                                  Your Makefiles are full of tabs and errors. An opinionated approach to writing (GNU) Makefiles that I learned from Ben may still be able to salvage them. An opinionated approach to (GNU) Make This is my second hand account of the approach to Make that I learned from Ben. If something is wrong, assume it was lost in translation. The big things I hope you take away are: The file system is a fundamen

                                                                  • gsutilで"argument list too long"エラーが出る原因 - ITips

                                                                    コマンドラインからGoogle Cloud Storage (GCS) を操作することができる gsutil パッケージ。 複数のファイルをGCPにコピーする場合は gsutil cp コマンドを並列に処理する為に gsutil -m cp といった感じで使う。 しかしあるとき以下のようなエラーが発生した。 Argument list too long この Argument list too long エラーは何故発生したのか。 回避する方法はあるのか。 今回はそんな問題を解決するために、「gsutilで"argument list too long"エラーが出る原因」を解説する。

                                                                      gsutilで"argument list too long"エラーが出る原因 - ITips
                                                                    • 【BQML応用記事】BigQuery MLで作った機械学習のモデルでオンライン予測を実施する | DevelopersIO

                                                                      先にトレーニングデータ(train.csv)をデータセットに追加しておきます。 モデルのトレーニング 先ほど追加したデータを使ってトレーニングを行います。BQMLならSQLで簡単にトレーニングも実施できますね。 使うモデルはXGBoostでいこうと思います。(ちなみに最初はAutoML Tablesを使う予定でしたが、オンライン予測はまだ対応していませんでした) CREATE OR REPLACE MODEL Titanic.xgboost_model OPTIONS( MODEL_TYPE='boosted_tree_classifier', INPUT_LABEL_COLS=["Survived"] ) AS SELECT * EXCEPT(PassengerId, Name, Ticket, Fare, Cabin) FROM `Titanic.train` モデルのエクスポート モ

                                                                        【BQML応用記事】BigQuery MLで作った機械学習のモデルでオンライン予測を実施する | DevelopersIO
                                                                      • GitLab GCPに 移行した(中編) - pixiv inside

                                                                        こんにちは、インフラ部の id:sue445 です。 前回に引き続きGitLabのGCP移行について紹介します。 前編の記事はこちらになります inside.pixiv.blog 今回の目次 今回の目次 やったこと2: 実際にGCPに構築した GitLab構築に関係するリポジトリの構成 gcp-gitlab-terraform gcp-gitlab-playbook gcp-gitlab-helm 備考 全体の構成図 webservice (GitLab本体) GitLab CI 3rd party製のDockerイメージから公式のDockerイメージに移行した Docker Swarmは継続利用 GitLabを複数ゾーンで動かすための準備だけした やりたかった構成 現在の構成 Cloud IAPとTunneling SSH Connectionsを利用したgitアクセス Tunnelin

                                                                          GitLab GCPに 移行した(中編) - pixiv inside
                                                                        • はじめての自然言語処理 Fusion-In-Decoder でクイズに答えるモデルを作る | オブジェクトの広場

                                                                          今回は Fusion-In-Decoder を使ってクイズに答えるモデルを作ります。以前から Wikipedia 等の外部情報を参照できるテキスト生成モデルを試してみたいと思っていました。Fusion-In-Decoder の発表は 2020 年なので少し前のモデルですが、T5 ベースで手軽に試せるサイズ感ですので、日本語で試してみましょう。 1. はじめに 今回紹介する Fusion-In-Decoder(以下、FiD )1 は Meta AI (当時は Facebook AI Research) が発表した Open Domain question Answering タスクを解くテキスト生成モデルです。 じつは、以前から外部情報を参照できるテキスト生成モデルを試してみたくて2、 Google の RETRO3 の論文を読んでたんです。 なのですが、外部情報のサイズ感が 1000 B

                                                                            はじめての自然言語処理 Fusion-In-Decoder でクイズに答えるモデルを作る | オブジェクトの広場
                                                                          • gsutilでGCSバケット内のファイル数を数える方法 - ITips

                                                                            Googleのクラウド環境上にファイルを保存できるGoogle Cloud Storage (GCS)。 GCSを使っていると、バケットのなかに保存したファイルがいくつあるのか数えたくなることがある。 しかし数が多いとブラウザ上で数えるのは大変。 そこでGCSをコマンドで操作できるようにした gsutil パッケージを利用して数える。 今回は、「gsutilでGCSバケット内のファイル数を数える方法」を解説する。

                                                                              gsutilでGCSバケット内のファイル数を数える方法 - ITips
                                                                            • Terraformの代わりにGCP Config Connectorを使った - Qiita

                                                                              apiVersion: compute.cnrm.cloud.google.com/v1beta1 kind: ComputeAddress metadata: name: sample-ip spec: location: global 作成可能なリソース 最新情報はこちらで確認ください。先日GAになったみたいですが、頻繁にドキュメントは更新されています。 2020年2月時点で75種類のリソースが作成可能で、かなり多いです。 Terraformで作れるやつはだいたい作れそうで、APIの叩いているのでパラメータはほぼ同じでした。 メリット kubernetes の Service や Deployment と一緒にyamlで管理できて同じライフサイクルに入れられます。 ちょっと使いたいだけでTerraformは少し重たいので、Config Connectorはライトでかなり楽です。 (ちょ

                                                                                Terraformの代わりにGCP Config Connectorを使った - Qiita
                                                                              • Workload Identityの実基盤への導入 | Recruit Tech Blog

                                                                                本記事は リクルートライフスタイル Advent Calendar 2019 23日目の記事です。 CETチーム の龍野です。 我々のチームでは GKE (Google Kubernetes Engine) を利用した基盤開発が盛んに行われております。 Kubernetes は可用性の高さや複数アプリケーションの実行など、多くのメリットがあるのですが、一方で、 GKE 内で多くのサービスが走ることによって、個々の権限管理などが煩雑になってきます。 そこで、本記事では、 GKE 内のサービスでの権限管理をより楽に、堅牢に行うことのできる Workload Identity という仕組みについて紹介します。チーム内での利用事例や、実際に Workload Identity を導入する上での注意点などを中心にお話できればと思っております。19/12/23 時点で、この機能はベータ版なので、GA

                                                                                  Workload Identityの実基盤への導入 | Recruit Tech Blog
                                                                                • Amazon SQSを利用してAmazon S3からGoogle BigQueryにデータ投入するBQinというツールを書いた - KAYAC Engineers' Blog

                                                                                  こんにちは。技術部の池田です。 この記事では、AWSを使っているプロジェクトではありがちなAmazon S3からGoogle BigQueryにデータを投入するためのツールを書いた話をします。 BQin - BigQuery data importer with AWS S3 and SQS messaging. 名前からお察しの方もいらっしゃるとは思いますが、BQinは弊社藤原のRinから着想を得ています。 このツールは一言で表すと、データ投入先がRedshiftからBigQueryに変更されたRinです。 プロダクションに投入し1ヶ月以上になりますが、深刻な問題は発生せず動いております。 開発動機的な話 とあるプロジェクトでAWS S3にデータが投入されるから、GCP BigQueryへデータを転送したいという話がありました。 はじめのうちは、Cloud ComposerやBigQue

                                                                                    Amazon SQSを利用してAmazon S3からGoogle BigQueryにデータ投入するBQinというツールを書いた - KAYAC Engineers' Blog