[B! *infra] [5ページ] sh19910711のブックマーク

ついにブロックができるようになった！Amazon GuardDuty Malware Protection for Amazon S3が発表されました！ #AWSreInforce | DevelopersIO

ついにブロックができるようになった！Amazon GuardDuty Malware Protection for Amazon S3が発表されました！ #AWSreInforce Amazon GuardDutyで待望のマルウェアに対する保護機能がリリースされました！信頼できないオブジェクトをS3にアップロードする環境ならガンガン活用していきましょう！こんにちは、臼田です。みなさん、AWS上でのマルウェアチェックしてますか？(挨拶 AWS re:Inforce 2024で待望のS3に対するネイティブなマルウェア検出と保護の機能である「Amazon GuardDuty Malware Protection for Amazon S3」がリリースされました！ Detect malware in new object uploads to Amazon S3 with Amazon Gua

sh19910711 2024/06/12

"S3のオブジェクトは350兆もあるようです / マルウェアであった場合にはバケットポリシーでそのタグのついたオブジェクトに対するアクセス制御を組み込むことで「マルウェアへアクセスすることを禁止」する"

リンク

[速報] IAMのMFA(多要素認証)でPasskeyが利用できるようになりました #AWSreInforce | DevelopersIO

あしざわです。現在開催されているAWS re:Inforce 2024 のKeynote にて、AWS IAMのrootユーザーおよびIAMユーザーのMFA(多要素認証)としてPasskeyのサポートが発表されました。 AWS What's newブログ、AWS Blogの両方で発表されています。概要本アップデートによって、AWSのrootユーザー、IAMユーザーのMFAデバイスとしてPasskeyが利用できるようになります！ AWS側で発行したPasskeyをGoogleアカウントや1passwordなどのクラウドサービスに登録することで、MFA認証としてPasskeyを利用してAWSアカウントにログインできるようになります。 AWS Blogに以下のように記載があるため、初回のリリース時はPasskey+パスワード認証のみでパスワードの利用は必須であるようです。今後のリリースでP

sh19910711 2024/06/12

"AWS側で発行したPasskeyをGoogleアカウントや1passwordなどのクラウドサービスに登録することで、MFA認証としてPasskeyを利用してAWSアカウントにログインできる / 現状パスワードなしログインは未サポート、パスワード+Passkeyのみ"

リンク

BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。 | DevelopersIO

BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。こんにちは、みかみです。本州も梅雨入りの季節になってまいりましたが、沖縄はそろそろ梅雨明けです！やりたいこと BigQuery で実行している SQL のパフォーマンスチューニングをしたい BigQuery のアンチパターン SQL を使っていないか確認したいどんな DWH を使うにしろ、SQL チューニングは避けて通れない道ではないかと思います。実行計画確認して、データ処理エンジンの思想に思いを馳せて・・・。というのも、特に顕著な改善効果が得られた時にはこの上ない喜びを感じられる作業ですが、SQL が複雑だったり、大量の SQL を確認しないといけない場合は、心折れそうになる場合もあります。 BigQuery でも、クエリプランを確認しながら SQL をチュ

sh19910711 2024/06/12

"bigquery-antipattern-recognition: BigQuery のアンチパターン SQL を確認できるツール / INFORMATION_SCHEMA を参照して検証結果を BigQuery テーブルに格納するバッチジョブを作成しておけば、日々 SQL を検証・監視することが可能"

リンク

AWS Lambda特化のJavaScriptランタイム「LLRT」を紹介 - maybe daily dev notes

最近にわかに話題沸騰中のJavaScriptランタイム LLRT を紹介する記事です。 github.com LLRTとは LLRT (Low Latency Runtime) は、軽量なJavaScriptランタイムです。サーバーサイド向けのJavaScriptランタイムはNode.js、Deno、Bunなどが有名ですが、それらにまた一つ加わった形になります。主にLambdaでの利用が念頭に置かれているようです。その他必要な情報は README.md にまとまっています。以下は抜粋です。 AWSのソリューションアーキテクト Richard Davison さんにより開発されています。リポジトリがAWSのGitHub organization (awslabs) で公開されているため、実験的ではありますが、AWS公式のプロジェクトと言って良いでしょう。ここ5日間ほどでとんでもない勢いでG

sh19910711 2024/06/12

"LLRT: QuickJSをRustから呼び出す rquickjs というライブラリを利用 + Node.js特有のAPIをRustで独自実装することで、Node.jsとの互換性を高めています / Lambdaのコールドスタートが最大で10倍短くなることが謳われ"

リンク

Solr Operator を利用して SolrCloud クラスタを GKE Autopilot に構築する (前編)

単語の重み付けと類似度スコア Lucene / Solr では、ある検索キーワードに対して特定のドキュメントがどの程度マッチするのかを、類似度スコア (Relevance Score) と呼ばれるアルゴリズムにより計算しています。 Lucene / Solr 5 系までは TF-IDF (Term Frequency-Inverse Document Frequency) というアルゴリズムがデフォルトで使用されていました。具体的には、TF 値 (単語の出現頻度) と IDF 値 (逆文書頻度) という２つの指標に基づいて計算されます。 TF 値 : ある文書の中である単語の出現回数が多ければスコアが増加する IDF 値 : 検索対象の全文書の中でその単語が出現する文書の数が少なければスコアが増加する例えば、英単語の the, a, an, and, it などは TF 値は高くなりそ

sh19910711 2024/06/12

"Solr: 元々 Lucene のサブプロジェクトとして開始され、2021年に Apache の独立したトップレベルプロジェクトに昇格 / SolrCloud: ZooKeeper が必要になったり、従来のクラスタと比べて構成が複雑になってしまう" 2023

リンク

オンプレDWHをBigQueryに移行した話 - ZOZO TECH BLOG

はじめにこんにちは。MA部MA施策・運用改善チームの辻岡です。MA部では、ZOZOTOWNのメルマガ・アプリPUSH通知などの配信・分析等の用途で約数十TBのデータを運用しています。今回は長年MAのデータ基盤として利用してきたオンプレDWHをBigQueryに移行したおはなしをします。この記事はこんな方におすすめオンプレDWHからBigQuery移行を検討・実施してる方ジョブ・スケジューラ、ETLツールの移行を検討・実施してる方概要オンプレDWHからBigQuery移行する前後の構成イメージを元に、今回の移行の話について概要を説明します。次の図が移行前の構成図です。オンプレ環境のWindowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、データウェアハウス（以後オンプレDWH）に対してデータ生成や外部システムとの連携をしていました。今回、以下を目的にオンプレDW

sh19910711 2024/06/12

"Windowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、オンプレDWHに対してデータ生成や外部システムとの連携 / BigQueryへの接続すら既存のライブラリでは困難な状態" 2022

リンク

SageMaker Feature Store を使ってみる - 肉球でキーボード

SageMaker Feature Store の使用方法の一連の流れを解説します。記事中での実行コード github.com Feature Store とはまずはML界隈で知られるFeature Store の概念について説明します。 Feature Store は「機械学習で使用される特徴量の一元管理を行うためのデータ管理システム」です。似たような概念にData Lake や Data Warehouse があげられますが、それぞれ Data Lake : 幅広い用途への利用を想定した、データの一元管理システム Data Warehouse: 分析のために事前に定めたスキーマを持つ、構造化データ管理システムといった役割を持ちます。対して、Feature Store はMLで使用される特徴量の管理に特化した役割を持つことがポイントです。 Feature Storeの立ち位置

sh19910711 2024/06/12

"Feature Store の機能要件: ストリーミング・バッチ両方でのデータの保存 + Offline・Online の使い分け / SageMaker Feature Store: ストリーミングソースからの取り込み + DataWrangler と連携 + Spark によるバッチデータ取り込み" 2022

リンク

Fluentdのプラグインを作ってBigQueryにログを挿入するコストを1/3にした話 - pixiv inside

こんにちは。機械学習チームにてレコメンドの改善を行っているgumigumi4fです。この記事では、Fluentdにて収集したログをBigQueryに挿入する際に使用しているプラグインを置き換えることによって、高スループットかつ低コストを実現した話について紹介します。背景 pixivではアクセスログやアプリケーションログ等をBigQueryに収集し、分析できるような仕組みを構築しています。 BigQueryへアクセスログを挿入する際はFluentdとそのプラグインであるfluent-plugin-bigqueryを用いて直接BigQueryへ書き込むようになっていたのですが、その際にログ欠損が起こることが問題となっていました。ログの欠損はピークタイムで発生しており、そのピークタイムのログの流量は概ね毎秒30000logとかなり多く、実際Fluentdのworkerプロセスが1work

sh19910711 2024/06/11

"fluent-plugin-bigquery: ログの流量は概ね毎秒30000 + Fluentdのworkerプロセスが1workerあたりCPUを1コア恒常的に使い切っているなど頭打ちのような挙動 + ログ欠損が起こる / Storage Write API を用いる新たなFluentd向けプラグインを開発"

リンク

大公開！バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG

こんにちは。MA部の田島です。弊社では開発ガイドラインというものを用いて、システムの品質を担保しています。今回私がテックリードを務めているということもあり、バッチアプリケーションを開発するためのガイドラインを作成しました。本記事では「開発ガイドライン」と「バッチ開発ガイドライン」を紹介します。バッチアプリケーション開発に限定したTipsはまとまっているものが多くないため参考にしていただければと思います。開発ガイドラインについての紹介冒頭でも紹介した通り弊社では、開発ガイドラインというものを用いてシステムの品質を担保しています。バッチ開発ガイドラインを紹介する前に、まず開発ガイドラインを紹介します。開発ガイドラインの種類開発ガイドラインは現在、以下の種類が存在します。共通 Android iOS Frontend Backend Infra API Batch DB(Datab

sh19910711 2024/06/10

"リトライを実装することはバグの原因になるため、ツールのリトライ機構に任せる / 利用しているクライアントライブラリなどにリトライ機構が含まれている場合は適切に設定"

リンク

[アップデート]Amazon Personalizeで新たなレシピUser-Personalization-v2とPersonalized-Ranking-v2が使えるようになりました | DevelopersIO

実際に使ってみたこれらのv2のレシピを実際に利用してみます。以下のサイトより映画の評価データ（ml-latest.zip）をダウンロードして利用します。このデータを加工して、「特定のユーザーがある映画をある時間に見た」というリストとIDに紐づいた映画リストを作成し、次に見る映画をPersonalizeを使っておすすめするというシナリオです。レコード数を絞って、ユーザー10,000件に紐づく1,000,000レコードのデータを利用します。 MovieLens | GroupLens 「特定のユーザーがある映画をある時間に見た」というリストは以下のような形式でinteractions.csvという名称でS3バケット上に保存します。 USER_ID,IT EM_ID,TIMESTAMP 110561,47629,1311928128 110561,48600,1312008463 110561

sh19910711 2024/06/10

"Amazon Personalize: 実現したいレコメンデーションに合わせたレシピを使ってモデルを作成 / 最大500万件のアイテム、最大30億件のユーザー・アイテムのインタラクションデータを使った学習が可能"

リンク

インフラエンジニアの多様性と評価、またはキャリアへのつなげ方

インフラエンジニアと一口に言っても、皆さんの周囲には様々なインフラエンジニア、または近しい技術領域で仕事をしているエンジニアがいることでしょう。そこで、昨今のインフラエンジニアの多様性を生み出している技術的な要素や思想に触れつつ、皆さんのキャリアに取り入れるヒントをともに考えてみませんか。自らがインフラエンジニア・SREのバックグラウンドを持ち、現在は VP of Engineering としてエンジニア評価・キャリア相談等の実務に携わる過程での気づきをお話します。 Infra Career Lounge #1「インフラエンジニアの評価とキャリア」にて発表した資料です。 https://forkwell.connpass.com/event/246453/

sh19910711 2024/06/09

"多様性の背景: クラウド・IaC・コンテナ / これらの組み合わせで多様化が急速に進んでいる + 自社で持たなければいけない領域が変わった / 会社によって競争力の源泉は異なる + 他社のやっていることを知ろう" 2022

リンク

Amazon SageMaker Studio + AWS Cloud9 でファイルシステムを共有して快適な機械学習開発環境を構築する

みなさん、最近 sage を make していますか？今回は往年の２ちゃんねる用語の話ではなくて、Amazon Web Services (AWS) が提供している機械学習開発プラットフォーム Amazon SageMaker のお話です。 Amazon SageMaker Studio と AWS Cloud9 で EFS のストレージを共有して両者いいとこどりのいい感じの開発環境を作ろうというのがテーマです。はじめに SageMaker はデータサイエンティストや機械学習のエンジニアが、機械学習の開発運用プロセス全体を効率化していただくために使っていただけるような機械学習プラットフォームのマネージドサービスです。データのラベリングや特徴量変換といったデータの準備のフェーズから、モデルの構築、トレーニング・チューニング、デプロイ・モニタリングといった、それぞれのフェーズにおいてユー

sh19910711 2024/06/08

"SageMaker Studio と Cloud9 で EFS のストレージを共有して両者いいとこどりのいい感じの開発環境を作ろう / SageMaker Studio: Jupyter の環境と、計算環境と、ストレージが分離 + その場その場で最適な環境を用いることができる" 2022

リンク

BERTを用いた自然言語処理プロダクトの開発・運用

近江崇宏、「BERTを用いた自然言語処理プロダクトの開発・運用」 TensorFlow User Group Meetup #12 https://tfug-tokyo.connpass.com/event/204504/

sh19910711 2024/06/08

"固有表現抽出: 機械には難しい + 企業名を正しく抽出するには文脈を踏まえた処理が必要 / Stockmark BERT: ニュース記事をもとに学習データを作成 + 高精度な企業名抽出モデルを開発 / Cloud Runを用いて前処理・後処理" 2021

リンク

SageMakerで作るケチケチ文書分類 - Mirai Translate TECH BLOG

みらい翻訳の西山です。社内ではlisaと呼ばれてます。機械翻訳エンジン研究開発チームのエンジニアリングマネージャーをしています。さて、突然ですが、みなさんディープラーニングしてますか？ご自宅にGPUはありますか？筆者も週末に趣味で文書を分類したりしているのですが、家にあるGPUはNVIDIA GeForce RTX 2080Tiで、バッチサイズを小さくする必要があったりと、少々物足りません*1。そこで頼りにしたいのがAmazon EC2等の仮想コンピューティング環境ですが、GPUが利用できるサーバーインスタンスは一般に高額で、「必要な時に起動＆用が済んだら直ちに終了」を徹底しないと利用金額がかさみがちです。今日は趣味でディープラーニングをおやりになっている皆様向けに、なるべく安価に構築・運用可能なクラウドディープラーニング環境のご紹介をしたいと思います。 ※この記事の内容はみらい翻

sh19910711 2024/06/08

"インスタンス起動・終了のような操作は、人間が注意深く実施するのではなく、なるべく適切なタイミングに自動で行われるようにしたい / SageMaker SDKを使って、学習と推論の時だけAWS上のリソースを使う" 2022

リンク

Wi-Fi 名を「一握の砂」の短歌にするやつ one-grip-ssid - P A R A G R A P H S

Wi-Fi の名前を石川啄木「一握の砂」の短歌にするやつを作ってみた。こんな感じで 1 時間おきにランダムな短歌が設定される。 Docker + Ruby + Mechanize で動いていてソースはこちら。 https://github.com/tily/one-grip-ssid 技術的な詳細など物理ネットワーク構成下記図の通り。自宅の LAN 内で実現していて、 MacBook から定期的にいらなくなった古いルーターにアクセスし、 Wi-Fi 名を変更する処理を実行させている。ルーターへの日本語 Wi-Fi 名設定利用しているルーターは Buffalo WHR-1166DHP3 という機種。こいつは、管理画面からは日本語 Wi-Fi の設定を許可してないけど、ブラウザの開発者ツールやプログラムから直接リクエストを送ることで、日本語 Wi-Fi 名を設定できるという

sh19910711 2024/06/07

"MacBook から定期的にいらなくなった古いルーターにアクセスし、Wi-Fi 名を変更する / ブラウザの開発者ツールやプログラムから直接リクエストを送ることで、日本語 Wi-Fi 名を設定できる" 2022

リンク

ヤマハルーターの設定をAnsible化してみる

ヤマハルーターの設定を変更する方法はいくつかあります。 Web GUI TelnetやSSHでのコマンド実行 Ansible これらの中では、コマンド実行によるものがメジャーで、私も実行するコマンドを適当なテキストファイルに保存して管理していました。これでも不便はないのですが、とある事情で直近ルーターの設定を頻繁に調整することがあったので、気になっていたAnsibleでの設定方法を試してみました。環境コントロールノード ansible (2.12.4) ターゲットノード RTX830 (Rev.15.02.22) [1] やったこと公式ドキュメントの手順に沿って作業を進め、IPoEの設定を自動化してみます。楽天ひかりを利用しているので、PPPoEの接続も提供されていますが、IPoEでの接続を前提とします。事前準備ヤマハが提供しているAnsibleモジュールはコントロールノード

sh19910711 2024/06/07

"Ansible化によるメリットは感じつつも、ヤマハルーターはconfigのインポートやコマンドを流しこむだけで設定を完結できる / コマンドをコピペで流し込んだ方が効率はいい" 2022

リンク

オンプレミスで動かすLLM

あらゆる産業で生成AIの活用が検討される中で、導入自体が難しい代表的な業界が製造業です。製造現場は基本的に外部からネットワークが隔絶されており、GPTシリーズのようなLLM（大規模言語モデル）を利用することができません。従来であればエッジコンピューティングに代表されるようなオンプレミスでの運用も考えられますが、LLMは実行するコンピュータへのハードウェア要求が非常に高いため、研究室機関レベルのコンピュータを用意する必要があり、一般的な工場にそのような機器を導入することは現実的ではりません。自然言語モデルには “スケーリング則” と呼ばれる原理が存在します。スケーリング則とは、自然言語処理モデルのパラメーター数・データセットのサイズ・トレーニングに使用される計算量の3つの変数が大きくなればなるほど、パフォーマンスが良くなるというシンプルなルールです。スケーリング則に従えばお金を投入すればす

sh19910711 2024/06/07

"phiシリーズ: オンプレミス環境で動かすことが期待される小型LLMの急先鋒でしたが、発表当初のライセンスは商用利用不可 + phi-2のライセンスがMITライセンスに変更され、商用利用が可能となった"

リンク

PostgreSQL(pgvector) のベクトル検索による全自動PDF検索 : Blob Storage にアップロードしPDFをテキストに変換 - Qiita

PostgreSQL(pgvector) のベクトル検索による全自動PDF検索 : Blob Storage にアップロードしPDFをテキストに変換JavaPostgreSQLAdaOpenAI embedding 1. はじめに先日、Azure OpenAI Embedding モデルを利用し最も関連性の高いドキュメントを見つける方法について説明しました。これを利用する事で、最も関連性の高いドキュメントを見つける事ができます。この記事では、この機能を利用し PDF ファイルを Azure Blob Storage にアップロードすると、自動的に PDF ファイルをテキストに変換し、Azure OpenAI Embedding モデルを利用して、ベクトル検索を行う方法について説明します。このサービスを利用すると、社内ドキュメントも、各種論文も PDF ファイルであれば何でも、Azur

sh19910711 2024/06/07

"Azure Functions: デフォルトでは 5〜30 分間の実行時間の制限 + 無期限に設定できるのは Premium プランと専用プランだけ + 従量課金プランでは、無制限に設定することはできない" 2023

リンク

[AWS Step Functions] ステートマシンが無限ループして148ドルも課金が発生した話 | DevelopersIO

懺悔しますこんにちは、のんピ(@non____97)です。私はここに「ステートマシンを無限ループさせて148ドルも課金が発生してしまった」ことを懺悔します。いきなりまとめ検証だからといって雑なEventBridgeのイベントパターンを設定するのはやめよう何が起こったかステートマシンが無限ループして148ドルも課金が発生しました。ここで、クラスメソッドメンバーズ向けポータルサイト「クラスメソッドメンバーズポータル」で、AWS利用料金を確認してみましょう。まずは明細です。 $148.67のインパクトが凄まじいですね。 USE1-StateTransitionとAPN1-StateTransitionについての課金が大半を占めています。AWS Step FunctionsのStandardワークフローではステートマシンの状態遷移によって課金が発生します。今回はus-east-

sh19910711 2024/06/06

"us-east-1とap-northeast-1合わせて5,946,978回の状態遷移 / EventBridgeのイベントパターンが雑すぎた / 「ステートマシンの実行が成功/失敗した」というイベントもデフォルトのイベントバスに送信され" 2022

リンク

DifyをCloudRunとsupabase、upstashを使ってほぼ無料でデプロイする方法

DifyはDBにpostgres、キャッシュにRedisを使っている。また、ベクトルDBは複数選択可能ではあるが、Postgresのvectorを使うことも可能なので、postgresで統一させちゃう。これらをRDSとかで立てようとするとイニシャルで料金がかかってしまうので避けたい。 supabaseはPostgresを安価に、upstashはRedisを安価に使えるので、これらを使う。まず、supabaseとupstashでアカウントを作成し、DBを作成する。作成するうえで特に困ることはないので、そのままコンソールをポチポチするだけでOK supabase: https://supabase.com/ upstash: https://upstash.com/ 作成するとHOSTやpasswordなど必要な情報がコンソールに表示されるので、それをdifyのdocker-compo

sh19910711 2024/06/06

"Dify: ベクトルDBは複数選択可能ではあるが、Postgresのvectorを使うことも可能 / supabaseはPostgresを安価に、upstashはRedisを安価に使える / CloudRunのマルチコンテナを使う"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (229)

*infraに関するsh19910711のブックマーク (2,126)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス