sh19910711のブックマーク / 2024年5月8日

Observability はじめの一歩 CloudWatch Synthetics

sh19910711 2024/05/08

"なるべく楽に始められる監視が良い + 現状動作しているアプリケーションになるべく手を加えたくない / CloudWatch Synthetics: WebアプリケーションとAPIを簡単に監視できるようにする / Canary: Lambda関数で6種類のBlueprintが用意"

リンク

Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita

概要 Splunkが DeepLearningに対応しました（驚き）。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして複数の NLP ライブラリが利用可能です。今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた

sh19910711 2024/05/08

"Splunk DLTK: Tensorflow/Keras/PyTorch + 複数の NLP ライブラリが利用可能 / 苦労するデータ収集や前処理、そして最後の実装部分をSplunkに任せ + いいモデルができてしまえば、後は通常の Splunkの知識さえあれば実装ができます" 2019

リンク

【PyTorch+Numpy】Dataloaderに潜むありがちなバグ - ころがる狸

PyTorchは素晴らしい機械学習フレームワークですが、データ読み込みに使うDatasetとNumpyによる乱数発生の組み合わせは思わぬバグの発生源となっているようです。2021年4月10日に投稿されたこちらの記事がTwitter上で話題になっています。 tanelp.github.io 一言で要約するなら：PyTorchでデータを読み込む際にマルチプロセス処理を行うと、親プロセスのNumpyの乱数生成器の状態が子プロセスに継承されるため、ランダムであるべき配列の値がすべて同一になる。上記の記事にはコードもついているので、どういうことか手を動かして確認してみましょう。悪い例その１と解決策悪い例その２と解決策 torch.randintの力に頼ろう悪い例その１と解決策上の記事でも紹介されているコードがこちらです。numpy.random.randint(0, 1000, 3)で0以上

sh19910711 2024/05/08

"DatasetとNumpyによる乱数発生 / データを読み込む際にマルチプロセス処理を行うと、親プロセスのNumpyの乱数生成器の状態が子プロセスに継承されるため、ランダムであるべき配列の値がすべて同一になる" 2021

リンク

Intel Optane Persistent Memory を使ってみた - VA Linux エンジニアブログ

1. はじめに 1.1 この記事について 1.2 使用した環境 2. Intel Optane Persistent Memory (DCPMM) とは 2.1 概要 2.2 各種概念 2.2.1 mode 2.2.2 region 2.2.3 namespace 3. 管理ツール 4. 実機確認 4.1. 状況確認 4.2 memory mode への変更 4.3 app direct mode への変更 4.4 namespace の作成 5. 最後に執筆者 : 西村　大助 1. はじめに 1.1 この記事について本稿では、Intel Optane Persistent Memory (以下、「DCPMM」1) を使うにあたり必要な、基本的な概念や Linux 上での使用方法などを説明したいと思います。私自身、Linux の DCPMM 関連の開発を行っているわけではなく、たまた

sh19910711 2024/05/08

"DCPMM: Intel から発売されている 3D-Xpoint 技術を使った NVDIMM (不揮発性メモリ) + 電源断によりデータが失われない / 性能は DRAM には劣るが、SSD などのストレージよりは優れている / CPU からはメモリとして扱える" 2021

リンク

CockroachDB はどのくらい「しぶとい」のか？ / How tough is CockroachDB?

sh19910711 2024/05/08

"CockroachDB: 名前とロゴがヤバい分散SQLデータベース + Node数やReplica数の設定に応じていい感じに障害から生き残る / Split Brain: 障害の原因が「ネットワークの問題」であった場合、通信ができない2匹は問題なく動作していて"

リンク

自分の英語勉強法 - mookjp.io

私は現在英語でコミュニケーションを取る職場にいるのですが、英語を褒めてもらえたり、英語をどうやって勉強したのかと聞かれることがあります。思い返してみると、今までにいろいろと英語の勉強について試行錯誤した気もします。そこで、自分の振り返りも兼ねて、効果があった方法、逆になかった方法をまとめてみることにしました。自分の英語レベル前提として私の英語レベルがどのくらいか書いておいたほうがいいかなと思うので、ざっと書いてみます。英語の試験でスコアがどのくらいか 2008年？時点の初受験の TOEIC Reading / Listening で 600 程度で、2012年時点で TOEIC Reading / Listening で 885 でした。 2008年は1回受けてみよう、という感じで少し予習をして受けました。そこからまったく英語の勉強はしておらず、集中的に勉強していたのは、2012

sh19910711 2024/05/08

"映画やドラマ: 流しているだけになりがち + わからない単語があってもメモするのが面倒 / 英会話レッスン: 文法を間違っていても通じてしまう + 英語を使わない環境にあって、実践したいだけの場合はいい" 2019

リンク

採用拡大フェーズに突入して採用ATSをHubspotからHERP Hireに移管した話｜なおぴん

はじめにこんにちは。キャディ株式会社のHRで採用のリーダーをしています。2019年の年末に、「HRMOSからHubspotに採用ATSを移管した」ってnoteを前任のあんでぃが出していたのですが、そこから1年半‥‥実は2021年6月にHERP Hireに移管しています。「キャディさん、Hubspotどうやって使ってるか教えて！」なんて聞かれることも多く「あ、いや、あの、もう、じつは」ってなってたこともあり、またHERP激ラブな我がチームを代表して、この移管にまつわる話をまとめたいと思います。キャディは上記の記事の後、更なる採用拡大フェーズに突入し、採用目標も数倍以上、候補者数も数倍以上、採用オペレーション（面接設定など）するアシスタントも、現場の面接官も全てが数倍に増えてきたところでした。Hubspotに切り替えた時期にも十分に検討されたことでしたが、改めて「もう無理やあああああ（理由は

sh19910711 2024/05/08

"採用目標も数倍以上、候補者数も数倍以上 + 全てが数倍に増えてきた / HERP: 連携してる媒体が多いのが強み + フィールドがあるので、分析ができる + 標準で搭載されてるレポートシリーズがいい仕事をして" 2021

リンク

Kyashの採用リポジトリを公開して1年の振り返り - Kyash Product Blog

Kyashの @konifar です。 1年前の2020年9月、Kyashの採用リポジトリを公開してました。詳細は以下の記事にまとめています。 blog.kyash.co 1年間でいくつか変化もあったので、実績を振り返ってみます。やったこと採用面接ガイドの公開をはじめとして、候補者が社内の雰囲気を感じられるような情報を採用リポジトリ上でいくつか公開してきました。日にちやったこと 2020/09/14 採用面接ガイドの公開 2020/09/23 Kyash関連記事まとめの公開 2020/12/23 Slack運用ルールの公開 2021/06/23 2021年Q3のブログ記事用GitHub Project作成 2021/07/12 他チームにも知っておいてもらいたいAndroid/iOSのリリース知識の公開もし何か知りたい情報があれば、気軽にRequest Issueを上げていただけ

sh19910711 2024/05/08

"quipper/handbookに影響 + HERPさんやGameWithさんも採用面接フローをGitHub上で公開 + お互いに参考 / 採用活動における繰り返し処理をモジュール化して公開するようなもので、採用活動のエンジニアリングと言えるかも" 2021

リンク

評価指標入門を読んでみた

はじめに『評価指標入門〜データサイエンスとビジネスをつなぐ架け橋〜』という本を読んでみました。 CRISP-DMに沿った推論モデルの開発において、「評価指標の選定」と「開発した推論モデルが必要な精度を達成しているかを判断するための閾値をどう設定すれば良いか」がわからず、困ったことがあったからです。ネットで評価指標について検索すると、評価指標はいろいろ出てくるのですが、例えばRMSEだと「小さければ小さいほど良いです。ただし、どのくらい小さいと良いのかはデータサイエンティストの経験によります。」とか書かれていて、「その経験の部分を知りたいんだけど…」と感じることが多かったです。そもそも、回帰の問題だったらRMSEやMAE等の評価指標が小さければいいんでしょ的な考えがあり、教科書的な評価指標というかよく出てくる評価指標の閾値をどう考えるのかを知りたくて読み始めました。本書は、第1章評

sh19910711 2024/05/08

"目的関数と評価指標の違い / Kaggleに挑戦していたときは評価指標はすでに決められていた / お客様に納得していただけるように、これから評価指標の立て方を見直すべきで、その大まかな流れがわかった"

リンク

AWS CodeBuildでビルド成功時にAmazon Bedrockを使用して褒めてくれる仕組みを作成してみた | DevelopersIO

AWS CodeBuildのビルド終了時に通知することが可能なのですが、Amazon SNSでのメール通知を設定するだけだと無機質なJSONが送られてくるためAmazon Bedrockを使用してビルド成功時に褒めてくれるようにしてみました。通知ルールの作成通知に使用するAWSリソース Amazon SNSでAWS CodeBuildのビルド成功通知をAWS Lambdaに行い、Lambda関数からAmazon Bedrockのinvoke_modelを実行してレスポンスのテキストをAmazon SNS経由でメール通知するシンプルな構成としています。簡易的にはなりますが構成は以下の通りとなります。作成したコード Lambda関数のコードはPythonで作成しています。今回はAnthropic Claude 3 Sonnetを使用してメッセージ APIを実行するようにしています。

sh19910711 2024/05/08

"Amazon SNSでのメール通知を設定するだけだと無機質なJSONが送られてくるため / eventからbuild-statusを取得してFAILEDなら慰めてもらいSUCCEEDEDなら褒めてもらう / 失敗時に原因として考えられる部分を教えてくれるような仕組み"

リンク

詳説データベース ―ストレージエンジンと分散データシステムの仕組み - たけぞう瀕死ブログ

購入してからだいぶ時間がかかってしまいましたがようやく一周読み終わりました。元々は原著であるDatabase Internalsを読んでいたのですが、邦訳が出るという話を聞いて読み進める気力を失ってしまっていたのでした。詳説データベース ―ストレージエンジンと分散データシステムの仕組み作者:Alex PetrovオライリージャパンAmazon 内容についてですが、データベースといってもクエリ言語やクエリの最適化といった製品依存度の高いトピックについては触れられておらず、データベースの種類を問わず普遍的なトピックであるストレージおよび分散システムに関するかなり硬派な内容になっています。邦訳になっていることで確かに原著よりも早い速度で読むことはできるのですが、特に後半に関しては取り扱っている内容自体の難易度もあり、日本語で読んだから理解しやすいかというとそういうわけでもない感じでした。

sh19910711 2024/05/08

"ストレージおよび分散システムに関するかなり硬派な内容 / 日本語で読んだから理解しやすいかというとそういうわけでもない / 自分で調べるきっかけを与えてくれる" 2021

リンク

Snowflake ArcticにRAGを実装してみる - Qiita

最初にこの記事は以下の2つの記事 Snowflake Arcticを試してみる続・Chromaで埋め込みを体感してみる～日本語対応編～を組み合わせてみたメモとなります。昨日(2024/5/6)にSnowflakeのVector EmbeddingsがPublic Preview(PuPr)になったので、RAGの実装をSnowflakeで完結させることもできるのですが、この記事ではプリミティブな方法を理解するという目的でベクトルデータベースを別途導入して接続しています。 RAGの仕組み RAGの仕組みについては、Snowflake社のBLOG Snowflake Cortexを使用した簡単かつ安全なRAGからLLMへの推論に記載されている以下の図が分かりやすいです。大まかには以下のような流れになります。 Embedしたドキュメントをあらかじめベクトルデータベースに保存しておくユー

sh19910711 2024/05/08

"Snowflake: Vector EmbeddingsがPublic Previewに + RAGの実装をSnowflakeで完結させることもできる / 現在は指定できるのはモデルの種類とプロンプトのみ / cortex.Complete("snowflake-arctic", prompt)"

リンク

Web ブラウザ上で Wasmを使ってOpen Policy Agent (OPA) を実行 - Qiita

はじめに汎用ポリシーエンジンである Open Policy Agent では、WebAssembly 形式でポリシーを配布可能です。本記事では、WebAssembly 形式で出力された Open Policy Agent のポリシーを Web ブラウザで評価することを試してみた内容を紹介します。 Open Policy Agent とは Open Policy Agent (OPA) は OSS の軽量で汎用的なポリシーエンジンです。開発時や運用時におけるルール(ポリシー)を事前に定義することで、ポリシーに反する情報を検出できます。OPA はポリシーを定義するための宣言型言語 Rego と、ポリシー評価のためのシンプルな API を提供しています。 WebAssembly とは WebAssembly とは、 Web ブラウザ上で実行可能なバイナリコードの仕様です。C/C++, Rust

sh19910711 2024/05/08

"OPA; Open Policy Agent: 開発時や運用時におけるルールを事前に定義 + ポリシーを WebAssembly 形式で出力する機能があり + さまざまなプラットフォーム上で OPA のポリシーを評価できる" 2021

リンク

Rのdbplyrでサブクエリを構築すると分かりやすい

本記事は最近読んだ次の記事からインスピレーションを得ました。 RのdplyrやPythonのpolarsのようなパッケージでデータフレームの操作に慣れている人ならば、Rのdbplyrを使うことで、バグが少ない上に早くサブクエリを構築することができます。何千回も実行するSQLならば時間をかけてチューニングされたSQLを構築したほうがよいと思いますが、分析の試行錯誤のサイクルを早く回したい場合など数十回ぐらいしか実行しないSQLならば、dbplyrから実行したほうがよいでしょう。それではざっくり元記事に沿って例を説明します。カラムのサブクエリ大分類（major_category）で絞って、該当する作品を表示する例をお借りします。まず素直にms_categoriesテーブルから該当するcategory_idを抜き出しておいて、%in%で求めると、 category_id_fiction

sh19910711 2024/05/08

"集約した情報を使ってフィルターするなどの処理はデータフレームの得意とする部分 / RのdplyrやPythonのpolarsのようなパッケージ: バグが少ない上に早くサブクエリを構築することができます"

リンク

1つの大きなLLM（大規模言語モデル）を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代昨今、ローカルGPUで駆動できるようなLLM（大規模言語モデル）もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が！」とか言われるようになってまいりました。パラメータ規模で言えば70億～130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。大きなモデルをGPU寄せ集めしつつ遊びたい！しかしながら、コンシュマー向けのGPUにおいては、7B

sh19910711 2024/05/08

"ディスパッチ: 単一GPUでは処理し切れないものを複数のGPUあるいはCPU、ストレージも含めて余裕あるリソースに対して処理を派遣 / 異なるGPUの組み合わせでも動かすことが出来ます"

リンク

AtCoder黄色を目指してやってきたこと - Qiita

hamamuと申します。 AGC053で大成功して（再）入黄できたので（もう1か月たってしまいましたが）、色変記事として、黄色を目指してやってきたことを書きました。他の記事ではあまり見たことがない取り組みを選んで書いたので、お役に立つ部分があるかもしれません。特に「日本語コーディング」は意外と多くの人に役立つかも知れないと思っているので、ぜひぜひ読んで下さいませ！自己紹介自分の特徴を並べてみます。中年である（1975年生まれ）子供の頃からアルゴリズムが大好きだった、パズルも大好きだった仕事は研究開発関連でプログラミングは日常、高速化も日常茶飯事かなり難しい問題でも時間をかければ結構解けるしかし解くのが遅い、特に実装が遅い自分の年代では、競技プログラミングを知っている人がほとんどいません。参加者の中では相当高齢な方だと思います。レートに年齢をかけ算すると、一気に銀冠にジャンプ

sh19910711 2024/05/08

"紙に書いた方がよい局面と、頭でイメージした方が良い局面がありそう / 散歩時の考察力: 「歩きながら」がポイントな気がするのですが、試しに部屋の中でうろうろしてみると、なんかあまり集中できません" 2021

リンク

ArgoCD の Config Management Plugin (CMP)を理解し、Plugin でマニフェストの変数置換を行う - kencharosの日記

概要前職の同僚がずっと、PullRequest ごとにプレビュー環境でアプリケーションをデプロイしたいと言っていた。確かにそれができれば便利ではあるけど、たとえ k8s の力を借りても実現するまでの手順は多く、遠い夢かと思っていた。でも ArgoCD で頑張ればその夢は近くなるかもしれない。これは、ArgoCDの Config Management Plugin (CMP) と呼ばれる機能を使って、動的なマニフェスト生成を行い、さらにPullRequestごとの固有の情報をマニフェストに柔軟に埋め込むための仕組みを考えてみたという話。想定読者 k8s にある程度詳しい ArgoCD にもある程度詳しい ArgoCD の ApplicationSet や Generator の機能を知っている、あるいは調べればわかる方参考資料 GitブランチやPullRequestごとにプレビュ

sh19910711 2024/05/08

"PullRequestごとの固有の情報をマニフェストに柔軟に埋め込む / ArgoCD: kustomize や Helm などのビルドに対応 + Plugin を使うことで任意の処理でマニフェストのビルドを行うことができる" 2022

リンク

レイマーチングのための複雑な距離関数 - Qiita

レイマーチングで使える複雑めな距離関数を収集していきます。球や直方体など単純な図形に関しては以下にまとまっているので、ここでは触れません。 Inigo Quilez :: fractals, computer graphics, mathematics, shaders, demoscene and more Recursive Tetrahedron http://glslsandbox.com/e#55834.0 四面体のIFSによる繰り返しです。最終的に四面体の頂点に対して距離を計算しています。 #define ITERATIONS 8 float deRecursiveTetrahedron(vec3 p, vec3 offset, float scale) { vec4 z = vec4(p, 1.0); for (int i = 0; i < ITERATIONS; i++)

sh19910711 2024/05/08

"Menger Sponge: 再帰的にクロス状の図形との論理差を取ることで穴を開けていきます / 六角形: 単純にmodを用いた繰り返しを使用してもうまくいきません + タイリングを2つに分けてそれぞれ距離を計算し論理和で結合" 2019

リンク

データサイエンスを記述と予測と因果推論に分類する

A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks を読んだまとめです。モチベーション業務で予測モデルの構築や、予測モデルを用いる機能の検討を行うことが多いのですが、本当に必要なのは予測ではないと強く感じています。実際、予測モデルを適用したい業務については次の状態です。現状で業務の中で予測を行っていない予測を行いたい理由を聞くと、予測結果がどのような特徴に左右されるのか知りたいという同様にヒアリングすると、予測結果を高めるためにはどのような介入を行えばよいか知りたいというこの状態でも予測モデルを作成することはできますが、予測結果を業務に組み込むことは著しく困難です。現在の業務フローが予測結果に基づくものでないため、予測結果を提供しても既存の業務フローでは用いら

sh19910711 2024/05/08

"因果推論: 良いデータ・良いアルゴリズム・専門知識 + ある変化を起こすことによる効果をシミュレーションする / 専門家の因果関係に関する知識を再現できていることが重要" 2021

リンク

効率的な論文の読み方 -読み解くヒントの狙い読みをしよう-｜石原尚（大阪大学教員）

論文には難解な内容が詳細まで記載されているため、指針もなく読み進めていくだけではなかなか理解を進めることができません。効率的に読み進めていくには、論文に散りばめられている「読み解くためのヒント」を集めるための「狙い読み」を先に済ませておくことが有効です。この記事では、そもそも何を読み解くべきかを紹介したうえで、どのようなヒントがどこにあり、またそれによって何をどう読み解いていけばよいかを解説します。 ※この記事は著者のブログ「駆け出し研究者の研究技術入門」からの転載です。一部修正を加えています。まず把握すべきは論文の「アイデンティティ」と「地図」論文を最初に読むときにまず把握すべきことは、その論文を他とは違うものたらしめている「論文のアイデンティティ」と、その論文を本格的に読み込んでいく際に迷わずに効率的に読んで回るための「論文の地図」の２つです。「アイデンティティ」というのは、論文の肝

sh19910711 2024/05/08

"論文タイトル: 何のために（目的）・何をして（手法）・何を得たか（結果） + まずはタイトルだけを見て、この三要素の ~ / 結論の第1段落: 理解のとっかかり + 「理解すべきだけど理解できていないこと」を把握" 2022

リンク

ChatGPTとデバッグ：落とし穴から抜け出す方法 - アイソモカ

プログラミングの9割はデバッグだ。いや、さすがにそれは言い過ぎか。それでも、デバッグ（うまく動かないプログラムを修正すること）がプログラミングの大切な一部であることは間違いない。先日SNSを見ていたら、ChatGPTをプログラミングに活用することについて「うまくプロンプトを与えても、生成されたプログラムが自分の要求仕様通りになることはまずなく、自分で修正する必要がある」と言っている人がいて、ちょっと驚いてしまった。自分で修正するなよ、ChatGPTに「思い通りに動かない」と説明して直してもらえばいいのに。でも、考えてみると、公開されているChatGPTの使い方（プロンプト集や活用事例）は、仕様を説明してプログラムを書いてもらう方法や、アーキテクチャに関する相談……デバッグ以外の部分が圧倒的に多い。 ChatGPTにデバッグの相談をしないなんてもったいないと思う。私は趣味のプログラミングプ

sh19910711 2024/05/08

"複数ターン: 完璧なコードを生み出すプロンプトを書こうと我々がひとりで頭を捻る必要ない / ユーザーが何を求めているのかについて一発で正解を見出すのは困難 + 違うなと感じたら自分が求めるものを明示的に指示"

リンク

はてなブックマーク

タグ

2024年5月8日のブックマーク (21件)

Observability はじめの一歩 CloudWatch Synthetics

Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita

【PyTorch+Numpy】Dataloaderに潜むありがちなバグ - ころがる狸

Intel Optane Persistent Memory を使ってみた - VA Linux エンジニアブログ

CockroachDB はどのくらい「しぶとい」のか？ / How tough is CockroachDB?

自分の英語勉強法 - mookjp.io

採用拡大フェーズに突入して採用ATSをHubspotからHERP Hireに移管した話｜なおぴん

Kyashの採用リポジトリを公開して1年の振り返り - Kyash Product Blog

評価指標入門を読んでみた

AWS CodeBuildでビルド成功時にAmazon Bedrockを使用して褒めてくれる仕組みを作成してみた | DevelopersIO

詳説データベース ―ストレージエンジンと分散データシステムの仕組み - たけぞう瀕死ブログ

Snowflake ArcticにRAGを実装してみる - Qiita

Web ブラウザ上で Wasmを使ってOpen Policy Agent (OPA) を実行 - Qiita

Rのdbplyrでサブクエリを構築すると分かりやすい

1つの大きなLLM（大規模言語モデル）を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

AtCoder黄色を目指してやってきたこと - Qiita

ArgoCD の Config Management Plugin (CMP)を理解し、Plugin でマニフェストの変数置換を行う - kencharosの日記

レイマーチングのための複雑な距離関数 - Qiita

データサイエンスを記述と予測と因果推論に分類する

効率的な論文の読み方 -読み解くヒントの狙い読みをしよう-｜石原尚（大阪大学教員）

ChatGPTとデバッグ：落とし穴から抜け出す方法 - アイソモカ

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス