概要 Splunkが DeepLearningに対応しました(驚き)。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。 もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして 複数の NLP ライブラリが利用可能です。 今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。 ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた
PyTorchは素晴らしい機械学習フレームワークですが、データ読み込みに使うDatasetとNumpyによる乱数発生の組み合わせは思わぬバグの発生源となっているようです。2021年4月10日に投稿されたこちらの記事がTwitter上で話題になっています。 tanelp.github.io 一言で要約するなら:PyTorchでデータを読み込む際にマルチプロセス処理を行うと、親プロセスのNumpyの乱数生成器の状態が子プロセスに継承されるため、ランダムであるべき配列の値がすべて同一になる。上記の記事にはコードもついているので、どういうことか手を動かして確認してみましょう。 悪い例その1と解決策 悪い例その2と解決策 torch.randintの力に頼ろう 悪い例その1と解決策 上の記事でも紹介されているコードがこちらです。numpy.random.randint(0, 1000, 3)で0以上
1. はじめに 1.1 この記事について 1.2 使用した環境 2. Intel Optane Persistent Memory (DCPMM) とは 2.1 概要 2.2 各種概念 2.2.1 mode 2.2.2 region 2.2.3 namespace 3. 管理ツール 4. 実機確認 4.1. 状況確認 4.2 memory mode への変更 4.3 app direct mode への変更 4.4 namespace の作成 5. 最後に 執筆者 : 西村 大助 1. はじめに 1.1 この記事について 本稿では、Intel Optane Persistent Memory (以下、「DCPMM」1) を使うにあたり必要な、基本的な概念や Linux 上での使用方法などを説明したいと思います。 私自身、Linux の DCPMM 関連の開発を行っているわけではなく、たまた
CockroachDB はどのくらい「しぶとい」のか? / How tough is CockroachDB?
私は現在英語でコミュニケーションを取る職場にいるのですが、英語を褒めてもらえたり、英語をどうやって勉強したのかと聞かれることがあります。 思い返してみると、今までにいろいろと英語の勉強について試行錯誤した気もします。 そこで、自分の振り返りも兼ねて、効果があった方法、逆になかった方法をまとめてみることにしました。 自分の英語レベル 前提として私の英語レベルがどのくらいか書いておいたほうがいいかなと思うので、ざっと書いてみます。 英語の試験でスコアがどのくらいか 2008年?時点の初受験の TOEIC Reading / Listening で 600 程度で、2012年時点で TOEIC Reading / Listening で 885 でした。 2008年は1回受けてみよう、という感じで少し予習をして受けました。そこからまったく英語の勉強はしておらず、集中的に勉強していたのは、2012
はじめにこんにちは。キャディ株式会社のHRで採用のリーダーをしています。2019年の年末に、「HRMOSからHubspotに採用ATSを移管した」ってnoteを前任のあんでぃが出していたのですが、そこから1年半‥‥実は2021年6月にHERP Hireに移管しています。「キャディさん、Hubspotどうやって使ってるか教えて!」なんて聞かれることも多く「あ、いや、あの、もう、じつは」ってなってたこともあり、またHERP激ラブな我がチームを代表して、この移管にまつわる話をまとめたいと思います。 キャディは上記の記事の後、更なる採用拡大フェーズに突入し、採用目標も数倍以上、候補者数も数倍以上、採用オペレーション(面接設定など)するアシスタントも、現場の面接官も全てが数倍に増えてきたところでした。Hubspotに切り替えた時期にも十分に検討されたことでしたが、改めて「もう無理やあああああ(理由は
Kyashの @konifar です。 1年前の2020年9月、Kyashの採用リポジトリを公開してました。詳細は以下の記事にまとめています。 blog.kyash.co 1年間でいくつか変化もあったので、実績を振り返ってみます。 やったこと 採用面接ガイドの公開をはじめとして、候補者が社内の雰囲気を感じられるような情報を採用リポジトリ上でいくつか公開してきました。 日にち やったこと 2020/09/14 採用面接ガイドの公開 2020/09/23 Kyash関連記事まとめの公開 2020/12/23 Slack運用ルールの公開 2021/06/23 2021年Q3のブログ記事用GitHub Project作成 2021/07/12 他チームにも知っておいてもらいたいAndroid/iOSのリリース知識の公開 もし何か知りたい情報があれば、気軽にRequest Issueを上げていただけ
はじめに 『評価指標入門〜データサイエンスとビジネスをつなぐ架け橋〜』という本を読んでみました。 CRISP-DMに沿った推論モデルの開発において、「評価指標の選定」と「開発した推論モデルが必要な精度を達成しているかを判断するための閾値をどう設定すれば良いか」がわからず、困ったことがあったからです。 ネットで評価指標について検索すると、評価指標はいろいろ出てくるのですが、例えばRMSEだと「小さければ小さいほど良いです。ただし、どのくらい小さいと良いのかはデータサイエンティストの経験によります。」とか書かれていて、「その経験の部分を知りたいんだけど…」と感じることが多かったです。 そもそも、回帰の問題だったらRMSEやMAE等の評価指標が小さければいいんでしょ的な考えがあり、教科書的な評価指標というかよく出てくる評価指標の閾値をどう考えるのかを知りたくて読み始めました。 本書は、第1章 評
AWS CodeBuildのビルド終了時に通知することが可能なのですが、Amazon SNSでのメール通知を設定するだけだと無機質なJSONが送られてくるためAmazon Bedrockを使用してビルド成功時に褒めてくれるようにしてみました。 通知ルールの作成 通知に使用するAWSリソース Amazon SNSでAWS CodeBuildのビルド成功通知をAWS Lambdaに行い、Lambda関数からAmazon Bedrockのinvoke_modelを実行してレスポンスのテキストをAmazon SNS経由でメール通知するシンプルな構成としています。 簡易的にはなりますが構成は以下の通りとなります。 作成したコード Lambda関数のコードはPythonで作成しています。 今回はAnthropic Claude 3 Sonnetを使用してメッセージ APIを実行するようにしています。
購入してからだいぶ時間がかかってしまいましたがようやく一周読み終わりました。元々は原著であるDatabase Internalsを読んでいたのですが、邦訳が出るという話を聞いて読み進める気力を失ってしまっていたのでした。 詳説 データベース ―ストレージエンジンと分散データシステムの仕組み 作者:Alex PetrovオライリージャパンAmazon 内容についてですが、データベースといってもクエリ言語やクエリの最適化といった製品依存度の高いトピックについては触れられておらず、データベースの種類を問わず普遍的なトピックであるストレージおよび分散システムに関するかなり硬派な内容になっています。 邦訳になっていることで確かに原著よりも早い速度で読むことはできるのですが、特に後半に関しては取り扱っている内容自体の難易度もあり、日本語で読んだから理解しやすいかというとそういうわけでもない感じでした。
最初に この記事は以下の2つの記事 Snowflake Arcticを試してみる 続・Chromaで埋め込みを体感してみる~日本語対応編~ を組み合わせてみたメモとなります。 昨日(2024/5/6)にSnowflakeのVector EmbeddingsがPublic Preview(PuPr)になったので、RAGの実装をSnowflakeで完結させることもできるのですが、この記事ではプリミティブな方法を理解するという目的でベクトルデータベースを別途導入して接続しています。 RAGの仕組み RAGの仕組みについては、Snowflake社のBLOG Snowflake Cortexを使用した簡単かつ安全なRAGからLLMへの推論に記載されている以下の図が分かりやすいです。 大まかには以下のような流れになります。 Embedしたドキュメントをあらかじめベクトルデータベースに保存しておく ユー
はじめに 汎用ポリシーエンジンである Open Policy Agent では、WebAssembly 形式でポリシーを配布可能です。本記事では、WebAssembly 形式で出力された Open Policy Agent のポリシーを Web ブラウザで評価することを試してみた内容を紹介します。 Open Policy Agent とは Open Policy Agent (OPA) は OSS の軽量で汎用的なポリシーエンジンです。開発時や運用時におけるルール(ポリシー)を事前に定義することで、ポリシーに反する情報を検出できます。OPA はポリシーを定義するための宣言型言語 Rego と、ポリシー評価のためのシンプルな API を提供しています。 WebAssembly とは WebAssembly とは、 Web ブラウザ上で実行可能なバイナリコードの仕様です。C/C++, Rust
本記事は最近読んだ次の記事からインスピレーションを得ました。 RのdplyrやPythonのpolarsのようなパッケージでデータフレームの操作に慣れている人ならば、Rのdbplyrを使うことで、バグが少ない上に早くサブクエリを構築することができます。 何千回も実行するSQLならば時間をかけてチューニングされたSQLを構築したほうがよいと思いますが、分析の試行錯誤のサイクルを早く回したい場合など数十回ぐらいしか実行しないSQLならば、dbplyrから実行したほうがよいでしょう。 それではざっくり元記事に沿って例を説明します。 カラムのサブクエリ 大分類(major_category)で絞って、該当する作品を表示する例をお借りします。 まず素直にms_categoriesテーブルから該当するcategory_idを抜き出しておいて、%in%で求めると、 category_id_fiction
地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラメータ規模で言えば70億~130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。 大きなモデルをGPU寄せ集めしつつ遊びたい! しかしながら、コンシュマー向けのGPUにおいては、7B
hamamuと申します。 AGC053で大成功して(再)入黄できたので(もう1か月たってしまいましたが)、色変記事として、黄色を目指してやってきたことを書きました。他の記事ではあまり見たことがない取り組みを選んで書いたので、お役に立つ部分があるかもしれません。特に「日本語コーディング」は意外と多くの人に役立つかも知れないと思っているので、ぜひぜひ読んで下さいませ! 自己紹介 自分の特徴を並べてみます。 中年である(1975年生まれ) 子供の頃からアルゴリズムが大好きだった、パズルも大好きだった 仕事は研究開発関連でプログラミングは日常、高速化も日常茶飯事 かなり難しい問題でも時間をかければ結構解ける しかし解くのが遅い、特に実装が遅い 自分の年代では、競技プログラミングを知っている人がほとんどいません。参加者の中では相当高齢な方だと思います。レートに年齢をかけ算すると、一気に銀冠にジャンプ
概要 前職の同僚がずっと、PullRequest ごとにプレビュー環境でアプリケーションをデプロイしたいと言っていた。 確かにそれができれば便利ではあるけど、たとえ k8s の力を借りても実現するまでの手順は多く、遠い夢かと思っていた。 でも ArgoCD で頑張ればその夢は近くなるかもしれない。 これは、ArgoCDの Config Management Plugin (CMP) と呼ばれる機能を使って、動的なマニフェスト生成を行い、さらにPullRequestごとの固有の情報をマニフェストに柔軟に埋め込むための仕組みを考えてみたという話。 想定読者 k8s にある程度詳しい ArgoCD にもある程度詳しい ArgoCD の ApplicationSet や Generator の機能を知っている、あるいは調べればわかる方 参考資料 GitブランチやPullRequestごとにプレビュ
レイマーチングで使える複雑めな距離関数を収集していきます。 球や直方体など単純な図形に関しては以下にまとまっているので、ここでは触れません。 Inigo Quilez :: fractals, computer graphics, mathematics, shaders, demoscene and more Recursive Tetrahedron http://glslsandbox.com/e#55834.0 四面体のIFSによる繰り返しです。最終的に四面体の頂点に対して距離を計算しています。 #define ITERATIONS 8 float deRecursiveTetrahedron(vec3 p, vec3 offset, float scale) { vec4 z = vec4(p, 1.0); for (int i = 0; i < ITERATIONS; i++)
A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks を読んだまとめです。 モチベーション 業務で予測モデルの構築や、予測モデルを用いる機能の検討を行うことが多いのですが、本当に必要なのは予測ではないと強く感じています。実際、予測モデルを適用したい業務については次の状態です。 現状で業務の中で予測を行っていない 予測を行いたい理由を聞くと、予測結果がどのような特徴に左右されるのか知りたいという 同様にヒアリングすると、予測結果を高めるためにはどのような介入を行えばよいか知りたいという この状態でも予測モデルを作成することはできますが、予測結果を業務に組み込むことは著しく困難です。現在の業務フローが予測結果に基づくものでないため、予測結果を提供しても既存の業務フローでは用いら
論文には難解な内容が詳細まで記載されているため、指針もなく読み進めていくだけではなかなか理解を進めることができません。効率的に読み進めていくには、論文に散りばめられている「読み解くためのヒント」を集めるための「狙い読み」を先に済ませておくことが有効です。この記事では、そもそも何を読み解くべきかを紹介したうえで、どのようなヒントがどこにあり、またそれによって何をどう読み解いていけばよいかを解説します。 ※この記事は著者のブログ「駆け出し研究者の研究技術入門」からの転載です。一部修正を加えています。 まず把握すべきは論文の「アイデンティティ」と「地図」論文を最初に読むときにまず把握すべきことは、その論文を他とは違うものたらしめている「論文のアイデンティティ」と、その論文を本格的に読み込んでいく際に迷わずに効率的に読んで回るための「論文の地図」の2つです。「アイデンティティ」というのは、論文の肝
プログラミングの9割はデバッグだ。いや、さすがにそれは言い過ぎか。それでも、デバッグ(うまく動かないプログラムを修正すること)がプログラミングの大切な一部であることは間違いない。先日SNSを見ていたら、ChatGPTをプログラミングに活用することについて「うまくプロンプトを与えても、生成されたプログラムが自分の要求仕様通りになることはまずなく、自分で修正する必要がある」と言っている人がいて、ちょっと驚いてしまった。自分で修正するなよ、ChatGPTに「思い通りに動かない」と説明して直してもらえばいいのに。 でも、考えてみると、公開されているChatGPTの使い方(プロンプト集や活用事例)は、仕様を説明してプログラムを書いてもらう方法や、アーキテクチャに関する相談……デバッグ以外の部分が圧倒的に多い。 ChatGPTにデバッグの相談をしないなんてもったいないと思う。私は趣味のプログラミングプ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く