[B! ML・DL] imaizmのブックマーク

Geminiを使ったらKaggle初挑戦、参加期間10日間でも5位入賞できたので手法をすべて書く - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 一言で言うと？この記事を一言で言うと、kaggleのあらゆる情報をマークダウン形式にしてまとめて(約50万トークン)、Geminiのプロンプトに入れたらいい感じだった！という内容です。はじめにこんにちは！yukky_maruです。先日、KaggleのLLM 20 Questionsのwinner callが無事終わって賞金もいただき、一段落ついたので、今回自分が使った方法をシェアしたいと思います。なお、この金メダルは半分くらいはGeminiのおかげです！ Gemini を活用しまくりました。ChatGPTやClaudeではない理

imaizm 2024/10/20

リンク

ゼロからRAGを作るならこんなふうに

どんな人向けの記事？これからRAGを作ってみたい DifyやLangChainにこだわらず、自分で開発をハンドリングしたいベクトルDBや埋め込みモデルの選定の勘所をサッと知りたいここではRAGとは何かのような話題は扱いません。 RAGが、ほぼAI活用の現実的な最適解になりつつある LLMは高度な知的タスクを実行可能である。そんな理解が世界に広まっていく中で、企業は自らが蓄えたデータをLLMに組み合わせてどう活用するか躍起になっています。これからはビッグデータだ！という時代を経ているため、情報インフラに投資した企業も多く、AIでデータを活用する流れはもはや確定路線と言えます。この問題を解決する手法として一番最初に思いつくのは、モデル自体を改変するファインチューニングです。しかし、ファインチューニングにはいくつかの実用上の問題があります。ファインチューニング自体に専門知識が必要である

imaizm 2024/08/15

リンク

機械学習基盤のアーキテクチャ特集　〜8社の設計意図と今後の展望〜 - Findy Tools

毎回ご好評頂いているアーキテクチャ特集の今回のテーマは、機械学習です。機械学習に特に力を入れている日本のIT企業8社にご協力頂き、それぞれの技術的な挑戦と今後の展望についてご寄稿頂きました。各社のアプローチと最新の技術動向を通じて、次世代のイノベーションを紐解いていきましょう。 ※ご紹介は企業名のアルファベット順となっております株式会社ABEJA ABEJA Insight for Retailについて ABEJA Insight for Retailは、お客様の店舗訪問から購入までの行動をデータから分析する、ABEJAが提供するDXツールです。店舗にIoTデバイス（カメラや来客カウンター等）を設置し、取得データを顧客企業に提供することで小売店舗の運営を支援しています。「リアル世界のGoogleAnalytics」をご想像いただけるとわかりやすいかもしれません。ABEJAが取得・提供す

imaizm 2024/07/31

リンク

加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実

加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。いくつかの興味深い事象が起きているからだ。昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function

imaizm 2024/06/21

リンク

ベクトルデータの容量を96%削減するBinary Embedding

導入こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。保管するベクトルデータの容量を96%ほど削減で

imaizm 2024/05/22

リンク

僕たちがグラフニューラルネットワークを学ぶ理由

グラフニューラルネットワーク - Forkwell Library #50 https://forkwell.connpass.com/event/315577/ での講演スライドです。サポートサイト：https://github.com/joisino/gnnbook グラフニューラルネット…

imaizm 2024/04/27

リンク

機械学習による株価予想の十八手 - Qiita

1. 株価はサプライズによって動く株式相場には常にプロの投資家がうごめいており、各銘柄の各種業績数値を常に予想して投資活動をしている。そんな状況下において、仮に「売上が前年比2倍」という決算が発表されても、株価が2倍になるわけではない。むしろ3倍が予想されていたのに、2倍だったら失望売りとなる。つまり事前予想と比較してこそ意味があり、staticな値や過去実績との比較を特徴量にすることはあまり意味がない。事前予想と決算の乖離、または前回予想と今回予想の乖離こそが意味のある特徴量であると言える。 2. 業績数値の単純な変化率では株価インパクトは測れない営業利益の事前予想100億円に対し、決算が200億円の場合、変化率 = （実績 - 予想 ) / 予想の計算式を使うと、変化率は100%となる。この変化率を特徴量にするのは一見もっともらしいが、株においてはこれは使いづらい。営業利

imaizm 2024/03/24

リンク

Dockerで構築する機械学習環境【2024年版】

Dockerを使った機械学習環境の構築方法株式会社松尾研究所で働いているからあげ（@karaage0703）です。松尾研究所では、機械学習（ここでは、予測モデル、画像認識からLLMまで幅広く扱います）を使う多数のプロジェクトが走っています。プロジェクトの特性は多種多様なので、環境構築方法は様々なのですが、松尾研究所では、環境構築方法の1つとしてDockerを推奨していています。今回はDockerを使った機械学習環境の構築方法を紹介します。松尾研究所の特にインターン生を想定した記事にはなりますが、他の組織、個人の方にも参考になる部分があるかと思いWebに広く公開させていただきます。なぜDockerで機械学習環境を構築するのか？具体的な手法に入る前に、まずはDockerで機械学習環境を構築する理由から説明したいと思います。説明が不要な方はここはスキップしてもOKです。そのために、Do

imaizm 2024/03/12

リンク

Kaggleのハードルを下げたい！ - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Image generated by OpenAI's DALL·E-3. はじめにこんにちは！突然ですが、Kaggleのハードルって高くないですか？特に初見だと、複雑なルールや大量のデータなどに圧倒されてしまう人も多いかもしれませんね。また、全て英語なので非英語話者にとってはそこもハードルを上げる原因になっていると考えられます。実際は慣れれば簡単なことも多いのですが、Kaggle慣れするまでにやや時間がかかるのも事実です。そこで、少しでもKaggleのハードルを下げたいと考えて本記事を執筆しました。対象読者様この記事は、以下の

imaizm 2023/10/18

リンク

【図解】Pythonのライブラリ 24選＋α - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Pythonにはライブラリが沢山あります。ライブラリとは便利な機能を持ったプログラムを集めたものを言い、このライブラリを上手く使うことで色々なことを実現できます。今回はこのライブラリを用途別で図解にまとめました。 Pythonでプログラムを組む際の参考になりましたら幸いです。 ※簡単にまとめているだけなので、詳しい中身は公式ドキュメント等をご確認ください。追記（2023/12/25）当記事がありがたいことに好評いただけたので、Pythonの基礎も図解化しました。あわせてご活用いただけますと幸いです。追記（2024/8/22）上

imaizm 2023/10/17

リンク

慶應義塾大学機械学習基礎02 コーディング

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

imaizm 2023/10/17

リンク

社内勉強会で生成AIについて発表したので70ページの資料を公開する！ - Qiita

前置き毎週金曜日夕方に行われる社内勉強会にて、先日生成AIについて発表しました。折角なので少し加筆修正した資料を公開します。進化のスピードが早く、一時期食傷気味に陥ってましたが改めて昨今の生成AI関連の基本となるインプットを目指しました。 ※資料内冒頭に記載してますが、AIの専門家ではないので認識や説明に誤りがある可能性があります。当方も勉強中なので、「ここ違うよ」や「これの説明もあるといいんじゃない」など様々なコメント大歓迎です！資料資料目次 AIの基本機械学習について深層学習について機械学習の種類教師あり学習の得意なこと教師あり学習のイメージ教師なし学習の得意なこと教師なし学習のイメージ強化学習の得意なこと生成AIについて生成AIとは生成AIの位置付け生成AI利用例代表的なサービス例日本における盛り上がり生成AI市場規模 AGIとは AGIは近い？

imaizm 2023/06/29

リンク

SQLiteでベクトル検索ができる拡張sqlite-vssを試す｜mah_lab / 西見公宏

SQLiteでベクトル検索を可能にするsqlite-vssそんなポータブルで便利なSQLiteですが、そのSQLiteでベクトル検索ができるとなるとより夢が広がります。 SQLite自体はファイルベースなので、あらかじめベクトルデータを設定したSQLiteデータベースファイルをアプリに組み込んで配布しても良いわけです。そうすればデータベースサーバを用意しなくて済む分コストも圧縮されますし、組み込みなのでアプリからは軽量に動作します。ホスティングする場合でもFly.ioのようにボリュームイメージを利用できるPaaSを利用すれば、問題なく運用が可能です。前置きが長くなりましたが、このような夢を叶えてくれる拡張がsqlite-vssです。ベクトル検索はFaissベースで実装されています。とっても良さげではあるのですが、実際に組み込んでみた場合のコード例が見つからなかったので、手を動かして試

imaizm 2023/06/08

リンク

ChatGPTのコア技術「GPT」をざっくり理解する - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ※本記事はOracleの下記Meetup「Oracle Big Data Jam Session」で実施予定の内容です。 ※セミナー実施済の動画に関しては以下をご参照ください。本記事の対象者これから機械学習を利用した開発をしていきたい方機械学習のトレンド技術を知りたい方なるべく初歩的な内容から学習したい方はじめに Transf ormerの登場以降、著しい技術革新が続くここ数年、特にOpenAI社のChatGPTのサービス開始以降、おびただしい数の技術ブログや記事がインターネット上に存在する中、本記事に目を留めていただいてありが

imaizm 2023/06/01

リンク

畳み込みの視点から見たforall(every)とexists(some): 空集合に対するforallは常にtrueになる - Lambdaカクテル

こういうツイートが話題になっていた。「配列のすべての要素が条件を満たすならtrueを返す」関数を定義するとき、空の配列を渡したらfalseを返すかtrueを返すかが、良いプログラマかどうかの一つの境目だ— ふみ (DJ Monad) (@fumieval) 2023年5月29日つまりScalaで言うと次のようなコードが何になるか、というものである。 val xs = Seq.empty[Int] xs.forall(_ == 42) 結論から言うと、このような関数は常にtrueを返す。なぜだろう？その理由をこれから説明する。ちなみに他に以下のような意見があった: 仕様による例外を投げるべきいずれもまぁありえなくはないが、やめておいたほうが良いと思う。もし仮にfalseを返すような仕様があった場合、それは数学から乖離しているのでいずれ仕様内部で矛盾する可能性が高いし*1、最終的に

imaizm 2023/05/31

リンク

高速で持続可能な開発のためのソフトウェア工学と機械学習への適用

こんにちは、Wantedlyで推薦システムを開発している樋口です。Kaggleや実務での機械学習の開発にて、過去に下記のような失敗がありました。精度改善のために実験を繰り返し追加したら、PRが巨大になり、レビューに時間がかかった学習結果を確認したら、パラメータを一部だけ間違えていて、再度長い実験をやり直したこのような悩みを解決するために、書籍や経験で学んだプラクティスを取り組んできました。例をあげると以下のようなのものがあります。小さい単位でPRを作成するパラメータを設定ファイルに切り出して、ヌケモレを減らす学習データをサンプリングして、実行時間を短縮して結果を素早く確認するこれらのプラクティスに取り組む中で、もっと "高速で正確な開発を行うための知見や方法が体系化されているのではないか" という疑問が湧きました。この疑問を解決するべく"継続的デリバリーのためのソフトウェア

imaizm 2023/05/26

リンク

CyberAgent AI事業本部MLOps研修応用編

CybagerAgent AI事業本部 2023年度新卒研修 MLOps 応用編で使用したスライドです。ハンズオンで使用したGitHub Repository: https://github.com/nsakki55/aws-mlops-handson

imaizm 2023/05/25

リンク

LLMを理解する一歩として「ゼロから作るDeep Learning」をやった - $shibayu36->blog;

LLM、GPT界隈を追いかけていて、GPTの仕組みと限界についての考察（2.1） - conceptualizationという記事を見かけた。これを見たとき、「どういうことか全然理解できない」という気持ちになった。また、その他LLMの解説記事を理解できないことが多く、自分の機械学習知識不足が明確になった。理解できなかったことは悔しいし、LLMやChatGPTをうまく使いこなすには最低限どのような原理で動いているか理解したいと感じた。そこで一歩目として「ゼロから作るDeep Learning」を完走した。ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装作者:斎藤康毅オライリージャパンAmazon 知識なしからはじめたので時間はかかったが、次のように進めていった。自分もコードを写経しながら読むレポジトリは https://github.co

imaizm 2023/05/23

リンク

大規模言語モデルの驚異と脅威

2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを（Research Preview版ではあるが）無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転…

imaizm 2023/03/28

リンク

(数式を使わない) Transformer の直感的な説明 / 真面目なプログラマのためのディープラーニング入門

(数式を使わない) Transf ormer の直感的な説明 RNN の欠点 Transf ormer はこれをどう解決したか Transf ormer の動作原理複数の要素間の関係を考慮する (Self-Attention、自己注意) 要素の順序を考慮する (Positional Encoding、位置エンコーディング) まとめ概要: ChatGPT などで使われている Transf ormer モデルは、ニューラルネットワークの世界にいくつかの革新的なアイデアをもたらした。本記事では、プログラマに理解しやすい形でそれらのアイデアを解説する。実際に使われている数学の詳細には触れない。 (技術的解説については元論文 Attention is All You Need か、その注釈版である The Annotated Transf ormer を参照のこと。日本語ではこの解説がわかり

imaizm 2023/02/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (58)

ML・DLに関するimaizmのブックマーク (63)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

月間はてなブックマーク数ランキング（2025年1月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス