タグ

2024年6月12日のブックマーク (82件)

  • Streamlit in SnowflakeでCortexと対話できるチャットアプリを作ってみた - Qiita

    はじめに 先日SnowflakeでサポートされているStreamlitのバージョンがv1.26.0まで上がり、それに伴ってStreamlitのチャット機能がStreamlit in Snowflake(SiS)でも使えるようになりました。 Snowflakeでは生成AIの機能であるCortex LLMも一部リージョンではpublic previewになっているため、これらを組み合わせてチャットアプリを作ってみました。 Snowflake Cortexとは Snowflake上から機械学習や生成AIを使える機能で、MLベースのモデルやLLMベースのモデルを利用できます。 LLMベースのモデルでは以下の関数を利用できます。 COMPLETE: プロンプトが与えられた場合、プロンプトに対応する応答を返す EXTRACT_ANSWER: ドキュメント(英語のテキストかJSONデータ)と質問が与えら

    Streamlit in SnowflakeでCortexと対話できるチャットアプリを作ってみた - Qiita
    sh19910711
    sh19910711 2024/06/12
    "SnowflakeでサポートされているStreamlitのバージョンがv1.26.0まで上がり ~ チャット機能がStreamlit in Snowflake(SiS)でも使える / 対話形式での応答・翻訳・要約の3つの機能を持ったアプリ"
  • 画像向けAI異常検知で間違い探しを解いてみた - Insight Edge Tech Blog

    はじめまして、今年の1月にInsight Edgeへ参画したData Scientistの山科です。 まだ加入して数ヶ月ですが、画像を用いた異常検知や予兆保全、オペレーションの最適化、生成AI用いたDX案件など、幅広い技術・分野に携わらせてもらっており、日々、調査にデータ分析の試行錯誤と四苦八苦しながら業務に取り組んでいます。 今回は、画像を用いた異常検知に関する案件でPatchCoreという手法を用いたのですが、使い勝手が良く様々なことに使えそうだなと感じましたので、間違い探しを題材にパラメータのケーススタディをした結果を評価し、どういったことに使えるかを考察していきたいと思います。 目次 画像に対する異常検知手法 AIで間違い探しを解く! 考察 画像に対する異常検知手法 画像認識技術を用いた異常検知の重要性については、藤村さんの記事 でも紹介されている通りで、製造業や農業など幅広い分野

    画像向けAI異常検知で間違い探しを解いてみた - Insight Edge Tech Blog
    sh19910711
    sh19910711 2024/06/12
    "PatchCore: 学習済みモデル用いて正常画像から抽出した特徴量をMemory Bankに保存 + 判定したい画像の特徴量との距離から正常/異常を判定 / 最終層ではなく中間層から特徴量を取得するようにしたことで画像の位置情報も保持"
  • AutoEncoder系の手法でTop-N推薦まとめ - Qiita

    はじめに こんにちは。 今回は、Deep Learningの手法の中でもAutoEncoder系の手法(Denoising AutoEncoderやVariational AutoEncoderなど)をTop-N推薦タスクに適用した研究をいくつかまとめてみようと思います。 Deep Learningの手法を推薦タスクに適用するといった研究は近年増えています。 従来の推薦タスク用いられる協調フィルタリング系の手法にDeep learningを組み合わせる研究については、次のような記事があります。 DeepなFactorization Machinesの最新動向 (2018) - Gunosy データ分析ブログ Collaborative Metric Learningの関連研究まとめ - Qiita IRGAN (SIGIR 2017)→GraphGAN (AAAI 2018)→CFGAN

    AutoEncoder系の手法でTop-N推薦まとめ - Qiita
    sh19910711
    sh19910711 2024/06/12
    "DAE: 入力にノイズ + 得られる出力がノイズを乗せる前のデータに近くなるように学習 / CDAE: 過去にinteractionがあったitemに対応する次元のみ1が立っているようなone-hotベクトル + userのembeddingを中間層に足す" 2020
  • ベクトル検索の苦手を克服。ナレッジグラフでRAGを作る

    TL;DR ベクトル検索だと、複数のステップを踏まないと答えられない質問の検索がむずい 「TomにEmil Eifrém(Neo4jCEO)を紹介してくれる人は?」とかを検索むずい ナレッジグラフは構造化データと非構造化データをうまく扱えてベクトル検索の苦手を補える 課題はあるけどナレッジグラフは、Neo4jとLangchainで構築できるよ。 はじめに 今回はベクトル検索の苦手分野をどうしても補ってあげたいとおもっている筆者やまぐちが、ベクトル検索の苦手を補ってあげられるナレッジグラフに関してまとめていこうと思います。 少々長い記事ですが、ベクトル検索を労ってあげたいと思っている方はぜひ読んでください。 ベクトル検索の限界 以前の記事の最後にも少しだけ記載しましたが、ベクトル検索は以下の問題点があります。 必要な情報がTop Kのドキュメントには含まれていない可能性がある。 チャンクの

    ベクトル検索の苦手を克服。ナレッジグラフでRAGを作る
    sh19910711
    sh19910711 2024/06/12
    "ベクトル検索: 必要な情報がTop Kのドキュメントには含まれていない可能性 + 上記を解決するためのドキュメント数がわからない / Neo4j: ナレッジグラフで構造化データと非構造化データを扱うことができる"
  • mnistを距離学習(metric learning)してt-SNEで可視化してみる(pytorch) - Qiita

    metric learningにおけるangular lossとn-pair lossの特性の違いを理解したかったので、pytorchで実装し、mnistで分類してからt-SNEで可視化してみました。 実装はgithubにあります。 https://github.com/tomp11/metric_learning また、N-Pair LossとAngular Lossについては 距離学習におけるN-Pair LossとAngular Lossの理解と実装(Pytorch) でも詳しく説明しているのでそちらも参考にしてください。 結果 最初に結果を比較してみます。 n_pair_loss n_pair_angular_loss n-pair lossは少し曖昧に分ける印象があります。3と8が重なってしまってる部分も見られます。しかし分類が難しいものでもそのままにせず、どこかのグループには所

    mnistを距離学習(metric learning)してt-SNEで可視化してみる(pytorch) - Qiita
    sh19910711
    sh19910711 2024/06/12
    "n-pair loss: 少し曖昧に分ける印象 + 3と8が重なってしまってる部分も見られ / angular loss: わりとはっきりとわけているように見え ~ 3と8も遠く離れて + 難しいデータは追いやっている傾向" 2019
  • Dreamcast の USB キーボードを作る

    マトリクス解析 ここからソフトウェアを作ります。 最適化されたキーボードではキーマトリクスと見た目の配列を一致させないことがあります。 Arduino でファームウェアのプロトタイプを作り、キーマトリクスを解析します。 スケッチを Pro micro に書き込んでキーを押し続けると row, col の組み合わせが表示されます。 1 キーごとに key_matrix を更新してコンパイルします。 プログラムの内容は、I/O を読み取って表示するだけのものです。 ノーウェイトでアドレス線とデータ線を読み取っています。 信号線を digitalRead() で 1bit ずつ読み取っていると途中で値が変化してしまうかもしれないため、PORTB, PORTD のレジスタ単位で読み取っています。 const char * const key_matrix[16][8] = { { "KC_F7",

    Dreamcast の USB キーボードを作る
    sh19910711
    sh19910711 2024/06/12
    "過去の思い入れのあるキーボードを余暇で復活させる / HKT-4000: コンパクトな 92 キーの TKL キーボード + Dreamcast の周辺機器バス用に作られているため、PC で使うことは考えられていません" 2022
  • 読書メモ:文化進化論 - 重ね描き日記(rmaruy_blogあらため)

    文化歴史や経済などの背後にある「法則」を知りたいというのは、多くの人が一度はもったことのある願望なのではないかと思う。 「なぜ梅雨になると雨が降るのか?」とか「なぜ歳をとると髪の毛が白くなるのか?」などの自然界の現象であれば、科学である程度説明でき、僕らはその説明に一応は納得する。しかし人間の心理や社会が絡む問題はそうはいかない。なぜ特定の習慣が特定の国や地域に根付いたのか、ファッションや芸術の流行はどのようなメカニズムで生じるのか。(あるいは、なぜ多くの人に読んでもらえるブログ記事とそうでないものがあるのか。同じくらい頑張って書いているのに…。)そうした疑問に対して、自然科学のように「理論」や「法則」を使って説明をつけるのは難しそうだ。 もちろん、数理を使って人間の行動を研究している人々がいることは周知の事実だろう。たとえば昨年出た『ソーシャル物理学』というでは、人と人のつながりを数

    読書メモ:文化進化論 - 重ね描き日記(rmaruy_blogあらため)
    sh19910711
    sh19910711 2024/06/12
    "なぜ多くの人に読んでもらえるブログ記事とそうでないものがあるのか / 人間の「文化」のありようを、生物進化の原理で理解・説明しよう / 学術コミュニティ内での科学的アイディア継承などなど" 2016
  • 誰にも読まれなくても、書くのが好きだから書く

    sh19910711
    sh19910711 2024/06/12
    "中学生のころ学級日誌に思ったことを書き綴るのが好きだった / 誰も教室を掃除しないのはなぜだろう?みたいなことを書いたりしていて、時々先生が皆の前で読み上げたりしていたのを覚えている" 2023
  • BigQueryの便利な機能&コンソールのショートカット集

    前の記事では、BigQueryのざっくり概要を書きました。 今回はBigQueryを使う上でこれ知っておくと便利ですよ!という機能やTipsを書きたいと思います。 知っておくと便利な機能 メタデータを取得する ある程度データベースを触る人なら、スキーマやテーブルの情報を持っているメタデータがだいたい存在していて活用している人も多いと思います。 BigQueryでももちろん存在するので私がよく使うものを紹介していきます。 -- testdatasetデータセットのテーブル一覧を取得する SELECT * FROM testdataset.INFORMATION_SCHEMA.TABLES; -- testdataset.testのテーブルのカラム一覧を取得する SELECT * FROM testdataset.INFORMATION_SCHEMA.COLUMNS WHERE table_n

    BigQueryの便利な機能&コンソールのショートカット集
    sh19910711
    sh19910711 2024/06/12
    "データセットのデフォルト有効期限: 7.5日とかでも設定可能 / コンソールのショートカット: 「⌘/|」(コメントアウト切り替え)と「⇧⌘K」(行を削除)と「⌘D」(選択中の文字列に一致する次の文字列を追加選択)" 2022
  • 求人検索エンジンで使用するラベル付与の話 - Stanby Tech Blog

    求人検索エンジンで使用するラベル付与の話 はじめに スタンバイでは求人検索エンジンにラベル情報での検索を可能にしています。 ラベルとは求人情報や検索キーワードの特徴的な情報に対するTag付けと考えていただければイメージしやすいかと。 記事ではRuleによるラベル付けをテーマとしています。 ラベルの使い所 例として「住吉」という駅の求人を検索する場合を挙げます。住吉という駅は全国に下記の数存在します。 東京都 住吉駅 大阪府 住吉駅 熊県 住吉駅 長崎県 住吉駅 兵庫県 住吉駅(JR西日) 兵庫県 住吉駅(阪神電鉄) 「住吉駅」という単語のみで検索する際は上記全ての駅の求人データが対象となりますが、「半蔵門線 住吉駅」の場合は「半蔵門線」は東京にある路線なので、1の「東京都 住吉駅」のみが対象となって欲しいところです。しかし、「東京都 住吉」の求人データに「半蔵門線」の記述がない場合に

    求人検索エンジンで使用するラベル付与の話 - Stanby Tech Blog
    sh19910711
    sh19910711 2024/06/12
    "ラベル付けを行うにあたり考えられる手法は大きく分けてRuleベースと機械学習の2つ + どちらを採用するかというとHybridな形で行うのがBetter / 単純なものならば機械学習を導入しなくとも事足りる" 2022
  • GoogleのNotebookLMを使って複数論文レビューをする|genkAIjokyo|ChatGPT/Claudeで論文作成と科研費申請

    記事はNotebookLMを使った医学研究論文のレビュー方法について、実践的な知識を提供します。以下のような情報が得られます。 NotebookLMの概要と特徴について NotebookLMを使って複数の医学研究論文をレビューする方法が分かります。具体的なプロンプトの例も提示されています。 NotebookLMの長所(正確性)と短所(回答の制限、アップロード数の制限など)について NotebookLMを効果的に活用するためのTips(論文数の制限、ピン留めによる保存など) NotebookLMの概要NotebookLMは、Googleが開発した革新的な生成AIサービスです。ユーザーが指定したデータを基に、AIが回答や要約を行うことができます。2024.6.9時点では無料で使えますが今後有料化の可能性はあるかもしれません。最新のモデルであるGemini 1.5 Proが利用されており、10

    GoogleのNotebookLMを使って複数論文レビューをする|genkAIjokyo|ChatGPT/Claudeで論文作成と科研費申請
    sh19910711
    sh19910711 2024/06/12
    "NotebookLM: 論文に書いてある内容については答えてくれますが、書いていないような解釈や応用についてはあまり答えてくれません + 入力データに基づいて正確に回答するため、事実と異なる情報を生成するリスクが低い"
  • 生成AI活用の取り組み - 日清食品ホールディングス

    2024年3月14日 日清品ホールディングス 執行役員 CIO グループ情報責任者 成田敏博 生成AI活用の取り組み 生成AI活用の発端 “NISSIN AI-chat powered by GPT-4 Turbo” 2 PC版 モバイル版 4月3日 クリエーターズ入社式(Web社内報抜粋) 3 4月3日(月) にホテルニューオータニ東京において「2023年度 日清品グループクリエーターズ入社式・懇親会」を 執り行い、新入社員129名を新たに日清品グループの仲間として迎え入れました。 入社式は、安藤宏基CEOからのメッセージで幕を開けました。 話題のChatGPTを用いて、「日清品グループ入社式 ✕ 創業者精神 ✕ プロ経営者 ✕ コアスキル」のキーワード で生成したメッセージを披露いただき、テクノロジーを賢く駆使することで短期間に多くの学びを得てほしいと新入社員 を激励していただ

    sh19910711
    sh19910711 2024/06/12
    "食べ方アイデア出し + 製品在庫の確認 / 問い合わせ業務: 回答に含むべき要素の網羅性が担保され回答の有用性・可読性が向上 + オペレーターが未習熟な分野の質問に対してもより円滑に"
  • Google Colabで時系列基盤モデルを試す①:Google timesfm|はち

    はじめにTransformerアーキテクチャにテキストデータを大量に読み込ませたらある程度あらゆる場面で使えるモデルができたというのがGPTやBERTなどの言語のFoundation Model(基盤モデル)です。 それと同じ発想で、あらゆる時系列データを読み込ませたら、あらゆる場面で使える時系列モデルが作れるのではないかという発想で作ったのが時系列の基盤モデルになります。 HuggingFaceにある商用可能なライセンスの時系列基盤モデルを4つ試し、比較していきたいと思います。利用するデータはETTh1という電力変圧器温度に関する多変量時系列データセットです。事前学習にこのデータが含まれる可能性があるため、モデルの絶対的な評価に繋がらないことに注意してください。 google/timesfm-1.0-200m (今回) ダウンロード数:4.59k モデルサイズ:200m ライセンス:Ap

    Google Colabで時系列基盤モデルを試す①:Google timesfm|はち
    sh19910711
    sh19910711 2024/06/12
    "時系列基盤モデルを4つ試し比較していきたい / ETTh1: 電力変圧器温度に関する多変量時系列データセット / 事前学習にこのデータが含まれる可能性があるため、モデルの絶対的な評価に繋がらないことに注意"
  • DataExplorerパッケージで探索的データ解析を手助けする - Qiita

    概要 DataExplorerは探索的データ解析を手助けするR言語のパッケージ ggplot2パッケージをラップしており、関数ひとつでデータセットを可視化できる 可視化結果をまとめたHTML形式の定型レポート生成も手軽 前書き 探索的データ解析(EDA: Exploratory Data Analysis)とは? S-PLUS -トップ > 製品概要 > 探索的データ解析」より引用。 探索的データ解析は、1960年ごろより有名な統計学者J.W.Tukeyによって提唱されたもので、データの解釈にあたっては「まずモデルありき」ではなく、モデルを仮定する前に現実的な立場で、データの示唆する情報を多面的に捉えるという、解析初期のフェーズを重視したアプローチです。 それ以前は、あらかじめモデルを用意して、データをあてはめて確率計算を行っていました。しかし現実には、複雑な現実のデータ構造の中から、最適

    DataExplorerパッケージで探索的データ解析を手助けする - Qiita
    sh19910711
    sh19910711 2024/06/12
    "DataExplorer: ggplot2パッケージをラップ + 関数ひとつでデータセットを可視化 + 特徴量エンジニアリングに役立てられる関数も定義 / 離散変数中にある、低頻度要素をひとつにまとめる関数" 2019
  • darts-cloneを使って最長一致法で分かち書きしてみる - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 呪術廻戦をみて喜久福がべたくなりました *1。 今回は形態素解析について深堀りしてみます。 日語の自然言語処理において、形態素解析は必ずといっていいほど通る道です。 形態素解析を必要としないSentencePieceのような深層学習向けのtokenizerも出現していますが、品詞単位で分割する形態素解析が重要であることは変わりありません。 そんなこんなで、『実践・自然言語処理シリーズ2 形態素解析の理論と実装』 (以降「形態素解析」と表記)を読んでいます。 リンク先の目次を見て分かるとおり、基礎の部分から実装まで説明されているです。 今回は4章で紹介されている darts-clone を使って、精度は粗いが高速で分かち書きができる最長一致法で、どれぐらい分かち書きが可能かを検証します。 事前知識・辞書引き darts-cloneを使ってみる 単語辞

    darts-cloneを使って最長一致法で分かち書きしてみる - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2024/06/12
    "日本語の自然言語処理において、形態素解析は必ずといっていいほど通る道 / 最長一致法: 最初の文字から共通接頭辞検索し、一番長く一致した単語を採用する、ルールベースの分かち書き" 2020
  • Python による確率分布の推定と描画

    確率変数が与えられたとき,取りうる値の対応する事象を列挙して確率を求めるのは面倒ですし, 一般に,確率変数の数値がどのように生成されたのか,すなわち,それぞれの数値にどの事象が対応しているのかにはあまり興味がありません.代わりに,数値と確率の対応関係に注目します.確率変数の数値に対して確率を対応させる関数を確率分布と言います.例えば,サイコロの出目 X と,2 つのサイコロの出目の和 X+Y の確率分布は下図のようになります. サイコロの例では確率変数の取る値が離散的でしたが,連続値を取る確率変数を考えることもできます.離散型の確率変数では各値に確率が対応しますが,連続型の確率変数では各値に確率密度が対応します(後述). 確率分布 章では,連続型の確率変数を想定して理論説明を行ないます 確率変数に対応する確率の見方として,確率密度関数 (Probability Density Funct

    Python による確率分布の推定と描画
    sh19910711
    sh19910711 2024/06/12
    "累積分布関数: 統計物理学(とそれを理論的土台とする社会経済物理学)分野では上側確率で定義する習慣 + 分野でよく登場する関数である指数分布やベキ分布を観察しやすい / ベキ分布の CDF は両対数空間で直線"
  • AHC典型解法シリーズ第2弾「焼きなまし法」 - Qiita

    AHC002の問題設定 50×50マスの床に最大2マス分の大きさのタイルがランダムに敷き詰められています。 ランダムに与えられた初期位置からスタートして、縦横4方向(DRUL)に進みながら、なるべく多くのポイントを稼ぐことが目的です。 例えば、左(L)、下(D)、下(D)の経路を辿ると、経路上のポイント(11,32,90,90)の合計223がスコアとなります。 注意点として、既に踏んだタイルはもう一度踏むことができません。2マスで構成されているタイルの場合、2マスともが侵入禁止になる点に注意してください。この場合、左(L)、下(D)への移動は可能ですが、右(R)、上(U)への移動は不可能です。 目指す形 まず最初に、焼きなまし法系の手法に共通する流れを軽く説明します。 初期解を生成する 解の一部を変えながらよりよい解を探す ゲームで学ぶ探索アルゴリズム実践入門~木探索とメタヒューリスティク

    AHC典型解法シリーズ第2弾「焼きなまし法」 - Qiita
    sh19910711
    sh19910711 2024/06/12
    "初期解の生成方針も問題に応じて考える / 実装は山登り法からほんの少し変えるだけ / 時系列に沿って操作を行うような問題では山登り法,焼きなまし法を適用するのは難しい + 時系列操作に強いビームサーチを適用" 2023
  • HypothesisでREST APIのプロパティベーステスト(PBT)をやってみた - Qiita

    はじめに FastAPIで作ったREST APIのエンドポイントに対して、PythonのHypothesisを使ってプロパティベーステストを実施する方法を調べながら学んだので記事に残します。 記事の対象読者 プロパティベーステストの概要を知りたい方 Hypothesisでできることを知りたい人 OpenAPI仕様に沿ったREST APIのプロパティベーステストの流れを知りたい人 Hypothesisを学習した動機 REST API向けのプロパティベーステストに興味を持ったことがきっかけです。 PythonでREST APIのプロパティベーステストをする場合、有名なものとしてSchemathesisライブラリがあることを知りました。 Schemathesisは、APIのエンドポイントに対して多様な入力値を自動生成し、APIOpenAPI仕様(OAS)に沿った振る舞いをするかどうかをテス

    HypothesisでREST APIのプロパティベーステスト(PBT)をやってみた - Qiita
    sh19910711
    sh19910711 2024/06/12
    "Schemathesis: エンドポイントに対して多様な入力値を自動生成し、APIがOpenAPI仕様(OAS)に沿った振る舞いをするかどうかをテスト / Hypothesis: ストラテジという概念を使ってテストデータを生成"
  • AxonOnnxを使ってVGG16を読み込んで物体認識アプリを作ってみた - Qiita

    defmodule LiveOnnx.MixProject do ... defp deps do [ ... # 以下追加 {:axon_onnx, github: "elixir-nx/axon_onnx"}, {:stb_image, "~> 0.4.0"} ] end end ONNXを読み込めない? 2022/06/03 現在 まだまだ開発中のため読み込めないモデルが多々あるようです transformer系は注力していたようで幾つか成功しています onnx model zooのclassification https://github.com/onnx/models/tree/main/vision/classification のモデルは現在 importで失敗します 多分dynamic inputになってるせいかと思います dynamic inputはAxonOnnxでは現

    AxonOnnxを使ってVGG16を読み込んで物体認識アプリを作ってみた - Qiita
    sh19910711
    sh19910711 2024/06/12
    "Axon: Nxを使用して作られたディープラーニングフレームワーク / AxonOnnx: 読み込めないモデルが多々ある + transformer系は注力していたようで幾つか成功 / Elixir DesktopやNervesなどマルチプラットフォームへの対応の夢" 2022
  • LightGBMのCategorical Featureによって精度が向上するか? - Qiita

    簡単に ・LightGBMのパラメータ"Categorical Feature"の効果を検証した。 ・Categorical Featureはcategorical_feature変数に列名を指定するか、pandas dataframeのcategory型の列に対して適用される。 ・Categorical Featureへ設定する変数は、対象のカテゴリ変数を0始まりの整数に変換後、int型 or category型にするのが公式の推奨。 ・Categorical Featureを設定すると、必ず精度が向上するわけではない。 ・high-cardinality or low-cardinalityなカテゴリ変数のみをCategorical Featureに設定すると精度が向上する可能性がある。 初めに SIerでデータサイエンティストをしているSinchir0です。 データ分析コンペティショ

    LightGBMのCategorical Featureによって精度が向上するか? - Qiita
    sh19910711
    sh19910711 2024/06/12
    "LightGBMに最適な形でカテゴリ変数を処理してくれる / high-cardinalityな(=要素が多い)カテゴリ変数をone-hot encodingして決定木で扱う場合には、木を深くする必要がある + それを回避する" 2019
  • MLOpsを始めよう!/MLOps-Getting-Started

    OCHaCafe Season5 #6の資料です.

    MLOpsを始めよう!/MLOps-Getting-Started
    sh19910711
    sh19910711 2024/06/12
    "学習と推論のスキューを防止するために前処理もモデルとしてエクスポートできると良し / MLOps: DevOpsにはない概念である継続的トレーニングがある / KServe: v0.7まではKFServingと呼ばれ" 2022
  • Counterfactual Explanationsで機械学習モデルを解釈する / TokyoR99

    2022年6月4日に行われた、第99回R勉強会@東京(#TokyoR)での発表資料です。 https://tokyor.connpass.com/event/249096/ 資料で使っているRコードはこちらになります。 Pythonですが、DiCEを使ったnotebookもあります。 https://github.com/dropout009/TokyoR99

    Counterfactual Explanationsで機械学習モデルを解釈する / TokyoR99
    sh19910711
    sh19910711 2024/06/12
    "「納得」と「改善」のどちらの説明を求めているのかに注意 / 「改善」が目的なら現実で動かせる特徴量のみを考慮するべきだが「納得」が目的ならその限りではない" 2022
  • 学習済みELMoをAllenNLPで読み込む -りたーんず!- - やむやむもやむなし

    この記事は自然言語処理アドベントカレンダー 2019の15日目です。 きっかけ AllenNLPELMoForManyLangs ELMoの変換 1.Char Embedding 2.Char Convolution 3.Highway Net 4.Projection 5.Bi-LSTM config.json AllenNLPELMoを使った学習 まとめ 謝辞 参考文献 きっかけ [1] [2] [3] [4] ストックマークさんが気を出したんだ。 俺も覚悟を決めなくてはならない。 ということで、ストックマークさんがあらためて出してくれた学習済み日ELMoを使って、こちらの記事ではできなかった学習済みELMoをAllenNLPで読み込むことを今度こそ成し遂げます。 後述するELMoForManyLangs -> AllenNLPのスクリプトはGithubで公開しています。 g

    学習済みELMoをAllenNLPで読み込む -りたーんず!- - やむやむもやむなし
    sh19910711
    sh19910711 2024/06/12
    "AllenNLP: NLPの実験に特化した仕様 + さくっとモデルを作って実験を回すのに非常に便利 / Highway Net: Skip connectionのように層の出力値に入力値を足し合わせるような構造 / Char Convolution: charのembeddingに対して1d Convolution" 2019
  • ガウス過程回帰(Gaussian Process Regression, GPR)

    sh19910711
    sh19910711 2024/06/12
    "念頭にあること: xの値が似ているサンプル同士はyの値も似ている→サンプル間におけるyの値の関係はxの値の関係から計算できる / 分布: xの値が1つ与えられたときyの値にばらつきがある" 2017
  • レコメンデーションシステムのキホン

    sh19910711
    sh19910711 2024/06/12
    "協調フィルタリング: 古くから知られているが非常に効果的 + ユーザ属性を見ていないのに見ているかのような動作 / 「似た属性の人たちは似たような行動をする」からであり、行動の中から属性が浮き出ている" 2019
  • [論文紹介]On-the-fly Data Augmentation for Forecasting with Deep Learning

    [論文紹介]On-the-fly Data Augmentation for Forecasting with Deep Learning 論文 On-the-fly Data Augmentation for Forecasting with Deep Learning Summary on-the-fly*データ拡張の形式化 シーズナル分解とbootstrapに基づくOnDAT手法の提案 8つのbenchmark datasetsでSOTAを達成 *on-the-flyは、ミニバッチ内を指す Introduction 時系列予測は、実世界での活用が最も難しい。一方研究分野では、ARIMAやExponential Smoothingなどの統計的な手法だけではなく、NHITSやN-BEATS、ES-RNNなどのNNも優れた予測性能を出している。 DeepLearning(DL)には十分なデ

    [論文紹介]On-the-fly Data Augmentation for Forecasting with Deep Learning
    sh19910711
    sh19910711 2024/06/12
    "時系列予測: 実世界での活用が最も難しい + 十分なデータが必要だが、時系列データは少ないこともしばしば / On-the-flyのAugmentation: 学習中に逐次的にAugmentationを行う + 音声認識の分野では有望な結果がでている"
  • Vertex AI Pipelinesにおけるローカル実行

    要約 Vertex AI Pipelinesでローカル実行するには以下の2通りの方法がある gcloud ai custom-jobs local-runコマンドを使う方法(CustomJob単位) Kubeflow PipelinesのLocalRunnerを使う方法(CustomJob単位 or Pipeline単位) 背景 GCPで提供されているVertex AI Pipelinesを用いている Vertex AI PipelinesでVertex AI CustomJobをつなげて動かしている 毎回の実行をGCP上で行うのは、試行回数の観点において好ましくない ローカル上でDockerイメージをpushして、インスタンスのマシンを割り当て、Dockerイメージをpullするのに数分はかかる ローカル上のリソースを用いて、実行するようにしたい ローカル実行 以下の2通りの方法がある

    Vertex AI Pipelinesにおけるローカル実行
    sh19910711
    sh19910711 2024/06/12
    "毎回の実行をGCP上で行うのは、試行回数の観点において好ましくない / ローカル上のリソースを用いて、実行するようにしたい / gcloud ai custom-jobs local-runコマンドを使う方法 + Kubeflow PipelinesのLocalRunnerを使う方法"
  • 実戦でGodot Engineを採用する際に気になること - 非常口blog

    Godot Engineはオープンソースであり非営利のプロジェクトです。 開発はコミュニティによって行われ、コントリビュータ(貢献者)によって実際のコーディングが行われています。 これを聞くと、Godotは責任の所在が不明でアマチュア集団が作っていると勘違いされがちです。 偉い人の中にはこのような疑問を持っている方もいるのではないでしょうか? コンソールでちゃんとリリースできるの? トラブルが起きた時サポートされるの? 突然使えなくなったりしない? こういった疑問に対して、ある程度回答のようなものができたらと思います。 記事がGodot採用の一助になれれば幸いです。 コンソールでちゃんとリリースできるの? 結論から言うとできます。現にSwitchなどでGodot製のゲームがいくつもリリースされています。 ただしハードルは少しあります。まずOSSとコンソールプラットフォームは相性が良くない

    実戦でGodot Engineを採用する際に気になること - 非常口blog
    sh19910711
    sh19910711 2024/06/12
    "某商用エンジンがオープンソース化する際、コンソールのAPIにアクセスしているクローズドなソースコードもまとめてGitHubに上げてしまうという事件が起き / 界隈ではNDA違反じゃないかと話題に"
  • 今さら?個人サイトを作りました - 誰がログ

    はじめに 経緯と作った理由 Googleに見つけてもらえなくても良い このブログとの関係(今後の方針) おまけ:Wordpress雑感 おわりに はじめに 新たに個人サイトを作りました。 ttagawa-dlit.info さいきんこういうニュースを定期的に見るようになりましたので今さら感があると思いますが、 Googleからウェブサイトへのトラフィックがゼロになる日 – WirelessWire News むしろこういう状況だから作ろうかなと思ったというところがあります。 経緯と作った理由 元々別のドメインで個人サイトを持っていたのですが、ドメインの更新をミスって(期限の勘違い)なくなってしまいました。 しばらくは、このはてなブログとTwitterでwebでのつながりはほとんどカバーできているのでもう一度新しく作ることもないかなと思っていたのですけれど、研究に関する情報公開の場としてはな

    今さら?個人サイトを作りました - 誰がログ
    sh19910711
    sh19910711 2024/06/12
    "拠点としての個人サイトがほしいなというくらいのまだぼんやりしている動機 / 検索で見つからなく(見つけにくく)てもそれほど大きな問題ではないのでは + 宣伝したいときとかにurlがあれば良い"
  • ElasticsearchによるZOZOTOWNへのベクトル検索の導入検討とその課題 - ZOZO TECH BLOG

    こんにちは。検索基盤部の橘です。ZOZOTOWNでは、商品検索エンジンとしてElasticsearchを利用し、大規模なデータに対して高速な全文検索を実現しています。 Elasticsearchに関する取り組みは以下の記事をご覧ください。 techblog.zozo.com 検索基盤部では、ZOZOTOWNの検索結果の品質向上を目指し、新しい検索手法の導入を検討しています。記事ではベクトル検索と呼ばれる検索手法に関して得た知見を紹介します。 ※記事はElasticsearchバージョン8.9に関する内容となっています。 目次 目次 ベクトル検索とは ベクトル検索に期待すること Elasticsearchを使用したベクトル検索の導入 導入の簡略化 デプロイ可能な埋め込みモデル ベクトル検索のクエリ ハイブリッド検索とは Elasticsearchを用いたハイブリッド検索 RRF(Reci

    ElasticsearchによるZOZOTOWNへのベクトル検索の導入検討とその課題 - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/06/12
    "Feature Extractionのタスクに対応しているモデルを選ぶ必要 / 事前学習済みモデルをファインチューニングしたモデルも使用でき + Hugging Face上のリポジトリにアップロードし、elandを使ってElasticsearchにアップロード"
  • RAGで人間の脳を再現。「HippoRAG」を理解する

    はじめまして。ナレッジセンスの門脇です。生成AIやRAGシステムを活用したサービスを開発しています。記事では、RAGの性能を高める手法である「HippoRAG」について、ざっくり理解します。 この記事は何 この記事は、RAGの新手法として最近注目されている「HippoRAG」の論文[1]について、日語で簡単にまとめたものです。 「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 題 ざっくりサマリー HippoRAGは、RAGの性能を高めるための新しい手法です。オハイオ州立大学の研究者らによって2024年5月に提案されました。HippoRAGを使うメリットは、複数の知識を組み合わせて回答する必要があるような、複雑な質問に強くなることです。HippoRAGが従来のRAGに比べて、複雑な質問に強い理由は、ナレッジグラフと、それを継続的に

    RAGで人間の脳を再現。「HippoRAG」を理解する
    sh19910711
    sh19910711 2024/06/12
    "ナレッジグラフと、それを継続的にメンテナンスする仕組み / LLMを使って重要語句を抽出 + OpenIEでトリプルを作成 / マルチホップなタスク(MuSiQueとWikiHopQAなど)において、通常のRAGよりも高い性能"
  • 生成AIを用いた業務改善アイデアソンを開催しました

    こんにちは、ナウキャストのデータ&AIソリューションチームの藤井です。今回は、先日開催した、業務改善を目的とした社内AIアイデアソンのレポートを書いていこうと思います! 開催までの経緯Finatextグループは、生成AIに関連したソリューションを提供するデータ&AIソリューション事業を立ち上げ、生成AIを次の競争力の源泉にしようとしています。社内でも生成AI活用が進んでいて、社内専用のGPTチャットやSlackと連携した議事録要約システム等がリリースされています。また、全エンジニアGitHub Copilotを使えるようになっております。 僕も含めたエンジニアは業務において生成AIをフル活用しており、GPTにSQL文を書かせたり、コーディングの際にもGitHub Copilotを活用してます。 しかし、エンジニアが生成AIを活用している一方で、ビジネスサイドでも生成AIをもっと活用する余

    生成AIを用いた業務改善アイデアソンを開催しました
    sh19910711
    sh19910711 2024/06/12
    "エンジニアが生成AIを活用している一方で、ビジネスサイドでも生成AIをもっと活用する余地 / 企画の過程でAWS様に協賛いただけることになり ~ 審査員としてご参加いただくとともに、AWS賞をご用意いただけることに"
  • 3D点群学習モデルPointPillarsを学習から評価まで行う|株式会社Rosso公式note

    はじめにこんにちは。株式会社Rosso、AI部です。 近年、LiDARや、デプスセンサーから得られる3次元データを使用した、機械学習モデルの手法が発達しています。 記事では、その中でも、3次元のデータ形式の一つである点群データを使用した物体検出モデル「PointPillars」についてご紹介します。 これらの点群データを用いた機械学習モデルは主に、自動運転に応用されています。 そこで、この記事では、自動運転用データセットであるKITTIを使って、PointPillarsを学習・評価まで行う方法もご紹介します。 点群データと機械学習について点群データとは3次元のデータ(3D)形式の一種で、 3次元情報を座標(x, y, z)で表現するものです。 例えば、点群データのクラス分類を扱っているmodelnet10というデータセットでは、点群データは下記の画像のように表されています。 ①順不変性

    3D点群学習モデルPointPillarsを学習から評価まで行う|株式会社Rosso公式note
    sh19910711
    sh19910711 2024/06/12
    "PointPillars: 点群データを使用した物体検出モデル / 空間を直方体に分割し、その中に含まれる点群を特徴量として使い、疑似画像を生成することで、2Dベースの物体検出モデルを点群データに適用" 2023
  • kotoba-whisper, ReazonSpeech, Nue-ASRの文字起こし性能を比較してみた | 株式会社AI Shift

    はじめに こんにちは、AIチームの大竹です。 最近、高性能な日音声認識モデルのリリースが相次いでいます。普段、音声認識を用いたプロダクト開発をしている中で、各モデルの音声認識性能や推論速度がどれくらいのものなのか気になったので簡単な実験をして性能を比較してみました。 書き起こしや評価周りの実装も記載しているので参考にしていただけたら幸いです。 モデルの直近のリリースをまとめると、以下のようになっています。ReazonSpeechコーパスのリリースを皮切りに日語に特化した音声認識モデルの開発の勢いが加速しているように思えます。ReazonSpeechコーパスは、地上波テレビ放送から収集された音声に基づいて構築されています。v1では19,000時間、v2では35,000時間の音声が含まれていて、日音声認識モデルの学習リソースとしては世界一の規模となっています。 公開時期 モデル名 公

    kotoba-whisper, ReazonSpeech, Nue-ASRの文字起こし性能を比較してみた | 株式会社AI Shift
    sh19910711
    sh19910711 2024/06/12
    "いずれもReazonSpeechコーパスを用いて訓練 / どのモデルも音声認識性能が高く、CERやWERだけではその性能を十分に評価することが難しくなってる / 使用シナリオに適した書き起こしをしてくれるモデルを選択することが重要"
  • Rust製JavaScriptエンジン『Boa JS』を試してみた

    主要なJavaScriptエンジンのTest262を毎日実行して結果を載せているtest262.fyiというサイトがあります。 (Test262とは最新のECMAScriptを実装できているかどうかのテストです。) このサイトの、2024/6/5現在の実装率ランキングはこちらです。 test262.fyiの画面キャプチャ(2024/6/5) V8(ChromeやNode.js、Deno等)、JavaScriptCore(SafariやBun等)、SpiderMonkey(Firefox等)という、大手エンジンとほぼ横並びで4位にい込んでいるBoaとは何者でしょうか。 Boaは公式曰く『Rustで書かれた実験的なJavascriptのレキサー、パーサー、コンパイラー』です。これだけ揃えば、JavaScriptエンジンと言って差し支えないと思います。RustアプリケーションにJavaScri

    Rust製JavaScriptエンジン『Boa JS』を試してみた
    sh19910711
    sh19910711 2024/06/12
    "ユーザーが自分でJavaScriptを書いて使えるプラグインのような機能を提供したい / Boa: Rustさえあれば、Cargo.tomlに1~数行書くだけで使い始められ + 簡単に組み込める"
  • [速報] CloudTrail LakeでAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) #AWSreInfoce | DevelopersIO

    [速報] CloudTrail LakeでAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) #AWSreInfoce あしざわです。 現在開催されているAWS re:Inforce 2024 のKeynote にて、CloudTrail LakeのAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) AWS What's newブログ、AWS Blogの両方で発表されています。 AWS Blogをサラッと確認したところ、Previewでのリリース、利用できるリージョンも限られているようですが、個人的に激アツなアップデートです。 ブログでは、アップデートの概要を確認して、アップデート内容を実際に試してみます。 概要 CloudTrail LakeはCloudTrailアクティビティログを集約、分析できるマネージドデータレイクです。 Clo

    [速報] CloudTrail LakeでAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) #AWSreInfoce | DevelopersIO
    sh19910711
    sh19910711 2024/06/12
    "CloudTrail Lake: 元々サンプルクエリの生成機能が優秀だった / CloudTrailイベントはマルチリージョンで収集されているのでバージニア北部以外のリージョンのログもクエリできます / 対応している言語は英語のみ"
  • ついにブロックができるようになった!Amazon GuardDuty Malware Protection for Amazon S3が発表されました! #AWSreInforce | DevelopersIO

    ついにブロックができるようになった!Amazon GuardDuty Malware Protection for Amazon S3が発表されました! #AWSreInforce Amazon GuardDutyで待望のマルウェアに対する保護機能がリリースされました!信頼できないオブジェクトをS3にアップロードする環境ならガンガン活用していきましょう! こんにちは、臼田です。 みなさん、AWS上でのマルウェアチェックしてますか?(挨拶 AWS re:Inforce 2024で待望のS3に対するネイティブなマルウェア検出と保護の機能である「Amazon GuardDuty Malware Protection for Amazon S3」がリリースされました! Detect malware in new object uploads to Amazon S3 with Amazon Gua

    ついにブロックができるようになった!Amazon GuardDuty Malware Protection for Amazon S3が発表されました! #AWSreInforce | DevelopersIO
    sh19910711
    sh19910711 2024/06/12
    "S3のオブジェクトは350兆もあるようです / マルウェアであった場合にはバケットポリシーでそのタグのついたオブジェクトに対するアクセス制御を組み込むことで「マルウェアへアクセスすることを禁止」する"
  • [速報] IAMのMFA(多要素認証)でPasskeyが利用できるようになりました #AWSreInforce | DevelopersIO

    あしざわです。 現在開催されているAWS re:Inforce 2024 のKeynote にて、AWS IAMのrootユーザーおよびIAMユーザーのMFA(多要素認証)としてPasskeyのサポートが発表されました。 AWS What's newブログ、AWS Blogの両方で発表されています。 概要 アップデートによって、AWSのrootユーザー、IAMユーザーのMFAデバイスとしてPasskeyが利用できるようになります! AWS側で発行したPasskeyをGoogleアカウントや1passwordなどのクラウドサービスに登録することで、MFA認証としてPasskeyを利用してAWSアカウントにログインできるようになります。 AWS Blogに以下のように記載があるため、初回のリリース時はPasskey+パスワード認証のみでパスワードの利用は必須であるようです。今後のリリースでP

    [速報] IAMのMFA(多要素認証)でPasskeyが利用できるようになりました #AWSreInforce | DevelopersIO
    sh19910711
    sh19910711 2024/06/12
    "AWS側で発行したPasskeyをGoogleアカウントや1passwordなどのクラウドサービスに登録することで、MFA認証としてPasskeyを利用してAWSアカウントにログインできる / 現状パスワードなしログインは未サポート、パスワード+Passkeyのみ"
  • 「スモールコンパイラの制作で学ぶプログラムのしくみ」を読んだ - orangain flavor

    最後まで実装したわけではないが、とりあえず関数呼び出しや四則演算を伴う鶴亀算のコードは動くようになり、あとは時間さえかければ機能を増やせるところまでできたので満足した。 結果として、知識としてなんとなく知っているレベルだったことに実感が伴うようになった。再帰的下向き構文解析とか、実行時のプログラムカウンターやスタックの動きとか。特に、関数呼び出しの時に引数をスタックに積んでから関数内のスコープから負のアドレスで参照するというのはなるほどだった。 スモールコンパイラ の制作で学ぶ プログラムのしくみ 作者: 石田綾,中田育男出版社/メーカー: 技術評論社発売日: 2004/11/09メディア: 単行(ソフトカバー)購入: 1人 クリック: 8回この商品を含むブログ (41件) を見る 例え話はわかりにくいがとっつきやすい このはずっと昔に買って、いつかやろうと思って棚に寝ていた。記憶が

    「スモールコンパイラの制作で学ぶプログラムのしくみ」を読んだ - orangain flavor
    sh19910711
    sh19910711 2024/06/12
    "ツッコミどころがあるゆえに、もっと詳しく勉強したくなる本 / 関数呼び出しの時に引数をスタックに積んでから関数内のスコープから負のアドレスで参照するというのはなるほど" 2017
  • プログラミング教育での悪い癖 - ビスケット開発室.

    先日,中学生にビスケットの授業をやったのですが,プログラミング教育の悪い癖が出てしまったので,ちょっと書いてみたいと思います. 1回目は90分でビスケットランドと感染やジャンケンなどをやりました.これはこれで定番な内容でそこそこ上手く行ったと思います.普段,幼稚園児を相手にしている反応の大きさと比べたら小さな反応でしたが. で,2回目で彼らにはもっと難しいことに挑戦してもらおうということで,倉庫番を作ってもらいました. 最近の人たちにはこのゲームはそんなに知られていないので,まずは簡単に説明してから,6名くらいのグループに1台,倉庫番が入ったタブレットを渡して遊んでもらいました. その後,ビスケットで倉庫番の作り方を説明して作ってもらいます.作り方の説明は一番遅い人に合わせてやっているので,すぐできてしまう人は暇なようで,たとえば,斜めに動けるようにするとか,いろいろと余計なものを作ってし

    プログラミング教育での悪い癖 - ビスケット開発室.
    sh19910711
    sh19910711 2024/06/12
    "簡単に作るという技術はまだ早かった / できないと思っていたことが(自分の発見で)できそうだ,ということに興奮したわけです.その興奮に水を差すようなことをしてはいけませんでした" 2017
  • 意思決定に繋げるための因果推論(DID)と PythonによるCausalImpact

    理想の組織も自分たちで作ろう! ―LayerXの「全員採用」を支える文化 / How to create our own ideal team

    意思決定に繋げるための因果推論(DID)と PythonによるCausalImpact
    sh19910711
    sh19910711 2024/06/12
    "差分の差分法: 介入による効果を検証しやすい + データが取得できれば単純 / 並行トレンドが仮定できない場合は別のバイアスがかかっている可能性(例: クーポン配布ユーザーは元々ヘビーユーザーである)" 2021
  • RustのHashMapがなんだか遅いらしい

    それは、Rustを使ってAtCoderの過去問を解いていたある日のことでした。どうにも正解が分からなかったため、解答例のコードを写経していたところ、Vecを使ってデータを管理しているコードが現れました。まぁでも、「インデックスより文字列で管理したほうが直感的だよな^^;」と、僕はHashMapを用いて実装したのでした。だいたいO(1)だし。 すると、不可思議なことがおこったのです。解答例のコードをそのまま書いた場合、つまりVecを使った場合よりも大幅に遅いではありませんか。そんな~;; ということで気になって調べてみたところ、公式で理由がずばり記載されていました。 RustのHashMapが遅いのはなぜですか? RustのHashMapはデフォルトでSipHashアルゴリズムを用います。これはハッシュテーブル衝突攻撃を防ぐように設計されており、また、さまざまな入力に対してそれなりの性能を提

    RustのHashMapがなんだか遅いらしい
    sh19910711
    sh19910711 2024/06/12
    "HashMap: 別途ハッシュ関数を指定することができ ~ 衝突耐性を排したハッシュ関数を指定してやることで、競技プログラミングをする上で十分に早いHashMapを利用できます / FxHasherを利用するのがよさそう" 2022
  • 『研鑽Rubyプログラミング』を読んだ

    研鑽Rubyプログラミング 実践的なコードのための原則とトレードオフを読んだ。モチベーションとしては最近Rubyistの間でよく話題にされていたので気になったというミーハーな気持ちと、仕事でよく書くのはRuby(というかRailsでアプリ開発するのが多い)ので何か得られたらラッキーくらいな気持ち半々。 どんなかについては他の著名なRubyistの方々が色々と書いておられるのでそちらを読む方が良いかもしれない。例えば「研鑽Rubyプログラミング」はライブラリ作者の知識・技術の幅と深さを拡大する1冊とかTechRachoの 『研鑽Rubyプログラミング』は英語版を買った人も買うべきとか。 またこのを一言で表した文章としてあとがきから引用すると下記が端的。 Rubyコミュニティのリーダーをして「完璧超人か」と言わしめるような優れたプログラマーが、「読者が『すでにRubyをよく知っている』こと

    『研鑽Rubyプログラミング』を読んだ
    sh19910711
    sh19910711 2024/06/12
    "個人的には第一部がクライマックス / 14章のプロファイリングとベンチマーク全般の記述と図書館に呪いの本を実装するギャグみたいなプラグインを書いていく8章の話が面白かった" 2023
  • BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。 | DevelopersIO

    BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。 こんにちは、みかみです。 州も梅雨入りの季節になってまいりましたが、沖縄はそろそろ梅雨明けです! やりたいこと BigQuery で実行している SQL のパフォーマンスチューニングをしたい BigQuery のアンチパターン SQL を使っていないか確認したい どんな DWH を使うにしろ、SQL チューニングは避けて通れない道ではないかと思います。 実行計画確認して、データ処理エンジンの思想に思いを馳せて・・・。 というのも、特に顕著な改善効果が得られた時にはこの上ない喜びを感じられる作業ですが、SQL が複雑だったり、大量の SQL を確認しないといけない場合は、心折れそうになる場合もあります。 BigQuery でも、クエリプランを確認しながら SQL をチュ

    BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。 | DevelopersIO
    sh19910711
    sh19910711 2024/06/12
    "bigquery-antipattern-recognition: BigQuery のアンチパターン SQL を確認できるツール / INFORMATION_SCHEMA を参照して検証結果を BigQuery テーブルに格納するバッチジョブを作成しておけば、日々 SQL を検証・監視することが可能"
  • AWS Lambda特化のJavaScriptランタイム「LLRT」を紹介 - maybe daily dev notes

    最近にわかに話題沸騰中のJavaScriptランタイム LLRT を紹介する記事です。 github.com LLRTとは LLRT (Low Latency Runtime) は、軽量なJavaScriptランタイムです。サーバーサイド向けのJavaScriptランタイムはNode.js、DenoBunなどが有名ですが、それらにまた一つ加わった形になります。主にLambdaでの利用が念頭に置かれているようです。その他必要な情報は README.md にまとまっています。以下は抜粋です。 AWSのソリューションアーキテクト Richard Davison さんにより開発されています。リポジトリがAWSGitHub organization (awslabs) で公開されているため、実験的ではありますが、AWS公式のプロジェクトと言って良いでしょう。 ここ5日間ほどでとんでもない勢いでG

    AWS Lambda特化のJavaScriptランタイム「LLRT」を紹介 - maybe daily dev notes
    sh19910711
    sh19910711 2024/06/12
    "LLRT: QuickJSをRustから呼び出す rquickjs というライブラリを利用 + Node.js特有のAPIをRustで独自実装することで、Node.jsとの互換性を高めています / Lambdaのコールドスタートが最大で10倍短くなることが謳われ"
  • 1987年までのファミコンRPGの雰囲気 - 神殿岸2

    思えば『ファイナルファンタジー』(1作目)をプレイしたのは結構後の話であって、発売した1987年12月当時にどんなもんであったかなど、私は全く知らなかった。 ゲーム史というのは、その状況を伝えるためにありそうなもんなのだが、少なくない割合で『ドラゴンクエスト』1作目がいかに偉大だったかを讃えているだけで、その後のゲームはかなり大雑把な扱いで終わっているか、ひどいものだとドラクエ1で終了してその後は全く触れてない。 いや、ドラクエ前も、ドラクエ自体の認識も怪しいと言っていい。 FF1が作られていた1987年あたりのファミコンRPGを取り巻く状況、そこに至るまでの道のりはいかなるものであったか。 ファイナルファンタジーはどのへんがすごかったのか。 知りたいのはそういうことだったはずだが、誰も私の納得のいくものを書いてくれなかったので、私が書く。 記事はファミコン史を俯瞰するものではない。書い

    1987年までのファミコンRPGの雰囲気 - 神殿岸2
    sh19910711
    sh19910711 2024/06/12
    "「ドラクエ1は当初そんなに売れてない」記述には、おそらく取材された人の主観が強く出ている / ほとんどがドラクエ3が300万本売れた後の印象で話している / 突出していないことは確かなのだが、76万本でも十分多い" 2023
  • ネット時代における、あの頃のエンタメの価値とは - わがはじ!

    好きだったな、と未だに思い出す番組ってあるよね。 ここの所、気圧の変化が激しく、身体が動くかどうかは気候次第という、大変環境任せな毎日を送っている。気圧に影響を受けない人は、前世どんな徳を積んでいたのか教えて欲しいレベル。 と、そんなことはさておき、明日は第3回目のおたっきぃ佐々木氏とのトークイベント。おたさささん誕生日&うる星やつら放映開始記念&アニゲマスター放送開始25周年という、なんだか盛沢山な記念日イベントになってます。 入場料不要、19時から開始しますので是非、秋葉原のBAR from scratchさんに遊びに来てくださいね。詳細は下記ツイートから。 【告知】来週13日(木)に秋葉原 from scratchさん @BARfromscratch1 にて第3回目のおたさささん @otasasa とのトークイベント開催します~ おたさささんお誕生日お祝い&うる星放映開始記念というこ

    ネット時代における、あの頃のエンタメの価値とは - わがはじ!
    sh19910711
    sh19910711 2024/06/12
    "過去に好きだったバラエティやラジオの再発見 / Youtuberの方々も企画に悩んでいることが分かるし、人々の可処分時間が取り合いになる昨今では、発信するコンテンツ数が非常に重要になっている" 2022
  • Solr Operator を利用して SolrCloud クラスタを GKE Autopilot に構築する (前編)

    単語の重み付けと類似度スコア Lucene / Solr では、ある検索キーワードに対して特定のドキュメントがどの程度マッチするのかを、類似度スコア (Relevance Score) と呼ばれるアルゴリズムにより計算しています。 Lucene / Solr 5 系までは TF-IDF (Term Frequency-Inverse Document Frequency) というアルゴリズムがデフォルトで使用されていました。 具体的には、TF 値 (単語の出現頻度) と IDF 値 (逆文書頻度) という2つの指標に基づいて計算されます。 TF 値 : ある文書の中である単語の出現回数が多ければスコアが増加する IDF 値 : 検索対象の全文書の中でその単語が出現する文書の数が少なければスコアが増加する 例えば、英単語の the, a, an, and, it などは TF 値は高くなりそ

    Solr Operator を利用して SolrCloud クラスタを GKE Autopilot に構築する (前編)
    sh19910711
    sh19910711 2024/06/12
    "Solr: 元々 Lucene のサブプロジェクトとして開始され、2021年に Apache の独立したトップレベルプロジェクトに昇格 / SolrCloud: ZooKeeper が必要になったり、従来のクラスタと比べて構成が複雑になってしまう" 2023
  • ポートフォリオのリニューアル/コンセプトの強度とドット絵とWeb開発 - ここぽんのーと

    もう何度目になるだろうか。そろそろ数えるのも難しくなってきた、ポートフォリオサイトのリニューアル。今回は「コンセプトの強度」や「ドット絵とWeb開発」といった観点でいろいろ書き散らしていく。 過去の振り返りサイトcocopon.meは、いまご覧いただいているブログ以外にもいくつか役割を持っており、例えば自身の実績を載せるポートフォリオも兼ねている。 これまで何度もリニューアルを重ねてきており、そのときどきの様子は当時の記事から窺い知ることができる。

    ポートフォリオのリニューアル/コンセプトの強度とドット絵とWeb開発 - ここぽんのーと
    sh19910711
    sh19910711 2024/06/12
    "ゼロから作り直したくなるということ / 好き勝手に遊べる砂場的な側面もあるので、まったくの無駄にはなっていない / とはいえ、これを作り直しているあいだ、肝心の制作活動が止まってしまうのは考えもの" 2023
  • モノの名前を知るのって楽しい - モロ屋

    何ヶ月か前、デイリーポータルZで面白い記事が更新されていた。 dailyportalz.jp なるほど確かに名前が分かるだけで面白いと感心。それからはたまに、ぼんやり目の前を眺めながらモノの名前を頭の中で読み上げたり、スマホで調べてみたりしている。 この文章は待ち合わせまでの空き時間に喫茶店で書いているが、他にもパソコンを広げている人がいる。自分はあの人が使っているパソコンがSurface Proであることや、あっちの人はMacbookで、目の前の人はLet’s Noteであることも分かる。でも多くの人は一つのノートパソコンとして認識しているんだろうなと思うと、なんだか面白い。 でもファッションが好きな人は、おれにはTシャツ・ズボン・スカートくらいしか言えない服の種類を、もっとたくさんの名前で認識しているんだろう。机も椅子も、紙コップひとつにすらも、もっと細かく名前がついていて、分かる人に

    モノの名前を知るのって楽しい - モロ屋
    sh19910711
    sh19910711 2024/06/12
    "あっちの人はMacbookで目の前の人はLet’s Noteであることも分かる。でも多くの人は一つのノートパソコンとして認識しているんだろうなと思うと、なんだか面白い / 昔から「アスクル」のカタログを読むのが好きだった" 2020
  • 音楽と生成技術 2024春 - 猫型の蓄音機は 1 分間に 45 回にゃあと鳴く

    生成技術の発展が当に日進月歩ですごい。音楽に関しても、もう「なになに風の音楽を作って」というものについてはあと一歩で実用レベルだな、と思わせるところまで来ている。以前もこのブログで以下のように書いた。 「こんなイメージで、という指示」をインプットにして、アレンジ済みトラックを出力するような仕事、あるいは「こういう用途で使います」「こういうイメージで」をインプットに、BGMを出力するような仕事は、「よほどのこだわりがある場合」を除いて、生成AIによって早晩奪われていくだろうと思っている。 生成AIによって、演奏の仕事が置き換えられていく可能性は低いと思う。が…… - 型の蓄音機は 1 分間に 45 回にゃあと鳴く なんならLogic11の新しい機能のSessionPlayerなんかはもう「アレンジ済みの演奏を出力する」「ベーシストとして楽曲制作のお手伝いをする」みたいな私の仕事を一部置き

    音楽と生成技術 2024春 - 猫型の蓄音機は 1 分間に 45 回にゃあと鳴く
    sh19910711
    sh19910711 2024/06/12
    "生成技術によって自分の楽しみが奪われることはない / DTMの打ち込みによって「演奏しなくていい機会」が増えたのに「わざわざ演奏したがる」という酔狂なひとがいまだにたくさんいることと相似な気がする"
  • 英語を読むことについて - 基本読書

    コニー・ウィリスによるSFシリーズであるオールクリアの2巻が出た。これにてブラックアウト、オールクリアと続いてきた長大な物語が完結になる。ブラックアウトを読んだ時点でオールクリアを待つのがつらくなり、英語を勉強して洋書で読んだ身としては非常に感慨深い。このふたつがこれだけ期間をあけて出版されなければ僕は未だに洋書を読もうという気は起きていなかったし、日語のだけで満足していただろう。間を開けてくれた早川書房および訳者の大森望氏には感謝せねばなるまい。 英語が読めるようになる、英語を読もうとする人間へ変質するということは、ゲームで言えばマップが解放されたような状況に等しい。英語ができるようになるだけで今までアクセスできなかった文化圏にアクセスできるようになるのだ。当たり前のことだろって思うかもしれないけれど、実際問題英語でも情報を収集する、できるようになったときにそのことの意味がまったくわ

    英語を読むことについて - 基本読書
    sh19910711
    sh19910711 2024/06/12
    "文化圏にアクセスするためには言葉を知らなければいけない / 当たり前だけどいっぱいコンテンツがあって ~ ワンクリック先にあるのに接続できない場所だった / ゲームで言えばマップが解放されたような状況" 2013
  • Ryeを用いたPyTorchおよびPyG環境構築

    要約 Windows上のCUDA環境において、Ryeを用いてPyTorchおよびPyG (PyTorch Geometric) のライブラリをインストールすることができた。pyproject.tomlにソースを設定することが必要となる。 Ryeについて RyeはPythonのバージョン管理とライブラリ管理の両方を1つで行えるツール。Rustで内部実装されている。ここではインストール方法には触れない。インストール済みであるとして進める。 Rye CUDA環境の構築 以下が必要となる。 NVIDIAディスプレイドライバーのインストール NVIDIA CUDA Toolkit のインストール NVIDIA cuDNN のインストール この3つは組み合わせの相性があり、以下のページでサポートされている組み合わせが記載されている。 Support Matrix ここでは、最新のドライバーと CUDA

    Ryeを用いたPyTorchおよびPyG環境構築
    sh19910711
    sh19910711 2024/06/12
    "support-matrix: NVIDIAディスプレイドライバー + CUDA Toolkit + cuDNN + この3つは組み合わせの相性 / PyTorchが対応しているバージョンについても確認しておく / 最新の CUDA Toolkit だとPyTorchが対応していないことがある"
  • オンプレDWHをBigQueryに移行した話 - ZOZO TECH BLOG

    はじめに こんにちは。MA部MA施策・運用改善チームの辻岡です。MA部では、ZOZOTOWNのメルマガ・アプリPUSH通知などの配信・分析等の用途で約数十TBのデータを運用しています。今回は長年MAのデータ基盤として利用してきたオンプレDWHをBigQueryに移行したおはなしをします。 この記事はこんな方におすすめ オンプレDWHからBigQuery移行を検討・実施してる方 ジョブ・スケジューラ、ETLツールの移行を検討・実施してる方 概要 オンプレDWHからBigQuery移行する前後の構成イメージを元に、今回の移行の話について概要を説明します。 次の図が移行前の構成図です。オンプレ環境のWindowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、データウェアハウス(以後オンプレDWH)に対してデータ生成や外部システムとの連携をしていました。 今回、以下を目的にオンプレDW

    オンプレDWHをBigQueryに移行した話 - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/06/12
    "Windowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、オンプレDWHに対してデータ生成や外部システムとの連携 / BigQueryへの接続すら既存のライブラリでは困難な状態" 2022
  • 【データ分析】Elasticsearchのパイプクエリ言語ESQL - Qiita

    はじめに Elasticsearchは、新しいクエリ言語であるES|QL(Elasticsearch Query Language)の一般公開を発表しました。この記事では、ES|QLの機能と利点、そしてその導入による新しいデータ調査の可能性について詳しく紹介します。 デモサイト ES|QLとは何か? ES|QLは、データ調査を簡素化し、効率化するために設計された動的なクエリ言語です。従来のQueryDSLに代わり、シンプルで直感的なクエリ構文を提供し、データソースや構造に関係なく迅速なデータ検索を可能にします。特にパイプド構文により、複数の操作を連鎖させることで、複雑なデータ調査も簡単に行うことができます。 ES|QLの例 以下は、典型的なES|QLクエリの例です: FROM logs-system.auth* | WHERE host.os.type == "linux" AND eve

    【データ分析】Elasticsearchのパイプクエリ言語ESQL - Qiita
    sh19910711
    sh19910711 2024/06/12
    "ES|QL: 新しいクエリエンジンにより並行処理を強化し、検索速度を大幅に向上 / Kibanaと完全に統合されており、データの可視化と分析を一つの画面で行う / 長時間実行されるクエリを非同期で実行"
  • Tokyo.R RStudioでグラフをちょっときれいに出力する - CairoとAGG -

    sh19910711
    sh19910711 2024/06/12
    "RStudioではOSのデフォルトの他にCairoとAGG (Anti-Grain Geometry)が選べる / アンチエイリアスの効いたなめらかな描画 / AGGはCairoより高速 + 2006年で開発が止まっている" 2022
  • Chrome内蔵LLM Gemini Nanoを使ってみた

    はじめに Chrome 126からローカルで使えるLLM Gemini Nanoが使えるようになりました。 記事では実際に使ってみようと思います。 前準備 まずはChrome Release ChannelsにてDev channelのChromeをインストールします。 インストールできたら下記機能を有効にします。 Enables optimization guide on device: Enabled BypassPerfRequirement Prompt API for Gemini Nano: Enabled 次に、LLMのダウンロードが必要のため、 chrome://components/にアクセスし、Optimization Guide On Device Modelのアップデート状況を確認します。 まだダウンロードされていない場合は、アップデートを確認ボタンでダウンロード

    Chrome内蔵LLM Gemini Nanoを使ってみた
    sh19910711
    sh19910711 2024/06/12
    "ローカルLLM使用のChrome拡張機能が増えていくのでは / LLMのダウンロード: chrome://components/にアクセスし、Optimization Guide On Device Modelのアップデート状況を確認 / session.promptStreaming: 結果をストリーミングで受け取る"
  • 日本語要約に特化したLLMをQLoRAを適用したSFTで作ってみる

    インターネットをご覧の皆さん、こんばんは。 皆さんは文章の要約、やっていますか? やっていますね? 先日 Stability AI よりリリースされた japanese-stablelm-2-base-1_6b をベースモデルとして、 SFT (Supervised Fine-Tuning) を用いて日語要約に特化した言語モデルを作成してみましたので、記事ではその学習の流れについて紹介します。 学習に使用したスクリプトは以下のリポジトリに置いています。 モデルの学習 モデルの学習は以下の流れで行いました。 学習用データセットの収集 まず、要約モデルを学習させるために必要なデータセットを収集します。 要約元となる文章と要約された文章のペアを用意できるようなデータセットを取得します。 学習用データセットの整形 収集したデータの前処理を行い、文と要約のペアを整理します。 モデル学習の実行

    日本語要約に特化したLLMをQLoRAを適用したSFTで作ってみる
    sh19910711
    sh19910711 2024/06/12
    "ThreeLineSummaryDataset: livedoor ニュースの本文 + その記事の3行要約 / 量子化したモデルに対して、 PEFT を使用して QLoRA の適用 / RTX4070 12GBのようなミドルクラスのGPUでも差し支えなくモデルの学習を実行できました"
  • Rで動学的パネルデータ分析:plm、panelvarパッケージをつかったGMM推定 - StatsBeginner: 初学者の統計学習ノート

    plmパッケージとpanelvarパッケージ 最近、パネルデータを扱うことが増えてきたのだが、パネルデータで動学的な(つまりt-1期とかのラグ項が出てくる)分析をやろうとすると最小二乗法ではなくGMM推定量を用いる必要がある。 備忘として、動学的パネルデータ分析(ダイナミックパネル分析)の基的な考え方とRのパッケージの使いかたをここにメモしておこうと思う。といっても自分自身の理解もだいぶあやふやで、色々間違いもありそうなので、お読みになった方から指摘いただけると大変助かります…(汗) Rの場合、結論から言うとまずは{plm}パッケージを使うのがいいと思う。いわゆる「パネルVAR」の形で分析したいなら、2018年に開発されたらしい{panelvar}パッケージを使うことができるのだが、後述するとおり{panelvar}のほうにはまだ不便なところもあって、今のところ、なるべく{plm}ででき

    Rで動学的パネルデータ分析:plm、panelvarパッケージをつかったGMM推定 - StatsBeginner: 初学者の統計学習ノート
    sh19910711
    sh19910711 2024/06/12
    "社会調査データを扱う場合に発生する、OLSでは対処できない問題の種類、原因、対処法 / 千木良・早川・山本(2011)『動学的パネルデータ分析』 / 非常に読みやすく実務的な利用にも配慮された教科書" 2020
  • 回帰分析の悩みどころ (「アヒル本」7.1-7.5) [スライド紹介]

    こんにちは。mutopsyです。この記事は,『StanとRでベイズ統計モデリング』読書会 (Osaka.Stan #4) で使用したスライドの紹介記事です。 『StanとRでベイズ統計モデリング』,通称「アヒル」のChapter 7「回帰分析の悩みどころ」の前半部分を解説しているスライドです。回帰分析を用いる際に留意するべき点,あるいは工夫できる点として,「交互作用」「対数をとるか否か」「非線形の関係」「多重共線性」「交絡」の5つに焦点を当てています。内容に関してはスライドをご覧頂くか,「アヒル」を読んで頂ければ良いかと思いますので,この記事ではスライド内で紹介しているStanコードを(コピペしやすいように)改めて紹介したいと思います。 以下のStanコードは,2つの説明変数(イケメンか否か・年収)で1つの応答変数(魅力)を予測する重回帰モデルです(この例は清水先生の記事を参考にしまし

    回帰分析の悩みどころ (「アヒル本」7.1-7.5) [スライド紹介]
    sh19910711
    sh19910711 2024/06/12
    "モデリングの感覚をつかむには,自分で手を動かしてみるのが一番 / その点,アヒル本ではStanコードの各行の意味までしっかりと説明がなされているので,実際にコードを走らせながら読めば相当身になる" 2017
  • Pythonで因果推論(3)~介入とランダム化比較試験~

    はじめに 介入やランダム化比較実験(RCT)について、Pythonによる実装を交えてまとめました。記事では、グラフ的な表現や調整に関する記述はなく、介入操作の概要と(調整を必要としない)ランダム化比較実験についてのみ取り扱っています。内容について誤り等がありましたら、コメントにてご指摘いただけますと幸いです。 介入 介入とは、「因果推論をする際に、とある変数の値を変化させる操作」のことを表します。そして、多くの場合では介入操作の因果効果を推定することが、その因果推論の目的となっています。 介入操作の具体例 ここで具体例として、こちらの記事で用いた「とある大学に所属する経済学部生の、計量経済学の試験の得点Yに対する特別講義(以下、特講)受講Dの効果」を考えたいと思います。 こちらの記事では、特講の受講するかどうかDは学生個人の学習意欲Xに依存していました。すなわち、学習意欲Xが高い学生ほど

    Pythonで因果推論(3)~介入とランダム化比較試験~
    sh19910711
    sh19910711 2024/06/12
    "「出席番号がi番未満の学生は特講を受講し(𝐷=1)、i番以上の学生は特講を受講しない(𝐷=0)でください」というように、(無理やり)特講の受講を割り当てる場合、特講を受講する・しないというのは介入になります" 2022
  • 「StanとRでベイズ統計モデリング」のメモ - われがわログ

    確率的プログラミングとは 何がうれしい? 書の主張 階層モデル 伝統的な統計論とベイズ統計との違い 思想 信頼区間 その他メモ 尤度と事後分布 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行この商品を含むブログ (10件) を見る 確率的プログラミングとは 随所で「確率的プログラミング」という言葉を見かけ、気になっていたので書を読んだ。そのときのメモ。 最初、この単語は確率論を考慮したプログラミングを指すのか?と思っていたがそうではなく、ベイズ統計モデリングをするための言語とのことだった。 数理最適化計算のためのモデリング言語でAMPLというのがあるが、それの確率モデリング版と考えるのがしっくりきた。「確率的プログラミング」でなく「ベイズ統計モデリング言語」と呼んだ

    「StanとRでベイズ統計モデリング」のメモ - われがわログ
    sh19910711
    sh19910711 2024/06/12
    "数理最適化計算のためのモデリング言語でAMPLというのがある / 確率的プログラミング言語の良いところは、使用者がモデリングに集中できるところ / 従来だと式の導出などが手間だったらしいが、それをうまく隠蔽" 2019
  • AtCoderに登録したら解くべき精選過去問10をTeXで解いてみた - Qiita

    注意事項 $\rm\TeX$は2019年6月9日現在,AtCoderのジャッジシステムには含まれていません.手元の処理系で動作を確認しています. 11問中 6 8問しか解けていません.今後随時追加の予定. 東大TeX愛好会@ut_tex_clubさんからの情報提供により全問解決できました.感謝です. 更新履歴 2019/06/08 #0, #1, #2, #4, #5, #8 公開 2019/06/09 #3, #6 追加 2019/06/25 ログ出力に関する情報について追記 2019/09/26 東大TeX愛好会@ut_tex_clubさんからの情報提供により #7, #9, #10を追加 まえがき $\rm\TeX$はプログラミング言語.ならば競プロするしかない. ということで解いてみました. 競プロ入門といえばおなじみの @drken さんの記事,AtCoder に登録したら次にや

    AtCoderに登録したら解くべき精選過去問10をTeXで解いてみた - Qiita
    sh19910711
    sh19910711 2024/06/12
    "行区切り,及び空白区切りで入力を読み込み,算術演算と文字列の書き出し + 既に普段TEXでやることとかけ離れているのでなかなか面倒 / Keyを文字列として制御綴に埋め込むことでHashMap/Setを実現" 2019
  • mlflowを使ってデータ分析サイクルの効率化する方法を考える - Qiita

    この記事について mlflowという機械学習の管理をできるPythonライブラリについて説明する mlflowを使って、データ分析サイクルを効率よく回せるかを考える mlflowとは 概要 mlflowは、機械学習の開発を行う上で複雑になりがちな実行環境、モデル、パラメータ、評価結果、その他もろもろの管理を行ってくれるプラットフォームです。モデル作成後のデプロイについても、予測結果を返してくれる簡単なAPIを提供できる機能でカバーしています。 機械学習を行う場合、scikit-learn(または、これに準拠したもの)を用いることが多いと思うので、これを使うことを前提に説明していきます。(scikit-learn以外にも、H2O、Keras、pytorch、tensorflowといったディープラーニング向けのライブラリにも対応しています。) mlflowは以下の大きな3つの機能で構成されてい

    mlflowを使ってデータ分析サイクルの効率化する方法を考える - Qiita
    sh19910711
    sh19910711 2024/06/12
    "前処理を行ったときのソースコードと、前処理後のデータはバージョン管理を行ってそのデータがどの処理を行って生成されたものかを把握できるようにしないと、再現性の担保ができない" 2018
  • 強化学習「理論」入門

    2022年度 TopSE「機械学習概論」コースの一部として使用した講義資料です。 https://www.topse.jp/ja/curriculum-lectures.html

    強化学習「理論」入門
    sh19910711
    sh19910711 2024/06/12
    "教師なし学習: データに対する知見を得ることが主な目的 + 「正解」の定義はない / 強化学習: マルコフ決定過程として環境と報酬を定義 + 総報酬を最大化することがゴール" 2022
  • 簡単にLLMをFine-Tuning!CortexLLM-Fine-Tuning

    こんにちはkirigayaです! 少し前にSnowflakeの大型イベントDATA CLOUD SUMMIT 24が開催されました! 今回は特に激アツや〜〜〜と感じた以下 ノートブックからGPUコンテナ使用 CortexLLMのFine-Tuning この記事ではCortexLLMのFine-Tuningについて調査していきたいと思います!!! どちらの機能もすごく欲しかったので発表された時は家の中で跳ね回っていましたw 夢を叶えてくれるSnowflake さっそく新機能のダークモードがお出迎えしてくれます Fine-Tuning ドキュメント 中身はPEFTを使っているようです。 中のどれ?って感じですが... 微調整可能なモデル一覧 Mistral AI の 70 億パラメータの大規模言語モデルは、最も単純な要約、構造化、質問への回答などのタスクを迅速に実行する必要がある場合に最適です

    簡単にLLMをFine-Tuning!CortexLLM-Fine-Tuning
    sh19910711
    sh19910711 2024/06/12
    "CortexLLMのFine-Tuning: テーブル、ビューから作成可能でクエリ結果にprompt、completion列が存在している必要 + 余分な列がある場合は無視される + データは投入時に自動でtrain,testで分割"
  • Squintで(主にVimと)遊ぼう

    TL;DR 時間がなくてお遊びまでで実用性はないです。 駆け足で書いているので不備などあったら申し訳ないです。 Squint を使うとClojureScriptライクな言語でVimプラグインが書けます。 VSCodeとかもいける?わからないけれど Squint はまだ Work In Progress なので、今後破壊的な変更が入る可能性があります。 対象 JSの代わりにClojure(Script)が書きたい ClojureScript は好きだけれどもJSの出力結果としていろいろ埋め込まれて巨大になるのは好きじゃない ClojureScript とは そもそも Clojure とは JVM 上で動作する Lisp 方言の1つで、ClojureScript は JavaScript をターゲットとした Clojure コードのコンパイラです。 Clojure は主に *.clj という拡

    Squintで(主にVimと)遊ぼう
    sh19910711
    sh19910711 2024/06/12
    "Squint: ClojureScriptライクな言語でVimプラグインが書けます + ClojureScript の置き換えを目的とはしておらず、バンドルサイズなどにおいてより軽量なものを使いたい人向けのツール" 2023
  • SageMaker Feature Store を使ってみる - 肉球でキーボード

    SageMaker Feature Store の使用方法の一連の流れを解説します。 記事中での実行コード github.com Feature Store とは まずはML界隈で知られるFeature Store の概念について説明します。 Feature Store は「機械学習で使用される特徴量の一元管理を行うためのデータ管理システム」です。 似たような概念にData Lake や Data Warehouse があげられますが、それぞれ Data Lake : 幅広い用途への利用を想定した、データの一元管理システム Data Warehouse: 分析のために事前に定めたスキーマを持つ、構造化データ管理システム といった役割を持ちます。 対して、Feature Store はMLで使用される特徴量の管理に特化した役割を持つことがポイントです。 Feature Storeの立ち位置

    SageMaker Feature Store を使ってみる - 肉球でキーボード
    sh19910711
    sh19910711 2024/06/12
    "Feature Store の機能要件: ストリーミング・バッチ両方でのデータの保存 + Offline・Online の使い分け / SageMaker Feature Store: ストリーミングソースからの取り込み + DataWrangler と連携 + Spark によるバッチデータ取り込み" 2022
  • Pytorchを用いたNTKおよびNNGPの実装方法 (1次元回帰問題) - Qiita

    この記事では,Pytorchを用いてNeural Tangent Kernel (NTK) およびNeural Gaussian Process (NNGP) を実装し実験する方法について簡単に紹介します.なお今回は簡単のために2クラス分類にのみ適用可能な実装となっています. 0.データセットとモデルの定義 まずはPytorchを利用してCIFAR10の用意をします. import torch import torch.nn as nn import torch.nn.functional as F import torchvision import torchvision.transforms as transforms device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') transform = tr

    Pytorchを用いたNTKおよびNNGPの実装方法 (1次元回帰問題) - Qiita
    sh19910711
    sh19910711 2024/06/12
    "NNGPやNTKなどの無限幅深層学習モデルの実験はJAXを用いて開発されたNeural Tangentsがよく用いられます / NTKを効率的に計算するライブラリとしてASDLやTorchNTKなどの便利なライブラリも存在"
  • 【Juliaで因果推論】Potential Outcomes (潜在的結果変数)

    分析対象のアウトカムYには2つのpotential outcomes \{Y^0, Y^1\}が想定できるが,現実のデータでは片方のみしか観測されない. 分析で知りたい因果効果は平均的な処置効果(ATE, ATT),ナイーブな引き算(E[Y|D=1]-E[Y|D=0])で因果効果を求めてもselection biasが残るので因果効果を正しく推定できない. CIA: \{Y^0, Y^1\} \perp D | Xが成り立つとき,selection biasは消える. potential outcomesのフレームワークを使ってselection biasがない理想的な状況(CIA)を思い描くことで,必要な分析のデザインが見えてくる. 私たちが答えの知りたい因果関係の"問い"にはいくつかのパターンがありますが[1],ここではまず,「もし〇〇したらYはどう変わるか?()」という問いに着目しま

    【Juliaで因果推論】Potential Outcomes (潜在的結果変数)
    sh19910711
    sh19910711 2024/06/12
    "分析で知りたい因果効果は平均的な処置効果(ATE, ATT) / ナイーブな引き算で因果効果を求めてもselection biasが残る / 因果効果に迫るためには,「他の条件を一定にしたとき」という考えが重要" 2022
  • Android NDK 環境で TensorFlow Lite GPU Delegate を使う方法 - Qiita

    1. はじめに TensorFlow Lite を GPUで高速化する GPU Delegate機能 を Android で使う方法について書きます。 GPU Delegate に関する公式情報はいくつかあるのですが(例えばここ や ここ)、それらは「手軽に試す」ことに焦点があてられており、 ・TensorFlow Lite ライブラリや GPU Delegate ライブラリは、ビルド済みバイナリをダウンロードして使う ・アプリは JavaKotlin で書かれている というものが大半でした。 これに対し記事では、次の前提でアプリを作る方法について書きます。 ■TensorFlow Lite ライブラリとGPU Delegate ライブラリは、ビルド済みバイナリを使うのではなく、自前ビルドしたものを使いたい(最新のソースコードを使いたい。自分でコード修正したい。) ■アプリは C+

    Android NDK 環境で TensorFlow Lite GPU Delegate を使う方法 - Qiita
    sh19910711
    sh19910711 2024/06/12
    "GPU Delegate: OpenGLES 用のGPUカーネルと OpenCL 用のGPUカーネルを両方抱え込んでいる / 「メモリの少ない組み込み用途向けにどちらか一方を選択できるようにしようぜ」、という議論が issue で進行中" 2020
  • 脳のように非同期学習を行うニューラルネットワークの実装 with keras tensorflow backend - rarilureloの日記

    はじめに タイトルには脳の非同期学習というようにまるで脳が非同期的に学習をしているかのように書きましたが, そこんところ実際はどうなっているかよくわかりません. 自転車を漕ぎながら考えごとをしたり, サッカーでドリブルしながらシュートかパスか考えたり, 少なくとも思考と運動の処理自体は並列非同期であるよう私自身は思います. まぁよくわからないんですが, とりあえずニューラルネットワークでは非同期でも学習できたよ! というのが今回紹介する論文です. Decoupled Neural Interfaces using Synthetic Gradients 目次 はじめに 目次 どんなことをしているか DNI 実験 詳しい実験結果 追実験 実装 まとめ どんなことをしているか まず言葉の意味から行くと, Decoupledとは分離という意味です. なにを分離するのかというと層の依存関係を分離し

    脳のように非同期学習を行うニューラルネットワークの実装 with keras tensorflow backend - rarilureloの日記
    sh19910711
    sh19910711 2024/06/12
    "自転車を漕ぎながら考えごとをしたり, サッカーでドリブルしながらシュートかパスか考えたり / 勾配の計算を上の層全て使うのではなく現在の層が出した値で近似してしまえば上からの誤差なんて待たずにすむやん" 2016
  • pyknpで形態素解析と構文解析をする方法

    こんにちは。 aiチャットボットを作る時は自然言語処理(NLP)をする必要があります。 その自然言語処理には、形態素解析や構文解析、意味解析などの工程があります。 この記事では形態素解析も構文解析も出来るpyknpの使い方を解説します。 ※インストール方法はネットに載っている情報でお願いします。 pyknpとは pyknpとは、京都大学が作ったknpとjumanをpythonで使うためのライブラリです。 因みに、knpは構文解析をするためのもので、jumanは形態素解析をするためのものです。 しかし、knpはjumanに依存しているので、knpだけで形態素解析も構文解析も出来ます(多分、コマンドラインでは構文解析しか出来ないと思います) 以下ホームページなど。 形態素解析をする方法 まず、形態素解析をする方法から説明します。 pyknpで形態素解析をする方法は二つあり、一つ目はjumanで

    pyknpで形態素解析と構文解析をする方法
    sh19910711
    sh19910711 2024/06/12
    "自然言語処理には、形態素解析や構文解析、意味解析などの工程 / pyknp: 京都大学が作ったknpとjumanをpythonで使うためのライブラリ / 形態素解析と構文解析ごとにライブラリを使わなくて良いのでとても楽"
  • C++ヘッダだけでDeep Learning、tiny-dnnの紹介 - Qiita

    DeepLearning Advent Calendar,6日目の記事です。 Deep Learningフレームワークも世の中に随分と充実してきた昨今、いかがお過ごしでしょうか。今日はC++プログラマが簡単に導入できるDeep Learningフレームワーク、tiny-dnnを紹介します。 まとめ C++でDeep Learningやるなら、tiny-dnnが便利 Header-only&外部依存なしで簡単導入 Caffeからのインポートやシリアライズなどの各種機能にも対応 いろんなデバイス上で動かしたい人、既成のModel+αを素早くアプリケーション化したい人、C++でDeep Learningを理解したい人に最適 背景 Deep Learningフレームワークといえば、 Chainer TensorFlow Caffe あたりが有名ですね。他にも老舗のTheanoにTorch、Tens

    C++ヘッダだけでDeep Learning、tiny-dnnの紹介 - Qiita
    sh19910711
    sh19910711 2024/06/12
    "tiny-dnn: Header-only&外部依存なし + Caffeからのインポートやシリアライズなどの各種機能にも対応 / Deep Learningフレームワーク: BaiduのPaddleやMSのCNTK、AWSが採用したMxNet、Intelが買収したNervanaのneonなど" 2016
  • CNNで系列モデリングをするTemporal Convolutional Network(TCN) - Qiita

    この記事では時系列モデリングにはRNNよりCNNのほうが有効であると提唱してる論文と、その中で提案されている手法Temporal Convolutional Network(TCN)について紹介します 論文概要 タイトル : An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 論文URL : https://arxiv.org/pdf/1803.01271.pdf Date : 2018/04/19 背景 深層学習の文脈で時系列モデリングと言えばRNNと多くの人が思うでしょうし、多くのの"時系列モデル"の項にもRNNが載せられています。しかし、2016~2018年には音声合成や機械翻訳などの一部の分野でConvolutionを用いた手法がRNN系の手法よ

    CNNで系列モデリングをするTemporal Convolutional Network(TCN) - Qiita
    sh19910711
    sh19910711 2024/06/12
    "時系列モデリングにはRNNよりCNNのほうが有効であると提唱してる論文 / TCN: 系列ベクトルを1次元フィルタでどんどん畳み込んでいくだけ + 自分より前のステップの情報のみを使って畳み込んでいる" arXiv:1803.01271 2020
  • byte列のbit表現を得るencodingライブラリ作った

    sh19910711
    sh19910711 2024/06/12
    "新しいencoding調べてるときとかはバイナリどうなってるのか気になる / `xxd -b`とかでみれるがGoプログラムから柔軟に使いたい / 標準のencoding系のパッケージはioの扱いとかで勉強になるのでおすすめ" 2022
  • レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog

    はじめに DELISH KITCHENでデータサイエンティストをやっている山西です。 今回はレシピ動画のサムネイル画像の自動抽出の取り組みについて紹介いたします。 OpenCVを用いた画像処理 画像とテキスト情報のペアを扱う大規模モデル 等を用いつつそれを試みた事例になります。 ※記事後半で具体実装を扱っている部分では、周辺知識がある前提で説明を進めていることをご了承ください。 every Tech Blog Advent Calendar 2024(夏) 9日目の記事になります。 出来たもののイメージ どんなものが出来たかを先に紹介します。 一言で表すと、レシピ動画の中から「調理手順を表すのに良い感じのサムネイル画像」をAI的振る舞いで自動で抽出してくれるシステムになります。 これをワンパンカルボナーラというレシピに適用した例を以下に載せています。 図1: AIシステムによるレシピサムネ

    レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog
    sh19910711
    sh19910711 2024/06/12
    "調理手順を表すのに良い感じのサムネイル / 各フレーム画像の特徴点を抽出し、動画内の前後のフレームの特徴点の総当たりマッチング / CLOOB: CLIPの改良版として、rinna社によって提供"
  • 【Elasticsearch社内勉強会】Lucene IndexSearcher を読む - Qiita

    これは何? 最近、社内で Elasticsearch/Lucene 勉強会を毎週ガヤガヤとやっています。 今週の私の担当は、Luceneの検索メソッド IndexSearcher.search の処理の流れを追っていきます。 準備 まずは、手元でデバッグするために、Luceneインデックスの作成と簡単な動作確認をしておきます。 インデックスの作成 インデックスの作成には、 IndexWriter を用いますが、詳細は、 @po3rin さんの ブログ に譲ります。 Directory directory = FSDirectory.open(Paths.get("./data/index")); StandardAnalyzer analyzer = new StandardAnalyzer(); IndexWriterConfig config = new IndexWriterConf

    【Elasticsearch社内勉強会】Lucene IndexSearcher を読む - Qiita
    sh19910711
    sh19910711 2024/06/12
    "IndexReader: Lucene のインデックスを読み取るための抽象クラス + インデックスは複数のセグメントに分割されて管理 / 各セグメントごとにクエリを適用 + 各セグメントの結果を集計" 2020
  • 無料版Herokuで「Mecab+軽量化NEologd」を使った形態素解析に成功した

    新語などに対応したNEologd+Macabを使った形態素解析Heroku上で行うことに成功したので軽量化手法とともにご紹介します。 手順だけ教えろって方は後半を見てください。 (どうせ来月には忘れている自分のためです) NEologdはHerokuで使えない 「mecab-ipadic-neologd」とはMacabを新語などに対応させた辞書のことで、例えば通常のMecab辞書だと「鬼滅の刃」は一つの固有名詞だと認識できません。 しかしNEologdを辞書として使うとことで固有名詞として形態素解析を行ってくれます。 $ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd 小宮果穂 名詞,固有名詞,人名,一般,*,*,小宮果穂,コミヤカホ,コミヤカホ EOS 軽量化すればいい! ネット上にある殆どの記事は「無

    無料版Herokuで「Mecab+軽量化NEologd」を使った形態素解析に成功した
    sh19910711
    sh19910711 2024/06/12
    "Herokuの無料枠では容量制限500MB / しかし、公式ドキュメントにて提示されている軽量化手法を使えば制限をかいくぐって使うことが可能 / 辞書のビルド時に --eliminate-redundant-entry パラメータを渡す" 2022
  • End-to-End Object Detection with Transformers (DETR) の解説 - Qiita

    最近、Arxiv Sanity Preserverで上位にランクインしていた、Facebookから20/5/27に公開のObject Detection論文 DETRについて解説する。 概要 NMSやRPN等のごちゃごちゃした仕組み無しで、CNN+Transformerの極めてシンプルな構成で真にEnd to Endな物体検出を実現する。 その上で、最近の最前線クラスの物体検出器に匹敵する性能を達成している。 (テクニカルに色々してるが、新規性は従来のRNNをTransformerに置き換えている所) このシンプルな構成のおかげで拡張が容易で、この論文ではDETR物体検出器をSegmentationタスクにも拡張し、SOTA級のアーキテクチャを上回る性能を叩き出している。 NMSをなくして、Transformer化に至るまでの背景 現在よく使われてる物体検出器では、処理の途中過程にあるNM

    End-to-End Object Detection with Transformers (DETR) の解説 - Qiita
    sh19910711
    sh19910711 2024/06/12
    "DETR: CNN+Transformer + End to Endな物体検出 + ハンガリアン法で一意かつ適切な対応付け / object query(学習値)とspatial positional encoding(固定値)の両方を場所毎に使い分けることで精度を上げている" 2020
  • Kdd 2021 読み会(clustering for private interest-based advertising & learning a logistic model from aggregated data)

    sh19910711
    sh19910711 2024/06/12
    "プライバシー保護: 欧州でGDPR('18/05) + アメリカでCCPA ('20/01) + iOS14.5, ATT ('21/04) / 広告をclickした後のユーザー行動計測が困難に / FLoC: KDD2021で初めてFLoCの仕様に関する論文が公開 / SimHash: LSHファミリー"
  • Chrome の 組み込み AI Gemini Nano を試してみる

    インストールが完了したらアドレスバーに chrome://flags と入力して設定画面を開きます。以下の 2 つのフラグを設定します。 Enables optimization guide on device: Enabled BypassPerfRequirement Prompt API for Gemini Nano: Enabled また、あらかじめ Gemini Nano のモデルをダウンロードしておく必要があります。アドレスバーに chrome://components/ と入力して Optimization Guide On Device Model の「アップデートを確認」をクリックします。 Gemini Nano を使ってみる それでは、Gemini Nano を使ってみましょう。以下のコードをコンソールに貼り付けて実行します。 const canCreate = aw

    Chrome の 組み込み AI Gemini Nano を試してみる
    sh19910711
    sh19910711 2024/06/12
    "Chrome 126 から ~ / Prompt API: JavaScript から Chrome に組み込まれた Gemini Nano にアクセスして生成 AI の機能を実装 / あらかじめ Gemini Nano のモデルをダウンロード"