はじめに レバレジーズのデータ戦略室で室長をしている阪上です。専門性向上を目的として、データサイエンスに関する論文輪読会を行っています。5ヶ月続けてみて色々と学びがあったので、簡単にこれまで読んだ論文の中で興味深いものを紹介しようと思います。 論文輪読会とは 週に1回30分の持ち回りで仕事で役に立ちそうなデータサイエンス系の論文を紹介するという取り組みで、専門性を向上させることを目的にしています。 通常の業務もあることから、各人の負担になり過ぎないように論文の概要を数分程度で述べ、特別に資料を作成するなどを想定しないものとして進めています。論文紹介のあとは、皆でその論文で扱われている手法に関して議論をします。主に半分以上の時間は議論に使われています。 以下のようにスプレッドシートに気になる論文を貼り付け、コメントを記した上で報告者がその論文の面白いポイントを述べるような形式で進めています。
← Back to blog How To Finetune GPT Like Large Language Models on a Custom Dataset Posted on May 19, 2023 by Aniket Maurya - Blog, Tutorials Takeaways Learn how to finetune large language models (LLMs) on a custom dataset. We will be using Lit-GPT, an optimized collection of open-source LLMs for finetuning and inference. It supports – LLaMA 2, Falcon, StableLM, Vicuna, LongChat, and a couple of oth
特定の分野についての知識を増やす場合など、大規模言語モデルの出力を特定の方向に寄せる場合に利用されるのがファインチューニングで、これはモデルをゼロから構築するのに比べてはるかに少ないデータセット&はるかに少ないコストでトレーニングできる手法です。「Lit-Parrot」はファインチューニングを簡単に行えるようにしたライブラリとのことなので、実際に使ってどれくらい簡単なのかを試してみました。 lit-parrot/scripts at main · Lightning-AI/lit-parrot · GitHub https://github.com/Lightning-AI/lit-parrot How To Finetune GPT Like Large Language Models on a Custom Dataset - Lightning AI https://lightnin
理化学研究所(理研),大阪府立大学,名城大学,日立製作所は共同で,新しく開発したV字型二重スリットを用いて「波動/粒子の二重性」に関する実験を行ない,電子の経路情報と干渉の発現の関係を明らかにした(ニュースリリース)。 研究グループは,ヤングの「二重スリット実験」における波動/粒子の二重性の不思議の実証を前進させ,電子の伝搬経路と干渉現象との関係の解明を目指し,現在,世界で最も可干渉性の高い電子線が利用できるホログラフィー電子顕微鏡を用いて実験を行なった。 一般に,従来の二重スリットを用いた干渉実験では,二重スリットに可干渉な波を入射し,両スリットで分割・通過した二つの波がスリットを出た後,伝搬する過程で広がり自然に重なる性質を利用する。しかし,スリットが十分に細い場合には,スリットを通過した波は急速に広がり互いに重なり合うため,どちらのスリットを通過した波かを区別するのは難しい。 今回,
ニコニコ大百科データ ニコニコ大百科に2014年2月上旬までに投稿された記事全ての記事ヘッダ,記事本文データと,それに付随する掲示板全データです。ただし,ユーザーページ,ユーザーIDは削除されています。 記事ヘッダデータ 記事ID,記事タイトル,記事ヨミ,記事種類(a:単語,v:動画,i:商品,l:生放送),記事作成日時などのデータです。CSV形式のファイルで,1年当たり1ファイル,圧縮ファイルで約4.9MB,展開後は約14.9MBです。 記事本文データ 記事ID,記事本文,記事更新日時などのデータです。CSV形式のファイルで,1月あたり1ファイル(例外あり),圧縮ファイルで約4.52GB,展開後は約22.7GBとなりますので,ダウンロードされる際はご注意ください。 掲示板データ 記事ID,レス番号,レス投稿日時,レス本文などのデータです。CSV形式のファイルで,1年あたり1ファイル,圧縮
はじめに 株式会社cross-Xの古嶋です。DX戦略の立案やデータ・AI活用の支援をしています。 今回は、OpenAI APIのgpt-4及びgpt-3.5-turboの性能について比較してみたので、その検証結果をご紹介します。かなり簡易的な検証結果であり、より踏み込んだ精査が求められるところもありますが、面白い示唆が得られたので記事としてまとめた次第です。 では、早速ですが下図を御覧ください。 これは、最近話題のLangChainを利用してOpenAIのAPIにコンテキスト内学習(ICL: In Context Learning)を実行し、PDF内に記載されている情報を抽出して回答を得るという手法を用いた場合の「出力までの時間」を比較したものです。 その中で、以下の3つの軸で「出力までの時間」を評価しています。 API: gpt-4またはgpt-3.5-turboの場合で比較 回答文:
今井です。今回より数回にわたってベイズ情報量規準及びその発展について書きたいと思います。 情報量規準と聞くとAIC(Akaike, 1973)やBIC(Schwarz, 1978)が真っ先に思い浮かぶ人が多いかと思います。情報量規準を勉強したことのある人であれば、予測精度を上げるためにモデル選択をするのであればAIC、データが生成されている構造を知ろうとするのであればBICを用いるという使い分けをすることもご存知だと思います。以下ではベイズ情報量規準(BIC)に絞って説明をしていきます。 ベイズ情報量規準の目的である、予測ではなく妥当なモデルの構造を知りたい時とはどういった場合でしょうか。例えば、単なる売上の予測だけではなくMMM(Marketing Mix Modeling)を因果モデル化したモデルによる広告などの施策の効果を知りたい場合や、k-means法でクラスター分析をする時のkを
Dropout is one of the most popular regularization techniques in neural network training. Because of its power and simplicity of idea, dropout has been analyzed extensively and many variants have been proposed. In this paper, several properties of dropout are discussed in a unified manner from the viewpoint of information geometry. We showed that dropout flattens the model manifold and that their r
今回、主に点群に対してSemantic Segmentationを行うためにTansformerを適用した研究についてサーベイしてみたので、資料を公開します。 元々は、前回開催したコンピュータビジョン勉強会@関東「深層学習+3D論文読み会」で発表するために準備していたのですが、発表者が十分に集まったことと、ハイブリッド開催のため運営が大変になりそうだったので、発表は断念しました。 最初は画像と点群でのTransformerの適用方法の違いが気になって調べだしたので、PointTransformerとPointMixerあたりまでを発表するつもりだったのですが、発表を取りやめて調べる時間もできたので、色々と追加で調べているうちに分量が増えてしまいました。 調べてみて、果たしてTransformerは畳み込みと比べて点群処理に最適か?というのはよくわかりませんでした。ただ、PointBERTの
UNIX 開発者の一人である Ken Thompson が初期の UNIX にバックドアを仕掛けていたと言われている通称 Thompson hack を自作Cコンパイラで再現してみました。 Thompson hack は UNIX のログイン処理のコンパイル時にバックドアを仕掛けるようなコンパイラを作り、さらにコンパイラのソースコードからその痕跡を消し去るという神業です。 元ネタは Reflections on Trusting Trust という1983年に Ken Thompson が Dennis Ritchie と共にチューリング賞を受賞した際の記念公演です。 Ken Tohmpson はこの細工をしたコンパイラを配布したことはないと主張しているそうですが、このバックドアを利用したと見られる不審なログインがあったという報告もあったとのことで、実際にはベル研究所の外部に配布されていた
「オブジェクト指向するとプログラムが読めなくなるから禁止」のような話は昔からあって、新しい技術についてこれない人を揶揄するようなニュアンスで使われていましたが、実際にはこれはオブジェクト指向迷路にうんざりした現場での率直な意見だと思います。 オブジェクト指向は、まじめにやるほどプログラムを読みにくくするという性質をもっています。 ※ 使い方次第というコメントついてますが、だからこそちゃんと性質をしっておく必要があると思います。 オブジェクト指向の代表的な指針を3つあげると次のようなものがあります。 オブジェクト同士の連携としてプログラムを組む 単一責務の原則 インタフェースと実装の分離 まず、オブジェクト同士の連携でプログラムを組むと、コードが飛びまくって追いにくくなります。そして単一責務の原則により、小さいクラスが大量に生成されて、追いにくさがさらにあがっていきます。 ダイクストラ先生が
概要今回は、コルンブルムによる合同ゼータ関数の一つ $$ \zeta_{\mathbb{F}_p[T]}(s)=\prod_{h\in \mathbb{F}_p[T];prime}(1-N(h)^{-s})^{-1} $$ を紹介します。$p$は素数、$h$は素多項式で、$N(h)=p^{\deg (h)}$です。 私自身、ゼータ関数のことは超初歩的なことしか知らない初心者ですが、たまたまこれを知って、代数のよい復習にもなる面白い話題だと思ったので、記事にすることにしました。そのため、私の代数の復習の目的が大きいので、ゼータ関数と直接は関係ない代数の説明が少々長くなりますが、ご了承ください。 素元分解の一意性からの導出くどいようですが、$\mathbb{F}_p[T]$が一意分解環であることから簡単に説明します。多項式環$(\mathbb{F}_p[T],\deg)$は、通常の多項式の割り
This page is written in japanse only. I have a plan to make english version, but not sure. Sorry.... 大原雄介公式サイト フリーライターの大原雄介が、あちこちのWebzineに書き散らした記事一覧をまとめたページ Last Update : 2024/1/30 ←雑記のUpdateは反映しません /VmagOnlineのコンテンツがアクセス出来なくなったため、ここに置かれた記事へのリンクは削除しました(2008/2/7) 会社名・媒体名・ドメイン変更に伴い、MYCOM Journalをマイナビニュースに更新しました(2012/1/5) マイナビニュースの2007年4月以前の記事がアクセス出来なくなっています。現在編集部に問い合わせ中(2018/4/3) ↑なんか移行に色々問題があったらしい。
Tenstorrentは連載706回で取り上げたばかりなのだが、先日日本支社設立の記者説明会が開催され、その際にいくつか新しい情報が公開されたので、連載706回のアップデートという形で説明したい。 TensixコアはいずれもRISC-Vと判明 まずはAIプロセッサー周りに関して。連載599回で同社のTensixコアの説明を行ったが、この際のスライドでは、Compute Engineに加えて5つのRISCコアが搭載されているという話だった。この話そのものは別に変わらないのだが、今回明らかにされたのはこのRISCコアはいずれもRISC-Vとのこと。 RISCコアとは別にArcコアも搭載され、こちらではLinuxが動くというあたり、内部の制御用コアは自前で開発した方が柔軟性が高いしコスト効率も良いのでRISC-Vを、全体を制御するコアはLinuxの移植なども必要になるので、こちらはソフトウェアが
本日は Streamlit という Python で記述できるアプリケーションフレームワークを紹介します。Webブラウザを用います。Flask, Django, Dash, Plotly のように Web アプリケーションフレームワークがありますが、JavaScript, HTMLやWebアプリケーションを動かす仕組みなどPython以外の知識を暗黙的に要請します。これはプログラマーによりウェブアプリケーションそのものをカスタマイズできる余地を与えます。一方で研究段階のデータサイエンス、機械学習の領域で要請される機能はデータをグラフで可視化、または画像を表示し必要に応じてスライダー、チェックボックスなどの簡易的なUIを持っていれば十分であったりします。これらの機能は素朴ですが(高級な機能なゆえ)その仕組みを作る(実装する)には工数が必要です。例えば、ボタン、セレクトボックスを変更したらその
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く