社内勉強会向け

DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO(Group Relative Policy Optimization)について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法 前提手法:TRPO/PPO TRPO: Trust Region Policy Optimization PPO: Proximal Policy Optimization GRPOとPPOの差分:①アドバンテージ算出と②参照モデルからのKL距離制約 変更点①: アドバンテージAの算出方法 REINFORCE: 価値関数近似なし方策勾配法 PPO(Actor-Critic): 価値関数近似あり方策勾配法 GRPO: スケーリングされたREINFORCE 変更点 ②: 参照モデル(SFTモデル)からのKL距離制約 従来は参照モデル制約は
プログラミングのためのBGMや環境音など。仕事や勉強の邪魔にならない無料で使えそうな音源集。2024年版 在宅で仕事や勉強をしている時間が増えてくると、ずっと無音だと寂しい気がして、できればあまり気にならないBGMや環境音があるといいなあ、と思ったことはありませんか? 昨年、そうした音源集を記事として紹介しましたが、1年が過ぎると紹介した音源の多くが配信を終了したりURLが変わったりしています。そこで、現在配信中の音源にアップデートしつつ、昨年の記事のコメントやブックマークで教えていただいた読者のお気に入りの音源なども加えた音源集まとめの2024年版を作りました。 記事の前半は音楽、後半は環境音を中心に紹介します。紹介した音源のほとんどは無料で聴けるものにしましたので、仕事や勉強に気軽に役立てていただければ幸いです。 作業用BGMの定番としてのLoFiチャンネル 今回も、まずはBGMの定番
Twitter では告知しましたが、ちょうど 1 ヶ月前の 7 月 1 日に、YouTube チャンネル「ニコニコプログラミング」を開設しました。まさかの YouTuber デビューです。 Description のところにも書いているように プログラミングの楽しさを伝えるために、プログラミングにまつわる様々なことをしています。短い時間でプログラミングの実況をしながらゲームを作り上げる実況プログラミングシリーズをメインに展開していきます。 というチャンネルです。 2009年「テトリスを1時間強で作ってみた」を発表 私は昔から、気まぐれに動画投稿をしております。例えば YouTube に「Prince of Persia(PC9801) within 10 minutes」という RTA 作品(ゲームクリアのタイムアタック、この作品はエミュレータですが)を上げて 53 万再生されていたり、ニ
1.はじめに 『ぷよぷよプログラミング 』 は 2020 年 6 月に無償提供を開始し、全国の小学校~大学、 e スポーツ団体や企業が主催するイベントで活用いただき、一般の方々を含め 10 万人以上のみなさまにご利用いただいております。 セガではゲーム事業やジャパン・e スポーツ・プロライセンス認定タイトル 『 ぷよぷよ 』 の e スポーツ展開を通じて培ったノウハウや資産を活用し、今回のカリキュラム提供のようにプログラミング教育に関する企画・運営をサポートしています。 2022 年度から高等学校において情報 が必修化され、ますますプログラミング教育が重要となる中、教育活動の一助となればと考え 『 ぷよぷよプログラミング 』 の開発・公開、教材作りを行いました。今後も先生方からご意見などを頂戴し、適宜修正・改編を進めてまいりますので、ぜひご活用いただき、所感などご教示いただければ幸いでござ
エンジニアの間で話題沸騰「はじめてゲームプログラミング」 6月11日に発売され一時トレンドにも載るほど。 「ナビつき!つくってわかる はじめてゲームプログラミング」。 「ノード」をつなげてプログラミングしてゲームを作っていきます。 例えば「Lスティックノード」と「ヒトノード」を繋いでLスティック操作ができるようになります。 チュートリアルでは「おにごっこゲーム」や「マリカ」みたいなものを作れちゃいます。 私ももちろんプレイして実況配信なんてやってみたのですが節々で「プログラミング学習」という点で衝撃を受けました。 今回はその衝撃を紹介していきたいと思います。 約束された「完成したときの達成感」 「ナビつき!」というタイトルの通り、チュートリアルが懇切丁寧です。 失敗につながるようなメニューは無効化されていますし、しばらく迷って画面上で進捗を出せないでいるとアシストしてくれます。 「完成」す
更新日: 2017年03月09日公開日: 2015年03月10日今すぐ始めたい人必見!ゲームでプログラミングが学べるサイト10選 "CodeCampus"はオンラインプログラミングスクール No.1のCodeCampが運営するプログラミング未経験の方のための学習メディアです CodeCampとは?(受講生体験記) 「エンジニアは女性のキャリアとして魅力的」未経験からの転職体験記リモートワーク×多拠点居住の新しい生き方を実現する。元バレエダンサーの挑戦普通の文系大学生/営業職が、エンジニアへ転職し起業するまで成長の記録 プログラミングを学んで何かしたいという程ではなくても、ただなんとなく興味がある、という方も多いのではないでしょうか。そのような方にとって、いきなりスクールや書籍で学習を検討するのは、少しハードルが高いですよね。しかし、プログラミング教育が普及した昨今、WEB上にも無料でプログ
どうも、佐野です。 昨日「第1回 プログラマのための数学勉強会」を開催しました。朝からの大雪にも関わらず多くの方にお集り頂き、濃厚なセッションの数々をお送りすることができて大変嬉しく思っております。 以下、各セッションを動画・資料と共に、簡単に内容のご紹介をさせて頂きます。 1. 「プログラマのための線形代数再入門」 - 佐野岳人 [資料] トップバッターとして発表させて頂きました。線形代数は3Dプログラミングをはじめ、画像処理や機械学習など多くの分野で必要になる数学の分野です。「行列の積はなぜこんな複雑な形をしているのか?」から「行列は線形変換・アフィン変換の定量表現である」という話をしました。 次回は中編として「行列式・逆行列とその実装」、後編で「座標変換と固有値・固有ベクトル」を発表してみたいと思います。 2. 「明日話したくなる「素数」のお話」 - 辻順平 [資料] 日曜数学者 i
Photo by Emmett Tullos こんにちは。今回は谷口がお送りします。 先日このブログの記事で、Flappy Codeを使って、実際に弊社社員にビジュアルプログラミング学習をしてもらい、ゲームを作ってもらったということを少し書きましたが、今回はそのFlappy Codeのプレイ方法から、ゲーム作成に至るまでをお話ししていきたいと思います。 ちなみにやってもらったのは、普段は事務を担当しており、プログラミング経験は全くないという弊社女性社員ですので、初心者としては最適なプレイヤーだと思います。 ■Flappy Codeでビジュアルプログラミングを学ぼう Flappy Codeは、「米国の全ての学校にプログラミングの授業を導入しよう」とするNPO団体、Code.orgのサイトでプレイすることができます。 What will you create? | Code.org Code.
JavaScript Garden はJavaScriptというプログラム言語の一番奇妙な部分についてのドキュメント集です。 このドキュメントはJavaScriptという言語に慣れていないプログラマーがこの言語について深く知ろうとする際に遭遇する、良くある間違い・小さなバグ・パフォーマンスの問題・悪い習慣などを避ける為のアドバイスを与えます。 JavaScript GardenはJavaScriptを教える事を目的にしていません。このガイドの項目を理解する為には、この言語に対する前提知識がある事を推奨します。この言語の基礎部分についてはMozilla Developer Networkのガイド がオススメです。 著者 このガイドは愛すべきStack Overflowの2人のユーザーIvo Wetzel (執筆)とZhang Yi Jiang (デザイン)によって作られました。 貢献者 貢献
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く