2025年2月1日のブックマーク (3件)

  • ディープシーク開発の生成AI 平デジタル相“利用控えるよう” | NHK

    中国の「ディープシーク」が開発した生成AIをめぐり、平デジタル大臣は、個人情報の取り扱いなどの懸念が払拭(ふっしょく)されないかぎり、各省庁での利用を控えるよう注意喚起を行いたいという考えを示しました。 中国のスタートアップ企業「ディープシーク」が開発した生成AIをめぐっては、個人データの収集などに関する情報の開示が不十分だとして欧米を中心に警戒感が広がっています。 こうした中、平デジタル大臣は沖縄県名護市で講演し「個人情報がきちんと保護されるのかが問題だ。利用者の個人情報を守るという観点から必要があれば、個人情報保護委員会が対応すべきだ」と指摘しました。 そのうえで「データの保護という観点で懸念が払拭されるまでは、公務員が使うのは控えるか、使うのであれば留意すべきだ。今回の生成AIにどう向き合うか、できることをやっていきたい」と述べ、各省庁に対し、NISC=内閣サイバーセキュリティセンタ

    ディープシーク開発の生成AI 平デジタル相“利用控えるよう” | NHK
    otologie
    otologie 2025/02/01
    方程式が現象界の預言になってるのがコメディなんだけどな。プロンプトのログは全部保存して使われるだろうけど。
  • LLMチューニングのための強化学習:GRPO(Group Relative Policy Optimization) - どこから見てもメンダコ

    DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO(Group Relative Policy Optimization)について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法 前提手法:TRPO/PPO TRPO: Trust Region Policy Optimization PPO: Proximal Policy Optimization GRPOとPPOの差分:①アドバンテージ算出と②参照モデルからのKL距離制約 変更点①: アドバンテージAの算出方法 REINFORCE: 価値関数近似なし方策勾配法 PPO(Actor-Critic): 価値関数近似あり方策勾配法 GRPO: スケーリングされたREINFORCE 変更点 ②: 参照モデル(SFTモデル)からのKL距離制約 従来は参照モデル制約は

    LLMチューニングのための強化学習:GRPO(Group Relative Policy Optimization) - どこから見てもメンダコ
  • DeepSeek-R1の技術的詳細

    DeepSeek-R1: 世界最高推論性能のOSSモデル こんにちはYosematです。 中華系のAI技術が進化していますね。OpenAIなど研究開発を進めて手法が確立されてきたタイミングで参入することで莫大な試行錯誤のコストを節約しお安いコストで仕上げている印象を受けています。 今日はぶっちぎりの話題性を誇るDeepSeek-R1について解説します。一般の読者が「お気持ちはわかった」状態になることと関連分野をかじってる人が「完全に理解した」状態になることを目指します。 DeepSeek-R1とは DeepSeek-R1は OSSの大規模言語モデル OpenAI o1に並ぶ性能を示す推論モデル 強化学習頼みで進化したモデル です。 APIも公開されていますがOutput Tokenあたりの値段はo1に比べて20倍以上安いです。 利用者目線でのすばらしさや社会に与える影響の考察は他の記事に譲

    DeepSeek-R1の技術的詳細
    otologie
    otologie 2025/02/01
    悟空の修行みたいに死にかけたら強くなるんだけどな。最適化しすぎないのも功を奏したのか。