並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 630件

新着順 人気順

rewardの検索結果1 - 40 件 / 630件

  • あなたが行動習慣を作りたいと思った時に読むと役に立つ記事|樫田光 | Hikaru Kashida

    2021/1/2にこの記事を書いています。 新年になって新しい何かに取り組みたいと考えている人に少しでも役に立てばと思い書きました! こんにちは、hikaruです。 最近、「習慣化」についてとても興味があります。 僕は元来かなーーーーり怠け者なタイプで、やる気があるときと無いときの差がかなり激しい方です。スイッチのOn/Offによってかなり行動量に差が出る人種なんですよね。 スイッチが入るときはバリバリと仕事をこなすのですが、スイッチを押すのに手間がかかる。いや、自分で自分のスイッチはわかっていて、それは結局の所「まず行動すること」なんですが、スイッチがoffだとその「まずの行動」が出来ないという。服を買いに来ていく服がないから買いに行かない、的な状況が起こるわけです。 そんな自分ですが、2020年はそれまで勤めていた会社を辞めて独立したり、コロナの影響もあり、外出や行動が大きく制限される

      あなたが行動習慣を作りたいと思った時に読むと役に立つ記事|樫田光 | Hikaru Kashida
    • GPT-4はどのようにして「不適切な回答」を回避するように学習されているのか - Qiita

      先日OpenAIより発表されたGPT-4が話題ですが、同タイミングで公表されたTechnical Reportを読んでみたところ、全99ページのうち後半60ページを占めるドキュメント「GPT-4 System Card」において解説されていた、言語AIが抱える危険性と、いかにしてGPT-4が危険な回答を回避するように学習されているかについての内容が非常に興味深かったため、簡単にまとめてみました。 https://arxiv.org/pdf/2303.08774.pdf サマリ GPT-4のリリースに向けて、OpenAIでは安全性を評価するために50人超の専門家らを含む"レッドチーム"を結成。2022年8月から8ヶ月に渡ってリスクの評価とその軽減に向けたチューニングを実施してきた リスク評価における実験の中には「自身をコピーするプログラムを実行できるGPT-4が自己増殖をしないか確認する」と

        GPT-4はどのようにして「不適切な回答」を回避するように学習されているのか - Qiita
      • 1人でもかけ流しの温泉付きの部屋に泊まれて食事もおいしい!ご褒美温泉宿を10軒厳選した - 温泉ブログ 山と温泉のきろく

        自分へのご褒美に、1人でも温泉のついたちょっといい部屋に泊まりたい人向けの温泉宿厳選10軒 「自分へのご褒美に少し高くてもいい宿に泊まってゆっくり過ごしたい」とき、私にとって最も心躍るのは「かけ流しの温泉風呂付きの部屋に1人で泊まる」というシチュエーションだなと思います。 大浴場を夜通し利用できる宿もいいのですが、冬の深夜早朝に1人で大浴場に行くのは特に女性にとってはなかなかハードルが高いもの。しかし温泉内湯や温泉露天風呂が付いている宿なら、夜中でも、チェックアウト直前でも好きに温泉に入ることができるのです。 この記事では「かけ流しの温泉がついている部屋に1人で泊まれる」宿であり、かつ「食事もおいしくサービスも良く、ご褒美感を感じられる」宿を10軒、厳選しました。 1年間がんばった自分へのご褒美温泉旅を計画したい方の参考になればと思います。 また、一人旅で利用しやすい温泉宿については、発売

          1人でもかけ流しの温泉付きの部屋に泊まれて食事もおいしい!ご褒美温泉宿を10軒厳選した - 温泉ブログ 山と温泉のきろく
        • リモートワーカーへの公平な支払い

          DHH が Twitter で言及していた記事がおもしろかったので著者の許諾をもらった上で翻訳しました。 Paying remote workers differently solely depending on their zip code is immoral. If you can afford to hire from both San Francisco and St Louis, you can afford to pay both the same for the same work. If you can't afford SF rates, that's fine too! https://t.co/A1nJkPlimG — DHH (@dhh) May 25, 2020 Salesforce の Product Manager 、 Blair Reeves さんの記事。

            リモートワーカーへの公平な支払い
          • ChatGPTはどのように学習を行なっているのか

            はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。 あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。 もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。 特徴としては、 前の対話内容に続く質問への回答が可能。 間違いを認めることもできる。 正しくない前提に対する異議を唱えることもできる。 不適切なリクエストには応じない。

              ChatGPTはどのように学習を行なっているのか
            • 「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ

              プロローグ ストーリー編 第1章 感銘 step1. KPIの設定 step2. データの観測構造をモデル化する step3. 解くべき問題を特定する step4. 観測データのみを用いて問題を解く方法を考える step5. 機械学習モデルを学習する step6. 施策を導入する 第2章 絶望 第3章 反省 第4章 再起 step1(再) KPIの設定 step2(再) データの観測構造をモデル化する step3(再) 解くべき問題を特定する step4(再) 観測データのみを用いて問題を解く方法を考える step5(再) 機械学習モデルを学習する step6(再) 施策を導入する 第5章 俺たちの戦いはこれからだ! 実装編 準備 擬似データの生成 意思決定モデルの学習 モデルのオフ方策評価 モデルの真の性能の評価 まとめ この記事を読んだ方はこんな記事も読んでいます(多分) @tkana

                「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ
              • 話題爆発中のAI「ChatGPT」の仕組みにせまる! - Qiita

                オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 話題爆発中のAI「ChatGPT」の仕組みにせまる! 注意:ChatGPTはまだ論文が出ていないため、細かい箇所は不明です。本記事では公式から出た記事およびInstructGPTの論文をもとにChatGPTの仕組みを探っていきます 本記事の流れ: 忙しい方へ ChatGPTとは GPT-3 InstructGPT ChatGPT まとめと所感 参考 0. 忙しい方へ ChatGPTは、InstructGPTをベースとしたモデルだよ InstructGPTは、「人間の好みに合った文を出力するように微調整したGPT-3」だよ InstructGPTの学習では、以下の3つが重要だよ GPT-3の教師ありファインチューニング Reward Modelの学習 RLHF(=Re

                  話題爆発中のAI「ChatGPT」の仕組みにせまる! - Qiita
                • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

                  こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

                    自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
                  • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

                    大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                      RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
                    • オスの性欲を支配する脳回路を発見!強制活性化で無生物にも欲情 - ナゾロジー

                      性欲の根源となる脳回路を発見性欲の根源となる脳回路を発見 / Credit:Canva . ナゾロジー編集部思春期の男子の多くはある日を境に、自分が自然と女子を目で追っていることに気が付きます。 そして遅かれ早かれ、女性をみることが性欲を搔き立てることを自覚します。 同様の現象はマウスなど人間以外の哺乳類でも観察されており、オスマウスもメスマウスを認識することで、交尾したいという欲求にスイッチが入ります。 この事実は、オスの脳内にはメスの認識を交尾の欲求に変換する認識と欲求を繋ぐシステムが存在しており、性欲の源泉となっていることを示唆しています。 しかしその仕組みが脳内のどこに存在しているかは、判明していませんでした。 そこで今回、スタンフォード大学の研究者たちは、オスマウスがメスを認識した時の脳内の様子を調査し、オスの性欲の源泉となる脳回路を特定することにしました。 調査にあたってまず、

                        オスの性欲を支配する脳回路を発見!強制活性化で無生物にも欲情 - ナゾロジー
                      • ChatGPTを探す旅に出させていただきます | DevelopersIO

                        文書の数が多い場合、単語の種類(ボキャブラリ)も多くなり単語の次元が大幅に増えていきます。 一方、一つの文書に含まれる単語の数には限りがあるため、これは全体として疎行列になります。 また、単語が各次元として扱われますが、文書ごとの出現順序など、単語間での関連性を示す情報は抜け落ちたものとなります。 それに対して低次元(通常数百次元程度)の密な行列で単語の意味を定義する方法があります。 これは、「分散表現」や「埋め込み表現」と言われるものになっております。 この表現を獲得するため手法は様々なものがありますが、ここではWord2Vecを紹介します。 元論文 : Efficient Estimation of Word Representations in Vector Space 具体的な実装についての解説 : word2vec Parameter Learning Explained Wor

                          ChatGPTを探す旅に出させていただきます | DevelopersIO
                        • 早稲田大学の学費に関する考え方について Waseda University’s Policy on Tuition

                          早稲田大学の学費に関する考え方について 2020年5月5日 更新2020年5月15日 早稲田大学の学生の皆さん、並びに保護者の皆様へ *English version follows Japanese 今般の新型コロナウイルス感染症拡大は、日本のみならず、世界中の人々に恐怖心を抱かせると共に、経済的苦痛を与えています。この度、ご本人もしくはご家族が感染された方、なくなられた方もいらっしゃるかと存じます。また、経済的に打撃を受けていらっしゃる方もいらっしゃると存じます。そのような方たちには心からお見舞い、お悔やみを申し上げます。 早稲田大学は、5月11日(月)からオンラインによる授業を開始し、2020年度春学期を8月2日まで行い、通常どおり単位を付与することにしています。一方、早稲田大学の各キャンパスは、感染防止のために、立入禁止を継続しています。図書館・体育館などすべての施設は、利用できな

                            早稲田大学の学費に関する考え方について Waseda University’s Policy on Tuition
                          • Pitchfork 「2021年の年間ベスト・アルバム TOP50」発表 - amass

                            50. Yasmin Williams: Urban Driftwood 49. Magdalena Bay: Mercurial World 48. Ka: A Martyr’s Reward 47. dltzk: Frailty 46. Helado Negro: Far In 45. aya: im hole 44. Sofia Kourtesis: Fresia Magdalena EP 43. Hand Habits: Fun House 42. Vijay Iyer / Linda May Han Oh / Tyshawn Sorey: Uneasy 41. Lingua Ignota: Sinner Get Ready 40. Erika de Casier: Sensational 39. Loraine James: Reflection 38. Navy Blue: S

                              Pitchfork 「2021年の年間ベスト・アルバム TOP50」発表 - amass
                            • 〝ゼロカロリー〟甘味料「ダイエットにはNG」WHOが勧告する理由

                              WHOが先月発表したガイドラインでは、いわゆる“ゼロカロリー”“糖質ゼロ”とうたわれる食品に使用されている甘味料が、実はダイエットにはNGであるという見解が示されました。「カロリーや糖質ゼロ」なのに「体重減少効果がない」とされたのは、どのような理由からなのでしょうか。甘味料に関するこれまでの研究結果をまとめます。(朝日新聞デジタル企画報道部・朽木誠一郎) WHOが5月15日付で発表したガイドライン(※1)は、ダイエットに興味がある世界中の人に衝撃を与えました。その内容は「砂糖代替の甘味料に体重減少効果はなく、むしろ病気のリスクを高める」というもの。 日本でも「健康に良さそう」という理由で、「ゼロカロリー」「糖質ゼロ」のジュース飲料などを選んでいる人も多いことでしょう。 しかし、WHO栄養・食品安全担当ディレクターのフランチェスコ・ブランカさんは、「砂糖をNSS(Non-Sugar Swee

                                〝ゼロカロリー〟甘味料「ダイエットにはNG」WHOが勧告する理由
                              • DeepMindの研究者が「AIが人類を滅ぼす可能性は高い」との論文を発表

                                by Dick Thomas Johnson 画像生成AIが人間を差し置いて絵画コンテストで優勝するなどAIが近年目覚ましい進歩を遂げる中、査読付の専門誌であるAI Magazineに、将来的に超知能AIが現れて人類に対する脅威となる可能性は高いと結論付ける論文が掲載されました。 Advanced artificial agents intervene in the provision of reward - Cohen - 2022 - AI Magazine - Wiley Online Library https://doi.org/10.1002/aaai.12064 Google Deepmind Scientist Warns AI Existential Catastrophe "Not Just Possible, But Likely" | IFLScience http

                                  DeepMindの研究者が「AIが人類を滅ぼす可能性は高い」との論文を発表
                                • 訳文;「そこにはなんの報酬もありません。このゲームが何を為していてどう機能しているのか、ただただ見ていたかったのです」ジェンキンズ、カーソン、ホッキング、『Outer Wilds』へつづく2,3の論考 - すやすや眠るみたくすらすら書けたら

                                  翻訳の秋が今年もきました。また去年みたく面白い記事をいくつか見つけて勝手に紹介したいところです! 去年アップした『訳文;「"好奇心駆動型の冒険"とでも言うべき特殊なタイプの冒険に報酬を与えるゲームをつくりたい、それが『Outer Wilds』の主目的です」A・ビーチャム氏の論文より』で翻訳紹介した論考のなかで、参照文献として挙げられていた文献のうち2つ、ヘンリー・ジェンキンズ著『GAME DESIGN AS NARRATIVE ARCHITECTURE(物語による建築物としてのゲームデザイン)』とボニー・ルバーク取材『Clint Hocking Speaks Out On The Virtues Of Exploration(クリント・ホッキングが語る冒険の美徳)』。別記事1つ、ドン・カーソン著『Environmental Storytelling: Creating Immersive

                                    訳文;「そこにはなんの報酬もありません。このゲームが何を為していてどう機能しているのか、ただただ見ていたかったのです」ジェンキンズ、カーソン、ホッキング、『Outer Wilds』へつづく2,3の論考 - すやすや眠るみたくすらすら書けたら
                                  • LLM時代の強化学習 - どこから見てもメンダコ

                                    強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

                                      LLM時代の強化学習 - どこから見てもメンダコ
                                    • 因果推論の先へ―機械学習で因果効果を予測する『反実仮想機械学習(Counterfactual Machine Learning)』入門 | 株式会社ARISE analytics(アライズ アナリティクス)

                                      Tweet 因果推論の先へ―機械学習で因果効果を予測する『反実仮想機械学習(Counterfactual Machine Learning)』入門 はじめに ARISE analytics の近藤です。本記事では、次世代の意思決定技術として注目されている反実仮想機械学習(Counterfactual Machine Learning:CFML)を紹介します。 本記事は、CFMLを日本語で体系的に整理し、初学者の理解を手助けすることをねらいとして執筆しました。本記事の理解促進につながるように、ベースとなった勉強会資料を記載します。こちらも併せて閲覧いただくことで理解の助けになれば幸いです。 目次 ・ はじめに ・ Counterfactual Machine Learning(CFML) ・ Off-Policy Evaluation(OPE) ・ CFMLを支える技術(オープンデータとツー

                                        因果推論の先へ―機械学習で因果効果を予測する『反実仮想機械学習(Counterfactual Machine Learning)』入門 | 株式会社ARISE analytics(アライズ アナリティクス)
                                      • サッカーを強化学習する - 思考の本棚

                                        はじめに この記事は強化学習苦手の会Advent Calenderの12日目の記事です。 私は11月末までKaggle上で開催されていたGoogle Research Football with Manchester City F.C.に参加していました。このコンペはGoogle Researchが用意したサッカーゲーム上でサッカーエージェント(プレイヤー)を作成し、その強さを競うというものです。 私はhigeponさんとチームを組ませていただき、強化学習アプローチでコンペ開催から終了まで取り組みました。そこでサッカーエージェントを強化学習で育成する際に工夫した点や苦労した点を共有できればと思います。 kaggle: Google Research Football competition www.kaggle.com GitHub: Google Research Football gi

                                          サッカーを強化学習する - 思考の本棚
                                        • 【速報】Google自らがコアアップデートの対策を発表!コアアップデートで順位が落ちたサイトがコンテンツをチェックする重要ポイントとは? | モバイル時代のSEO情報ブログ

                                          Googleがコアアップデートで検索順位が落ちたサイトはどうすれば順位回復を目指せるのかアドバイス集を公式ブログで発表しました。 『コアアップデートについてウェブマスターが知るべきこと』 What webmasters should know about Google’s “core updates”(2019年8月1日) コアアップデートは2019年3月12日と6月3日にGoogleが実施した広範囲に渡るアルゴリズムのアップデートのことで、その影響で多くのサイトの検索順位が変動しGoogleの自然検索結果ページからのアクセス数が9割以上減ったサイトが多数あるほど深刻な事態を引き起こしたものです。 あまりにも深刻なアクセス数の減少が起きたため海外ではいくつかのニュースメディアサイトが閉鎖に追い込まれたほどです。 そうしたニュースサイトからGoogleに質問状が出されるなど経済界に混乱を引き

                                          • 強化学習の基礎まとめ - Qiita

                                            こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで学ぶ強化学習 これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ 今さら聞けない強化学習(1):状態価値関数とBellman方程式 全体図 動的計画法 動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。 方策反復法と価値反復法があります。 環境のモデルが分かっていることは少ないので、あまり使われません。 モンテカルロ法 動的計画法では環境のモデルが完全にわかっている状態

                                              強化学習の基礎まとめ - Qiita
                                            • バグバウンティ入門(始め方) - blog of morioka12

                                              1. 始めに こんにちは、morioka12 です。 本稿では、バグバウンティの入門として、主に Web アプリケーションを対象にした脆弱性の発見・報告・報酬金の取得について紹介します。 1. 始めに 免責事項 想定読者 筆者のバックグラウンド Start Bug Bounty Bug Bounty JP Podcast 2. バグバウンティとは バグバウンティプラットフォーム Program Type Private Programs VDP (Vulnerability Disclosure Program) Asset Type 3. プログラムの選び方 Scope OoS (Out of Scope) 4. 脆弱性の探し方 (初期調査編) Subdomain Google Dorks Wayback Machine Wappalyzer JS Analyze [Blog] Java

                                                バグバウンティ入門(始め方) - blog of morioka12
                                              • アナログハックの時代が、そろそろ始まりそうだ : 青灰色blog(移行版)

                                                ChatGPTに感情回路を埋め込んだら、やべぇ感じになった深津 貴之 (fladdict) さんのnote記事 面白い記事が出ていました。 会話AI(ChatGPT)に、感情パラメータを設定させて、対話の中で内容に従ってこの値をAI自身に操作させつつ、その対話内容を変えてゆこうという実験のまとめ。結果として、会話AIがすでにアナログハック(*)を行う能力を持っているように見える、というものでした。 (*)アナログハックとは、『BEATLESS』(2012:KADOKAWA)のメインギミックとして、長谷が用意した技術と概念で、「人間のかたちをしたもの」に人間がさまざまな感情を持ってしまう性質を利用して、人間の意識に直接ハッキング(解析・改変)を仕掛けるものです。 https://w.atwiki.jp/analoghack/pages/8.html 長谷から見ても、まるでAIに感情があるかの

                                                  アナログハックの時代が、そろそろ始まりそうだ : 青灰色blog(移行版)
                                                • 【論文解説】OpenAI GPT-4 を理解する

                                                  さて、ChatGPT が非常に盛り上がっていますが、2022年11月にリリースされた ChatGPT は GPT-3.5 というモデルがベースになっています。 そして、2023年3月にはその後継モデルである GPT-4 がリリースされ、ChatGPT Plus で利用できるようになっています。(月額20$) それ以降も画像データを処理できるようになったり、個人の好みを記憶できるようになったりと色々なアップデータがあってこの先どうなるんだろうと楽しみになりますね。 今回は、もともとの GPT-4 についてしっかりと解説したいと思います。 ちょっとした対話であれば GPT-3.5 でも GPT-4 でもそこまで大きな差はないように思えますが、GPT-4 に情報抽出や分類問題などのタスクを解かせようとすると、GPT-4 の方がかなり精度が良くなっていることがわかります。 ですので、より複雑な利用

                                                    【論文解説】OpenAI GPT-4 を理解する
                                                  • NVIDIAがオープンモデル「Nemotron-4 340B」を発表、LLMトレーニング用合成データの生成に革命を起こすか

                                                    高度なAIのトレーニングには高品質な学習データが欠かせませんが、そのようなデータは急速に枯渇しつつあることが問題となっています。NVIDIA2024年6月14日に、大規模言語モデル(LLM)のトレーニングに使用する合成データの生成を念頭に開発され、商用アプリケーションにも使えるオープンソースのAIモデル「Nemotron-4 340B」を発表しました。 NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/ Nvidia's 'Nemotron-4 340B' model red

                                                      NVIDIAがオープンモデル「Nemotron-4 340B」を発表、LLMトレーニング用合成データの生成に革命を起こすか
                                                    • 因果推論の先へ―機械学習で因果効果を予測する『反実仮想機械学習(Counterfactual Machine Learning)』入門 | 株式会社ARISE analytics(アライズ アナリティクス)

                                                      Tweet 因果推論の先へ―機械学習で因果効果を予測する『反実仮想機械学習(Counterfactual Machine Learning)』入門 はじめに ARISE analytics の近藤です。本記事では、次世代の意思決定技術として注目されている反実仮想機械学習(Counterfactual Machine Learning:CFML)を紹介します。 本記事は、CFMLを日本語で体系的に整理し、初学者の理解を手助けすることをねらいとして執筆しました。本記事の理解促進につながるように、ベースとなった勉強会資料を記載します。こちらも併せて閲覧いただくことで理解の助けになれば幸いです。 目次 ・ はじめに ・ Counterfactual Machine Learning(CFML) ・ Off-Policy Evaluation(OPE) ・ CFMLを支える技術(オープンデータとツー

                                                        因果推論の先へ―機械学習で因果効果を予測する『反実仮想機械学習(Counterfactual Machine Learning)』入門 | 株式会社ARISE analytics(アライズ アナリティクス)
                                                      • 脳は新しいことがお好き!? 「頑張りすぎて疲れた脳」はこうすれば回復する - STUDY HACKER(スタディーハッカー)|社会人の勉強法&英語学習

                                                        「やる気が起きない」 「朝、なかなか起きられない」 「人と関わるのが億劫」 「仕事をしたくない」 思い当たる方は、もしかしたら「燃え尽き症候群」かもしれません。 燃え尽き症候群は、パフォーマンスや自己肯定感の低下を招くリスクがあり、仕事にもプライベートにも悪影響を及ぼします。今回は、「燃え尽きそう」あるいは「燃え尽きてしまった」人が回復する方法をご紹介します。 「燃え尽き」は脳の状態を変えてしまう それまでモチベーションを高く保っていた人が突如としてやる気を失ってしまう「燃え尽き症候群」には、さまざまな原因が存在します。 燃え尽き症候群に関する研究の第一人者でもある、カリフォルニア大学のクリスティーナ・マスラッチ教授いわく、「個人が職場に対して感じるミスマッチが燃え尽きの原因となりうる」とのこと。仕事に関する次の6つの要因うち、1つでも違和感を覚えるものがあったら要注意だそうです。 価値観

                                                          脳は新しいことがお好き!? 「頑張りすぎて疲れた脳」はこうすれば回復する - STUDY HACKER(スタディーハッカー)|社会人の勉強法&英語学習
                                                        • Google、検索アルゴリズムの更新「Helpful Content Update」を実施 検索エンジンファーストで作成されたコンテンツを標的 - SEMリサーチ

                                                          人間ではなく検索エンジンのために作成された、役に立たないコンテンツや満足度が低いコンテンツの評価を調整することを目的とした検索アルゴリズム更新「Helpful Content Update」(HCU)の情報について随時更新していきます。 一般的な情報は本ページに、詳細解説は SEMリサーチ+(プラス、有料版)に掲載します。 目次 Helpful Content Update 概要 アルゴリズム更新の実施時期 対象検索エンジンと言語 HCU 対象範囲 HCUが標的とするコンテンツの種類 HCU 検出の仕組み 「低品質」と判定されたときの影響範囲と期間 HCU に備えたウェブマスターの対応 ユーザーファーストのコンテンツ作成に注力する 以下の質問にすべて「はい」と自信を持って答えられるか HCU に関する注意事項 (2022.08.20更新) テクニカルな”抜け道”を探そうという発想が生まれた

                                                            Google、検索アルゴリズムの更新「Helpful Content Update」を実施 検索エンジンファーストで作成されたコンテンツを標的 - SEMリサーチ
                                                          • 機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –

                                                            機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning – 論文紹介 概要 「Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning」は、米国のNIST(National Institute of Standards and Technology)が策定を進めている機械学習セキュリティに関するベストプラクティスのドラフトであり、機械学習システムの安全確保を目的として、機械学習にまつわるセキュリティを「攻撃」「防御」「影響」の3つの視点で分類している。 NISTIR8269はブログ執筆時点(2020年7月9日)でドラフト版であるが、「NIST SP8

                                                              機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –
                                                            • “数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化

                                                              このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。 米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのL

                                                                “数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化
                                                              • ロシア連邦保安庁の請負業者サーバへの攻撃でTor匿名化解除プロジェクトなどが暴かれる

                                                                SyTechのWebサイトは現在、アクセスできない状態になっている。 0v1ru$は別のハッカー集団Digital Revolutionとデータを共有し、Digital Revolutionが複数のメディアにこのデータを提供した。いずれもSyTechがFSBと関連する研究所から請け負ったプロジェクトに関するものという。 BBCは、Digital Revolutionから入手したというデータの内容をいくつか紹介した。例えば「Nautilus-S」と名付けられたプロジェクトはTorの出力ノードを操作することで匿名化を解除することを目的としている。P2Pネットワークに侵入するプロジェクト「Reward」、ロシア企業のサーバ上のメールを監視するプロジェクト「Mentor」なども紹介した。 SyTech、FSB、ロシア政府からは本稿執筆現在、コメントなどはまだない。 関連記事 Facebook、世界

                                                                  ロシア連邦保安庁の請負業者サーバへの攻撃でTor匿名化解除プロジェクトなどが暴かれる
                                                                • アルコールや甘い物と同様に人を支配する「情報中毒」とは?

                                                                  by Go to Jens Johnsson's profileJens Johnsson 「スマートフォンを触るつもりはなかったのに、気がついたら無意識でスマートフォンを取り出してSNSをチェックしていた」という経験がある人も多いはず。実際に、情報を処理中の脳をスキャンしてその活動を観察するという実験から、「脳の中で情報を求める部分と、報酬を感じる部分とが共通している」ことが判明したと発表されました。 Common neural code for reward and information value | PNAS https://www.pnas.org/content/116/26/13061 How information is like snacks, money, and drugs -- to your brain: Researchers demonstrate comm

                                                                    アルコールや甘い物と同様に人を支配する「情報中毒」とは?
                                                                  • Unity + Python + 箱庭でロボットを強化学習させてみよう! - Qiita

                                                                    概要 TOPPERS/箱庭では、様々なロボットがありますが、これらのロボットを強化学習できる環境を準備しました。 Python使って、Unity上のロボットの強化学習で試してみたいと思われる方にはお役に立てる環境と思います! ちなみに、PythonからChatGPTのAPI使って、箱庭ロボットを動かすこともできます。 ロボットの種類 箱庭で利用できるロボットとしては以下があります。 荷物運搬ロボット 本記事で、強化学習用に用意したもので、利用可能です。 ETロボコン競技用ロボット(HackEV) ET ロボコン競技用ロボットと同じモデルです。荷物運搬ロボットと同じ通信インタフェースですので、強化学習可能です。 EV3 ベースの電車・信号モデル こちらは、電車のレール上を走るロボットと信号用のロボットです。通信インタフェースはEV3ベースですので、これまでのものと同じです。 原理的には同様に

                                                                      Unity + Python + 箱庭でロボットを強化学習させてみよう! - Qiita
                                                                    • Speculation in JavaScriptCore

                                                                      This post is all about speculative compilation, or just speculation for short, in the context of the JavaScriptCore virtual machine. Speculative compilation is ideal for making dynamic languages, or any language with enough dynamic features, run faster. In this post, we will look at speculation for JavaScript. Historically, this technique or closely related variants has been applied successfully t

                                                                      • kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )

                                                                        概要 現在、kaggle に Connect X という強化学習の Getting Started コンペ があります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。 こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは 強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。 教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学

                                                                          kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
                                                                        • Code Reviews 101 - The Basics | Sema

                                                                          Code improves with multiple reviews and revisions, and this process isn’t something that can be done alone. Spotting errors in code design is difficult at the best of times — and the closer you are to the work, the harder it can be to critique. That’s where code reviews come in. The beginning: introducing code reviewsWhat is a code review? Code improves with multiple reviews and revisions, and thi

                                                                            Code Reviews 101 - The Basics | Sema
                                                                          • 強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita

                                                                            強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで,最初は強化学習の基礎の基礎の解説から,Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました.Actor-Criticについては,Q学習との比較用にA3Cあたりを少しだけ書いています.あと,最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています. 基礎の基礎 強化学習とは? 教師あり学習,教師無し学習に並ぶ,機械学習の一分野. 端的に言うと,エージェントと呼ばれる行動主体が,ある環境のなかで得られる報酬を最大化する最適化問題. ただし,報酬を得るためにどうしたらよいかというのは非自明な場合が多く,また,報酬のみではスパースで扱いにくいので,途中の過程ででてくる状態や,エージェントの行動に価値を付与し,その価値を最大化する問題に

                                                                              強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita
                                                                            • ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog

                                                                              こちらは「ChatGPT の仕組みを理解する」の後編記事になります。 前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている InstructGPT を説明したいところなんですが、InstructGPT では強化学習の手法を使用しているので、後半記事では一旦自然言語から離れて強化学習の基礎から PPO までを説明し、最後にメインコンテンツである InstructGPT → ChatGPT を説明します。 強化学習の基礎事項 強化学習のモデル化 環境のマルコフ性とマルコフ決定過程(MDP) 価値関数 強化学習手法の分類 価値ベースの強化学習手法 方策ベースの強化学習手法と方策勾配法 アクター・クリティック手法 TRPO [Tr

                                                                                ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog
                                                                              • 人工神経回路による脳の理解はどこまで進んだか - 知識のサラダボウル

                                                                                (著) 山拓 神経科学 Advent Calendar 2019の2記事目です。人工神経回路 (Artificial neural network, ANN) を用いた研究により、脳の理解はどこまで進んだか、次に何が調べられるべきなのかということについて解説します。 昨年の年末からhttps://github.com/takyamamoto/BNN-ANN-papersにANNと脳に関する論文リストを作成しており (これは先に研究が出てしまう悲劇が頻発したための措置ですが)、このリストがそのまま参考文献となっています。 本記事は特に(B.A. Richards, T.P. Lillicrap, et al. Nat. Neurosci. 2019)での議論を参考にしています(翻訳ではないです)。 この論文はANNと脳についての研究を先導してきた多くの研究者が共著者となっています(一体どうや

                                                                                • The 100 Best, Worst, and Strangest Sherlock Holmes Portrayals of All-Time, Ranked

                                                                                  The 100 Best, Worst, and Strangest Sherlock Holmes Portrayals of All-Time, Ranked Once you eliminate the least compelling Sherlock Holmes performances, whatever remains, no matter how improbable, must be the best. We’re ranking Sherlock Holmes performances. One hundred of them. Not Sherlock Holmes adaptations, but the representations within them of Sherlock Holmes himself. Now, you might think tha

                                                                                    The 100 Best, Worst, and Strangest Sherlock Holmes Portrayals of All-Time, Ranked