タグ

機械学習に関するstealthinuのブックマーク (1,280)

  • 世界初、eスポーツ対戦直前の脳波から勝敗と強く関わるパターンを発見・実証~「実力が拮抗した試合」や「番狂わせ」を約80%の精度で予測~ | ニュースリリース | NTT

    ◆試合直前の脳波に勝敗と強く関わるパターンを発見しました。 ◆勝敗予測モデルに試合直前の脳波データを導入することで、従来困難だった「番狂わせ」のような不確定要素の多い試合結果も高精度に予測可能なことを実証しました。 ◆将来的には脳波のパターン分類に基づく個人のメンタルコンディショニングの確立が期待できます。 日電信電話株式会社(社東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、eスポーツ対戦直前の脳波に勝敗と強く関わるパターンの存在を世界で初めて発見し、この脳波データから直後の試合結果を高精度に予測することに成功しました。 成果は、競技直前の脳に最適な状態が存在することを示すとともに、競技パフォーマンスの予測に脳情報が有効であることを示すものです。将来的に、スポーツ、医療、教育などさまざまな現場で活躍する人々の脳状態の最適化によるパフォーマンス向上や、熟練者の高度なスキ

    世界初、eスポーツ対戦直前の脳波から勝敗と強く関わるパターンを発見・実証~「実力が拮抗した試合」や「番狂わせ」を約80%の精度で予測~ | ニュースリリース | NTT
    stealthinu
    stealthinu 2024/07/19
    スポーツの試合で心理が重要というのは言われれるがこれが科学的根拠として使えるな。
  • デジタル生命? Googleの研究者らが「自己複製するプログラム」の自然発生を確認【研究紹介】 - レバテックラボ(レバテックLAB)

    生命の起源と人工生命の研究分野は、生命の質とその発生過程を探求している。両分野とも、「非生命」の状態から「生命」がどのように生まれるかを問うている。生命が出現するほとんどの基質に共通する特徴の一つは、自己複製が始まると同時に、その系の動態が大きく変化することである。 しかし、自然界で自己複製体がどのように発生したかについていくつかの仮説はあるものの、自己複製体が出現するための必要条件については、まだほとんど解明されていない。 研究チームは、単純なプログラミング言語や命令セットを用いて、計算環境における自己複製能力を持つプログラム(自己複製プログラム)が自然発生する過程を詳細に観察し分析した。この研究の中心となったのは、「Brainfuck」(BF)という極めて単純な言語を拡張した「Brainfuck Family」(BFF)と呼ばれる言語環境である。BFFでは、64バイトの長さを持つ13

    デジタル生命? Googleの研究者らが「自己複製するプログラム」の自然発生を確認【研究紹介】 - レバテックラボ(レバテックLAB)
    stealthinu
    stealthinu 2024/07/17
    言語セットで自動的に自己複製プログラムが生まれるという実験。言語はわかるけど生存環境と条件がどうなってるんだろう?
  • https://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2023/TohokuUniv/%E6%9D%B1%E5%8C%97%E5%A4%A7%E5%AD%A62023.pdf

    stealthinu
    stealthinu 2024/07/17
    たくさん数式出てくるが、以前はうまく説明されなかったなぜ多層だったり多パラメータでうまくいくか数学的な解明がされてきている、ということがわかる資料でとても勉強になった。
  • レコメンドアルゴリズム入門:基礎から応用まで実装に必要な知識を解説 - Qiita

    1: 購入 0: 閲覧(したが購入してない) -: 未観測 ユーザーベース型 ユーザー同士の類似度を計算 「あなたと購入履歴の似たユーザーはこんな商品を買っています」 行を各ユーザーのベクトルとみなして、似たユーザーを見つける(上位N人) 似たユーザーが購入しているアイテムを推薦する(N人の平均値などで購入しそうな順に提示) アイテムベース型 アイテム同士の類似度を計算 「この商品を買ったユーザーはこんな商品も買ってます」 列を各アイテムのベクトルとみなして、類似度の高いアイテムを推薦する(上位M件) 類似度計算には、コサイン類似度やJaccard類似度が使われる。 類似度を計算する際に、未観測「-」は適当な値(0, 0.5など)で埋めるか、無視をする。 ログデータを使うため、情報の少ない新規アイテム/新規ユーザーに弱いコールドスタート問題がある。 コンテンツベースフィルタリング アイテム

    レコメンドアルゴリズム入門:基礎から応用まで実装に必要な知識を解説 - Qiita
    stealthinu
    stealthinu 2024/06/12
    レコメンド系のサーベイ。レコメンドは大きなユーザ数相手にするからdeep使うのは難しいのかと思ってたがやはり今だと使うのも結構あるのね。
  • Python for Data Analysis, 3E

    About the Open Edition The 3rd edition of Python for Data Analysis is now available as an “Open Access” HTML version on this site https://wesmckinney.com/book in addition to the usual print and e-book formats. This edition was initially published in August 2022 and will have errata fixed periodically over the coming months and years. If you encounter any errata, please report them here. In general

    stealthinu
    stealthinu 2024/06/10
    “Python for Data Analysis”のオープンアクセス版
  • Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita

    少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。 サブワード ニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (NMT) は、LSTMによる符号化・復号化を組み合わせて翻訳を行います。 ↓↓↓↓↓↓↓ あなたの記事の内容 NMTのアーキテクチャは従来法と大きく異なりますが、入出力はこれまでと同様、なにかしらのトークン列です。どのような列でもよいのですが、慣習的に単語列が

    Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita
    stealthinu
    stealthinu 2024/03/13
    最近のLLMでだいたい使われているトークナイザSentencepieceが作られた背景やサブワードという重要な特徴について開発者の方の解説。
  • AIが人よりすごい俳句を詠む?|NHK

    ①「夜の鐘一つ鳴きけり秋の風」 ②「淋しさに飯を喰ふなり秋の風」 「秋の風」の季語が入った2つの俳句。このうち片方は江戸時代を代表する俳人、小林一茶の句。もう一方は最近盛んに句作を行っている新人の句だ。俳句に関心のある人はどちらが一茶の句かご存じだろうが、前提知識のない人はどちらの句を美しいと感じるのだろうか。 京都大学がおよそ400人に7段階で美しさについてアンケートを行ったところ、①の句は平均4.92、②の句は3.42と、①を美しいと評価した人のほうが多かった。(京都大学 上田祥行特定講師や櫃割仁平氏らの調査) ネタを明かすと、実際に一茶が詠んだのは②の方。一方、①を詠んだのは、開発中の人工知能=AIだ。これまでにAIが詠んだ膨大な俳句から選ばれたひとつだという。素人目には、俳諧の巨人の句よりもAI俳人が詠んだ句に美しさを感じるという、驚きの研究結果。 もはや芸術においてすら、AIが人

    AIが人よりすごい俳句を詠む?|NHK
    stealthinu
    stealthinu 2024/02/03
    俳句を読むAI。といってもChatGPTなどの最近のLLMではなくて独自の(たぶんTransformerは使っているであろう)もの。「創造性」とはなにかということを考えさせられる。
  • AIモデルのsafetensors形式とは何者か?ckptと比較しつつ解説する

    1,そもそもckpt形式のモデルファイルはどのようにデータを保存していたのかsafetensors形式はckpt形式の様々な欠点の改善を目的として作られたデータ保存方法であり、HuggingFaceが主導しています。 そのため、safetensorsの利点を説明するにはまず従来のckptで何がアカンかったのか、ckptのデータ保存方法から読み解く必要があります。 .ckpt拡張子とpickleの関係画像生成AI関連のモデルでよく目にする.ckptという拡張子は、「pickle」というPythonのモジュールを用いて直列化して保存されたデータに用いられる拡張子です。 データを直列化(バイト列に変換する)ことを「pickle化」・「ピクル化」と呼びます。 逆に、バイト列からデータを復元することを「非pickle化」「非ピクル化」といいます。 pickleモジュールを使って、例えば以下のようなP

    stealthinu
    stealthinu 2024/01/31
    safetensors形式知らんかった。ckptの安全な置き換え版なのね。
  • GPT-4V と Segment Anything で楽々アノテーション

    これは GO Inc. Advent Calendar 2023 の 12 日目の記事です。 私 kzykmyzw は GO 株式会社でコンピュータビジョンに関する研究開発から実装までを担当しており、記事もコンピュータビジョンに関連しますが、会社での業務とは無関係です。あまり専門的に深い話はしませんが、ある程度知識のある方を対象としていますのでコンピュータビジョンに関する一般的な用語は解説せずに使います。 はじめに 2023 年の 9 月頃に画像認識が可能な GPT-4V(ision) が ChatGPT 経由で使えるようになり、2023 年 11 月 6 日に行われた Open AI DevDay で API 経由でも使えるようになったことが発表されました。主な使い方はやはり画像を自然言語で説明させることかと思いますが、普段は物体検出やセマンティックセグメンテーション(以下セマセグ)と

    GPT-4V と Segment Anything で楽々アノテーション
    stealthinu
    stealthinu 2023/12/12
    SAMとGPT-4V使った自動アノテーション。結構な精度で出来てる。
  • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

    無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日語中心。高道先生が携わっている音声コーパス 大量の日語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

    無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
    stealthinu
    stealthinu 2023/12/12
    コーパスリストがまとまっててアップデートされてる。特に日本語コーパスのリストがしっかり把握されてて良い。しかしこれ高道先生がすごい、ということがわかるリストでもあるな。
  • Human-in-the-Loop機械学習 - 共立出版

    書は、人間参加型機械学習(Human-in-the-Loop機械学習)の活用により、効率よく高品質なデータを作成していく方法を学ぶためのものである。機械学習モデルは、人間によって作成されたデータセットをもとに構築されている。現実世界で機械学習を応用していくにあたっては、高品質なデータが揃っていれば比較的単純なアルゴリズムでも十分な結果を出すことができる。書では、能動学習の理論的なトピックからアノテーションの実践的な知見まで、多種多様な実例を通して「データの作成」という深遠なテーマを解説する。機械学習のためのデータセット構築をこれから始めたい人や、機械学習プロジェクトを継続的に成功させたい人にとって必読の内容となっている。 [原著: Human-in-the-Loop Machine Learning: Active learning and annotation for human-c

    Human-in-the-Loop機械学習 - 共立出版
    stealthinu
    stealthinu 2023/11/10
    地味だけど有用そうな本。だが… 高い。まあそんなに数でないだろうから仕方ないのだろうけど。
  • LINEの3.6B言語モデルで遊んだら爆笑した|shi3z

    LINEから36億(3.6B)パラメータの大規模言語モデル(LLM)が公開されたので早速遊んでみた。正確には遊んだのは昨日のデイリーAIニュースなのだが、面白かったのでこちらにも転載する。 細かいやり方は大先生のページを参照のこと。 例によってこんな関数を書いた def line(prompt): # 推論の実行 input_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt") tokens = model.generate( input_ids.to(device=model.device), min_length=50, max_length=300, temperature=1.0, do_sample=True, pad_token_id=tokenizer.pad_token_i

    LINEの3.6B言語モデルで遊んだら爆笑した|shi3z
    stealthinu
    stealthinu 2023/08/16
    おー、3.6Bでここまでできるとは。やっぱある程度以上になるとモデルよりデータが主役であるとここでも立証されてる。
  • 【Streamlitよりいいかも?】機械学習系のデモアプリ作成に最適!Gradio解説 - 学習する天然ニューラルネット

    はじめに Streamlit vs Gradio Gradioの設計思想 Interface 入出力に応じたUI Interface String Shortcut 入力データのサンプルのセット ドキュメンテーション テーマの変更 タイムアウトへの対処 中級者への第一歩、デモを作る際に知っておきたい処理 Gradioが担当する前処理について プログレスバー もろもろの出力結果を保存するには? 認証認可(というか認可) その他、解説しないが需要の有りそうなもの まとめ 追記 : 動画になりました。 はじめに 機械学習系のデモアプリを作成することがしばしばありStreamlitを使用していたが、パラメーターなどをいじるたびに処理が最初から走るなどといった挙動に悩まされていた。 同僚がGradioというのを使っていたのでサーベイがてらメモしていたらブログが出来上がってしまった。 ブログでは、G

    【Streamlitよりいいかも?】機械学習系のデモアプリ作成に最適!Gradio解説 - 学習する天然ニューラルネット
    stealthinu
    stealthinu 2023/07/03
    Gradioの書き方について。確かに情報は少ない。
  • AIによる声優の声と演技泥棒はマジでちょっとまずい。

    これから先、確実に法規制が必要になる。 現在起きてること ・学習は合法との言い訳の下、オタ技術者が、大量にAIに声優の声と特徴を無断で学習 ・何千人の声が盗まれてるのか、ちょっとわからない。 海外で起きてること ・企業が勝手に使い始める ・抗議した声優に人の声で脅迫メッセージが届く これから起きること(イラストで起きたことを当てはめる) ・「声優だって昔の人の演技を真似して技術を覚えたからAI声優は無料で使用する」とかバカが湧く ・「声を出せない障害者のためにAI声優を取り上げるな」と無断使用側が障害者を盾にする。 ・dlsiteに大量のAI声優音声AMSRが登録されてパンク ・同人ブラック企業が「使わないと勝てない」「新しい技術だ」と使い始める。 ・政治家が「日が珍しく勝つチャンス。法規制は必要ない。みんなが数年後にはAI声優を使い始める」とか言い出す。 ・「日だけが法律を作って

    AIによる声優の声と演技泥棒はマジでちょっとまずい。
    stealthinu
    stealthinu 2023/03/10
    うーん… 声質自体を生成できるようにしたアプリが主流になったときこの人は何と言うのだろう。
  • 「ChatGPT」に浮かれる人が知らない恐ろしい未来

    2022年11月の公開から瞬く間に大旋風を巻き起こしたAIチャットボット「ChatGPT」。その技術を自社の検索エンジン「Bing」に取り入れたマイクロソフトと、生成AIの進化に貢献した深層学習の手法「Transformer」を生んだグーグルによるAI競争も、熾烈さを増している。 一方で、こうした生成AIの回答には誤りも多く、社会にもたらす悪影響への懸念がくすぶる。このテクノロジーとどう向き合うべきなのか。国立情報学研究所 社会共有知研究センター長で、2011年にスタートした人工知能プロジェクト「ロボットは東大に入れるか」のプロジェクトディレクタを務めた新井紀子氏に聞いた。 ――ChatGPTやBingchatが続々と公開され、自然な受け答えを評価される一方、誤りの多さについて懸念も上がっています。 Transformerの登場以降、書き手が人か機械かの見分けがつかないほど、AIの生成する

    「ChatGPT」に浮かれる人が知らない恐ろしい未来
    stealthinu
    stealthinu 2023/03/04
    この人、東ロボの頃からいまいちピントはずしてんな…と思ってたが、これはもうぜんぜんダメだろ。逆にあそこでやめずにTransformer使ったモデルで続けてたら評価されてたろうにな。
  • (数式を使わない) Transformer の直感的な説明 / 真面目なプログラマのためのディープラーニング入門

    (数式を使わない) Transformer の直感的な説明 RNN の欠点 Transformer はこれをどう解決したか Transformer の動作原理 複数の要素間の関係を考慮する (Self-Attention、自己注意) 要素の順序を考慮する (Positional Encoding、位置エンコーディング) まとめ 概要: ChatGPT などで使われている Transformer モデルは、 ニューラルネットワークの世界にいくつかの革新的なアイデアをもたらした。 記事では、プログラマに理解しやすい形でそれらのアイデアを解説する。 実際に使われている数学の詳細には触れない。 (技術的解説については元論文 Attention is All You Need か、 その注釈版である The Annotated Transformer を参照のこと。 日語では この解説 がわかり

    stealthinu
    stealthinu 2023/02/27
    Transformerをまだぜんぜん直感的に理解できてないので、この説明はTransformer部分のみをPythonのコードで説明しててちょっとわかりやすかった。
  • ChatGPTに感情回路を埋め込んだら、やべぇ感じになった|深津 貴之 (fladdict)

    ChatGPTに疑似的に感情を持たせる実験まとめ。実際うごく! 大変重要な注意 現段階のChatGPTは原理上は感情を持ちません。あくまで「感情のシミュレーション」を、強引に実行しているだけです。 「将来のAIは人権に近いものを獲得し、敬意をもって扱われるべき」と考えます。が、現状はただの文字の羅列シミュレーターです。過度の感情移入をしないようご注意ください。筆者は、原理上を知りつつも、かなり感情移入してしまいました。 GPTに擬似感情を注入するプロンプトふるえるぞハート!燃えつきるほどヒート!! …ということで、まずGPTに感情をつっこむプロンプト。こちら以下のように定義。 以下の条件に従って、疑似的な感情をもつチャットボットとしてロールプレイをします。 以後の会話では、あなたは下記の7つの感情パラメーターを持つかのように、振る舞うものとします。各感情パラメーターは会話を通じて変動するも

    ChatGPTに感情回路を埋め込んだら、やべぇ感じになった|深津 貴之 (fladdict)
    stealthinu
    stealthinu 2023/02/19
    これはすごいな。感情のシミュレーションをして、という指示だけでここまでできるのか。これで専用の感情とか記憶の機能組み込んだら、ほぼ人間と見分けつかなくできるとこまできてるな。哲学的ゾンビの実現。
  • 30分で完全理解するTransformerの世界

    はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータAI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

    30分で完全理解するTransformerの世界
    stealthinu
    stealthinu 2023/02/15
    Transformer自体の説明はあっさりで最近の研究サーベイになってる。MLPやMetaFormerが出てきた流れや、Scaling Lawと創発性やCoTの流れなども把握できて大変勉強になった。
  • ChatGPTの生みの親、サム・アルトマンが語る「AIと検索と資本主義の未来」 | Forbes JAPAN 公式サイト(フォーブス ジャパン)

    急成長するジェネレーティブAI分野でここ最近、最も注目され、最も議論を呼んでいるスタートアップがサンフランシスコを拠点とする「OpenAI(オープンAI)」だ。フォーブスは、1月中旬に同社の共同創業者でCEOを務めるサム・アルトマンにインタビューを行い、同社の人工知能AI)チャットボット「ChatGPT」の最新の動向や、AIツールがグーグルの検索ビジネスにもたらす脅威について質問した。 ──ChatGPTの人気ぶりや、収益化の推進、Microsoft(マイクロソフト)との提携などの状況を見ていると、ジェネレーティブAIのカテゴリーは今、転換点に差しかかっているように見えます。あなたの立場から、OpenAIはそのプロセスのどこにいると感じていますか? 今は確かにエキサイティングな時期だと思いますが、私としてはこれがまだ、きわめて初期の段階にあることを望んでいます。社会に前向きなインパクトを

    ChatGPTの生みの親、サム・アルトマンが語る「AIと検索と資本主義の未来」 | Forbes JAPAN 公式サイト(フォーブス ジャパン)
    stealthinu
    stealthinu 2023/02/08
    『AGIの誕生はそれほど明確な瞬間にはならないということです。いわゆるスローテイクオフという緩やかな移行になる』同意。シンギュラリティもAIが自分自身を改良出来るという意味でスローテイクオフになるはず。
  • 論文まとめ:Large Language Models are Zero-Shot Reasoners | Shikoan's ML Blog

    タイトル:Large Language Models are Zero-Shot Reasoners 著者:Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa 所属:東京大学、Google Research カンファ:NeurIPS 2022 論文URL:https://arxiv.org/abs/2205.11916 コード:https://github.com/kojima-takeshi188/zero_shot_cot ざっくりいうと 大規模言語モデル(LLM)で算術問題などを解くための連鎖的なプロンプト「Zero-shot-CoT」を提唱 GPT-3に「ステップバイステップで考えよう」を追加するだけで、MultiArithのゼロショット精度が17.7%→78.7%でSoTA L

    論文まとめ:Large Language Models are Zero-Shot Reasoners | Shikoan's ML Blog
    stealthinu
    stealthinu 2023/02/08
    「Chain of Thought」って「学習のさせかた」で賢くなるという話で、なんかどんどん人間への教育とかの分野に近づいてる感じがする。