ブックマーク / www.itmedia.co.jp (84)

  • 2024年の生成AIはどうなる? サイバーエージェントなどIT企業4社の“本音” 「OpenAI強すぎる問題」に活路はあるか

    2024年の生成AIはどうなる? サイバーエージェントなどIT企業4社の“音” 「OpenAI強すぎる問題」に活路はあるか(1/3 ページ) ChatGPTが注目を集め、生成AI導入の機運が一気に広がった2023年。先進的なIT企業はどのように取り組んでいるのか。日で生成AIの開発、実装に携わるIT企業4社が生成AI活用の現状と2024年の生成AIの展望を語った。 トークセッションは、2023年12月22日開催の企業による研究発表カンファレンス「CCSE2023」で実施。登壇者は、サイバーエージェントの石上亮介さん、rinnaの沢田慶さん、メルカリの大嶋悠司さん、Sansanの猿田貴之さんの4人だ。 2024年の生成AIはどうなる? カギは「マルチモーダル化」 2023年は生成AIが脚光を浴びた1年となった。チャット型で柔軟な受け答えを実現した「ChatGPT」が世界的に注目の的となり

    2024年の生成AIはどうなる? サイバーエージェントなどIT企業4社の“本音” 「OpenAI強すぎる問題」に活路はあるか
    macro1597
    macro1597 2024/02/02
    Transformerを上回るアーキテクチャを発明し、その特許使用料で収益を得るという手もあるので、アーキテクチャ研究も頑張って欲しい。
  • OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表

    OpenAIは1月25日(現地時間)、「GPT-4」が怠け者になってきたという苦情を受け、新たな「GPT-4 Turbo」(バージョンはgpt-4-0125-preview)のプレビューモデルをリリースすると発表した。 このモデルは、コード生成などのタスクで、タスクを完了しない(怠ける)ケースを減らすことを目的とする。また、英語以外のUTF-8に関連するバグの修正も含まれる。 GPT-4 Turboは、昨年11月の「OpenAI DevDay」で発表されたGPT-4の改良版モデル。2023年4月までのWebデータでトレニングされており、コンテキストウィンドウはGPT-4の4倍になる。また、テキスト分析向けとテキストと画像の両方を理解するものの2つのバージョンが用意される。 向こう数カ月中に、GTP-4 Turboの公式版を一般公開する予定としている。 同社はまた、GPT-3.5 Turb

    OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表
    macro1597
    macro1597 2024/01/26
  • “AI生成の文章/画像だけ”でデータを学習する手法 人間が作るものは一切使わず GoogleとMITが開発

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Google Researchや米MIT CSAILに所属する研究者らが開発した論文「Learning Vision from Models Rivals Learning Vision from Data」は、合成画像と合成キャプションから視覚表現を学習するアプローチを提案した研究報告である。「SynCLR」と呼ばれ、実データを使用せずに、最先端の視覚表現学習手法と同等の視覚表現を学習できる。 表現学習は、生データ(多くの場合ラベルなし)から情報を抽出し整理するプロセスである。現在の最も優れた視覚表現学習手法は、大規模な実データセットに

    “AI生成の文章/画像だけ”でデータを学習する手法 人間が作るものは一切使わず GoogleとMITが開発
    macro1597
    macro1597 2024/01/16
    普段データが足りない足りないと嘆いている日本こそ、こういった合成データ学習を模索すべきだ。
  • ELYZA、新たな日本語言語モデルを一般公開 同社「日本語ならGPT-3.5を上回る性能」 商用利用も可

    ライセンスは「Llama 2 Community License」に準拠しており、研究や商業目的での利用が可能。 ELYZA-japanese-Llama-2-13bを使ったチャット形式のデモもオープンソースAIプラットフォームの「Hugging Face hub」上で公開している。 関連記事 日語に強い大規模言語モデル「Swallow」 産総研と東工大が公開 事前学習用の日語データに工夫 産業技術総合研究所と東京工業大学の研究チームは、日語に強い大規模言語モデル(LLM)「Swallow」を公開した。 マネーフォワード、大規模言語モデル「houou」公開 理研との共同研究 日語の指示データ2900件を追加学習に利用 マネーフォワードは、理化学研究所(理研)と共同開発した大規模言語モデル(LLM)を公開した。出力精度を上げるため、日語の指示データ(インストラクションデータ)290

    ELYZA、新たな日本語言語モデルを一般公開 同社「日本語ならGPT-3.5を上回る性能」 商用利用も可
    macro1597
    macro1597 2023/12/27
  • ストリートビュー内をアニメ化する技術、米ワシントン大が開発 自然に振る舞う人や車が行き交う

    ストリートビュー内をアニメ化する技術、米ワシントン大が開発 自然に振る舞う人や車が行き交う:Innovative Tech 米ワシントン大学に所属する研究者らは、Google Street Viewなどの静止画をアニメーション化する手法を提案した研究報告を発表した。静止したシーンの画像に自然に振る舞う歩行者と車を自動的に配置することで動画に変換する。

    ストリートビュー内をアニメ化する技術、米ワシントン大が開発 自然に振る舞う人や車が行き交う
    macro1597
    macro1597 2023/12/20
  • Google DeepMind、LLM採用AIシステム「FunSearch」で数学的難問を解決

    Google傘下のGoogle DeepMindは12月14日(現地時間)、LLM(大規模言語モデル)とLLMによる幻覚(ハルシネーション)を防止する“評価器”を組み合わせた新たなシステム「FunSearch」を発表した。長年解決不可能な数学問題とされてきた「Cap set問題」を解き、実社会でも役立つ「ビンパッキング問題」のための効果的なアルゴリズムを発見したという。 FunSearch(funは「楽しい」ではなく、「関数」に由来する)は、GoogleのLLM「PaLM 2」をコンピュータコードで微調整したバージョンの「Codey」を使っている。LLMは不正確な情報を幻覚させることが分かっているため、LLMの出力から不正確だったり無意味だったりする部分を拒否する“評価器”アルゴリズムを組み合わせているという。 FunSearchはLLMと評価器による出力と評価を反復させていくことで、自

    Google DeepMind、LLM採用AIシステム「FunSearch」で数学的難問を解決
    macro1597
    macro1597 2023/12/15
  • Googleの新AI、日本では「ジェミニ」「ジェミナイ」どっち? 公式見解は

    Googleが12月7日に発表した新しいAIモデル「Gemini」。日では、いすゞ車のイメージもあって「ジェミニ」と表記するのが一般的だが、X(旧Twitter)では「ジェミナイが正しいようだ」という話も広がっている。 確かにGoogleの発表動画を見返すと、Google DeepMindのデミス・ハサビスCEOや、同社チーフ・サイエンティストのジェフ・ディーンさんは「ジェミナイ」と発音しているようだ。また米国のDJ機器メーカー・GEMINIのように、日では「ジェミナイ」で通っているブランドもある。

    Googleの新AI、日本では「ジェミニ」「ジェミナイ」どっち? 公式見解は
    macro1597
    macro1597 2023/12/08
  • GoogleのAIチャット「Bard」、「Gemini Pro」搭載でより賢く

    Googleは12月6日(現地時間)、同日発表したマルチモーダル推論機能を備える新生成AIモデル「Gemini」のミドルサイズ版「Gemini Pro」の英語版をBardに搭載すると発表した。同日から英語で使えるようになる。また、フルサイズ版「Gemini Ultra」搭載のBardのハイエンド版「Bard Advanced」を2024年初頭にリリースする計画だ(Bard Advancedが無料なのか、一般ユーザーにも公開されるのかは今のところ不明)。 Gemini Ultraは多数のベンチマークで米OpenAIのGPT-4を上回ったが、Gemini ProのベンチマークはGPT-3.5とほぼ同等(Googleは8つのベンチマークのうち6つで上回ったとしているが、僅差だ)なので、OpenAIの無料のChatGPTと同等レベルとみられる。 Googleは、Gemini ProをBard向け

    GoogleのAIチャット「Bard」、「Gemini Pro」搭載でより賢く
    macro1597
    macro1597 2023/12/08
  • Google、マルチモーダル生成AIモデル「Gemini」リリース

    Googleは12月6日(現地時間)、Google I/Oで予告したマルチモーダルな生成AIモデル「Gemini」の最初のバージョンを発表した。 Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズで提供する。「Pro」は同日から生成AIボット「Bard」の英語版に搭載される。また、「Nano」は同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載される。Pixel 8 Proでは、「レコーダー」アプリの要約強化や、「Gboard」のスマートリプライに展開されるとしているが、日語対応は未定という。 最大サイズで高度なAIである「Ultra」はまだ「さらなる改良」を行っており、2024年に開発者や企業向けに公開する計画としている。また、2024年にはGemini Ultraで稼働する「Bard Advanced」もリリースする予定だ。 Goog

    Google、マルチモーダル生成AIモデル「Gemini」リリース
    macro1597
    macro1597 2023/12/07
  • AWS、AIモデルのトレーニングと実行向け新チップ「Graviton4」と「Trainium2」を発表

    AWSAIモデルのトレーニングと実行向け新チップ「Graviton4」と「Trainium2」を発表:AWS re:Invent 2023 Amazon傘下のAWSは、MLトレーニングや生成AIアプリを含む広範な顧客のワークロード向けの次世代チップ、「Graviton4」と「Trainium2」を発表した。いずれも先代より大幅に性能が向上したとしている。 米Amazon傘下のAWSは11月28日(現地時間)、ラスベガスで開催の年次イベント「AWS re:Invent 2023」の基調講演で、2つの次世代チップ「AWS Graviton4」と「AWS Trainium2」を発表した。MLトレーニングや生成AIアプリを含む広範な顧客のワークロードで、価格性能とエネルギー効率の向上を目指すとしている。

    AWS、AIモデルのトレーニングと実行向け新チップ「Graviton4」と「Trainium2」を発表
    macro1597
    macro1597 2023/11/30
  • AnthropicのAIチャット「Claude 2」、日本語に対応

    語を含む多言語対応のLLM(大規模言語モデル)の開発は、韓国SK Telectom(SKT)との協力で行っている。 Claude 2にユーザーのデータをSKTと共有するのか尋ねたところ、「個人情報などの機密データはSKTと共有せず、AIの学習や改善のために必要最小限のデータのみを共有する方針です。」との答えだった。 Claude 2へのアクセスはこちらから可能だ。 関連記事 GPT-4やLlama 2の透明性をスタンフォード大HAIが評価 トップはMetaでOpenAIは3位 スタンフォード大学HAIは、AI基盤モデルの透明性評価システム「FMTI」と、このシステムで評価したOpenAIやMetaなど10社の透明性ランキングを発表した。 AI企業のAnthropicに韓国SKTが1億ドルの追加出資 日語にも対応の多言語LLM共同開発 元OpenAIエンジニアらが創業したAI企業An

    AnthropicのAIチャット「Claude 2」、日本語に対応
    macro1597
    macro1597 2023/10/19
    扱えるトークン数が多いからRAGに適していて, もしかすると化けるかもしれない.
  • 「生成AIのハイプ・サイクル」2023年版をガートナーが公開 LLMやプロンプトエンジニアリングは「過度な期待のピーク」に

    ガートナージャパンは10月12日、「生成AIのハイプ・サイクル」2023年版を公開した。大規模言語モデル(LLM)やプロンプトエンジニアリングといった技術は「過度な期待のピーク」にあると指摘。一方でオープンソースのLLMやマルチモーダル(画像や言語など複数の入力ソースを扱える)な生成AIなどは黎明期にあるとした。 中でも「生成AIに対応したアプリケーション」や、大量のデータでトレーニングし、さまざまなタスクに適応可能な「ファウンデーション・モデル」(基盤モデル)、AIの信頼性を高めリスクに対応する取り組み「AI TRiSM」については「10年以内に組織に大きなインパクトを及ぼすと予測される」(同社)とコメント。 ファウンデーション・モデルとAI TRiSMについては普及のめども示した。前者は「2027年までに、ファウンデーション・モデルは自然言語処理 (NLP)のユースケースの60%を支え

    「生成AIのハイプ・サイクル」2023年版をガートナーが公開 LLMやプロンプトエンジニアリングは「過度な期待のピーク」に
    macro1597
    macro1597 2023/10/13
    新しい学習手法やモデルが次々と出てきて流れを追いきれないくらいなので、冬の時代をスキップしてしまうんじゃないかと思う。
  • AlexaにジェネレーティブAIがやってくる 「まるで人間と会話しているような感覚に」──米Amazonがデモを公開

    Amazonは9月20日(現地時間)、AIエージェントサービス「Alexa」にジェネレーティブAI(生成AI)を組み込んだ新機能のデモを公開した。大規模言語モデル(LLM)によってより深く、自然な会話を続けられるようになるという。同社は「まるで人間と会話しているような感覚になるだろう」と紹介している。まずは米国在住のEchoデバイスユーザー向けにプレビュー版を提供する。 現行のAlexaは「アレクサ」というウェイクアップワードの後に質問すると返答される一問一答のような形式だが、デモで紹介された新しい「Let's chat」と呼ばれる会話機能では、Alexaに「アレクサ、レッツチャット」と呼びかけると「ではチャットをしましょう。何かお手伝いできることはありますか」と返答され、会話を続けられる。デモでは次のような会話を自然に行う様子が紹介された。 Alexa 「ではチャットをしましょう。何か

    AlexaにジェネレーティブAIがやってくる 「まるで人間と会話しているような感覚に」──米Amazonがデモを公開
    macro1597
    macro1597 2023/09/21
  • グラフ構造学習を評価するためフレームワーク、米Googleが開発 4000以上のアーキテクチャを統一

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Google Researchに所属する研究者らが発表した論文「UGSL: A Unified Framework for Benchmarking Graph Structure Learning」は、グラフ構造学習のベンチマーク戦略を提案するもので、既存のいくつかの方法を単一のモデルにまとめたフレームワークに関する研究報告である。 ここでいうグラフとは、棒グラフや円グラフのようなデータを視覚化したものではなく、対象物をノード(頂点)とエッジ(辺)を用いて表現したデータ構造を指す。例えば、SNSのソーシャルグラフに用いられている。各ユー

    グラフ構造学習を評価するためフレームワーク、米Googleが開発 4000以上のアーキテクチャを統一
    macro1597
    macro1597 2023/09/06
  • GoogleのトップAI研究者2人、東京でAI企業Sakana.ai立ち上げ

    Googleの著名な2人の元研究者、リオン・ジョーンズ氏とデビッド・ハー氏が8月17日、東京に拠点を置く新AI企業を設立したとX(旧Twitter)で発表した。 ジョーンズ氏は、Googleが2017年に発表した生成AI革命のきっかけとなったと評価されている論文「Attention Is All You Need」(PDF)の8人の著者の1人。この論文では、後にChatGPTなどの製品開発の基礎となった深層学習アーキテクチャー、Transformerを紹介している。ジョーンズ氏は8月に10年以上勤めたGoogleを退社した。これで論文を書いた著者全員がGoogleからいなくなった。 ハー氏は2016年にGoogle Brain入りし、機械学習などの研究に取り組んだ後、2017年にGoogle Brainが東京チームを設立した際、そのトップとして来日した。2022年にGoogleを辞め、S

    GoogleのトップAI研究者2人、東京でAI企業Sakana.ai立ち上げ
    macro1597
    macro1597 2023/08/18
    やっぱ低金利で著作権の融通も利く日本で起業しますわな、海外の大天才が日本で会社を立ち上げたり、海外企業が日本に開発拠点を作る流れが続いてて素晴らしい。
  • 長崎県「自由に使え。」 県内全域の3D点群データ公開

    長崎県は8月17日、県内の地形を計測した3D点群データを掲載したWebサイト「オープンナガサキ」を公開した。営利・非営利問わず利用できる。 同県は3月14日に長崎地区(長崎市、時津町、長与町)の3D点群データを試験的に公開していたが、今回は県内のほぼ全域に拡大した。「自由に活用していただきたい、という思いから県が今までの業務で取得した成果品をクリエイティブ・コモンズ・ライセンスのオープンデータにした」としている。 公開した3D点群データは、2012年度から2020年度にかけて計測したもの。LAS形式のファイルとして提供する。点密度は4点/m2以上で、場所によって異なる。 3D点群データは「UAV写真測量、地上レーザースキャナなどによる3次元測量によって得られた3次元座標を持った点データの集合」(国土交通省の資料より)。建物や設備などの姿を3次元空間に表現できるため、建設業界の生産性向上など

    長崎県「自由に使え。」 県内全域の3D点群データ公開
    macro1597
    macro1597 2023/08/18
  • Google DeepMind、ロボットの行動を改善する新VLAモデル「RT-2」発表

    Google傘下のGoogle DeepMindは7月28日(現地時間)、視覚と言語を行動に翻訳する新しいVLA(Vision-Language-Action)モデル「RT-2」を発表した。 RT-2 は、Web上のテキストと画像でトレーニングされたTransformerベースのモデルで、ロボットのアクションを直接出力できる。LLM(大規模言語モデル)をWeb上のテキストデータでトレーニングするのと同様に、RT-2はWeb上のデータから知識を転送してロボットの動作に情報を与える。 これにより、従来は例えば「コーラの空き缶をゴミ箱に捨てて」という命令を実行するためには、コーラの缶とはなにか、それが空になっていることはどうやって判断するか、物体を掴むにはどうすればいいのか、ゴミ箱とはなにか、ゴミ箱に捨てるというアクションはどういうものか、など、膨大な定義をロボットに教える必要があったところ、

    Google DeepMind、ロボットの行動を改善する新VLAモデル「RT-2」発表
    macro1597
    macro1597 2023/08/01
  • GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証

    「GPT-4の精度は時間とともに変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。ただし、この論文は査読前のもので第三者によるレビューは受けていない。 GPT-4は、米OpenAIが提供する大規模言語モデル(LLM)。3月の発表後、チャットAIChatGPT」にも搭載され、性能の高さが大きな話題を集めた。LLMは、データのフィードバックや設計変更などをすると性能が変化する。しかし、OpenAIはLLMの更新について発表しておらず、公開以後の性能変化も明らかにしていない。そこで研究チームは、3月と6月時点でのGPT-4、前モデルであるGPT-3.5に精度の違いがあるのか検証した。 実験ではChatGPTに対して「数学の問題の回答」「機

    GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証
    macro1597
    macro1597 2023/07/21
    僕らがよく目にする損失関数のグラフだって学習途中で一時的にスパイクしてる事がよくあるし, この悪化も一過性のものでその内また改善すると思う.
  • 金曜ドラマで“本物”のハッキングシーン 手口もコマンドも専門家が監修した「トリリオンゲーム」

    情報セキュリティ事業者のリチェルカセキュリティ(東京都文京区)は7月14日、TBS金曜ドラマ「トリリオンゲーム」に登場するハッキングシーン作成の舞台裏を公開した。このシーンは現実的に可能なハッキングシナリオをベースに作ってあるという。 トリリオンゲームは主人公の2人が1兆ドル獲得を目指して起業するストーリー。第1話では主人公が防犯カメラをハッキングする他、資金集めのために世界トップレベルのハッカーが集まる大会「セキュリティチャンピオンシップ」に参加する。 技術監修はFlatt Security(東京都文京区)が担当し、リチェルカセキュリティ技術協力で参加。設定や脚、演出の監修はFlatt Security、ハッキングの詳細な手口やセキュリティチャンピオンシップの問題、撮影で使うソフトウェアなどはリチェルカセキュリティが実際に考案・開発した。 主人公が防犯カメラをハッキングするシーンの撮

    金曜ドラマで“本物”のハッキングシーン 手口もコマンドも専門家が監修した「トリリオンゲーム」
    macro1597
    macro1597 2023/07/18
    よい子が真似しにくいように古い手法を選んだのかも. マネーゲームだけに
  • GoogleのチャットAI「Bard」に新機能 回答のシェア、文章の読み上げなど

    Googleは7月13日、AIチャットサービス「Bard」に複数の新機能を追加した。会話ログをシェアできるURLの発行や、テキストの読み上げができるようになった。 AIの回答の下部にあるボタンを押すとシェア用のURLを発行できる。読み上げ機能は回答の右上にあるスピーカーアイコンを押すと利用可能。日語での読み上げにも対応している。 さらに、見返したい会話をピン止めしたり、タイトルを設定したりして後から確認しやすくする機能、AIを使って生成したコードを統合開発環境「Replit」に出力する機能も追加した。 予告していた画像検索ツール「Googleレンズ」との連携機能も実装。画像をアップロードして分析してもらうことも可能になった(英語のみ)。また、対応言語にアラビア語、ドイツ語、ヒンディー語などのを追加。サポートする言語や追加した新機能の一覧は公式ブログから確認できる。 関連記事 “Chat

    GoogleのチャットAI「Bard」に新機能 回答のシェア、文章の読み上げなど
    macro1597
    macro1597 2023/07/14