はじめに日本語データセットが含まれるものをまとめています。 情報があったら教えてください。 llm-jpの厳選リストも要参照 データセットのレビューなど
はじめに Turingでは完全自動運転実現に向けて、LLMやそれを用いたVision Langauge(V&L)モデルの開発に取り組んでいます。最近は経済産業省/NEDOの「競争力のある生成AI基盤モデルの開発を支援する「GENIACプロジェクト」」にも採択されるなど、大規模な生成AIの開発に精力的に取り組んでいます。 特に、Vision Languageモデルについては、Heronというライブラリとモデル群を公開しており、今回は新しいモデルとその学習レシピを公開します。また、日本語のV&LモデルをGPT-4を用いて評価するためのプログラムも公開します。 Heronとは V&Lモデルは、画像を認識する「ビジョンエンコーダ」、文章を生成する「LLM」、それら2つをつなぐ「アダプタ」から構成されます。heronのコードを用いることで、これらの様々な組み合わせのオリジナルV&Lモデルを作成するこ
You can load the mC4 subset of any language like this: from datasets import load_dataset en_mc4 = load_dataset("mc4", "en") And if you can even specify a list of languages: from datasets import load_dataset mc4_subset_with_five_languages = load_dataset("mc4", languages=["en", "fr", "es", "de", "zh"]) Supported Tasks and Leaderboards mC4 is mainly intended to pretrain language models and word repre
メタデータラボ株式会社、日本最大のLLMコミュニティ『ローカルLLMに向き合う会』へGPU/HPCサーバーを無償提供 【メタデータラボ株式会社とは】 2018年6月からGPU/HPCサーバーの開発、製造、販売を開始しており、「GAN」などの生成モデルの研究を進めており、2021年5月からGPU/HPCサーバーを稼働させられる高負荷データセンターの運用を開始した。 2023年3月には、さまざまなAI研究・開発者に向けて、グラフィックボード、GPU/HPCサーバーのレンタルを開始し、2024年3月6日、日本最大級2000人規模の大規模言語モデル(LLM)開発コミュニティ『ローカルLLMに向き合う会』に向けて、本格的にGPU/HPCサーバーを無償開放する。 【大規模言語モデル(LLM)開発の課題】 現状、大規模言語モデル(LLM)の学習は、従来の開発環境では対応できないほど膨大なGPUサーバーを
The mission of OpenAI is to ensure AGI benefits all of humanity, which means both building safe and beneficial AGI and helping create broadly distributed benefits. We are now sharing what we've learned about achieving our mission, and some facts about our relationship with Elon. We intend to move to dismiss all of Elon’s claims. Elon said we should announce an initial $1B funding commitment to Ope
マイクロソフト、経理部門を自動化する「Copilot for Finance」発表。決算書や未収金などの確認、予実分析などをAIが実行 Microsoft Copilot for FinanceはSAPやマイクロソフトのERPを含む、Copilot Studioによるさまざまなデータソースと接続したうえで、AIにプロンプトで指示することにより、これまで経理部門が手作業などで行っていた決算書や未収金の確認、財務諸表の監査、予実分析などを自動的に実行もしくは支援してくれるというものです。 参考:[速報]マイクロソフト、「Copilot Studio」発表。Copilotのカスタマイズ、プラグイン開発、ワークフローの設定など、Copilot用ローコード開発ツール。Ignite 2023 これにより経理部門や財務部門は手間のかかる作業を削減でき、より本質的な業務にフォーカスできると説明されています
マイクロソフトは、GPT-35-TurboもしくはGPT-4に任意のデータソースを指定することでそのデータの内容を読み込み、質問に対して内容を基に回答できるようになる新機能「Azure OpenAI On Your Data」が正式サービスとなったことを発表しました。 例えば、社内規約や社内マニュアルなどを読み込ませると、「PCの修理を申し込むための社内手続きは?」といった、汎用の知識だけしか持たない従来のGPTでは答えられない質問にも回答できるようになります。 任意のドキュメントを読み込ませるための支援ツール「Azure AI Studio」には、Azure OpenAI On Your DataでカスタマイズしたAIを、チャットボットとして公開する機能も備わっています。 カスタマイズしたチャットAIのサービスを、社内や社外に簡単に公開できるようになります。 Azure OpenAI S
オブザーバビリティも、セキュリティも、検索ソリューションも、Elasticsearchプラットフォームならすべて実現できます。
LlamaIndex(ラマインデックス)は、大量の個人のデータにアクセスしてコンテキストを作成するためのツールです。 簡単に言うと、自分の質問とともに、個人のデータをプロンプトに含めることで、個人情報からデータの探索を行えるようにするツールです。 API、PDFファイル、データベースなどの情報源にアクセスし、その情報を活用してAIモデルへの質問文を作成する際の補助を行います。 LlamaIndexの中核は、インデックス(Indexes)です。 インデックスは、情報源から取り込んだデータ(ドキュメント)を整理し、検索しやすい形に構造化したものです。 インデックスを通じて、質問文の生成時に効率的にプライベート情報にアクセスし、プライベートな情報を含むコンテキストを簡単に作成できます。 LlamaIndexのプロセスは大きく二つ、Indexing StageとQuerying Stageがありま
2. ドキュメントの準備はじめに、チャットボットに教える専門知識を記述したドキュメントを用意します。 今回は、マンガペディアの「ぼっち・ざ・ろっく!」のあらすじのドキュメントを用意しました。 ・bocchi.txt 3. Colabでの実行Google Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install llama-index !pip install sentence_transformers(2) 環境変数の準備。 以下のコードの <OpenAI_APIのトークン> にはOpenAI APIのトークンを指定します。(有料) import os os.environ["OPENAI_API_KEY"] = "<OpenAI_APIのトークン>"(3) ログレベルの設定。 import logging im
(NAACL'21) Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training [paper][code] (NeurIPS'23) Can Language Models Solve Graph Problems in Natural Language? [paper][code] (IEEE Intelligent Systems 2023) Integrating Graphs with Large Language Models: Methods and Prospects [paper] (ICLR'24) Talk like a Graph: Encoding Graphs for Large Language Models [pape
Developers have long been building interfaces like web apps to enable users to leverage the core products being built. To learn how to work with data in your large language model (LLM) application, see my previous post, Build an LLM-Powered Data Agent for Data Analysis. In this post, I discuss a method to add free-form conversation as another interface with APIs. It works toward a solution that en
ケンタッキー肉の雨事件(ケンタッキーにくのあめじけん、英:Kentucky meat shower)とは、1876年3月3日、アメリカ合衆国ケンタッキー州バス郡のランキン(Rankin)近郊の91×46メートル(100×50ヤード)四方の範囲に赤身肉の断片が数分にわたって空から降ってきた事件[1]。断片の多くは約5cm(2インチ)の大きさであったが、少なくとも一片が約10cm(3.9インチ)に及ぶものもあった[2]。この現象は当時『サイエンティフィック・アメリカン』や『ニューヨーク・タイムズ』[3]、その他いくつかの出版メディアで報じられた[1][4]。 肉片の特定[編集] 肉片は牛肉と思われたが、『サイエンティフィック・アメリカン』の初報によれば、実際に肉片を口にした”2人の紳士”が羊肉か鹿肉であると述べたという[5]。地元の猟師であるB.F.エリントンは肉片を熊肉であるとした[6]。
会社がリファクタリングに賛同してくれないたったひとつの理由一定の工数をかけてリファクタリングをやったほうがいいことは(少なくとも筆者の観測範囲では)エンジニアリングのバックグラウンドがない人でもだいたい理解しています。 上司の無理解をあげつらっても仕方ありません。 リファクタリングの実施を渋る真の原因が工期や予算の問題であることはあまりないとおもいます。タイミングの問題である可能性はありますが。 必要であればコストをかけることにも同意してくれます。 「技術的負債は過去のビジネス上の選択によって生じたまさに負債なので、計画的に返済しましょう」っていえば、多くの経営者は理解を示してしてくれるでしょう。 本当に無理解ゆえにリファクタリングをしないのであれば技術的には死んでいる組織なので、エンジニアとして幸せになりたい場合は逃げ出したほうが賢明です。 というわけで、本稿ではそういう組織においてもな
GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultraに同じ質問をして、回答結果を比較してみたPythonAWSAzureOpenAIGoogleCloud はじめに GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultra(Gemini Advanced)に同じ質問をして、回答結果を比較してみました。 Gemini Ultra以外のモデルはPythonコード上から実行し、Gemini UltraはGemini Advancedのチャット上で実行しています。 各モデルの詳細は以下のとおりです。 G
2024年3月4日(アメリカ現地時間)、Anthropicは現状、最高性能モデルの「Claude 3 Opus」を含む、新たな大規模言語モデルファミリー「Claude 3」を発表しました。 Claude 3シリーズはHaiku、Sonnet、Opusの3バージョンで提供され、新たに発表されたOpusはシリーズ中で最も高性能なモデルとされています。 この記事では、Claude 3ファミリーの特徴、各モデルの性能比較、利用方法、そしてGPT-4との比較に焦点を当てて解説します。 Claude とは?Anthropicが開発した大規模言語モデル「Claude」の最新バージョンが「Claude 3」です。実はClaude 3は3つのモデルから構成されるモデルファミリーで、以下の通り段階的に高度な能力を持っています。 Claude 3 Haiku Claude 3 Sonnet Claude 3 O
デザイナーの keita です。 年始にベンチプレスの MAX 測定をしたら 105kg でした。今年の目標は 120kg です。 この記事では、生成 AI をデザインプロセスに取り入れるためにチームで試行錯誤した内容を紹介します。ぜひ、最後までお付き合いください。 きっかけ はじめに AI を使ってみる インタビューデータからペルソナを作成 まずは 1 人ずつ整理 1 人のペルソナに統合 ペルソナの課題抽出 リサーチを AI で代替してみた結果 AI が作成したペルソナを使ってみる ペルソナにヘルプセンターの記事を評価させてみる 結果 最後に あとがき ボツ案 文字起こしデータから記事を作成 出力された記事のトーンを変更 出力された記事 きっかけ 「ChatGPT をはじめとした AI ツールが便利なのはわかったけど、自分たちの業務をより効率化するためにデザインプロセスで代替できるところ
NVIDIAが、GPU向けのコンピューティングプラットフォームとして提供している「CUDA」のソフトウェア利用許諾契約(EULA)の中で、翻訳レイヤーを通じてNVIDIA以外のハードウェアプラットフォームで実行することを禁止していることがわかりました。もともとこの条項はNVIDIAのサイト上で公開されているオンライン版のEULAには含まれていましたが、インストールしたCUDAのドキュメントにも含まれるようになったとのことです。 License Agreement for NVIDIA Software Development Kits — EULA https://docs.nvidia.com/cuda/eula/index.html Nvidia bans using translation layers for CUDA software — previously the prohi
予実管理はなぜ大事か予算(事業計画)とは現在の事業理解を反映したものである。予算は、売上の発生メカニズムやコストの発生メカニズムをモデル化する。モデルの中には変数(パラメータ)があり、基本的にはこの変数を達成していれば、予算が自動的に達成されるという前提で作られる。つまり予算は、その時点での事業の理解そのものを表している。 予算と実績が合わないということは、事業の理解が浅いということである。何かしら前提としていることが間違っている、見落としていることがある、わかっていないことがあるということである。事業の理解が浅いと、どれくらいのリソースを投下するとどれくらいのリターンが得られるかをコントロールできていないことになるため、投資の不確実性が高い状態とみなされる。 投資の不確実性が高い状態だと、資金調達コストが上がる。仮にまったく同じ構造の事業をもつ2社があるとする。コントローラビリティが高い
GitHub、無料のパブリックリポジトリへのプッシュに対しても、コードに書いてはいけないシークレットの検知機能をデフォルトで有効に GitHubは、ソースコード中に書くべきではないパスワードやアクセストークンなどのシークレットを発見し通知してくれる「Secret scanning」機能を、無料のパブリックリポジトリに対するプッシュにおいてもデフォルトで有効にすることを発表しました。 パブリックリポジトリへのすべてのプッシュに対してシークレットスキャンによる保護機能が働くようになります。 プッシュされたコード内にシークレットが発見された場合、自動的にそのプッシュはブロックされます。ユーザーはそのシークレットを削除することでプッシュを再開できます。また、シークレットは問題ないと判断してブロックを解除することも可能です。 このプッシュに対するシークレットスキャン機能はすでに昨年(2023年)8月
polyfill.io now available on cdnjs: reduce your supply chain risk02/29/2024 Polyfill.io is a popular JavaScript library that nullifies differences across old browser versions. These differences often take up substantial development time. It does this by adding support for modern functions (via polyfilling), ultimately letting developers work against a uniform environment simplifying development. T
スイスの人類学者であり、「ミラ」として活動するリュドミラ・ブレディキナ(Liudmila Bredikhina)氏が、「バ美肉(=バーチャル美少女受肉)」に関する論文でジュネーブ大学のジェンダー分野の学術賞「プリ・ジャンル」を受賞した。「バ美肉」に関する研究が学術賞を受賞するのは世界初の快挙であり、2022年のバーチャルに関する動きのなかでも特筆すべきもののひとつだった。 今回はそんなミラに、これまで行なってきた研究の内容や、「バ美肉」に興味を持って研究を始めたきっかけ、バーチャルの姿とジェンダー規範に関する話などを聞いた。 Liudmila Bredikhina ーーまずはミラさんの行っている研究の具体的な分野と内容について教えてください。 ミラ:2021年、私はスイスのジュネーブ大学にてアジア研究の修士号を取得しました。最近「プリ・ジャンル」を受賞した論文は、バ美肉と日本の伝統的な演劇
生成AIをゲーム開発の現場で活用している筆者が、ゲーム内テキストの作成、中でもいわゆるRPGの村人たちのセリフの生成を一から行う流れを解説します。第1回は、とにかく作ってみて、それに条件を加え、世界を構築していくところまで。 ChatGPTがこれほど広く雑多な目的に適用できるのは未だ驚きです。このままいわゆるAGIに到達する道にあるのか、規制や資源の問題はどうなるのか、未来への関心は尽きませんが目の前の実用も重要です。 私にとっての実用は主にゲーム制作への応用で、ChatGPTやLLMを使えそうなシーンはいろいろ考えられます。たとえばゲームそのものを生成させたり、ゲームという構造をLLMで取り扱う実験などもしていますが、こうした大きな試みはまだ実用的ではありません。 すぐに実用できる用途としては「ゲーム内テキスト作り」が挙げられます。用途はLLMの本筋ですし、制作では地味に負荷の高い作業で
1億ツイートを集めて分析 懐疑派にはリベラルが多い 情報も「偏食」には要注意 「人はなぜワクチン反対派になるのか」。東京大学がそんなタイトルで発表したプレスリリースが、X(旧ツイッター)で話題になりました。陰謀論やスピリチュアルへの関心が「ワクチン懐疑論」への入り口になり、懐疑論をとなえる参政党への支持拡大にもつながった、との内容です。研究チームの鳥海不二夫・東京大教授に分析の手法などを聞いたうえで、この研究をどう思うか、参政党からもコメントをもらいました。(朝日新聞デジタル企画報道部・小宮山亮磨) [プレスリリース] 人はなぜワクチン反対派になるのか――コロナ禍におけるワクチンツイートの分析―――工学系研究科・工学部https://t.co/3kwLTTbv1j — 東京大学 | UTokyo (@UTokyo_News) February 6, 2024 1億ツイートを集めて分析 研究
脱「ネイバー依存」要求 LINEヤフーに行政指導―総務省 2024年03月05日19時17分配信 総務省から行政指導を受けるLINEヤフーの出沢剛社長(右)=5日午前、東京・霞が関 無料通信アプリ「LINE」利用者の個人情報が不正アクセスを受けて流出した問題で、総務省は5日、LINEヤフーに再発防止の徹底を求める行政指導を行った。LINEのITインフラの保守・運用で依存する韓国IT大手ネイバーに対する監督の強化と、ネイバーとの間で共通化している従業員情報を扱うシステム基盤の分離を要求。ネイバーとの資本関係見直しも促す異例の要請を行った。 ヤフーに行政指導 位置情報取り扱いで―総務省 LINEヤフーは、旧ヤフーと旧LINEの経営統合を経て発足した企業。2023年11月、LINE利用者らの個人情報約44万件が流出した恐れがあると発表した。その後の調査で流出件数は約52万件に増えた。 LINEヤ
世界のインターネットトラフィック(通信量)の約97%が海底光ファイバーケーブルで伝送されているが、通信事業者は少なくとも4本のケーブルが先週紅海で損傷したと報告している。イエメンの情勢が不安定なため、すぐに修理できない可能性があるという。 香港の通信大手HGCグローバル・コミュニケーションズは「SEACOM」「TGN」「AAE-1」「EIG」のケーブル4本が紅海で「切断」されたと報告した。 HGCによると、インターネットトラフィックの推定25%に影響が及び、現在、中国本土を経由して東へと迂回して米国へつなぐ措置をとっているという。 モーリシャスを拠点とするアフリカのプロバイダー、SEACOMは米紙ウォールストリート・ジャーナルに運用するケーブルが紅海で損傷したことを認めた。また、紅海の情勢が不安定なため、修理は早くても今年第2四半期になると説明した。 EIGは、米通信大手のAT&Tやベライ
アフリカ北東部とアラビア半島に挟まれた紅海では、2023年頃からイエメンの武装組織であるフーシ派による活動が活発化し、航行中の商船への攻撃が行われています。フーシ派による攻撃の結果、サウジアラビアとジブチを結ぶ4本の海底通信ケーブルが切断されて使用不能に陥っていることが報じられています。 Houthis hit submarine communications cables - Globes https://en.globes.co.il/en/article-houthis-hit-underwater-communications-cables-1001472165 Houthis knock out underwater cables linking Europe to Asia - report - The Jerusalem Post https://www.jpost.com/
メディアアーティストで筑波大学准教授の落合陽一さんが2024年3月4日、Xで暴言を繰り返し、困惑の声を集めている。 【画像】実際の投稿をみる ■「クソバカデマクソ野郎,死ぬのか?」 発端となったのは、あるXユーザーが、防衛省の「防衛力の抜本的強化に関する有識者会議」部会メンバーに、なぜ落合さんが選ばれたのかと疑問を呈したこと。落合さんは「専門の寄せ集め」と引用リポストしたうえ、2分後には「『ググれない子の推論能力の低さ』に『ディスられる』『バカ発見器の機能を持つ』落合陽一です」と皮肉を投稿。 続けて、「大体落合陽一をディスってる99%は先入観と思い込みの強いバカです.よく見てください」とコメント。さらに「よく疑えクソバカどもついでに死ね」とポストした。 別のXユーザーから、落合さんが以前「10年後にスマホがなくなる」と発言したと指摘するような返信が寄せられると、落合さんは「どこで?クソバカ
総務省は、本日、LINEヤフー株式会社(代表取締役社長 出澤 剛、法人番号 4010401039979、本社 東京都千代田区)に対し、同社における、不正アクセスによる通信の秘密の漏えい事案に関し、通信の秘密の保護及びサイバーセキュリティの確保の徹底を図るとともに、再発防止策等の必要な措置を講じ、その実施状況を報告するよう、文書による行政指導を行いました。 LINEヤフー株式会社(代表取締役社長 出澤 剛。以下「LINEヤフー社」という。)からの報告により、同社及び同社のITインフラの運用に係る業務委託先であるNAVER Cloud社が、それぞれセキュリティに係るメンテナンス業務を委託していた企業においてマルウェア感染が生じたことを契機として、NAVER Cloud社の社内システムが侵害されるとともに、同社を介して、同社とネットワーク接続のあったLINEヤフー社の社内システムに対して不正アク
宅配代行サービス大手の「ウーバーイーツ」は、自律走行するロボットを6日から都内の一部の地域で導入すると発表しました。国内では、配達員の不足などを理由に撤退の動きも相次ぎ、各社が事業の効率化とサービスの強化を急いでいます。 ウーバーイーツが5日公開したのは、6つの車輪がついた自律走行する小型のロボットで、6日から東京 日本橋のエリアの2つの店舗に導入されます。 導入は、アメリカに続き世界で2か国目となります。 注文した人が建物の入り口まで受け取りに行く形でサービスを開始し、将来的にはほかの地域に広げることも目指すとしています。 雨の日など配達員が少ない場合でもロボットが対応でき、配達のスピードなど利便性の強化につなげたいとしています。 Uber Eats Japanのアルビン・ウー マーケットオペレーションディレクターは「2024年問題などの人手不足を補完するものとしてロボットはますます重要
国民民主が東京3区に擁立予定の奥村有里氏は、株式会社Lilly Albaの代取、一般財団法人日本スピリチュアルカウンセリング協会の理事でスピリチュアルカウンセラー。万能細胞DNAクリアリングセッションと称し、ガンや認知症に効くと称するセッションを1時間2万円で行っていた人。知っていて公認? https://t.co/c8ih4lj0nm — 山口貴士 aka無駄に感じが悪いヤマベン (@otakulawyer) February 16, 2024 珍しくバズり、135万6000件のインプレッションとなり、Xからチビッとだがお小遣いも頂いた。 これに対し、上松医師という放射線科医が以下のようなツイートで私のツイートを引用したところ、 デマや中傷はいけない事だと思いますがこれは事実ですか?事実だけど法令違反でないから良いという考えでしょうか?このようなお金の為に平気で人を死に追いやる人を見てき
TRPG(テーブルトークRPG)は、サイコロや紙などを用いて、主にルールブックに従い、ゲームマスター(GM)との会話などを会話を通して遊ぶアナログゲームだ。代表的な作品に『ダンジョンズ&ドラゴンズ(D&D)』や『クトゥルフの呼び声(CoC)』などがある。 今回、NASAによりTRPGシナリオ『The Lost Universe』が公開された。舞台となるのはExlarisなる惑星。Exlarisはもともと地球と同様にハビタブルゾーン(生命居住可能領域)に存在しており、知的生命体によって社会が形成されていた。またこの世界には「魔法」があり、それは真空エネルギー(the energy of the vacuum)を利用しようとした際に発見されたとのこと。 しかしExlarisにブラックホールが近づくことで状況は一変。惑星Exlarisの軌道は大きく変化し、惑星系からはじき出され、自由浮遊惑星とな
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く