misshikiのブックマーク / 2023年8月9日

GitHub - furuhashilab/chatgpt4plateau

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

misshiki 2023/08/09

「生成AIによるコード生成とCode Interpreter活用ハンズオン with PLATEAU」という勉強会で使われたハンズオン。勉強会は参加していない。

リンク

データ活用社会で活躍するための、非エンジニアのデータエンジニアリングスキル育成のヒント | gihyo.jp

※ちなみに①の状況で、データの統制にはdbtやLookerのLookMLなど、リソースの競合にはDWHのチューニングやシステム変更など、技術面の対応も重要な解決策になりますが、本稿ではその側面は割愛します。これらの①～③のあり方に共通するのは、データ分析基盤を構築するデータエンジニアと、基盤を利用する非エンジニアで連携が取れていないことです。そしてこの間を埋めるものとして、データエンジニアリングスキルがあると考えています。より理解を深めるために、いくつか職種を取り上げて、それぞれがよく陥る問題と、スキルがあることでどういった取り組みができるかを整理してみます。職種別にデータエンジニアリングスキルの価値を考える例1）データアナリストまずは、データエンジニアと最も近い関係で業務をすることの多い、データアナリストです。データエンジニアリングに関連してデータアナリストがしばしば抱える問題

misshiki 2023/08/09

“作ったデータ分析基盤が適切に使われないことが多いのを出発点に、なぜ使われないのか、どう使われるといいのかを整理しながら、非エンジニアがデータエンジニアリングスキルを学ぶ意義とその育成方法について紹介

データ分析

リンク

テキストを古活字(くずし字)に変換できる「そあん(soan)」が登場したので現代の文章を趣深い見た目に変換してみた

現代の日本で利用されている日本語のテキストを、16世紀末から17世紀初めという非常に短い期間に日本で刊行された古活字版で使用された古活字(くずし字)に変換することができる「そあん(soan)」をROIS-DS人文学オープンデータ共同利用センターが公開しました。そあんではテキストを古活字に変換した画像を生成してくれるということで、さっそく使ってみました。そあん（soan）：現代日本語を古活字（くずし字）に変換するサービス | ROIS-DS人文学オープンデータ共同利用センター(CODH) http://codh.rois.ac.jp/soan/ 本日8月7日、古活字画像を用いて入力文章を画像化するサービス／ライブラリ「そあん（soan）」がリリースされました。連綿活字の使用、変体仮名の使い分けなど、Androidアプリ「縦書きビューワ」では実現できなかった機能も盛り込んでいます。ぜひ遊んで

misshiki 2023/08/09

人工知能

リンク

そあん（soan）：古活字画像を用いて現代日本語テキストをくずし字画像に変換／共有するサービス

ライブラリのアプリ化現代のニュースをくずし字で読んでみませんか？内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。 edomi ニュースその他の事例については、活用事例を参照してください。構成古活字とくずし字そあん（soan）で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写本などの手書きの文字（草書体）も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。そあん（soan）は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービ

misshiki 2023/08/09

“そあん（soan）は、現代日本語テキストを古活字（くずし字）画像に変換し共有できるサービスです。” すごくかっこい古文書風の画像が作れる！これはどこかで使いたい。

リンク

特徴量エンジンKaskada利用イメージ: 機械学習モデルのトレーニング - Qiita

from kaskada.api.session import LocalBuilder session = LocalBuilder().build() %load_ext fenlmagic サンプルデータセットの構築この例では、ゲームプレイヤーの行動に関するイベントを扱います。イベントには、ユーザーが勝った、負けた、そして物の購入の３種類があります。イベントは 2 つの CSV ファイルに保存されているものとします（ここではテストデータの作成をJupyterノートブック上で行います）。 game_play.csvには、プレイヤーが行ったゲームの勝敗に関するイベント情報が含まれています。 %%writefile game_play.csv event_at,entity_id,duration,won 2022-01-01 02:30:00+00:00,Alice,10,true

misshiki 2023/08/09

“この例では、ゲームプレイヤーの行動に関するイベントを扱います。ユーザーがアップグレードの料金を支払うかどうかを予測する機械学習モデルを構築するためのトレーニングデータをKaskadaを使って準備します。”

リンク

【Road to Cassandra Day】リアルタイムデータからリアルタイムAIへ〜特徴量エンジンKaskada紹介 - Qiita

はじめに Cassandra Day Tokyo 今年、2023年６月１日に、Cassandra Dayが日本でも開催されます。 Cassandra Dayは、昨年、ベルリン、ロンドン、アムステルダム、ハノイ、ジャカルタ、ヒューストン、サンタクララ、シアトル、シンガポールでも開催されました。今回の東京での開催に向けて、Apache Cassandraに関する記事を発表していきます。 Apache Cassandraについて Apache Cassandraとは、一言でいうなら、オープンソースの分散データベース管理システムです。他の分散データベース管理システム同様、複数の汎用サーバーを用いて、ひとつのデータベースを構築します（開発などの目的のため、一つのサーバーのみで構成することも可能です）。ここでは、詳しい説明は割愛し、興味のある方へのご紹介の役割は、公式サイトやWikipediaに

misshiki 2023/08/09

“Kaskadaは、「特徴量エンジニアリングのニーズに合わせて設計されたコンピューティングエンジン」として開発されました。Kaskadaの開発者は、Kaskadaを「特徴量エンジン(feature engine)」と呼んでいます。”

リンク

AIの知能が急激に低下してしまう「ドリフト」問題はなぜ発生するのか？

OpenAIのChatGPTなどのチャットAIは、医師免許試験の合格や驚異的な精度で数学を解くことができることが報告されています。しかし、2023年3月から6月の間に、ChatGPTが簡単な数学を解く精度などが急激に低下していることが報告されています。このようなAIの知能低下は「ドリフト」と呼ばれています。 What is a 'AI drift' and why is it making ChatGPT dumber? | ZDNET https://www.zdnet.com/article/what-is-a-ai-drift-and-why-is-it-making-chatgpt-dumber/ Why ChatGPT Is Getting Dumber at Basic Math - WSJ https://www.wsj.com/articles/chatgpt-openai

$AIの知能が急激に低下してしまう「ドリフト」問題はなぜ発生するのか？$

misshiki 2023/08/09

“「AIモデルを微調整して特定の方向に強化すると、別の領域では後退してしまうリスクがあります」と述べ、「一貫してAIモデルを改善させ続けることは非常に困難です」と語っています。”

リンク

カーネギーメロン大など、大規模言語モデルの脆弱性を突く攻撃手法が存在することを指摘 | AIDB

カーネギーメロン大などの研究者らは、大規模言語モデルの解釈を意図的に狂わせる手法を発見し、手法の詳細を公開しました。こうした攻撃手法が明らかにされる意義は、AIの脆弱性を共有し、より強固で安全なモデルの開発を推進するためです。参照論文情報タイトル：Universal and Transferable Adversarial Attacks on Aligned Language Models 著者：Andy Zou, Zifan Wang, J. Zico Kolter, Matt Fredrikson 所属：カーネギーメロン大など URL：https://doi.org/10.48550/arXiv.2307.15043 GitHub：https://github.com/llm-attacks/llm-attacks 関連研究 AIが生成したテキストが事実なのか確認する手法「Fa

misshiki 2023/08/09

“カーネギーメロン大などの研究者らは、大規模言語モデルの解釈を意図的に狂わせる手法を発見し、手法の詳細を公開しました。 ”

リンク

NVIDIA、生成AIモデルをPCやワークステーションで構築するための「AI Workbench」を近日リリース

米NVIDIAは8月8日（現地時間）、生成AIモデル構築のための新たな統合ツールキット「AI Workbench」を発表した。生成AIモデルをPCやワークステーション上で構築、テスト、カスタマイズできるように設計されている。必要であればそれをデータセンターやクラウドに拡張可能だ。現在、多数の事前トレーニング済みモデルが利用可能になっているが、それを複数のオンラインリポジトリを横断して探し回り、適切なフレームワークやツールを探すのが大きな負担になっているとNVIDIAは説明する。 AI Workbenchはローカルシステム上で実行できる簡素化されたツールを介してモデルにアクセスできるため、こうした負担を軽減できるとしている。開発者は、Hugging Face、GitHub、NVIDIA NGCなどの一般的なリポジトリのモデルをカスタマイズでき、モデルは複数のプラットフォーム間で共有できる

misshiki 2023/08/09

“米NVIDIAは統合ツールキット「AI Workbench」を発表。生成AIモデルをPCやワークステーション上で構築、テスト、カスタマイズできるように設計されている。必要であればそれをデータセンターやクラウドに拡張可能だ。”

リンク

明らかになったGPT-4の秘密 | AI専門ニュースメディア AINOW

著者のアルベルト・ロメロ（Alberto Romero）氏はスペイン在住のAI 技術批評家で、AINOWでは同氏の記事を多数紹介して来ました。同氏がMediumに投稿した記事『明らかになったGPT-4の秘密』では、OpenAIがGPT-4のアーキテクチャおよび詳細を非公開にしたビジネス上のメリットが解説されています。「競争と安全上の理由から」学習データやアーキテクチャが非公開だったGPT-4について、2023年6月になってリークがありました。そのリーク内容とは、同モデルは2,200億パラメータの専門家モデルが8つ連結された「専門家混合モデル」だったというものです。このアーキテクチャ自体は、Googleが2021年に発表している何ら革新性のないものです。実際には既存技術を活用して開発していたGPT-4の詳細を非公開としたOpenAIのビジネス戦略について、ロメロ氏は以下のような3つのメリッ

misshiki 2023/08/09

GPT-4

リンク

OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日（現地時間）、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテ

misshiki 2023/08/09

“OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。”

リンク

Stability AIがオープンソースのコーディング補助AI「StableCode」を発表

画像生成AI「Stable Diffusion」の開発などで知られるAI開発企業Stability AIがコーディング補助AI「StableCode」を発表しました。StableCodeは開発者の業務効率改善に寄与する他、初学者の学習ツールとしても有用とのことです。 Announcing StableCode — Stability AI https://stability.ai/blog/stablecode-llm-generative-ai-coding ????Exciting news! Stability AI has launched StableCode, the revolutionary generative AI LLM for coding! ???? Developers, get ready to level up your coding game! #AI #

misshiki 2023/08/09

“StableCodeは「StableCode-Completion-Alpha-3B-4K」「StableCode-Instruct-Alpha-3B」「StableCode-Completion-Alpha-3B」という3種のモデルに分かれて公開されています。”

リンク

Announcing Stable Code Alpha — Stability AI

Stability AI has just announced the release of Stable Code Alpha 3B, its very first LLM generative AI product for coding. This product is designed to assist programmers with their daily work while providing a great learning tool for new developers ready to take their skills to the next level. “a colorful parrot with glasses typing away at a computer, flat icon, vector” – SDXL 0.9 Stable Code Alpha

misshiki 2023/08/09

“StableCode発表：Stability AIは、同社初のコーディング用LLM生成AI製品であるStableCodeのリリースを発表した。”

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第五回：Stable Diffusionの基本1 / Checkpointとリアル系モデルの遷移 (西川和久) | テクノエッジ TechnoEdge

Checkpointとはあとひと月ほどすると、前回ご紹介した次世代Stable Diffusion、SDXLの波が来そう(来るかも？)と言うこともあり、今回は一番の基本となるCheckpointと、筆者の興味の対象となっているリアル系モデルの遷移にふれておきたい。まずStable Diffusionのバージョンは1.4、1.5、2.0、2.1などがあり、現在最もポピュラーなのは1.5 (SDXLは0.9、1.0)。基本、対応したバージョンでないとモデルは作動しない。一言でモデルと言っても、Stable Diffusionが必要、もしくはオプションとして扱えるモデルは、Checkpoint、LoRA、LyCORIS、Embedding、 Hypernetwork…など、さまざまな種類がある。絵を作る上において最も重要(＝絵の元になる)のがCheckpointで、他は無くても最低限これだけ

misshiki 2023/08/09

人工知能

リンク

生成AIで金融業界はどう変わるか　AWSの金融向けサービスの全貌

説明会の冒頭、AWSにおける生成AIを用いた金融ビジネスへのアプローチについて、AWSジャパンの飯田哲夫氏（金融事業開発本部長）が説明した。 2006年よりクラウドサービスの提供を開始したAWSは、現在世界で数百万、日本では数十万以上の顧客を抱えている。2011～2022年における、東京と大阪のリージョンに対する投資額は累計1兆3500億円以上だ。 AWSは金融の領域で「Vision2025」という目標を掲げている。これは「単なるインフラプロバイダー」から「金融ビジネスの戦略パートナー」に価値を転換することを目指したものだ。 AWSは2011年から日本でクラウドサービスを展開しているが、飯田氏によれば、当時の金融業界はAWSを「ノンクリティカルな領域の低コストインフラ」と位置付けていた。しかし、2017年ごろから「金融ITを支える可用性とセキュリティ品質を備えたインフラ」として認識されてき

misshiki 2023/08/09

“金融業界にフォーカスし、AWSが提供するAIサービスについて解説”

リンク

NVIDIA、生成AI用の新型半導体　メモリー3.5倍で高速化 - 日本経済新聞

【シリコンバレー=渡辺直樹】米エヌビディアは8日、生成人工知能（AI）に使う新しい半導体セットを開発したと発表した。一時的に情報を処理するメモリー容量を従来の3.5倍にし、AIが回答を導き出す処理を高速化する。米アドバンスト・マイクロ・デバイス（AMD）や米グーグル、米アマゾン・ドット・コムもAI半導体の開発に注力しており、最新モデルで対抗する。「どんな大規模言語モデル（AI）でも、これに入れ

misshiki 2023/08/09

“米エヌビディアは8日、生成人工知能（AI）に使う新しい半導体セットを開発したと発表した。一時的に情報を処理するメモリー容量を従来の3.5倍にし、AIが回答を導き出す処理を高速化する。”

リンク

Project IDX

These days, launching applications means navigating an endless sea of complexity. We felt this pain at Google, so we started Project IDX, an experimental initiative aimed at bringing your entire full-stack, multiplatform app development workflow to the cloud. Project IDX starts with a web-based workspace that'll feel familiar for coding but fresh. And we're just at the beginning of this journey. W

misshiki 2023/08/09

“コード生成、コード補完、プログラミング言語間でのコードの翻訳、コードの説明など...はすべて、コードでトレーニングされ PaLM 2 上に構築された基本的な AI モデルである Codey によって強化されています。”

リンク

はてなブックマーク

タグ

2023年8月9日のブックマーク (17件)

GitHub - furuhashilab/chatgpt4plateau

データ活用社会で活躍するための、非エンジニアのデータエンジニアリングスキル育成のヒント | gihyo.jp

テキストを古活字(くずし字)に変換できる「そあん(soan)」が登場したので現代の文章を趣深い見た目に変換してみた

そあん（soan）：古活字画像を用いて現代日本語テキストをくずし字画像に変換／共有するサービス

特徴量エンジンKaskada利用イメージ: 機械学習モデルのトレーニング - Qiita

【Road to Cassandra Day】リアルタイムデータからリアルタイムAIへ〜特徴量エンジンKaskada紹介 - Qiita

AIの知能が急激に低下してしまう「ドリフト」問題はなぜ発生するのか？

カーネギーメロン大など、大規模言語モデルの脆弱性を突く攻撃手法が存在することを指摘 | AIDB

NVIDIA、生成AIモデルをPCやワークステーションで構築するための「AI Workbench」を近日リリース

明らかになったGPT-4の秘密 | AI専門ニュースメディア AINOW

OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

Stability AIがオープンソースのコーディング補助AI「StableCode」を発表

Announcing Stable Code Alpha — Stability AI

生成AIグラビアをグラビアカメラマンが作るとどうなる？第五回：Stable Diffusionの基本1 / Checkpointとリアル系モデルの遷移 (西川和久) | テクノエッジ TechnoEdge

生成AIで金融業界はどう変わるか　AWSの金融向けサービスの全貌

NVIDIA、生成AI用の新型半導体　メモリー3.5倍で高速化 - 日本経済新聞

Project IDX

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス