You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
※ちなみに①の状況で、データの統制にはdbtやLookerのLookMLなど、リソースの競合にはDWHのチューニングやシステム変更など、技術面の対応も重要な解決策になりますが、本稿ではその側面は割愛します。 これらの①~③のあり方に共通するのは、データ分析基盤を構築するデータエンジニアと、基盤を利用する非エンジニアで連携が取れていないことです。そしてこの間を埋めるものとして、データエンジニアリングスキルがあると考えています。 より理解を深めるために、いくつか職種を取り上げて、それぞれがよく陥る問題と、スキルがあることでどういった取り組みができるかを整理してみます。 職種別にデータエンジニアリングスキルの価値を考える 例1)データアナリスト まずは、データエンジニアと最も近い関係で業務をすることの多い、データアナリストです。データエンジニアリングに関連してデータアナリストがしばしば抱える問題
現代の日本で利用されている日本語のテキストを、16世紀末から17世紀初めという非常に短い期間に日本で刊行された古活字版で使用された古活字(くずし字)に変換することができる「そあん(soan)」をROIS-DS人文学オープンデータ共同利用センターが公開しました。そあんではテキストを古活字に変換した画像を生成してくれるということで、さっそく使ってみました。 そあん(soan):現代日本語を古活字(くずし字)に変換するサービス | ROIS-DS人文学オープンデータ共同利用センター(CODH) http://codh.rois.ac.jp/soan/ 本日8月7日、古活字画像を用いて入力文章を画像化するサービス/ライブラリ「そあん(soan)」がリリースされました。連綿活字の使用、変体仮名の使い分けなど、Androidアプリ「縦書きビューワ」では実現できなかった機能も盛り込んでいます。ぜひ遊んで
ライブラリのアプリ化 現代のニュースをくずし字で読んでみませんか?内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。 edomi ニュース その他の事例については、活用事例を参照してください。 構成 古活字とくずし字 そあん(soan)で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写本などの手書きの文字(草書体)も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。 そあん(soan)は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービ
from kaskada.api.session import LocalBuilder session = LocalBuilder().build() %load_ext fenlmagic サンプルデータセットの構築 この例では、ゲームプレイヤーの行動に関するイベントを扱います。 イベントには、ユーザーが勝った、負けた、そして物の購入の3種類があります。 イベントは 2 つの CSV ファイルに保存されているものとします(ここではテストデータの作成をJupyterノートブック上で行います)。 game_play.csvには、プレイヤーが行ったゲームの勝敗に関するイベント情報が含まれています。 %%writefile game_play.csv event_at,entity_id,duration,won 2022-01-01 02:30:00+00:00,Alice,10,true
はじめに Cassandra Day Tokyo 今年、2023年6月1日に、Cassandra Dayが日本でも開催されます。 Cassandra Dayは、昨年、ベルリン、ロンドン、アムステルダム、ハノイ、ジャカルタ、ヒューストン、サンタクララ、シアトル、シンガポールでも開催されました。 今回の東京での開催に向けて、Apache Cassandraに関する記事を発表していきます。 Apache Cassandraについて Apache Cassandraとは、一言でいうなら、オープンソースの分散データベース管理システムです。 他の分散データベース管理システム同様、複数の汎用サーバーを用いて、ひとつのデータベースを構築します(開発などの目的のため、一つのサーバーのみで構成することも可能です)。 ここでは、詳しい説明は割愛し、興味のある方へのご紹介の役割は、公式サイトやWikipediaに
OpenAIのChatGPTなどのチャットAIは、医師免許試験の合格や驚異的な精度で数学を解くことができることが報告されています。しかし、2023年3月から6月の間に、ChatGPTが簡単な数学を解く精度などが急激に低下していることが報告されています。このようなAIの知能低下は「ドリフト」と呼ばれています。 What is a 'AI drift' and why is it making ChatGPT dumber? | ZDNET https://www.zdnet.com/article/what-is-a-ai-drift-and-why-is-it-making-chatgpt-dumber/ Why ChatGPT Is Getting Dumber at Basic Math - WSJ https://www.wsj.com/articles/chatgpt-openai
カーネギーメロン大などの研究者らは、大規模言語モデルの解釈を意図的に狂わせる手法を発見し、手法の詳細を公開しました。 こうした攻撃手法が明らかにされる意義は、AIの脆弱性を共有し、より強固で安全なモデルの開発を推進するためです。 参照論文情報 タイトル:Universal and Transferable Adversarial Attacks on Aligned Language Models 著者:Andy Zou, Zifan Wang, J. Zico Kolter, Matt Fredrikson 所属:カーネギーメロン大など URL:https://doi.org/10.48550/arXiv.2307.15043 GitHub:https://github.com/llm-attacks/llm-attacks 関連研究 AIが生成したテキストが事実なのか確認する手法「Fa
米NVIDIAは8月8日(現地時間)、生成AIモデル構築のための新たな統合ツールキット「AI Workbench」を発表した。生成AIモデルをPCやワークステーション上で構築、テスト、カスタマイズできるように設計されている。必要であればそれをデータセンターやクラウドに拡張可能だ。 現在、多数の事前トレーニング済みモデルが利用可能になっているが、それを複数のオンラインリポジトリを横断して探し回り、適切なフレームワークやツールを探すのが大きな負担になっているとNVIDIAは説明する。 AI Workbenchはローカルシステム上で実行できる簡素化されたツールを介してモデルにアクセスできるため、こうした負担を軽減できるとしている。 開発者は、Hugging Face、GitHub、NVIDIA NGCなどの一般的なリポジトリのモデルをカスタマイズでき、モデルは複数のプラットフォーム間で共有できる
著者のアルベルト・ロメロ(Alberto Romero)氏はスペイン在住のAI技術批評家で、AINOWでは同氏の記事を多数紹介して来ました。同氏がMediumに投稿した記事『明らかになったGPT-4の秘密』では、OpenAIがGPT-4のアーキテクチャおよび詳細を非公開にしたビジネス上のメリットが解説されています。 「競争と安全上の理由から」学習データやアーキテクチャが非公開だったGPT-4について、2023年6月になってリークがありました。そのリーク内容とは、同モデルは2,200億パラメータの専門家モデルが8つ連結された「専門家混合モデル」だったというものです。このアーキテクチャ自体は、Googleが2021年に発表している何ら革新性のないものです。 実際には既存技術を活用して開発していたGPT-4の詳細を非公開としたOpenAIのビジネス戦略について、ロメロ氏は以下のような3つのメリッ
米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。 ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテ
画像生成AI「Stable Diffusion」の開発などで知られるAI開発企業Stability AIがコーディング補助AI「StableCode」を発表しました。StableCodeは開発者の業務効率改善に寄与する他、初学者の学習ツールとしても有用とのことです。 Announcing StableCode — Stability AI https://stability.ai/blog/stablecode-llm-generative-ai-coding ????Exciting news! Stability AI has launched StableCode, the revolutionary generative AI LLM for coding! ???? Developers, get ready to level up your coding game! #AI #
Stability AI has just announced the release of Stable Code Alpha 3B, its very first LLM generative AI product for coding. This product is designed to assist programmers with their daily work while providing a great learning tool for new developers ready to take their skills to the next level. “a colorful parrot with glasses typing away at a computer, flat icon, vector” – SDXL 0.9 Stable Code Alpha
Checkpointとはあとひと月ほどすると、前回ご紹介した次世代Stable Diffusion、SDXLの波が来そう(来るかも?)と言うこともあり、今回は一番の基本となるCheckpointと、筆者の興味の対象となっているリアル系モデルの遷移にふれておきたい。 まずStable Diffusionのバージョンは1.4、1.5、2.0、2.1などがあり、現在最もポピュラーなのは1.5 (SDXLは0.9、1.0)。基本、対応したバージョンでないとモデルは作動しない。 一言でモデルと言っても、Stable Diffusionが必要、もしくはオプションとして扱えるモデルは、Checkpoint、LoRA、LyCORIS、Embedding、 Hypernetwork…など、さまざまな種類がある。絵を作る上において最も重要(=絵の元になる)のがCheckpointで、他は無くても最低限これだけ
説明会の冒頭、AWSにおける生成AIを用いた金融ビジネスへのアプローチについて、AWSジャパンの飯田哲夫氏(金融事業開発本部長)が説明した。 2006年よりクラウドサービスの提供を開始したAWSは、現在世界で数百万、日本では数十万以上の顧客を抱えている。2011~2022年における、東京と大阪のリージョンに対する投資額は累計1兆3500億円以上だ。 AWSは金融の領域で「Vision2025」という目標を掲げている。これは「単なるインフラプロバイダー」から「金融ビジネスの戦略パートナー」に価値を転換することを目指したものだ。 AWSは2011年から日本でクラウドサービスを展開しているが、飯田氏によれば、当時の金融業界はAWSを「ノンクリティカルな領域の低コストインフラ」と位置付けていた。しかし、2017年ごろから「金融ITを支える可用性とセキュリティ品質を備えたインフラ」として認識されてき
These days, launching applications means navigating an endless sea of complexity. We felt this pain at Google, so we started Project IDX, an experimental initiative aimed at bringing your entire full-stack, multiplatform app development workflow to the cloud. Project IDX starts with a web-based workspace that'll feel familiar for coding but fresh. And we're just at the beginning of this journey. W
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く