You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
はじめに browser-use を使う上で詳しいドキュメントがなかったので、自分で使ってみたことをまとめてみました。 browser-use の基礎的なところは以下にまとめてあります。 ブラウザを起動させず、ヘッドレスモードで実行したい BrowserConfigのheadlessをTrueにすることで、ブラウザを起動させず、ヘッドレスモードで実行することができます。 from browser_use.browser.browser import Browser, BrowserConfig browser = Browser( config=BrowserConfig( headless=True, ) ) async def main(): model = ChatOpenAI(model='gpt-4o') agent = Agent( task='東京の天気をGoogleで調べて
ChatGPTなどの大規模言語モデル (Large Language Model; LLM) にプログラミングやリファクタリングをさせる場合、目的に合ったものが作られているかを何らかの方法で検証する必要がある。 プログラムの正しさを完全に保証する方法はないが、ある程度の正しさを継続して担保するための方法を探ってみたので以下にまとめた。 ポイントは、ChatGPTの生成したプログラムの検証にもやはりChatGPTの力を借りることである。 実行可能性と入出力のチェック プログラムを生成するタスクである場合、いつでも「実行できるか?」というチェックが可能である。これは自然言語の生成と大きく異なる点だろう。実行可能性を確かめることは最低限のチェック項目になる。 エラーが出力された場合、自力で修正するか、もしくは、エラーの内容をChatGPTに提示して修正を依頼し、再度実行可能かを確かめる。 入力・
需要あるかなと思って書いたら結構反響あったのでメモ。 まずこれを動かす環境作り。 誰のPCでも動くようにCPU版にします python -m venv venv venv\Scripts\activate pip install opencv-python-headless numpy pillow onnxruntime huggingface-hub以下のスクリプトを作成 ContentSafetyAnalyzer.py import csv import os from pathlib import Path import cv2 import numpy as np from PIL import Image import onnxruntime as ort from huggingface_hub import hf_hub_download # 画像のサイズ設定 IMAGE_
この記事は日本語特化版JP-Extraが出る前のもので、JP-Extra版についての記述はありません。最新の情報は別記事を参照してください。 宣伝 Style-Bert-VITS2という、Bert-VITS2の日本人向け改良版を作っているので、そちらを使うと早いです Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています 概要 (この記事は随時いろいろ更新しています、2023-12-21にver 2.3での方法を加筆) 中華コミュニティの最新のTTS手法である、Bert-VITS2 の学習方法ガイドです。日本語・中国語・英語で学習できクロスリンガルで感情リファレンス指定とかも出来るすごいやつです。個人的にはVITSよりも圧倒的に速いスピードで(1時間くらい学習を回すだけで)すぐに質がVITS超えで、文章によって
PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan
(2022/09/22 17:52更新)画像生成AI「Stable Diffusion」を簡単に利用するための実行環境の1つである「Stable Diffusion web UI」のコントリビューター(開発貢献者)の1人であるAUTOMATIC1111氏が、フォークではないものの同名で「機能全部盛り」なStable Diffusion web UI(AUTOMATIC1111版)の開発を進めています。 GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI https://github.com/AUTOMATIC1111/stable-diffusion-webui ◆目次 1:AUTOMATIC1111版Stable Diffusion web UIでできること・対応していること 2:Google Co
▶AI×テキストマイニング|メリット、おすすめツール、利用法までご紹介>> 自然言語処理がもつ4つの基礎解析 自然言語処理の基礎解析には様々なものがあります。自然言語処理は性質上、扱う言語によって大きく処理が異なります。 ここでは日本語を処理する基礎解析について紹介していきます。 形態素解析 構文解析 意味解析 文脈解析 それぞれを解説していきます。 ①形態素解析 形態素解析とは、言葉や文章を形態素に分割し、分けた言葉をそれぞれの品詞ごとに分別する処理のことを指します。 「形態素」とは、言葉や単語の最小単位のことです。 簡単に言うと「私は散歩に出かけた。」という文章を形態素解析すると 「私・は・散歩・に・出か・け・た。」という分割になります。 そして分割した一つ一つに品詞を割り振っていきます。 ②構文解析 構文解析とは、形態素に分けた単語同士の関連を明確にする作業のことを指します。 文を分
「精度の高いAIアートをPythonで試したい」 「GoogleのColaboratoryではなく、ローカル環境でStable Diffusionを動かしたい」 このような場合には、この記事の内容が参考になります。 この記事では、ローカル環境で簡単にStable Diffusionを実行する方法を解説しています。 本記事の内容 Stable Diffusionとは?Stable DiffusionをDiffusersで利用する方法学習済みモデルのダウンロード【動作確認】テキストからの画像生成 それでは、上記に沿って解説していきます。 Stable Diffusionとは? Stable Diffusionとは、オープンソース化された高性能画像生成AIです。 Stable Diffusionを用いると、テキストから画像を出力することが可能となっています。 例えば、「Cyberpunk old
初めに、論文発表元のGithubからソースコードを取得します %cd /content !git clone https://github.com/CompVis/latent-diffusion.git 次にライブラリをインストールします。 %cd /content !git clone https://github.com/CompVis/taming-transformers !pip install -e ./taming-transformers !pip install omegaconf>=2.0.0 pytorch-lightning>=1.0.8 torch-fidelity einops import sys sys.path.append(".") sys.path.append('./taming-transformers') from taming.models
・ネットを巡回して、いろいろなハックしてる人のブログや論文を100個ぐらい読む。 ・親切なPFNの人にお時間もらって、謎だった部分や、自分なりにたてた仮説のコンセプトをきいてもらう。 ・Udemyがちょうどセールをしてたので、AI系のクラスを3万円分購入(総額20万円相当)。2倍速でざっくり見る。 …だいたいこんな感じの3週間。数学が難しすぎて、わからないこともいっぱい。ただ頭のなかでe4eエンコーダやpix2pix的に、概念モデルのエンコーダーを作れば、数式なしでもいける感はあった。 総論としてはAIは面白いですね、ロケットサイエンスと別の方向性で「言語化されてない職人芸のアート領域」があり、ここを抑えることができれば、最先端の発見や成果は色々とうまってそうという印象を受けました。 とりあえずStyleGan2で基礎勉強をしながら、BigGan、VQGanとProblematic Dif
日本語でのTransformerの活用拡大と、Transformerを超える技術発展が進む 高度なマルチモーダルAIの研究が進展し、何らかのサービス登場する ローコード/ノーコードのAIサービスを採用するケースが増える AutoMLを利用するケースは着実にさらに増えていく MLOpsは引き続き広まり、採用する企業が増えていく エッジデバイスでの機械学習/TinyMLの利用は引き続き拡大する 量子AI/量子機械学習の実用化に向けた研究がさらに進展する 責任あるAIのための原則や規制が各所で制定され続ける なお、AutoML、MLOps、TinyML(エッジデバイス上の小さな機械学習技術)、責任あるAIを支える説明可能性/解釈可能性やデータとプライバシーの規制強化などのトレンドは、数年を掛けて拡大中のため、2019年や2020年で予測した項目と重複しているが、2022年も継続するトレンドとして
Top > ラーニング > 数理・データ科学のための微積分の基礎が学べる無料講座、京大の講師が担当「我慢も必要だと思って頑張ってほしい」
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く