![Meta、写真内のあらゆるものをきれいに切り出せる技術](https://cdn-ak-scissors.b.st-hatena.com/image/square/3ffeade47fe4a2568cdf752afd2a1714c864eb31/height=288;version=1;width=512/https%3A%2F%2Fpc.watch.impress.co.jp%2Fimg%2Fpcw%2Flist%2F1491%2F565%2F01.jpg)
こんにちは!Fusic 機械学習チームの鷲崎です。機械学習モデルの開発から運用までなんでもしています。もし、機械学習で困っていることがあれば、気軽にお問い合わせください。 新しい画像セグメンテーションのモデルである、Segment Anything Model(SAM)がMeta社から発表されました(23/4)。 使ってみたところ、分割しすぎな気がしますが、胴体やサンドバックなどうまく分離できています。サンドバックなどデータにほとんど含まれてなさそうですが、すごいです。後ほど解説しますが、プロンプトエンジニアリング次第では、より精度がよくなるかもしれません。 アブストより、SAMの特徴としては、 1100万枚の画像とそれに付随した10億以上のマスクからなる世界最大のデータセットを構築し、訓練した プロンプトを用いて新しい画像分布やタスクにZeroshotで対応できるようにした 多くのタスク
03/20/2024 v0.9 released, highlighting a full feature admin UI. 12/23/2023 Seamlessly deploy Tabby on any cloud with SkyServe 🛫 from SkyPilot. Archived 12/15/2023 v0.7.0 released with team management and secured access! 10/15/2023 RAG-based code completion is enabled by detail in v0.3.0🎉! Check out the blogpost explaining how Tabby utilizes repo-level context to get even smarter! 11/27/2023 v0.6
の使い方をご紹介するという内容になっています。 Stable Diffusion系のモデルを使って美少女イラスト等を生成している方であれば、キャラクターの手や指がグチャグチャになってしまう問題に悩むことが多いと思います。この問題に関しては今まで多くの解決策が模索されていましたが今一つ決定打と呼べる案がありませんでした。 しかしそんな中で「ControlNet」と呼ばれる新技術が登場し、これを活用して手や指の問題をある程度解決する方法が考案されました。そして先日にはこの方法をStable Diffusion web UIで簡単に使える無料の拡張機能が登場したので、ぜひ情報を共有しておこうと思った次第です。 ここではその拡張機能「Depth map library and poser」について、インストール方法や使い方を解説していきますね。 ※2023/04/17追記: 最新のControlN
Staff Engineer: Leadership beyond the management track (English Edition) www.amazon.co.jp Staff Engineer, Leadership beyond the management trackというタイトルの本を呼んだ 何が書かれているのかGAFAに代表される米国Tech companyではSoftware Engineerの職位として、Stuff Engineerというタイトル・ポジション・グレードがある。会社によって違いはあるものの、概ねSeniorよりも更に上のグレードのエンジニアを指す。 例えばGoogleでは下記のようなグレードがある。Google Senior Fellowが最上位となる。 Senior Software Engineer Staff Software Enginee
このnoteのターゲットChatGPTを使ってるけど、イマイチ使いこなせていない人 ChatGPTにどんな指示をしていいか迷っている人 このnoteで得られることゴールシークプロンプトの概要を理解できる ゴールシークプロントの使い方が分かる ゴールシークプロンプトとは聞き慣れない単語だと思うので、まずはそれぞれの言葉を説明しますね。 ■ ゴール:AIを使ってユーザーが達成したい目標 ■ シーク:探す, 探し求める ■ プロンプト:AIに指示するために入力する文章 つまり、ゴールシークプロンプトとは「ゴールを自ら探しに行ってくれるプロンプト」のことです。 ゴールシークプロンプトがすごい理由ゴールシークプロンプトがすごい理由は、以下の3点。 1. 曖昧なゴール設定でも、AIが明確なゴールを探してくれる 2. AIと対話しながらゴールを探せる 3. 汎用性のある形に変更もできる ChatGPTに
今のGPT4は実践投入レベルの使い方もあれば、そうでない使い方もあると思っている。今回のポストでは、私がやった執筆支援の実験を8つほど紹介し、物書き目線から3段階評価した。○は作品制作にすでに実戦投入している利用方法。△は自分が実作に活用はしていないものの、ユーザビリティが良くなれば使いたいと思えるもの。×は現状だと使い所がない、ありがたみがないなと思ったものである。 1)AI読者モニター:書いた小説を読んでもらって感想や質問をGPTに自動生成させる → △使って意味ある場面はありそうPython-docxを利用して該当の位置にGPTの感想や質問を自動挿入 できた〜!ボタン1つ押せばChatGPTにWordで小説を読ませて「ここまで読んだときにこういう感想を持ったよ」とか「こういう疑問を持ったよ」みたいなことをコメントさせられるようになった。仮想モニタ読者の反応をヒントに執筆支援ができんじ
こんにちは、株式会社スペースマーケットのエンジニアのtchmrです。 コンビニ決済(以下、コンビニ支払い)について検証したので知見を共有できればと思います。 コンビニで利用料を支払うことができればクレジットカードを持っていない方にもサービスを利用いただきやすくなるかと思っています。 公式ドキュメント コンビニ支払いの流れ コンビニ支払いがどのような流れで行われるのかをざっくり示すと以下となります。 スペースの予約時 利用者がコンビニ支払いを選択してスペースの予約をする 予約ステータスが支払い待ちとなるので、利用者はコンビニで支払いを行う Stripe側で支払いを受け付けた旨の情報がスペースマーケットに連携される 予約ステータスが予約完了に更新される 予約キャンセルに伴う返金時 管理者が予約キャンセルを行う 利用者宛にStripeから返金口座登録メールが送信される 利用者が返金口座を登録する
Chat Plugins https://platform.openai.com/docs/plugins/introduction OpenAPI仕様書を公開しておくとGPTがそれを解釈してユーザーの入力からWebリクエストを作って処理してくれるすごいやつ プラグイン開発者は自分の作った各APIのdescriptionをちゃんと書いておけばあとはChatGPT側でよしなにやってくれる LangChainのOpenAPI Agentに仕組みは似ている Retrieval Plugin そのままフォークして使える検索用の知識を与えるプラグイン(APIサーバー)の雛形 こんな感じでAPI作れば動くよというリファレンス実装で、別にPython必須というわけではない 開発者は好きなベクトルDBを選んで自分で構築したインデックスを突っ込んでおけばOK ベクトルDBが必要な理由はテキストを入力してテキ
「ディープリンク」とは ディープリンクとは、Webページやスマートフォンアプリからアプリの特定コンテンツへ移動するリンクのことです。 ディープリンクは元々、あるWebサイトのページから他のWebサイトのページやコンテンツに直接リンクすることを指して使われている言葉でしたが、近年になってスマートフォンやアプリの利用が増加したことに伴い、現在利用されているような意味へと再定義されました。 (引用:AIアナリストBLOG) iOSにおける実現方法は以下です。 カスタムURLスキーム Universal Links Firebase Dynamic Links カスタムURLスキーム URLスキームとは、URLの“://”より前の部分で、リソースにアクセスするための手段を示します。 http/https, ftp, mailto などなどが既定のURLスキームです。 アプリ独自で決めたURLスキー
パッケージ設計をすべきか否か たまたま会社で世間話をしているときに、 「Unityのパッケージってどうやって設計すべきですか」 という相談を受けました。知らんがな。私はUnityエンジニアじゃないし。と、思ったんですが、昔、自分もパッケージ設計やディレクトリ設計にこだわっていました。しかし、今となっては、ほぼほぼこだわらなくなりました。そして、その時に、 「質問が的を外している気がする」 ということをとっさに思いました。それは、なぜなのか?どうしてなのか?ということを少し説明したいと思いました。 インクリメンタルなコンポーネント設計 インクリメンタルなコンポーネント設計をしてみます。ここでは、簡単な例として、REST APIでユーザーを登録するAPIを考えます。pythonのflaskで書いてみると以下のようなコード(main1.py)になります。今回、ユーザー名として、6文字以上30文字
概要 gpt の中にプログラム的な構造を構築し, 感想文を改善していく手法を取る 結果と所管 gpt4の場合, だいぶそれっぽい感想が得られた gpt3.5 の場合, 本文と関係の無い感想になった. プログラマとしては, こういう構造定義の方がやりやすい 定義した関数の概要 以下の関数群を定義する ペルソナ 感情変数と重み 読書中の感情推察 感想出力 感想のレビュアー 作成したプロンプト 再帰関数になっていない 以下の構造を再帰処理し、読書感想文を作成してください # 構造とは 入出力インターフェイスを所持した関数群になります。 # 関数定義 - 統括関数 - 統括関数は、これから定義される全ての関数と接続されている - それぞれの関数からの入出力を適切な関数へ受け渡す事を管理します - 接続された全ての関数の、変数の状態や処理結果を履歴として保全します。 - 読者のペルソナ定義関数 -
このBOOTHページを見て「あれ、0円でダウンロードできる?」と気づいた人は鋭いです。 VMMには有料版が別途あって、こちらは2,500円です(※ブースト機能でさらに高額を払うのも可能です)。 BOOTHの売上累計額を構成しているのは大部分がこの有料版で、一部は無料版のブースト枠も含まれています。 「なるほど、じゃあ無料のは体験版か~」と思った人は鋭いけどハズレです。VMMでは重要な機能も含めて、ほぼ全機能が0円版で利用できます。コードも一部を除き公開しています。 https://github.com/malaybaku/VmagicMirror 要はドネーションウェア的な公開方式になっていて、その状態で実質的にVMMだけを公開して売上額が1000万円に到達した、という次第です。 ぶっちゃけ額面が載ってるツイートをするのは怖いんですが、ドネーション的なお金なのでキリが良いタイミングで報告す
スクウェア・エニックスは2022年12月13日、『クライシス コア -ファイナルファンタジーVII- リユニオン』を発売した。対応プラットフォームはPS4/PS5/Xbox One/Xbox Series X|S/Nintendo Switch/PC(Steam)。同作は、PSP向けに発売された『クライシス コア -ファイナルファンタジーVII-』を再創造した作品。原作のテイストを守りつつ、丁寧に再創造されており、Steamレビューでは「非常に好評」とされ高い評価を獲得している。 15年前の作品を再創造するという難しさもさることながら、本作はPS5からNintendo Switchまで幅広いプラットフォームでリリースするという困難なミッションを達成している。どのように再創造が果たされたのか。今回、開発を担当したスクウェア・エニックスとトーセの一部スタッフに、音声・映像技術で本作に貢献したC
【導入】 ・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。 ・大まかな記事の流れは「RVCで学習モデルを作る」→「学習モデルをVC Clientに入れる」→「リアルタイムボイチェン完成!」です。 ・「RVC」という超凄い非リアルタイム音声変換ソフトが話題になったと思ったら、翌日に「VC Client」という超凄いソフトがリアルタイム音声変換に対応したのを聞いたので、急いで記事を書きました。 ・この記事ではずんだもんボイスになることを目標としていますが、学習先の音声さえあればどんな音声にもなれます。 【手順】 ①~RVCのダウンロード~ ・以下のURLを開いて、「RVC-beta.7z」をDLします。(要Hugging Faceアカウント)(Hugging Faceアカウントを持ってない人は無料なので作りましょう) https://huggi
VOICEVOXとPython VOICEVOXは、公式いわく”無料で使える中品質なテキスト読み上げソフトウェア”とのことです。中品質と書いてありますが、過去に使っていたOpen JTalkよりかなり高品質な気がします。Open JTalkに関する記事は以下です。 とりあえず試してみる分には簡単です。以下サイトに行くと、Windows/Mac/Linuxそれぞれのバイナリがダウンロードできます。 起動すると、以下のような画面が出ます。 小さいアイコンをクリックするとキャラが変えられます。色々しゃべらせてみると、もうこれだけで楽しくて便利です。 このVOICEVOXですが、公式GitHubサイトによると、以下の図のようにコア部分は、MITライセンスでOSSとして提供されています。Pythonバインディングもあるので、手軽にPythonの音声合成ライブラリとして使えます。素晴らしいですね。 上
Dockerコンテナの概要と利点 コンテナでぐぐると、「仮想サーバー技術がうんたらこんたら〜」と出てくるが、それは忘れていいというのから衝撃を受けた。笑 それから入る情報が多かったので、(正直意味不だった) 一言で、コンテナとは「互いに影響しない隔離された実行環境を提供する技術」 もっとシンプルに考えていい。難しく考えようとしていた →システムの実行環境を隔離した空間のこと 例)システムAとシステムBは、コンテナがあれば例えば、共通のフレームワークをアップデートしたりしても互い影響はない コンテナの特徴は、「独立」していること(ここで言う独立とは単体で完結していること) 1台のサーバーにシステムが複数あっても競合しないこと コンテナを実現するソフトの代表が「Docker」 DockerはLinux上で動作するソフトで、Linuxに「Docker Engine」をインストールするとDocke
はじめに 2023年3月末にiOS 16.4がリリースされたことで、ついにすべてのモダンブラウザユーザーに対してWeb Pushを送れるようになりました。 本記事は、筆者が個人開発しているWebサービスでWeb Push機能を実装したときに調べたことや行ったことをメモとして残すものです。Web Push機能の実装を検討されている方の参考になりましたら幸いです。 なお、筆者は外部サービスへの依存をなるべく減らしたかったため、FCMなどのプッシュ通知機能を提供してくれるものはなるべく使わずに実装したのですが、大変だったので基本的には素直にSaaS等を使った方がよいと思います。 注意事項として、筆者はバックエンドに専門性がありません。そのため、何か間違った記述があるかもしれません。特に暗号化周りは理解が甘い点があると思います。もし誤りを発見された場合は優しめに教えていただけると助かります。よろし
v.1.5.3.18a Bugfix: FCPE v.1.5.3.18 (removed.) New Feature: FCPE Easy-VC (experimental) v.1.5.3.17b bugfix: clear setting improve file sanitizer chage: default input chunk size: 192. decided by this chart.(https://rentry.co/VoiceChangerGuide#gpu-chart-for-known-working-chunkextra) v.1.5.3.17a Bug Fixes: Server mode error RVC Model merger Misc Add RVC Sample Chihaya-Jinja (https://chihaya369.booth.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く