タグ

AIに関するDropOutSurf_JOYのブックマーク (13)

  • AIラジオ『zenncast』の技術構成(プロンプトつき)

    先日、個人開発していたzenncastというWebサービスをリリースしました。 Zennでトレンドになっている記事を、毎日AIが10分のラジオにして届けてくれるというサービスです。 ありがたいことに公開後はたくさんの方に試してもらえ、技術的な質問も多数いただきました。 このZennではzenncastの技術構成や仕組みを紹介します(プロンプトつき)。 作ったもの まずはエピソードを一つ選んで1分くらい聴いてみてください! AIラジオの雰囲気が掴めると思います。 主な機能・特徴 毎朝10分のラジオを生成 Zennでトレンドになっている記事を要約して紹介 お便りを投稿すると、翌日のエピソードでAIパーソナリティが拾ってコメントしてくれる BGMをつけて爽やかな聴き心地 これらのステップは人の手を介さずすべて自動化されています。 Spotifyなどの各種プラットフォームへの配信はSpotify

    AIラジオ『zenncast』の技術構成(プロンプトつき)
  • Reader API

    Our world-class embeddings for search, RAG, agent systems.

    Reader API
    DropOutSurf_JOY
    DropOutSurf_JOY 2024/05/17
    URLを入力するとLLMに最適な形で内容を取得してくれるツールで、フッターやサイドメニューなどの不要な要素を取り除いたうえで、LLMが理解しやすいマークダウン形式で本文を返してくれます。
  • Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

    2.3k{icon} {views} 複数のLLM(GPT/Claude3)とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題(TSP)が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。 できたもの Arxivの検索APIを使って検索拡張生成(RAG)したらサーベイを自動生成できた やっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIEmbedding APIを叩く Embeddingに対して巡回セールスマン問題(TSP)を解いてソートをかける 論文の要旨をGPT-3.5-Turboで要約 ソートした

    Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
  • 高木浩光@自宅の日記 - Claude 3に例の「読了目安2時間」記事を解説させてみた

    ■ Claude 3に例の「読了目安2時間」記事を解説させてみた Anthropicの先日出たばかりのClaude 3(Opus)が、ChatGPTのGPT-4を超えてきたと聞いて、自分の原稿を解説させてみたところ、確かに革新的な進歩が見られる。もはや内容を「理解」しているようにしか見えない。GPT-4では、昨年11月に試した時には、そうは見えず、優れた文章読解補助ツールという感じでしかなかった。 一昨年のCafe JILIS「高木浩光さんに訊く、個人データ保護の真髄 ——いま解き明かされる半世紀の経緯と混乱」は、発表した当時、長すぎて読めないから誰か要約してという悲鳴があがっていた。その後、ChatGPTの登場で、その要約能力に期待されたが、冒頭のところしか要約してくれなかったり、薄い論点リストが出てくるだけで、その期待に応えられるものではなかった。 もっとも、GPT-4でも、質問力があ

  • GitHub - SUDO-AI-3D/zero123plus: Code repository for Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model.

    We are thrilled to release Zero123++ v1.2! Main changes: Camera intrinsics are handled more delibrately. The v1.2 model is more robust to a wider range of input field of views, croppings and unifies the output field of view to 30° to better reflect that of realistic close-up views. The fixed set of elevations are changed from 30° and -20° to 20° and -10°. In contrast with novel-view synthesis, the

    GitHub - SUDO-AI-3D/zero123plus: Code repository for Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model.
    DropOutSurf_JOY
    DropOutSurf_JOY 2023/11/05
    画像の別角度生成,ローポリ/イラスト得意,実写苦手
  • Zero-1-to-3: Zero-shot One Image to 3D Object

    TL;DR: We learn to control the camera perspective in large-scale diffusion models, enabling zero-shot novel view synthesis and 3D reconstruction from a single image. Abstract We introduce Zero-1-to-3, a framework for changing the camera viewpoint of an object given just a single RGB image. To perform novel view synthesis in this under-constrained setting, we capitalize on the geometric priors that

    DropOutSurf_JOY
    DropOutSurf_JOY 2023/11/05
    画像の別角度生成
  • VOICEPEAK 商用可能 6ナレーターセット

    『VOICEPEAK』は、最新のAI音声合成技術を搭載し手軽に読み上げさせることが可能な入力文字読み上げソフトです。 お好みの文章や言葉をテキストで入力するだけで、簡単に高品質な音声が作成できます。 感情パラメータによる喜怒哀楽の表現にも対応しています。 「VOICEPEAK 商用可能 6ナレーターセット」には6人のナレーター(男性3名、女性3名)に加えて幼い「女の子」の声も収録されており、様々な声のバリエーションで読み上げが行えます。 個人ユーザー様のご利用はもちろん、教育機関の方や法人様など、様々な商用・業務用途でのご利用も可能です。 OSはWindowsmacOSLinuxに対応。 体験版もご用意しておりますので、ぜひお試しください。 ・女性1 声優:若守みづき 特徴:息づかいが感じられる、やや高めでやわらかく優しい声色です。 ・女性2 声優:野宮佳乃 特徴:落ち着いたトーンの声

    VOICEPEAK 商用可能 6ナレーターセット
    DropOutSurf_JOY
    DropOutSurf_JOY 2023/05/01
    ナレーション,本人,声優
  • TypingMind — The #1 chat frontend UI for ChatGPT, Gemini, Claude, and more.

    Use ChatGPT with enhanced features like chat history search, folders, integrations, prompt library, etc.

    TypingMind — The #1 chat frontend UI for ChatGPT, Gemini, Claude, and more.
    DropOutSurf_JOY
    DropOutSurf_JOY 2023/03/27
    プロンプトパーサー,ChatGPT,30$買い切り型
  • https://lexica.art/

    The state of the art AI image generation engine.

    https://lexica.art/
  • Kaggleランカーの7人に聞いた、2021年面白かったコンペ7選と論文7選 | 宙畑

    7名のKagglerの方にアンケートにご協力いただき、2021年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 2022年8月31日以降、Tellus OSでのデータの閲覧方法など使い方が一部変更になっております。新しいTellus OSの基操作は以下のリンクをご参照ください。 https://www.tellusxdp.com/ja/howtouse/tellus_os/start_tellus_os.html 2021年も数多くのデータ解析コンペが開催され、興味深い論文が多く発表されました。 毎年Kaggle等のデータサイエンスコンペティションに取り組んでおられる人達にアンケートを実施し、その年の記事をまとめてきました。 そして年も7名のKagglerの方にアンケートにご協力いただき、2021年に面白かったコンペと論文を教えていただきましたのでその結果を紹

    Kaggleランカーの7人に聞いた、2021年面白かったコンペ7選と論文7選 | 宙畑
  • カルビーのポテチを売上1.3倍にしたAIの正体--プラグの「パッケージデザインAI」の実力

    カルビー、ネスレ日、森永乳業など、日を代表する品メーカー各社が導入しはじめているAIツールがある。マーケティングリサーチとパッケージデザインを展開するプラグが2年前にリリースした「パッケージデザインAI」だ。 590万人の学習データをもとに、AIが商品のパッケージデザインをたった10秒で評価する。商品開発の期間短縮を図れるほか、 “デザイン改良のヒントを得られる”点も好評だ。料金プランは2つ。1画像あたり1万5000円の単発利用と、1カ月70万円(1年契約なら50万円)の使い放題サブスク型から選べる。ちなみに無料お試しプランは、5月31日よりすべてのサービスが10画像だけなら誰でも利用できるとのこと。 カルビーでは、「とうもりこ」「えだまりこ」に続いて、同社の“最堅”ポテトチップス「クランチポテト」のリニューアルでもパッケージデザインAIを活用したことを2020年9月に発表していたが

    カルビーのポテチを売上1.3倍にしたAIの正体--プラグの「パッケージデザインAI」の実力
  • ピアノ自動採譜「耳コピAI」

    Kentaro Shibata, Eita Nakamura, Kazuyoshi Yoshii Non-local musical statistics as guides for audio-to-score piano transcription Information Sciences, Vol. 566, pp. 262-280, 2021. [arXiv:2008.12710] この論文では機械学習を用いた方法により、ピアノ演奏音声データから楽譜を自動で生成する技術の大幅な精度向上に成功しました。 音楽の演奏を聴いて楽譜に書き取る「採譜」は耳コピとも呼ばれ、特殊な訓練をした人だけもつ能力です。特に、複数の音が重なったピアノなどの音楽の採譜は、音高(ピッチ)とリズムの複雑な組み合わせを認識する必要があり、この能力をコンピューターで再現することは長年の間、非常に難しい問題として研究

    DropOutSurf_JOY
    DropOutSurf_JOY 2021/04/20
    自動採譜,POVNet+RQ+NL法
  • ディープラーニングで脳波を読み取る試み

    by Thư Anh 翻訳プログラムやムービー編集技術、通話時のノイズ抑制などさまざまな技術に応用される「ディープラーニング」を用い、脳波や神経信号から実際の動作を正確に予測しようとしている研究者は大勢います。また、そういった試みは、現在ではかなり手軽に行うことが可能になっていることをFloydHubが明かしています。 Reading Minds with Deep Learning - FloydHub Blog https://blog.floydhub.com/reading-minds-with-deep-learning/ 人間が生きることは、さまざまな情報を適した形に翻訳することの連続です。音を聞くことは空気中の振動を音声に変換することで可能になり、目で見ることは電磁波を映像に変換することで可能になります。そんな人間にかかわるさまざまな信号の中でも、近年特に注目を集めているのが

    ディープラーニングで脳波を読み取る試み
  • 1