ブックマーク / zenn.dev/acntechjp (12)

  • Web Clipperを作ってみた - Dify,Chrome拡張,Firecrawl,GPT-4o mini,Notionを活用

    はじめに Web Clipperを普段の業務や生活で活用している方がいると思います。一方で、Web Clipperをご存じでない方のために説明すると、ウェブページの内容を保存し、整理するためのツールのことを言います。仕事や勉強、研究などの様々なテーマでネットを検索していくと思いますが、テーマに関連する重要記事をブックマーク管理したり、内容を整理して管理できます。Notionはてなブックマークを活用している方が一定いるのではと推察しています。 今回、Chromeに表示しているWebサイトの情報をNotionへ保存する仕組みを作りたいと思い取り掛かりました。Notionへ保存するWebサイトの情報は「URL」「タイトル」「Webサイトの概要」の3点としました。 この記事はDifyへAPI通信する方法、スクレイピングの方法などのテクニックが記載されており、Difyの開発を考えている方にとってそ

    Web Clipperを作ってみた - Dify,Chrome拡張,Firecrawl,GPT-4o mini,Notionを活用
    yug1224
    yug1224 2024/08/16
  • "俺GPT"をつくってみた

    いまさらながらGPTsです。樋口はときどきインタビューを受けたりエッセイを書いたりすることがあるのですが、そういう文章をインプットして自分のコピー的存在"俺GPT"をつくってみました。以下のリンクから触れます。 触ってみると、こんな感じの出力が得られます。 うーん、俺GPT、俺の100倍くらい良いやつだな! 以上です。ぜひ遊んでみてください!

    "俺GPT"をつくってみた
    yug1224
    yug1224 2024/08/16
  • DifyとNotionで領収書をOCRして管理!

    はじめに 先日、Claude等を活用した領収書のOCR検証を記事にしました。 今回は、DifyとNotionを連携させて領収書をOCRして、その情報をNotionで管理してみよう!と思います。 イメージはこんなかんじで。 構築ですが、下記記事を参考にしています! アーキテクチャ アーキテクチャはDifyをHubにして、GPT-4o miniを使ってOCRするのと、結果を整形してNotionの領収書管理データベースに書き込むのを想定しています。 Notionの準備 インテグレーション作成、APIのシークレットキーを取得する 下記にアクセスします。 「新しいインテグレーション」をクリックします。 「関連ワークスペース」を設定します。「種類」は「内部」にしています。 「保存」をクリックすると「インテグレーションが作成されました」と表示されます。「インテグレーションを設定」をクリックしましょう。

    DifyとNotionで領収書をOCRして管理!
    yug1224
    yug1224 2024/08/16
  • 今さらながらGoogleの「NotebookLM」を触ったら、インターネットサーフィンが普通にそのまま"仕事"になった話

    今さらながらGoogleの「NotebookLM」を触ったら、インターネットサーフィンが普通にそのまま"仕事"になった話 6月頭くらい? にGoogleがリリースして話題になっていた、自分専用のRAGが簡単に組めるLLMツール「NotebookLM」ですが、そのうち触ろうと思いつつも、「またRAGか」「どうせRAGでしょ? 知ってます」みたいな気持ちでいたら腰が重くなってしまい、いつのまにか一ヶ月くらい経ってしまっていました。 そして今日、たまたまちょっと時間が空いたので触ってみたんですが、想像していたよりもずっと楽しくてすごかったので書き残したく思った次第です。ちなみにこれ↓ NotebookLMってファイルとかURLとかかなりの量放り込めて、放り込まれただけ参照できる(しかもかなり精度高い)っていうツールなんですが、これの何がすごいというと、インターネットサーフィンをしながらおもしろい

    今さらながらGoogleの「NotebookLM」を触ったら、インターネットサーフィンが普通にそのまま"仕事"になった話
    yug1224
    yug1224 2024/07/20
  • Claude 3.5のPublish機能、一瞬でWebアプリリリースできてやばすぎる

    そのまんまです。Publishボタンひとつで、以下リンクのアンビエント音楽を流せるシーケンサーアプリがリリースできてしまいました。ブラウザでそのまま動作します。 手順は、artifacts機能をオンにしてブラウザアプリを作成し、画像赤枠で囲ったPublishボタンを押下するだけ。なにこれ? 新時代すぎます。 システム開発全体がSaaSでかつ自動的に完結する時代がすぐそこまできているものとリアルに感じさせる、地味にやばい機能アップデートでした。

    Claude 3.5のPublish機能、一瞬でWebアプリリリースできてやばすぎる
    yug1224
    yug1224 2024/07/13
  • Claude3.5、シンセサイザーつくれてすごい

    import React, { useState, useCallback, useMemo } from 'react'; const AmbientSynth = () => { const [audioContext, setAudioContext] = useState(null); const [activeOscillators, setActiveOscillators] = useState({}); const initializeAudioContext = useCallback(() => { if (!audioContext) { const context = new (window.AudioContext || window.webkitAudioContext)(); setAudioContext(context); } }, [audioConte

    Claude3.5、シンセサイザーつくれてすごい
    yug1224
    yug1224 2024/06/29
  • Claude 3.5 Sonnetの進化を体感してみた

    Claude 3.5 Sonnetの進化を体感してみた 2024年6月21日、AnthropicがClaude 3 Sonnetの進化版であるLLM「Claude 3.5 Sonnet」を公開しました。 ちょうど、Claudeは課金していたサービスだったということもあり早速触ってどんなことができるか体験してみました。 進化のスピードがすごいです。 1.Claude 3.5 Sonnetについて 詳細は、公式ページClaude 3.5 Sonnetに記載されていますので割愛します。 ユーザーがリアルタイムでAI生成コンテンツ(コードスニペット、テキストドキュメント、ウェブサイトデザインなど)と対話できる新機能「Artifacts」がClaude 3.5 Sonnetに実装されました。 今回のアップデートにより何が変わったのか? ざっと触ってみたかんじ以下のようなことが点が改良されていました。

    Claude 3.5 Sonnetの進化を体感してみた
    yug1224
    yug1224 2024/06/26
  • Claude3.5 Sonnet 新機能「Artifacts」 生成AIを使ったアイディア出しに活用しよう!

    Claudeの新バージョン3.5 Sonnetが登場 直近の生成AI界隈で話題になっている、Claude3.5 Sonnet、一部ではOpen AIのChat GPT-4oを越えている言う意見もちらほら見られます。 3.5 Sonnetになり、たしかにこれまで見劣りしていた回答生成速度はGPT-4o並みになりました。 回答精度は、ちょっとまだ見切れていませんが、良くなっているのでしょう。 新機能「Artifacts」 さて、速度や精度の話しもさることながら、新機能「Artifacts」が大変注目されています。 この機能ですが、「アウトプット」と「会話」とを分けて生成する機能となります。 「アウトプット」には、生成したコードのプレビュー(ただしバックエンド処理は実行されなさそう)や、デザイン、ドキュメントが表示されます。 これまでのChat GPTやGeminiだと全てチャットウインドウで完

    Claude3.5 Sonnet 新機能「Artifacts」 生成AIを使ったアイディア出しに活用しよう!
    yug1224
    yug1224 2024/06/23
  • (比較的)安全便利な生成AI"Microsoft Copilot"を使い倒す

    注意 記事はChatGPT 4o、Gemini 1.5 pro、そしてMicrosoft Copilotを用いて自動生成されたテキストに基づき、編集を加えたものです。ハルシネーションが含まれている可能性を留意のうえお読みください。 はじめに こんにちは。樋口恭介です。日は実践的なMicrosoft Copilotの活用方法について解説します。Microsoft Copilotは多くの大企業や官公庁で導入されている生成AIサービスであり、エンタープライズ向け生成AIサービスとしては最もスタンダードなものの一つだと言っていいでしょう。 しかしなぜ、多くの生成AIサービス・ツールが存在するなかで、Microsoft Copilotなのでしょうか。 早速ですが、以下のプロンプトをMicrosoft Copilotに入力してMicrosoft Copilot自身にその理由をきいてみましょう。 あ

    (比較的)安全便利な生成AI"Microsoft Copilot"を使い倒す
    yug1224
    yug1224 2024/06/05
  • OpenAIのGPT-4oを使って、音声と画像からDjangoコードを生成させてみた

    OpenAIのGPT-4oを使って、音声と画像からDjangoコードを生成させてみた はじめに こんにちは! 前回は、以下の記事でAzureOpenAIのGPT-4oを使った簡単な検証を行ってみましたが、今回は、OpenAIのGPT-4oのAPIを使って、ローカルで動くマルチモーダルなアプリを作ってみました。 アプリの概要 下図のように画像と音声による指示出しで、アウトプットを出力させるようなマルチモーダルアプリにしてみました。 取り込む画像は、「Windowsマーク+Shift+S」で範囲指定して画面キャプチャしておくと、自動でアプリがクリップボード領域から画像データを取得するという仕組みにしてみました。 まず、インプットに使う画像を用意します。 「生成AIのプロンプトを管理するDjangoアプリを開発する」というお題で、今回は以下のようなフロー図(mermaidフロー図)を生成AIに作

    OpenAIのGPT-4oを使って、音声と画像からDjangoコードを生成させてみた
    yug1224
    yug1224 2024/06/05
  • 速度・出力量・コスト効率最強の、Gemini 1.5 Flash!

    はじめに おれの名前は樋口恭介。とにかく速いものが好きだ。そして今日は最近一番"速さ"を感じたものを紹介したい。そう、"Flash"のことです。 5月15日にGoogleの新しいモデル「Gemini 1.5 Flash」が発表され、ちょうどその日に名古屋イノベーターズガレージというところで生成AIのセミナーをすることになっていたので、その場で触ってみました。 そしたら……なんかプロンプト一発で1万字くらいが数分で出てきてしまい、あまりの衝撃で絶句してしまいました。LLMが出てきてから1年半くらい? ほぼ毎日触っていますが、こいつらはまだおれを驚かせてくれる……。 以下は急に446行・約1万字が出てきて放心状態のぼくの様子。 まあこういうのは動きを見てもらうのが一番でしょうから、ぜひ見てみてください。以下、あらためて触ってみた様子を動画におさめたものです。 Flashのデモ動画 いやこれマジ

    速度・出力量・コスト効率最強の、Gemini 1.5 Flash!
    yug1224
    yug1224 2024/05/18
  • GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。

    昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。 そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。 なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。 比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。 あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。 あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

    GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。
    yug1224
    yug1224 2024/05/14
  • 1