drk7jpのブックマーク / 2023年6月28日

drk7jp id:drk7jp

2023年6月28日のブックマーク (8件)

Twitter API、また急に仕様変更　有料機能「フォロワー／フォロー取得」を突然削除　事前告知なし、開発者から批判相次ぐ
米X（元Twitter社）が提供するTwitter APIの有料機能の一部が突如使えなくなり、公式ドキュメントからも記述がなくなっていることが分かった。問題の機能は「フォロワー取得」と「フォロー取得」。この件について、Twitterからの事前告知などは確認できておらず、この件について日本時間6月28日午後5時現在、Xは何も発表していない。
drk7jp 2023/06/28
リンク
Azure OpenAIをもちいたLLMアプリの企画から本番構築までの道のり/Microsoft Build Japan
2023.6.27 Microsoft Build Japan で話した資料です。
drk7jp 2023/06/28
リンク
Android Flash Tool
drk7jp 2023/06/28
リンク
Pythonを使えばテキストを含むPDFの解析は簡単だ・・・そんなふうに考えていた時期が俺にもありました - Qiita
まえがき Pythonを使えばテキストを含むPDFの解析は簡単だ・・・文字情報が含まれていればPDFから文字やテーブルの情報を抽出して、そのデータを利用してWebサービスなんて簡単につくれるぜ、ひゃっほーいっという安易な思考の結果が以下になります。新型コロナウイルス感染症の感染拡大を踏まえたオンライン診療のPDFデータを利用してみた https://qiita.com/mima_ita/it ems/c0f28323f330c5f59ed8 ここで得た最も重要な知見は「PDFデータをコンピュータで読むのはやめとけ、あれは人間が読むものだ」ということと、わずかなPythonを使用したPDFの取り扱いの方法です。今回はそのわずかなPythonを使用したPDFの取り扱い方法について説明します。なお、実験環境はWindow10のPython 3.7.5 64bitになります。 operand
drk7jp 2023/06/28
リンク
LangChain のインデックスについて | Hakky Handbook
from abc import ABC, abstractmethod from typing import List from langchain.schema import Document class BaseRetriever(ABC): @abstractmethod def get_relevant_documents(self, query: str) -> List[Document]: """Get texts relevant for a query. Args: query: string to find relevant tests for Returns: List of relevant documents """ このクラスは、get_relevant_documents というメソッドを持ち、これは受け取ったクエリから関連するドキュメントを返すようなメソッド
drk7jp 2023/06/28
リンク
embedding database "Chroma"とLLMを使って記憶に基づいた回答をAgentにさせてみました。 - CCCMKホールディングス TECH Labの Tech Blog
こんにちは、CCCMKホールディングス TECH LABの三浦です。私はとても忘れっぽいのですが、何故か何十年経っても覚えていること、思い出せることがあります。すぐ忘れてしまうことと、ずっと覚えていることの違いってなんだろう、と考えてみるのですがよくわかりません。でも今でも思い出せることは、たぶんこれからもずっと忘れないような気がしています。さて、今回はLangChainやLlamaIndexを使っていると、自ずと使うことが多いChromaというオープンソースのembedding databaseについて触れたいと思います。Chromaはテキストデータを埋め込み表現と一緒に格納する構造を持ち、検索機能や削除・更新といったデータ操作機能を備えています。 Chroma ChromaはLangChainやLlamaIndexといったLLMを使ったアプリケーション開発フレームワークにおいて活用
drk7jp 2023/06/28
リンク
Chroma: LLMのEmbeddingに使えるデータベース｜tan_z_tan
なぜEmbeddingが必要か？ChatGPTやGPT-3.5などの大規模言語モデルを使って実際に大規模なドキュメントを扱うときに、大きな壁としてToken数の制限があります（GPT-3.5 Turboでは4,096 tokensなので日本語で3000文字くらい）。この制限を超えたデータを扱うために使われるテクニックがドキュメントを細かくChunkに分割してEmbeddingを作るIndexingと呼ばれる方法です。事前に大規模なドキュメントに対してIndexingを行います。その後、与えられた入力文に対して、分割したChunkの中で類似度が高いChunkを使ってプロンプトを生成することで、あたかも全体のドキュメントの知識を使えるように動作します。この類似度計算に使うのが文章を数値のベクトルで表現したEmbeddingです。 ChromaChromaはオープンソースのEmbeddin
drk7jp 2023/06/28
リンク
Combine vectore store into Langchain toolkit
drk7jp 2023/06/28
リンク
- 2023年6月29日
- 2023年6月28日
- 2023年6月27日