wate_wateのブックマーク - はてなブックマーク

大規模言語モデルを使って組織内の全データを検索する時にはどのような前処理を行うと効率的なのか？

組織には構造化されたデータベースやきれいにフォーマットされたCSVのほか、何気なく書いたメールから複雑な技術マニュアルまでさまざまな形式のデータが大量に保存されています。検索拡張生成(RAG)は大規模言語モデル(LLM)を使用して全てのデータから適切な情報を引き出すための技術ですが、RAGを使用する際にデータの取り込みと前処理をどのように行うと効率的なのかを、RAG向けデータ前処理サービスを展開するUnstructuredが解説しました。 Understanding What Matters for LLM Ingestion and Preprocessing – Unstructured https://unstructured.io/blog/understanding-what-matters-for-llm-ingestion-and-preprocessing LLMを最大限に

wate_wate 2024/05/06

ドキュメント

リンク

なんでもメモして個人的な知識を蓄える「Obsidian」のキャンバスデータ保存形式「JSON Canvas」がオープンソース化、中身はこんな感じ

Markdown形式でメモを作成できるサービスのObsidianが使用しているObsidian Canvasファイル形式を「JSON Canvas」ファイル形式としてオープンソース化することを発表しました。 JSON Canvas — An open file format for infinite canvas data. https://jsoncanvas.org/ Announcing JSON Canvas: an open file format for infinite canvas data - Obsidian https://obsidian.md/blog/json-canvas/ 仕様についてはjsoncanvas.orgに記載されています。サイトにアクセスするとこんな感じ。右下の「Toggle output」をクリックしてみます。右側にJSON Canvas形式

wate_wate 2024/04/28

markdown

リンク

ウェブサイトに侵入してくる相手にZIP爆弾を送りつけて撃退する方法

セキュリティの不十分なサーバーを見つけるためにウェブサイトには日々多数の不審なアクセスが行われています。そうしたアクセスをしてくる相手に対して解凍すると容量が膨れ上がる「ZIP爆弾」を送りつけて撃退する方法がブログにまとめられています。 How to defend your website with ZIP bombs https://blog.haschek.at/2017/how-to-defend-your-website-with-zip-bombs.html ZIP爆弾とは、ZIPの圧縮アルゴリズムを最大限に活用することで巨大なファイルを小さなZIPファイルに収めたものです。例えば下記の記事ではたった10MBのZIPファイルを解凍すると281TBになってしまうZIP爆弾が登場しています。「非再帰的ZIP爆弾」は10MBのファイルが281TBに膨らむ - GIGAZINE サーバ

wate_wate 2024/01/22

セキュリティ

リンク

ソフトウェア開発者が「学習」について知っておくべき10のこと

どんどんと新しいテクノロジーが勃興し、古いテクノロジーも更新されていくので、ソフトウェア開発者はキャリアを通じて多くのプログラミング言語やフレームワークを学ぶことになります。しかし学ぶことが多いからといって、どのように学べばいいか、どのように学ばせればいいかを理解しているわけではないとして、月刊誌「Communications of the ACM」が、「学習」において知っておくべきことをまとめています。 10 Things Software Developers Should Learn about Learning | January 2024 | Communications of the ACM https://cacm.acm.org/magazines/2024/1/278891-10-things-software-developers-should-learn-about-

wate_wate 2023/12/29

考え方

リンク

共同編集可能で全ブラウザで動くWYSIWYGのリッチテキストエディタを作成できて商用OKなオープンソースの「ProseMirror」を使ってみた

ウェブ上でリッチテキストエディタを構築するためのオープンソースのツールキットが「Pros eMirror」です。商用利用可能なライセンスになっており、もともと2015年にクラウドファンディングで約790万円を超える金額を集めて開発が始まったもの。ニューヨークタイムズ・Atlassian・asana・Box・Evernoteなども継続的な開発をサポートしています。共同編集が可能な構造で、プラグイン形式によって独自の拡張を盛り込むこともできる高機能なツールキットになっており、マークダウン形式とWYSIWYMの切替、ツールチップの実装、画像のアップロード、独自メニューの構築、linterによるスキャンでエラー検出してユーザーが修正できるようにする、コンテンツ内に脚注を追加、変更履歴を保持して各ユーザーがここの変更を調べて元に戻せるようにする、などなどウェブアプリ開発で求められる機能が柔軟に追加でき

wate_wate 2023/08/27

リンク

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに

wate_wate 2023/06/10

ChatGPT

リンク

1600以上のAPIを適切に呼び出してAIに付き物の「幻覚」を大幅に減らす言語モデル「Gorilla」が公開される

近年はChatGPTやBardなどの対話型AIが相次いでリリースされ、人間の質問や呼びかけに対して非常に高精度な回答ができることで注目を浴びていますが、これらの対話型AIは時に真実ではないことを真実かのように話す「ハルシネーション(幻覚)」を起こすことがあります。そこで、膨大な数のAPIから適切なものを呼び出し、幻覚を大幅に減らすことができる言語モデル「Gorilla」を、アメリカ・カリフォルニア大学バークレー校とMicrosoft Researchの研究チームが公開しました。 Gorilla: Large Language Model Connected with Massive APIs https://arxiv.org/abs/2305.15334 Gorilla https://gorilla.cs.berkeley.edu/ GitHub - ShishirPatil/gori

wate_wate 2023/05/28

api

リンク

無料でIFTTTやZapierのようにいろいろなアプリを組み合わせて自動化できるオープンソース＆セルフホスト可能なツール「Activepieces」を使ってGIGAZINEの記事全文RSSをメール送信してみた

複数のウェブサービスを連携し、定型作業を自動化してくれるサービスはIFTTTやZapier、n8nが有名ですが、特定のサービス以外は使えなかったり、有料プランでしか使用できない機能があったりします。オープンソースで使える自動化サービス「Activepieces」は無料で利用でき、自社製ソフトのような他の自動化サービスでは未対応のサービスも自動化できるとのことなので、実際に使ってみました。 Automate Your Business - Open Source Free Zapier Alternative - Self-hosted or Cloud - Activepieces https://www.activepieces.com/ activepieces/activepieces: An automation tool / Workflow automation tool /

wate_wate 2023/05/28

Zapier

リンク

無料でオープンソースの「標準契約書」を元にして契約書・利用規約・NDAなど作成時の面倒な処理をなくして爆速化＆コスト激減できる「Common Paper」を使ってみた

ビジネスを行う際には、さまざまな相手といろんな契約を交わすことが多いはず。よく使用される契約についてはそれぞれの会社で契約書のテンプレートが保存されているものですが、相手から送られてきた契約書など初めての契約書の場合、いちいち弁護士にレビューを頼むのは面倒です。「Common Paper」は弁護士が練り上げた「標準契約書」を利用することで当事者双方が同じ認識を持てる契約書を作成できるサービスです。契約書の作成だけでなく、条文変更の交渉や署名、契約後の保管まで行ってくれるとのことなので、実際に使ってどんなものなのか試してみました。 Build, negotiate, and sign contracts in minutes. - Common Paper https://commonpaper.com/ 公式サイトにアクセスすると下図の画面になります。まずは「Standards」をクリック

wate_wate 2023/05/28

テンプレート

リンク

オープンソースでセルフホスト可能＆自由自在にプランをカスタマイズ可能な課金管理システム「Lotus」使用レビュー

「使った分だけ課金」という仕組みはシンプルで分かりやすいですが、一方で使用量をユーザーごとに計測して請求金額を算出する仕組みはなかなか複雑になってしまいがちです。「Lotus」はそうした複雑な課金管理を一発で解決できるツールとのことで、どんなことができるのか実際に確かめてみました。 Lotus — Open Source Pricing and Billing Infrastructure https://www.uselotus.io/ LotusのサーバーはDockerを利用して起動するため、下記のリンクから自分の環境に合った方法でDockerをインストールします。 Install Docker Engine | Docker Documentation https://docs.docker.com/engine/install/ 今回はCentOSを利用するため、下記のコマンドを入

wate_wate 2023/05/07

リンク

グラボ非搭載の低スペックPCでも使える軽量チャットAI「GPT4ALL」の使い方まとめ

ChatGPTを代表に高性能なチャットAIが続々と発表されていますが、チャットAIの多くはオンラインで使う必要がある他、オフラインで動作するチャットAIも高性能PCを求めるものがほとんどです。そんな中、高性能GPUを搭載していないPCでも動かせる「GPT4ALL」が登場しました。実際に使ってみたところグラフィックボードを搭載していないモバイルノートPCでも動かせたので、使い方をまとめてみました。 GitHub - nomic-ai/gpt4all: gpt4all: a chatbot trained on a massive collection of clean assistant data including code, stories and dialogue https://github.com/nomic-ai/gpt4all GPT4ALLは、Nomic AIが開発したチャッ

wate_wate 2023/04/01

メモ

リンク

ChatGPTやGoogleのBardに匹敵する精度の日本語対応チャットAI「Vicuna-13B」が公開されたので使ってみた

カリフォルニア大学バークレー校などの研究チームがオープンソースの大規模言語モデル「Vicuna-13B」を公開しました。Vicuna-13BはOpenAIのChatGPTやGoogleのBardに近い精度で回答を生成でき、日本語にも対応しているとのこと。実際に動かせるデモも公開されていたので、使ってみました。 Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | by the Team with members from UC Berkeley, CMU, Stanford, and UC San Diego https://vicuna.lmsys.org/ GitHub - lm-sys/FastChat: An open platform for training, serving, a

wate_wate 2023/04/01

ChatGPT

リンク

興味のあるものをオススメしてくれる「レコメンデーション」に欠かせない5つのアルゴリズム

ECサイトで買い物中に表示されるおすすめ商品から、動画サイトで自動的に再生される関連動画まで、現代のインターネットユーザーはさまざまな場所で「レコメンデーション」に接しています。そんなレコメンデーションに欠かせない5つのアルゴリズムを、グラフデータベースサービスを手がけるMemgraphが解説しています。 Five Recommendation Algorithms No Recommendation Engine Is Whole Without https://memgraph.com/blog/five-recommendation-algorithms-no-recommendation-engine-is-whole-without ◆1：幅優先探索幅優先探索(BFS)とは、木構造やグラフの探索に用いられるアルゴリズムです。仕組みは単純で、ある開始ノードを選択したらそれとつなが

wate_wate 2022/11/28

アルゴリズム

リンク

文章生成AI「GPT-3」を使って企業の採用担当者にメールを自動返信したソフトウェアエンジニアが登場

「GPT-3」は人間と遜色ない文章を生み出し、人間との自然な対話も可能な文章生成AIです。文章作成やコーディングの支援に使われるGPT-3ですが、ソフトウェアエンジニアのマット・ビリュー氏はこれをメール返信時の定型文作成に用い、見事返信の自動化に成功しました。 Responding to recruiter em ails with GPT-3 | Matt’s programming blog https://matthewbilyeu.com/blog/2022-09-01/responding-to-recruiter-em ails-with-gpt-3 ビリュー氏の下には企業からの求人メールが頻繁に届くそうですが、特に求職中というわけではないビリュー氏はメールの内容にはあまり興味がないそうです。しかし、放っておくと何度もメールを送ってくる企業もあるので、ビリュー氏は逐次確認して返信し

wate_wate 2022/10/15

メール

リンク

未開の星で工場のラインを組み上げていくゲーム「Factorio」が得意な人はソフトウェアエンジニアに向いている

未開の惑星でなんとか素材をかき集めて工場を作り、宇宙船を作って星からの脱出を目指すリアルタイムシミュレーションゲーム「Factorio」が得意な人はソフトウェアエンジニアに向いているということを、エンジニアのKrishna Sundarramさんが自身の経験をもとに主張しています。 Factorio and Software Engineering · Krishna's words https://blog.nindalf.com/posts/factorio-and-software-engineering/ 「Factorio」は、未開の惑星に漂着してしまったプレイヤーが、素材を集め、加工工程をじわじわと自動化して、最終的には星からの脱出を目指すゲーム。2012年にアルファ版がリリースされて、どんどんとバージョンアップを重ね、2020年8月にとうとう正式版・バージョン1.0がリリース

wate_wate 2020/08/29

プログラマ

リンク

コマンド一発でウェブサイトのアクセスログをターミナルやウェブブラウザで可視化できる「GoAccess」レビュー

ウェブサイトのアクセス数や訪問者の属性を分析するために「Google Analytics」を使っている人は多いはず。無料のオープンソースソフトウェア「GoAccess」を使うと、トラッキングコードをウェブサイトに埋め込むことなく、リアルタイムにアクセス状況をターミナルやブラウザ上で可視化することができます。 GoAccess - Visual Web Log Analyzer https://goaccess.io/ 今回はUbuntu 18.04上にGoAccessをインストールしてみます。最新版をインストールするには下記コマンドを実行すればOK。 echo "deb http://deb.goaccess.io/ $(lsb_release -cs) main" | sudo tee -a /etc/apt/sources.list.d/goaccess.list wget -O -

wate_wate 2020/06/18

アクセス解析

リンク

無料で美麗な絵画やカオスなポスターなどがダウンロードし放題、編集や商用利用も可能な「Artvee」が登場

巨匠が描いた絵画から本の挿絵、ポスターなどさまざまな画像を無料で閲覧・ダウンロード可能な「Artvee」が公開されています。Artveeに掲載されているアートワークはどれもパブリックドメインなので、自由に利用・編集・再頒布が可能で商用利用もOKです。 Artvee https://artvee.com/ 上記URLにアクセスすると、検索欄が表示されました。「SELECT CATEGORY」をクリックすると…… カテゴリは「Abstract(抽象絵画)」「Animals(動物画)」「Botanical(植物画)」「Figurative(具象絵画)」「Historical(歴史画)」「Illustration(イラストレーション)」「Landscape(風景画)」「Mythologys(神話)」「Posters(ポスター)」「Religion(宗教画)」「Still Life(静物画)」が用

wate_wate 2020/06/18

素材

リンク

ひそかに行われた「IE6暗殺計画」が成功したわけを当時の開発者が語る

by bnpositive 2001年に公開されたInternet Explorerは2014年にサポートが終了するまで長きにわたって使われましたが、後年は、セキュリティ上の問題やバグの多さから「早く殺すべきだ」という声も多方からあがっていました。YouTubeでエンジニアとして働いていたChris Zacharias氏もIE6の対応に苦しめられた1人であり、当時、寝不足の開発メンバーたちによって「IE6暗殺計画」が立ちあがっていたことを振り返っています。 A Conspiracy To Kill IE6 http://blog.chriszacharias.com/a-conspiracy-to-kill-ie6 Zacharias氏によると、当時、特定の環境下になるとIE6はサポートしていないHTMLの属性セレクタの影響によってクラッシュやブルースクリーンの引き金になることがあったとの

wate_wate 2019/05/08

リンク

バージョン管理システム「Git」の使い方はどのように教えるのが良いのか？

GitはLinuxの生みの親であるリーナス・トーバルズによって開発されたバージョン管理のツールで、数々のバージョン管理システムのなかで最も有名なものとなっています。しかし、Gitの考え方の中には初めて利用するという人にとっては分かりにくいものも存在します。エンジニアのレイチェル・M・カルメナさんが、Gitの基本的な概念について図を用いてまとめています。 How to teach Git | Rachel M. Carmena https://rachelcarmena.github.io/2018/12/12/how-to-teach-git.html カルメナさんが解説を書こうと思ったのはGitを使い始めた同僚のモニターに下の画像のようなポストイットが貼られていたことがきっかけだそうです。ポストイットには「add」「commit」「push」のコマンドが書かれていますが、その同僚は3つの

wate_wate 2019/02/05

git

リンク

「なぜSaaSは世界中に広がるのか？」「SaaSの販売モデル」「SaaSの基本方程式」など成功に導くための方法をStripeがまとめて公開中

ソフトウェアをパッケージ製品としてユーザーにライセンス販売するのではなく、ソフトウェアを提供者側のコンピュータで稼働させ、そのソフトウェアの機能をインターネットなどのネットワーク経由でサービスとして提供するのがSaaS(Software as a Service)ですが、そんなSaaSビジネスを会社で運営していくための考え方や公式をStripeが公式ブログにまとめています。 Stripe Atlas: Software as a Service, as a business https://stripe.com/atlas/guides/business-of-saas ◆なぜSaaSは世界中に広がるのか？・顧客の場合 Stripeは、「顧客はSaaSが『機能する』ので、SaaSを好む」のだとしています。SaaSではサービスを使うために何かをインストールする必要がなく、その点が魅力となり

wate_wate 2018/04/12

仕事

リンク

はてなブックマーク

タグ

ブックマーク / gigazine.net (77)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス