タグ

ブックマーク / tech-blog.abeja.asia (17)

  • 社内用語集を気軽に質問できるSlackBotを作ってみた (RAGの応用アプリ) - ABEJA Tech Blog

    こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。 LangChain を使用すれば、RAG [Retrieval Augment Generation] を使用した LLM アプリケーションを簡単に作成できるので便利ですよね。 今回 LangChain での RAG を使用して、LLM が学習に使用していない特定ドメインでの用語を応答する Slack ボットをさくっと作ってみたので共有します。 コード一式は、以下の GitHub レポジトリに保管しています。 github.com 使い方 コード解説 アーキテクチャ RAG の仕組み ヒューマンインザループによる継続的品質改善 まとめ We Are Hiring! 使い方 事前準備として{用語集スプレッドシートの作成・Slack アプリの初期設定・各種

    社内用語集を気軽に質問できるSlackBotを作ってみた (RAGの応用アプリ) - ABEJA Tech Blog
    peketamin
    peketamin 2024/02/09
  • LangChainを使わない - ABEJA Tech Blog

    TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画しています。LLMといえばLangChainが便利ですね。OpenAI APIの利用だけでなく、各種ドキュメントのパースが出来たり、HuggingFaceやインデックスDBを扱う他のライブラリとインテ

    LangChainを使わない - ABEJA Tech Blog
    peketamin
    peketamin 2023/12/13
  • 暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-後半- - ABEJA Tech Blog

    はじめに このブログに書かれていること 自己紹介 注意 Part3 現代の暗号 共通鍵暗号方式と鍵配送問題 鍵配送問題とは? 共通鍵暗号方式と公開鍵暗号方式の違いとメリット・デメリット RSA暗号 RSAで使われる鍵 処理手順 暗号化の手順 復号の手順 RSA暗号の数学的背景 一次不定式が自然数解を持つ理由 eとLの関係性 そもそもなぜこの式で元の平文に戻るのか?の数学的根拠 証明パート1 フェルマーの小定理 中国剰余定理 RSA暗号をPythonで 楕円曲線暗号 楕円曲線とは? 楕円曲線の式 楕円曲線における足し算の定義 楕円曲線における引き算の定義 無限遠点 楕円曲線における分配法則と交換法則 楕円曲線の加法を式で表現 点Pと点Qが異なる場合 点Pと点P 同じ点を足し合わせる場合 有限体 有限体とは? 有限体上の楕円曲線 楕円曲線暗号における鍵 ECDH鍵共有 数式ベースでの手順説明

    暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-後半- - ABEJA Tech Blog
  • 暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-前半- - ABEJA Tech Blog

    はじめに このブログに書かれていること 自己紹介 注意 Part1 古典暗号 2つの暗号方式 スキュタレー暗号 アルゴリズムと鍵 シーザー暗号 原理 頻度分析 アルベルティ暗号 ヴィジュネル暗号 如何にしてヴィジュネル暗号は破られたか Part2 近代暗号 エニグマ エニグマの登場 エニグマの基構造 如何にしてエニグマは突破されたか 前提条件 必ず異なる文字に変換される性質を利用 ループを利用 まとめ 参考文献 採用情報 はじめに このブログに書かれていること 前半 古代暗号から始まる暗号の歴史 エニグマの構造と解読法について 後半(後半ブログは こちら) RSA暗号の基 楕円曲線暗号の基 自己紹介 こんにちは!株式会社ABEJAの @Takayoshi_ma です。今回のテックブログですが、ネタに5時間程度悩んだ挙句、暗号を取り上げることにしました!暗号化手法の解説にとどまらず、そ

    暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-前半- - ABEJA Tech Blog
  • Stable Diffusion の仕組みを理解する - ABEJA Tech Blog

    この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは AI モデル開発ではなくもっぱらバックエンド開発メインでやっていて完全に乗り遅れた感あるので、この機会に有名な Diffusion Model の1つである Stable Diffusion v1 について調べてみました!*1 では早速題に入りたいと思います! Stable Diffusion v1 とは? Denoising Diffusion Probabilistic Model(DDPM) 学習時の動作 for

    Stable Diffusion の仕組みを理解する - ABEJA Tech Blog
    peketamin
    peketamin 2022/12/19
  • AI生成物と著作権とAI倫理 - ABEJA Tech Blog

    記事はABEJAアドベントカレンダー2022の17日目の記事です!昨日に引き続き担当の古川です! 昨日の予告通り生成AIによるAI生成物の著作権と倫理の話です。 生成AIと言っても主に念頭に置いているのは画像生成AIです(議論の発端自体はmimicやMidjourneyです。)。ただ、他のコンテンツを生成するAIにも基的には同じ理論が当てはまるかと思います。 サマリ 著作権の話 論点整理 生成物の著作権 なぜ著作権を認めたいのか 生成物による著作権侵害 呪文の著作権 AI倫理の話 画風をパクる 仕事の喪失 サマリ やや法律的な専門的な話も含まれるので、結論だけ知りたい人のために、サマリだけ先に。 今主流の乱数やPromptから画像などを作ってくれる生成AIによるAI生成物には著作権が原則として発生しないです。 Promptの呪文の著作権が議論されることがありますが、議論の実益があるのか

    AI生成物と著作権とAI倫理 - ABEJA Tech Blog
    peketamin
    peketamin 2022/12/18
  • 夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話 - ABEJA Tech Blog

    皆さんこんにちは! ABEJAでデータサイエンティストをしている服部といいます。 記事はABEJA Advent Calendar2022の10日目の記事になります。 背景 引っ越しから2年.... データサイエンティストとしてのリベンジ 前回の反省を踏まえて.... 1. お得そうに見える土地には絶対に理由がある 2. 土地の数はせいぜい限られていて全部探すのも難しくない 今回解く課題 土地探しにおける意見の違いとは? どうやってデータサイエンスを使って夫婦の擦り合せを行う? アプローチ 実装 1. 架空の土地条件をランダムに沢山作る 土地条件の項目数や取りうる範囲が増えすぎないようにする 自分たちにとって関連性が高い項目を入れる 2. 作った土地に対して夫婦それぞれで値段をつける LINE Botの概要 バックエンド 土地情報の作成とFireStoreに登録 からのフィードバック

    夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話 - ABEJA Tech Blog
    peketamin
    peketamin 2022/12/11
  • Go vs Rust : 特徴量DBに適するのはどっち!? (2020-04-14 実験追記) - ABEJA Tech Blog

    ABEJA で Research Engineer をやっている中川です.普段は論文読んだり,機械学習モデルを実装したり,インフラを構築したりしています.今回のブログでは,Insight for Retail の一機能として提供しているリピータ分析に用いる特徴量DBの改善に向けた言語選定について紹介します. ※ たくさんの方々からのコメントありがとうございます.いただいた観点をベースに「2020-04-14 追記」以下に実験を追加しました. モチベーション リピート分析では,任意の特徴量をクエリに最も類似した特徴量を数100msec以内に検索する必要があり,一般的なデータベースでは実現することが難しいという課題がありました.そこで,われわれは python で独自のインメモリデータベースを実装し運用してきました.このデータベースがサービスの成長に合わせて限界を迎えつつあるので,アルゴリズム

    Go vs Rust : 特徴量DBに適するのはどっち!? (2020-04-14 実験追記) - ABEJA Tech Blog
    peketamin
    peketamin 2020/04/09
  • AWSのAZ障害でもサービスを継続させる技術 - ABEJA Tech Blog

    こんにちは。ABEJAのインフラ管理してる村主 @rwle1221 です。 ブログは ABEJA Advent Calendar 2019 の11日目です。 今日は、みなさん記憶に新しい2019年8月末に発生した AWS の東京リージョンの AZ 障害について、どのようにしていればサービス影響を与えずにシステムを稼働させられたのか。という話をしたいと思います。 振り返り 障害の詳細報告はこちら aws.amazon.com 有志によるまとめはこちらから piyolog.hatenadiary.jp 基は「AZレベルで冗長化していれば問題ない」 中の人に聞くと「AZレベルで冗長化していれば問題ない」とのことでした。 しかし、2番目の方の記事を見ると有名どころのサービスが割と止まっていました。 じゃあ上で紹介されていたような会社がAZレベルの冗長化が出来ていなかったのか。 ※ ALB/WA

    AWSのAZ障害でもサービスを継続させる技術 - ABEJA Tech Blog
    peketamin
    peketamin 2019/12/11
  • ABEJAの技術スタックを公開します (2019年11月版) - ABEJA Tech Blog

    2021/10/22追記:最新版は下記記事になります!こちらもご一読くださいませ。 tech-blog.abeja.asia どうも、Tech Blog編集長(自称)の緒方(@conta_)です。 よくエンジニアの方にご質問いただく ABEJAってよく聞くけど、実際どんなことやってるのかよくわからない という点をクリアにするために、事業内容と技術視点でのABEJAの取り組みを紹介したいと思います。 ABEJAに興味のある方や、未来の一緒に働くメンバーに読んでいただけると嬉しいです! 割とAIコンサルの会社と思われているらしいので、ちゃんとプロダクト作ってますよ!ということを伝えていきたい ABEJAの事業紹介 ABEJAは2012年から約7年間、機械学習・ネットワークやIoTデバイスを活用したプロダクトの研究・開発・運用を行っています。 様々な産業・業種へ機械学習の適用・運用を培ってきたナ

    ABEJAの技術スタックを公開します (2019年11月版) - ABEJA Tech Blog
    peketamin
    peketamin 2019/11/11
  • ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog

    こんにちは、Research Internの荒尾(@karolis_ml)です。 日進月歩の勢いで研究が進んでいる深層学習ですが、教師あり学習でもっとも大事なデータのアノテーション、応用分野ではまだまだ大変ですよね。例えば、犬の写真から犬種を判断する分類器を作ろうとして教師データが必要になったとき、あなたは以下の画像にどんなラベルをつけるでしょうか? 出典: Pixabay 犬好きの方は正しくアラスカンマラミュート、そうではない方は似た有名犬種であるシベリアンハスキーと答えられたことでしょう。マラミュートの茶色い目(かわいい)や小さめの尖った耳(かわいい)を見分けて正しくラベル付けをするのは、決して簡単ではありません。 このようなアノテーションの分野に関して当ブログでは以前、Bounding BoxやSegmentationの効率化についての研究サーベイを行いましたが、この犬種分類のような

    ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog
    peketamin
    peketamin 2019/07/29
  • 効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog

    どうも緒方@conta_です。 みなさんAI頑張ってますか? きっと昼はGPUサーバーを回して、夜は結果待ちでビールサーバーを回してる人が多いことでしょう。 機械学習を実際のプロダクトに活用する場合、自分が解きたいタスクがそのままオープンなデータセットで解決できることは少ないので、まず最初に課題となるのはデータセット作成です。 実際にカメラやセンサーを取り付けて収集したり、Webからクローリングしてきたり、事業会社であれば自社のデータセットに教師ラベルをつけることで新しいタスクに取り組むことが可能になるでしょう。 よく疑問になるポイントとして、データセットの量と質は、多ければ多いほど良く、高品質であれば高品質であるほど良いのですが教師データを作成するのは一苦労です。 *下記アノテーションの量や質について実験した結果がまとまってます tech-blog.abeja.asia もちろん少数デー

    効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog
    peketamin
    peketamin 2019/05/24
  • より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog

    ABEJAでリサーチャーをしている白川です。 皆さん、アノテーションしていますか? 私はしています。アノテーション、自分でやるのは大変ですよね。 AIというとモデルの学習に注目されがちですが、もしかしたら、アノテーションはAI開発においてモデル開発以上に重要で注意の必要なプロセスかもしれません。今回はなぜアノテーションがそれほど重要なのか、良いアノテーションとはどのようなアノテーションなのかについて、機械学習的にアプローチしてみたいと思います。 アノテーションを機械学習で解析するの、楽しいですよ。 なお、記事に関連して、2018年7月1日に開催されるccse2018というカンファレンスでもお話させていただく予定です。記事内では触れられなかった内容についてもお話させていただくかもしれないので、ご興味ある方はチェックしてみてください。 この記事を読むとわかること アノテーションはAIの開発・

    より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog
    peketamin
    peketamin 2018/06/26
  • serverlessで作る外形監視 - ABEJA Tech Blog

    エンジニアの鎗水です。 ABEJA Platformの機能は様々なAPIによって支えられています。 今回はそれらのAPIに対し行っている外形監視について紹介します。 今回紹介する外形監視は、ユーザーの利用シナリオに沿って行われます。 ABEJA Platform上の特定のresourceの作成、更新、削除といった一連の作業をユーザーが正しく行えるかという視点でテストを行います。 1. 構成 AWS Step Functions AWS Step Functionsは、複数のLambdaを組み合わせてワークフローを組むことができるサービスです。 ワークフローはAmazon States LanguageというDSLを使って記述し、実行するLambdaの定義やLambdaのリトライ、Lambda間の遷移条件や待ち時間などを設定することができます。 Serverless Serverless F

    serverlessで作る外形監視 - ABEJA Tech Blog
    peketamin
    peketamin 2018/04/03
  • Kubernetes x AWS x GPUにハマった話 - ABEJA Tech Blog

    tl;dr 長文なので3行で kubernetesAWSGPUは超える壁が多かった。やるならkubeadmがオススメ。 kubeadmでcloud-provider=awsの手順を後半に記載 はじめに ABEJAのサービス系インフラを管理しているインフラエンジニアの村主です。 コンテナ周りは割とECSを中心に組むことが多かったのですが、あれだけkubernetesが持ち上げられると使ってみないとな。と言うことで、新しく追加する機能はkubernetesで開発することにしました。そこにkubernetesがあったから kubernetesAWSGPU を組み合わせた時にすごくハマりどころが多かったので、ここに奮闘記を記載します。 まず、kubernetesを構築するためのプロビジョニングツールを何にしようか。と言うことで、特徴を知らないと工夫も出来ないので色々触ってみました。 1.

    Kubernetes x AWS x GPUにハマった話 - ABEJA Tech Blog
    peketamin
    peketamin 2018/03/12
  • USB型 Deep Learning アクセラレーター「Movidius Neural Compute Stick」を使ってみた - ABEJA Tech Blog

    7月20日、Intel (Movidius) がUSB接続タイプのスティック型ディープニューラルネットワーク処理用アクセラレータ「Movidius Neural Compute Stick」を発表しました。 Intelが激安1万円以下のUSB型Deep Learning用端末「Movidius Neural Compute Stick」を発売 : Gigazine Intel Democratizes Deep Learning Application Development with Launch of Movidius Neural Compute Stick | Intel Newsroom プロダクトページ NCSは、Deep Learningに特化した専用チップ「Myriad 2」が搭載された、外付けの演算装置です。USBポートに挿すだけでDeep Learningの推論処理を実

    USB型 Deep Learning アクセラレーター「Movidius Neural Compute Stick」を使ってみた - ABEJA Tech Blog
    peketamin
    peketamin 2017/08/10
  • 機は熟した!グラフ構造に対するDeep Learning、Graph Convolutionのご紹介 - ABEJA Tech Blog

    はじめまして。ABEJAでResearcherをやらせていただいている白川です。 先日、化合物の物性推定をDeep Learningをつかって従来手法より300,000倍高速に処理するという論文がでました([1], [2])。この論文の手法は、Graph Convolutionというグラフ上に定義されたConvolution演算がベースとなっています。物性推定に限らず、グラフ解析全般を Deep Learning で上手にこなせるようになれば、Deep Learningのアプリケーションの幅がぐっと拡がり、さらなるイノベーションが起きそうな予感がします。 ICMLやNIPSなどの機械学習系の主要国際会議でも数年前からGraph Convolutionについての論文がちらほら出現しはじめており、とくに最近その勢いが増してきている印象があります。個人的にも最近(前から?)にわかにグラフづいてい

    機は熟した!グラフ構造に対するDeep Learning、Graph Convolutionのご紹介 - ABEJA Tech Blog
    peketamin
    peketamin 2017/04/27
  • 1