ブックマーク / tech-blog.abeja.asia (13)

  • 機械学習におけるEDAって結局何するの? - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている服部です。 「EDAって結局何したらいいの?」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。 記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Exploratory Data Analysis」の略で「探索的データ分析」と日語では言います。 データの特性だったりデータから何が言えるかを把握するための分析であり、JohnTukey氏により1960~70年頃に統計学の分野で提唱されたようです。 今では機械学習の分野でも、「まずEDAをしてからモデルを作ろう」と言われる場面をよく見かけ、EDAをすることは当たり前になってきています。 en.wikipedia.org 記事のモチベーション EDAに関する情報もたくさん調べると出てきますが、EDAのためのPythonライ

    機械学習におけるEDAって結局何するの? - ABEJA Tech Blog
  • LangChainを使わない - ABEJA Tech Blog

    TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画しています。LLMといえばLangChainが便利ですね。OpenAI APIの利用だけでなく、各種ドキュメントのパースが出来たり、HuggingFaceやインデックスDBを扱う他のライブラリとインテ

    LangChainを使わない - ABEJA Tech Blog
    masadream
    masadream 2023/12/17
    評判悪いですね。ちょっと早すぎたモジュールなのかも?
  • ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog

    こちらは「ChatGPT の仕組みを理解する」の後編記事になります。 前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている InstructGPT を説明したいところなんですが、InstructGPT では強化学習の手法を使用しているので、後半記事では一旦自然言語から離れて強化学習の基礎から PPO までを説明し、最後にメインコンテンツである InstructGPT → ChatGPT を説明します。 強化学習の基礎事項 強化学習のモデル化 環境のマルコフ性とマルコフ決定過程(MDP) 価値関数 強化学習手法の分類 価値ベースの強化学習手法 方策ベースの強化学習手法と方策勾配法 アクター・クリティック手法 TRPO [Tr

    ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog
  • ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog

    こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 記事の対象読者としては、以下のようになりま

    ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
  • Stable Diffusion の仕組みを理解する - ABEJA Tech Blog

    この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは AI モデル開発ではなくもっぱらバックエンド開発メインでやっていて完全に乗り遅れた感あるので、この機会に有名な Diffusion Model の1つである Stable Diffusion v1 について調べてみました!*1 では早速題に入りたいと思います! Stable Diffusion v1 とは? Denoising Diffusion Probabilistic Model(DDPM) 学習時の動作 for

    Stable Diffusion の仕組みを理解する - ABEJA Tech Blog
  • AI生成物と著作権とAI倫理 - ABEJA Tech Blog

    記事はABEJAアドベントカレンダー2022の17日目の記事です!昨日に引き続き担当の古川です! 昨日の予告通り生成AIによるAI生成物の著作権と倫理の話です。 生成AIと言っても主に念頭に置いているのは画像生成AIです(議論の発端自体はmimicやMidjourneyです。)。ただ、他のコンテンツを生成するAIにも基的には同じ理論が当てはまるかと思います。 サマリ 著作権の話 論点整理 生成物の著作権 なぜ著作権を認めたいのか 生成物による著作権侵害 呪文の著作権 AI倫理の話 画風をパクる 仕事の喪失 サマリ やや法律的な専門的な話も含まれるので、結論だけ知りたい人のために、サマリだけ先に。 今主流の乱数やPromptから画像などを作ってくれる生成AIによるAI生成物には著作権が原則として発生しないです。 Promptの呪文の著作権が議論されることがありますが、議論の実益があるのか

    AI生成物と著作権とAI倫理 - ABEJA Tech Blog
  • 2022年AI倫理ニュースベスト10 - ABEJA Tech Blog

    記事はABEJAアドベントカレンダー2022の16日目の記事です! 日の担当は、法務・AI倫理関係を担当している古川です。12年ほど弁護士をしていまして、途中で機械学習をやってみたくなり数学から統計から機械学習の勉強をして(PRMLとかカステラとか読みました!)、Pythonも勉強をして、ある会社で画像解析AIの実装をしていたのですが、現在は法律・倫理関係業務だけ扱っています。 AI倫理・ガバナンス関係の記事を毎年書いているので、今年もその路線で行きます。テーマは「行く年くる年」。このテーマなら毎年書けますしね。まあ、「くる年」の議論はしませんので、厳密には「行く年」だけで2022年の振り返りでしかないのですが・・・ では、ランキング形式で2022年のAI倫理関係のニュースを振り返ります。ランキング形式が人気らしいのでランキング形式なだけで、別に1位だとか2位という順位に大した意味は

    2022年AI倫理ニュースベスト10 - ABEJA Tech Blog
  • 夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話 - ABEJA Tech Blog

    皆さんこんにちは! ABEJAでデータサイエンティストをしている服部といいます。 記事はABEJA Advent Calendar2022の10日目の記事になります。 背景 引っ越しから2年.... データサイエンティストとしてのリベンジ 前回の反省を踏まえて.... 1. お得そうに見える土地には絶対に理由がある 2. 土地の数はせいぜい限られていて全部探すのも難しくない 今回解く課題 土地探しにおける意見の違いとは? どうやってデータサイエンスを使って夫婦の擦り合せを行う? アプローチ 実装 1. 架空の土地条件をランダムに沢山作る 土地条件の項目数や取りうる範囲が増えすぎないようにする 自分たちにとって関連性が高い項目を入れる 2. 作った土地に対して夫婦それぞれで値段をつける LINE Botの概要 バックエンド 土地情報の作成とFireStoreに登録 からのフィードバック

    夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話 - ABEJA Tech Blog
  • 野球の投球の「危険度」を予測してみた ~「あ、この球、打たれるわ」をAIで判断~ - ABEJA Tech Blog

    目次 目次 はじめに アイデア 検証方法 データ準備 分析アプローチ データ取得 前処理・特徴量エンジニアリング 学習 結果 考察 まとめ ABEJAについて はじめに はじめまして!今年2月にABEJAにデータサイエンティストとして入社しました真鍋と申します。 こちらは、ABEJAアドベントカレンダー2022の2日目の記事になります。 2日目にしていきなり限界野球オタク丸出しの記事ですが 野球は2番最強打者論もあるくらいなので縁起の良い数字ですね、はい。 アイデア ある程度野球を見ている方なら想像ができるのではないかと思いますが、野球の試合では、「あ、そりゃ打たれるわ」という球があったりしますよね。 ど真ん中に棒球が行ったりとか、同じ球が何球も続いたりとか… ただ、それが「打たれるべくして打たれた」球なのか、「打者が上手くて打たれた」球なのかは、結構感覚によるものだと思います。 そういう

    野球の投球の「危険度」を予測してみた ~「あ、この球、打たれるわ」をAIで判断~ - ABEJA Tech Blog
  • 小型かつ安価なセンサーを使って人の行動推定を行ってみる - ABEJA Tech Blog

    はじめに こんにちは!ABEJAでプロダクトマネージャーをしている栗林です! ABEJAでは小売店舗での顧客行動を分析するInsight for Retailというプロダクトや、オフィスDX事業をはじめとして、物理世界の現象を機械学習などが適用可能なデジタルに変換する部分にも強みがあります! 日のTech Blogでは、安価かつ小型な加速度・角速度センサーを用いて製造業や物流業における作業者の行動や状態を推定する手法についてまとめました。 背景 みなさんは製造業や物流などにおける、正味作業時間という言葉をご存知でしょうか? 正味作業時間とは実際の作業に充てられた時間を差します。 例えば、組み立て作業の際に必要となる道具や在庫が近くに無く、作業者がものを探したり歩行して取りに行ったとします。このときの準備や段取りにかかる時間は準備時間や付帯作業時間と言われ、作業工程において生産をおこなえて

    小型かつ安価なセンサーを使って人の行動推定を行ってみる - ABEJA Tech Blog
  • 画像データに対するActive learningの現状と今後の展望 ~最新の教師なし学習を添えて~ - ABEJA Tech Blog

    1, はじめに こんにちは, Researcher Intern の中野です. 新型コロナウイルスが世界中で猛威をふるい、個人の生活スタイルのみならず社会全体に変革が迫られているのを感じます。 医療従事者の方々には頭が上がりませんが, 機械学習のコミュニティでもKaggleのコンペ, SIGNATEのコンペ等, なんとか状況の改善に貢献しようという動きが見られます. このような直近の例にも見られるように, 機械学習はデータを扱うあらゆる分野での応用が考えられます. 自分も, 大学での専攻は物質プロセス工学(材料工学系)なのですが, 材料工学に機械学習を応用するマテリアルズインフォマティクスという分野での研究を行っています. 軽く内容を紹介させていただくと, 研究では新素材の製造プロセスを, ガウス過程回帰に基づいたActive Learning アプローチを用いて, 低コストかつ高速に最適

    画像データに対するActive learningの現状と今後の展望 ~最新の教師なし学習を添えて~ - ABEJA Tech Blog
  • 効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog

    どうも緒方@conta_です。 みなさんAI頑張ってますか? きっと昼はGPUサーバーを回して、夜は結果待ちでビールサーバーを回してる人が多いことでしょう。 機械学習を実際のプロダクトに活用する場合、自分が解きたいタスクがそのままオープンなデータセットで解決できることは少ないので、まず最初に課題となるのはデータセット作成です。 実際にカメラやセンサーを取り付けて収集したり、Webからクローリングしてきたり、事業会社であれば自社のデータセットに教師ラベルをつけることで新しいタスクに取り組むことが可能になるでしょう。 よく疑問になるポイントとして、データセットの量と質は、多ければ多いほど良く、高品質であれば高品質であるほど良いのですが教師データを作成するのは一苦労です。 *下記アノテーションの量や質について実験した結果がまとまってます tech-blog.abeja.asia もちろん少数デー

    効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog
    masadream
    masadream 2019/05/26
    長し。。
  • より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog

    ABEJAでリサーチャーをしている白川です。 皆さん、アノテーションしていますか? 私はしています。アノテーション、自分でやるのは大変ですよね。 AIというとモデルの学習に注目されがちですが、もしかしたら、アノテーションはAI開発においてモデル開発以上に重要で注意の必要なプロセスかもしれません。今回はなぜアノテーションがそれほど重要なのか、良いアノテーションとはどのようなアノテーションなのかについて、機械学習的にアプローチしてみたいと思います。 アノテーションを機械学習で解析するの、楽しいですよ。 なお、記事に関連して、2018年7月1日に開催されるccse2018というカンファレンスでもお話させていただく予定です。記事内では触れられなかった内容についてもお話させていただくかもしれないので、ご興味ある方はチェックしてみてください。 この記事を読むとわかること アノテーションはAIの開発・

    より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog
  • 1