タグ

ブックマーク / tech-blog.abeja.asia (9)

  • ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog

    1. はじめに 2. そもそもGPTとは?? 3. ABEJAで作ったGPTモデルについて 3.1 モデルサイズ 3.2 データセット Wikipedia CC100 OSCAR mC4 3.3 参考にしたコード 3.4 モデルの学習 せっかくここまで育てたモデルが・・・ 4. 技術的な工夫点 4.1 データセットの前処理 4.2 GPT-neoxの活用 4.3 並列VMでの学習 4.4 モデルアーキテクチャの工夫 5 学習したGPTのアウトプット例 5.1 失敗モデルたちの作品集 5.2 完成モデルの出力例 5.3 少しFine-tuningした結果 6. 最後に 6.1 採用メッセージ 6.2 ABEJAで学習したGPTモデルの今後について 1. はじめに こんにちは、ABEJAの服部です。昨日、ABEJAが主催しているABEJA SIX2022でも発表がありましたが、NVIDIA社の

    ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog
  • Go vs Rust : 特徴量DBに適するのはどっち!? (2020-04-14 実験追記) - ABEJA Tech Blog

    ABEJA で Research Engineer をやっている中川です.普段は論文読んだり,機械学習モデルを実装したり,インフラを構築したりしています.今回のブログでは,Insight for Retail の一機能として提供しているリピータ分析に用いる特徴量DBの改善に向けた言語選定について紹介します. ※ たくさんの方々からのコメントありがとうございます.いただいた観点をベースに「2020-04-14 追記」以下に実験を追加しました. モチベーション リピート分析では,任意の特徴量をクエリに最も類似した特徴量を数100msec以内に検索する必要があり,一般的なデータベースでは実現することが難しいという課題がありました.そこで,われわれは python で独自のインメモリデータベースを実装し運用してきました.このデータベースがサービスの成長に合わせて限界を迎えつつあるので,アルゴリズム

    Go vs Rust : 特徴量DBに適するのはどっち!? (2020-04-14 実験追記) - ABEJA Tech Blog
    Nyoho
    Nyoho 2020/04/10
    おもしろ
  • ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog

    こんにちは、Research Internの荒尾(@karolis_ml)です。 日進月歩の勢いで研究が進んでいる深層学習ですが、教師あり学習でもっとも大事なデータのアノテーション、応用分野ではまだまだ大変ですよね。例えば、犬の写真から犬種を判断する分類器を作ろうとして教師データが必要になったとき、あなたは以下の画像にどんなラベルをつけるでしょうか? 出典: Pixabay 犬好きの方は正しくアラスカンマラミュート、そうではない方は似た有名犬種であるシベリアンハスキーと答えられたことでしょう。マラミュートの茶色い目(かわいい)や小さめの尖った耳(かわいい)を見分けて正しくラベル付けをするのは、決して簡単ではありません。 このようなアノテーションの分野に関して当ブログでは以前、Bounding BoxやSegmentationの効率化についての研究サーベイを行いましたが、この犬種分類のような

    ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog
  • 効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog

    どうも緒方@conta_です。 みなさんAI頑張ってますか? きっと昼はGPUサーバーを回して、夜は結果待ちでビールサーバーを回してる人が多いことでしょう。 機械学習を実際のプロダクトに活用する場合、自分が解きたいタスクがそのままオープンなデータセットで解決できることは少ないので、まず最初に課題となるのはデータセット作成です。 実際にカメラやセンサーを取り付けて収集したり、Webからクローリングしてきたり、事業会社であれば自社のデータセットに教師ラベルをつけることで新しいタスクに取り組むことが可能になるでしょう。 よく疑問になるポイントとして、データセットの量と質は、多ければ多いほど良く、高品質であれば高品質であるほど良いのですが教師データを作成するのは一苦労です。 *下記アノテーションの量や質について実験した結果がまとまってます tech-blog.abeja.asia もちろん少数デー

    効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog
  • 双曲空間でのMachine Learningの最近の進展 - ABEJA Tech Blog

    ABEJAでReseacherをしている白川です。 以前、Poincaré Embeddingsという双曲空間への埋め込み手法をご紹介しました。当時、木構造データを5次元の空間に精度良く埋め込めるということで話題になったのですが、その後双曲空間での機械学習手法が多数研究・提案され、双曲空間での機械学習についての理解をバージョンアップする必要があるなと感じたので、最近の研究の進展を中心に理論背景含めてご紹介したいと思います。 tech-blog.abeja.asia Tl;dr 記事で伝えたいのは、論文の各論というより、各種論文で共通/独自に主張されている下記のような内容です。 木なら2次元で十分 双曲空間では指数写像/対数写像が明示的に計算され空間全体に拡張されるので取扱が容易 Gyrovector space: 双曲空間における線形代数のような代数構造 Riemann幾何とGyrove

    双曲空間でのMachine Learningの最近の進展 - ABEJA Tech Blog
  • より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog

    ABEJAでリサーチャーをしている白川です。 皆さん、アノテーションしていますか? 私はしています。アノテーション、自分でやるのは大変ですよね。 AIというとモデルの学習に注目されがちですが、もしかしたら、アノテーションはAI開発においてモデル開発以上に重要で注意の必要なプロセスかもしれません。今回はなぜアノテーションがそれほど重要なのか、良いアノテーションとはどのようなアノテーションなのかについて、機械学習的にアプローチしてみたいと思います。 アノテーションを機械学習で解析するの、楽しいですよ。 なお、記事に関連して、2018年7月1日に開催されるccse2018というカンファレンスでもお話させていただく予定です。記事内では触れられなかった内容についてもお話させていただくかもしれないので、ご興味ある方はチェックしてみてください。 この記事を読むとわかること アノテーションはAIの開発・

    より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog
  • CVPR2018 1000本ノック!(なお37本) - ABEJA Arts Blog

    はじめまして。ABEJAでリサーチャーをやっている藤です。 今年もCVPRの季節がやってきました。CVPRとはコンピュータビジョンに関するトップカンファレンスです。毎年規模が大きくなってきており、今年は3300の論文投稿があり、979件がacceptされました。また、21のチュートリアル、48のワークショップ、115以上の企業展示と様々なイベントが行われています。今年度のCVPR2018の開催は6月なのですが、プログラム自体は4月に公開済みですので、今回のブログの記事では、オーラル発表予定の論文のうちarxivで公開されている内容について一気に紹介します。 論文の動向 Deep learningについて Deep Learningに関連する論文は毎年増え続けており、今年度についてはacceptされた論文979件のうちarxivで459件が公開されており、なんと424件(頑張って数えました

    CVPR2018 1000本ノック!(なお37本) - ABEJA Arts Blog
  • 異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開 - ABEJA Tech Blog

    ABEJAでResearcherしている白川です。 今回ご紹介するのは、Poincaré Embeddings [1]という手法です。その内容に驚愕し、個人的に調べたり実装したり勉強会でお話したりしていたところ、最近運良く自分の実装をredditで取り上げてもらえたので、これを機にその驚愕の内容を共有できればと思います。 正直、自分の中ではまだ煮詰まりきっていない技術なので、現況の共有はしますが、ところどころ私の憶測や展望、期待が入り混じっていることをご容赦ください。 www.reddit.com Poincaré Embeddingsは大雑把に言えばword2vecを異空間で実現する技術で、双曲空間(Hyperbolic Space)という、おなじみのEuclide空間(2点$x,y$の間の距離を$\sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (

    異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開 - ABEJA Tech Blog
    Nyoho
    Nyoho 2018/01/27
    ちゃんと非ユークリッド幾何を機械学習の空間として使う研究たくさんされとんだね。素晴らしい
  • Deep Learningによる一般物体検出アルゴリズムの紹介 - ABEJA Tech Blog

    一般物体検出アルゴリズムの紹介 今回CNNを用いた一般物体検出アルゴリズムの有名な論文を順を追って説明します。 コンピュータビジョンの分野において、一般物体検出とは下記の図のように、ある画像の中から定められた物体の位置とカテゴリー(クラス)を検出することを指します。 [6]より引用 Deep Learningアルゴリズムの発展によって、一般物体認識の精度は目まぐるしい勢いで進歩しております。 そこで今回はDeep Learning(CNN)を応用した、一般物体検出アルゴリズムの有名な論文を説明したいと思います。 R-CNN (Regions with CNN features) (CVPR 2014) [1] かの有名なCNNの論文[8]で、ILSVRC 2012の物体認識チャレンジで大差をつけて1位になりました。 このチャレンジでは1枚の画像が1000クラスのうちどれに属するかを推定する

    Deep Learningによる一般物体検出アルゴリズムの紹介 - ABEJA Tech Blog
  • 1