yuisekiのブックマーク - はてなブックマーク

高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift

こんにちは AIチームの戸田です今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning（PEFT）のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fine-tuning(モデル全体を学習)するのと同等の性能を達成することができると言われています。代表的なものにLow-Rank Adaptation（LoRA）が挙げられます。 ReFT Representation Finetuning (ReFT)は、LoRAとよく似たPEFT手法です。違いは、LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの

yuiseki 2024/05/18

あとで読む

リンク

sparse_dot_topnを使った高速なcos類似度計算 | 株式会社AI Shift

こんにちは！ AIチームの戸田です。今回はKaggleのInformation Retrievalタスクのコンペティション、Learning Equality - Curriculum Recommendationsの1st solutionでも使われていたsparse_dot_topnによるcos類似度計算の高速化を試してみたいと思います。 sparse_dot_topn 著者らのブログより QA検索のようなクエリに類似する文章を検索するようなタスクにおいて、近年はBERTなどの事前学習済みモデルから文章の特徴ベクトルを抽出して比較したり、Dense Passage Retrievalのような文書間の類似度を直接推定するモデルを利用する方が精度が良いと言われています。しかし実務では推論速度やGPUなどのマシンコストの点から、古典的なTF-IDFなどのスパースなベクトルの類似度を利用する

yuiseki 2023/07/09

あとで読む

リンク

埋め込みベクトルを用いたSVMによる類似文検索の検証 | 株式会社AI Shift

はじめにこんにちは、AIチームの杉山です。今回の記事では、QA検索などを行う際の文類似度の計算に、文の埋め込みベクトルを用いてknnで計算した場合とSVMを用いた場合の結果を簡易的ですが定量的に比較してみたいと思います。動機としては、LangChainのRetrieverの実装にkNNだけでなくSVMを用いた実装が採用されており、その説明の中で以下のようにSVMの方が良いことが多いとされていたことでどれくらい性能が異なるかを確認したいと思ったためです。[1][2] TLDR in my experience it ~always works better to use an SVM instead of kNN, if you can afford the slight computational hit 具体的には、クエリ自身だけを1クラス、検索対象のドキュメント集合全体を別の1ク

yuiseki 2023/07/09

あとで読む

リンク

AI Shift、東北大学の乾・坂口・徳久研究室とカスタマーサポート領域におけるLLM活用を目指した共同研究を開始　〜サイバーエージェント独自の日本語LLM (大規模言語モデル) を活用〜 | 株式会社AI Shift

AI Shift、東北大学の乾・坂口・徳久研究室とカスタマーサポート領域におけるLLM活用を目指した共同研究を開始　〜サイバーエージェント独自の日本語LLM (大規模言語モデル) を活用〜株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証プライム市場：証券コード4751）の連結子会社である株式会社AI Shift（本社：東京都渋谷区、代表取締役社長：米山結人、以下AI Shift）は、東北大学の乾・坂口・徳久研究室とサイバーエージェント独自の日本語LLM（大規模言語モデル）を活用し、カスタマーサポート領域におけるLLM活用を目指した共同研究を開始します。 ■ 取り組み背景当社では、カスタマーサポートのDXを支援するため、メールや問い合わせフォームを自動化するチャットボットや、電話応対業務を自動化するボイスボットを提供しており、既に累計400社様以上にご利用いただ

yuiseki 2023/06/15

リンク

SERVICE | 株式会社AI Shift

AIと人間の融合『AIを民主化する』というミッションの通り、当社は全ての人や企業がAIの可能性を享受できる世の中を目指しております。AIはすべての産業を再定義する可能性を秘めており、これまで人間が行っていた仕事をすらも変えてしまうかもしれません。 AIと人間を対立構造と捉えるのではなく、人間が正しくAIを使うことによって、はじめて価値が出せると考えております。それが当社の考える『AIと人間の融合』です。このようなコンセプトのもと、AIプロダクトの開発を通じ、企業のAI活用を推進してまいります。

yuiseki 2023/06/15

リンク

株式会社AI Shift

生成AIの活用を前提としたを、一気通貫で幅広く提供しております。企業が抱えるさまざまな課題を、当社が提供するソリューションで解決に導きます。

yuiseki 2023/06/15

リンク

LexRankによる代表文抽出 | 株式会社AI Shift

こんにちわ AIチームの戸田です先日、オンラインで開催された言語処理学会第26回年次大会でチャットボットの運用効率化手法についてのポスター発表をさせていただきました。議論の中で、追加の比較手法としてLexRankを上げていただきましたので、今回はLexRankを実装して、追加実験をしてみようと思います。(発表内容につきましては報告記事をご参照ください) LexRank LexRankは、Webページの重要度をはかるPageRankに着想を得た抽出型の要約アルゴリズムで文書からグラフ構造を作り出して要約を行います。 PageRankとLexRankの考え方の比較を下記にまとめます。

yuiseki 2022/12/09

リンク

openSMILEを使った音声分類 | 株式会社AI Shift

こんにちは AIチームの戸田です今回は音声特徴抽出ライブラリ、openSMILEを使った音声分類を試してみたいと思います openSMILE openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) は、音声分析、処理、分類のためのオープンソースのツールキットです。主に感情認識の分野で広く用いられています。 C++で書かれていますが、Pythonのラッパーがあり、pipで簡単にインストールできます。 ComParE 2016やGeMAPSなど様々な特徴セットを利用することができ、データフレーム形式で出力されるので、後段の処理も作りやすいものになっています。使用できる特徴セットはドキュメントのFeatureSetの項目をご参照ください。音声分類 openSMILEを使って分類問題を

yuiseki 2022/03/19

あとで読む

リンク

GiNZA v5のTransformerモデルによる固有表現抽出 | 株式会社AI Shift

こんにちは AIチームの戸田です今回は日本語NLPライブラリであるGiNZAのv5から実装されたTransf ormerモデルによる固有表現抽出を試します。固有表現抽出とは、入力となる自然文から地名や製品名などの固有名詞を抽出するタスクです。今回固有表現抽出に使用するデータセットとして、ストックマーク株式会社が作成したWikipediaを用いた日本語の固有表現抽出データセットを使用します。また、Transf ormerモデルは処理に時間がかかるので、環境はGoogle ColaboratoryのGPU環境を利用しました。事前準備 wgetを使ってデータセットをダウンロードします。 wget https://raw.githubusercontent.com/stockmarkteam/ner-wikipedia-dataset/main/ner.json 必要なpythonライブラリをダ

yuiseki 2022/01/23

リンク

【AI Shift Advent Calendar 2021】Label StudioのGCP上でのデプロイ | 株式会社AI Shift

こんにちは、AIチームの東です。本記事はAI Shift Advent Calendar 2021の18日目の記事です。今回は、Heartex社が提供しているアノテーションツールであるLabel StudioとGCP上でのデプロイの手順について紹介していきます。 Label Studio 近年、テキスト翻訳や対話アシスタントなど、深層学習を用いたプロダクトやサービスが多くみられるようになりました。しかし、一般にそのような大規模なモデルを利用するには入力データ(音声、画像、テキスト等)とその正解ラベル(発話内容、画像の説明文、翻訳結果等)が大量に必要になります。モデルの学習に利用する入力データと正解ラベルの組を作成する作業をアノテーションと呼び、現在様々なアノテーションツールが開発、提供されています。 Label Studioはそんなアノテーションツールの一つで、画像やテキスト、音声な

yuiseki 2021/12/26

あとで読む

リンク

【AI Shift Advent Calendar 2021】MarbleNetによる音声区間検出 | 株式会社AI Shift

こんにちは、AIチームの東です。本記事はAI Shift Advent Calendar 2021の4日目の記事です。今回は、今年のICASSPで発表された音声区間検出の一手法であるMarbleNetについて紹介します。音声区間検出音声区間検出(Voice Activity Detection; VAD)とは、音声と音声以外の雑音が含まれる信号から、音声信号が含まれる区間を判別する技術です。音声認識は目的の音声以外の信号の影響を受けやすく、前処理として音声区間のみを音声認識モデルに渡すことで、雑音を音声信号として誤って認識することを防ぐ効果が期待できます。以前、本ブログで信号パワーと零交差数を用いた音声区間検出とinaSpeechSegmenterによる音声区間検出を取り上げましたが、前者はシンプルで古典的な手法、後者はジェンダー識別を目的とした、CNNベースの軽量な機械学習モデ

yuiseki 2021/12/26

あとで読む

リンク

【AI Shift Advent Calendar 2021】Nishikaコンペ振り返り小説家になろうブクマ数予測 ~”伸びる”タイトルとは？~ | 株式会社AI Shift

TOP TECH BLOG【AI Shift Advent Calendar 2021】Nishikaコンペ振り返り小説家になろうブクマ数予測 ~”伸びる”タイトルとは？~ 【AI Shift Advent Calendar 2021】Nishikaコンペ振り返り小説家になろうブクマ数予測 ~”伸びる”タイトルとは？~ 日本最大級の小説投稿サイトである小説家になろうのデータを用いて、ジャンルや作者名などの関連データから各小説のブックマーク数を予測します目的変数であるブックマーク数は5段階にビニングされ、評価指標はMulti-class loglossで計算されます詳細はコンペページをご参照いただければと思います解法今回のコンペはテキストデータとテーブルデータを扱うマルチモーダルなタスクになりますマルチモーダルタスクはあまり経験がないので、正しいアプローチかはわかりませんが、

yuiseki 2021/12/26

あとで読む

リンク

Kaggleで学んだBERTをfine-tuningする際のTips①〜学習効率化編〜 | 株式会社AI Shift

こんにちは AIチームの戸田です近年、自然言語処理タスクにおいて、BERTを始めとするTransf ormerをベースとした事前学習モデルを感情分類や質問応答などの下流のタスクでfine-tuningする手法が一般的になっています huggingfaceのTransf ormersなど、事前学習モデルを簡単に使うことのできるライブラリもありますが、Kaggleなどのコンペティションで上位に入るには素のモデルのままでは難しく、ヘッダや損失関数などの工夫などが必要です本記事では私がKaggleのコンペティションに参加して得た、事前学習モデルのfine-tuningのTipsを共有させていただきます書きたい内容が多くなってしまったので、今回は学習の効率化について、次回精度改善について、と２回に分けて書かせていただきます事前準備学習データとして、先日終了したKaggleのコンペティション、C

yuiseki 2021/11/20

あとで読む

リンク

Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜 | 株式会社AI Shift

こんにちは AIチームの戸田です本記事では前回に引き続き、私がKaggleのコンペティションに参加して得た、Transf ormerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます前回は学習の効率化について書かせていただきましたので、今回は精度改善について書かせていただきますデータ前回に引き続きKaggleのコンペティション、CommonLit-Readabilityのtrainデータを使います validationの分け方などは前回の記事を参照していただければと思います精度改善一般的なニューラルネットワークモデルの精度改善方法として、ハイパーパラメータのチューニングやData Augmentationが上げられますが、ここではBERTを始めとするTransf ormerをベースとしたモデル（以降Transf ormerモデル）特有の工夫について

yuiseki 2021/09/07

あとで読む

リンク

異常検知アルゴリズムを用いたテキストノイズ抽出 | 株式会社AI Shift

こんにちは AIチームの戸田です今回は異常検知アルゴリズムを用いたテキストノイズ抽出を試してみたいと思います。自然言語処理を行う際に必ずと言っていいほど直面する問題の一つがテキストのノイズです。特に実環境で動いているプロダクトのログデータを扱う際は、「あああああああ」のような無意味な文字列や「よろしくお願いします」のようなタスクと関係の無い一般的な文章など多種多様なノイズが存在するため、これらを除去しなければなりません。今回紹介する手法をきっかけはこちらのブログで、簡単に手法を説明すると、GloVeとTF-IDFから得られたベクトルをPCAで圧縮し、IsolationForestで異常値を見つける、といったものでした。こちらのブログではNIPS 2015の論文に対して手法を適用してい概ね良い結果を収めています。本記事では日本語のカスタマーサポートのデータに適用し、言語とドメインを変え

yuiseki 2021/04/09

あとで読む

リンク

GiNZAによるテキストデータからの個人情報の抽出 | 株式会社AI Shift

こんにちは、AIチームの杉山です。前回の記事ではFlairによる固有表現抽出を用いて個人情報のマスキングを行い、その精度を確認しました。しかし、学習データを自分でアノテーションして作成する必要があることからデータ数を大量に用意することができず精度が今ひとつとなってしまいました。そんな折、日本語自然言語処理オープンソースライブラリであるGiNZAのver.3.0.0(執筆時点での最新は3.1.2)がリリースされました。リリースノートを眺めていると、以下の記述が目に留まりました。解析モデルの改良固有表現抽出モデルの訓練コーパスを GSK2014-A (2019) BCCWJ版(新聞系文書を除外)に変更固有表現抽出精度が再現性・適合性の両面で大きく向上token.ent_type_を関根の拡張固有表現階層のラベルに変更ginzaコマンド出力の最終フィールドにENE7属性を追加OntoNo