タグ

ブックマーク / qiita.com/etnk (2)

  • 自然言語処理のサービスのAWS上での構成を考えてみる - Qiita

    目標 AWSサービスを効率的に使って、自然言語処理に関するサービスを構築する。 可能な限りローコストを目指す(特にアクセスしていない時の料金を減らす)。 もちろん高可用性構成。 マルチテナント構成を取る BERTを使って類似文章検索を行う。 転置インデックスを使用した全文検索を行いたい(単語での検索など)。ElasticSearchは値段高いのでパス。 前提 今回は、構成の考察。検証済みの部分もあり、未検証部分もあり。 実際の製品がこの構成を取っている事を示すものでは無いです(まだ検証段階です)。 その為、この構成を取った事によって何か問題が発生するかもしれない事はご了承下さい。 技術要件整理 データ 学習済み基モデル 最近流行りの転移学習向けに、公開されている学習済みデータを使用する。サイズ的には1~数GBを想定。 ファインチューニング用コーパスデータ 転移学習でのファインチューニング

    自然言語処理のサービスのAWS上での構成を考えてみる - Qiita
  • Lambda+EFSで自然言語処理ライブラリ(GiNZA)使ってみる - Qiita

    背景 アドベントカレンダー用記事を書いていて、サイズが大きい自然言語処理ライブラリをLambdaで使う部分で技術的障壁が出てきている。そんな中、EFSにセットアップしたPythonライブラリをLambdaにimportする方法という記事を見つける。こちらの技術で要件が満たせそうなので試してみる。 関係する拙記事 背景で述べた技術的障壁を乗り越えるべく各種技術を検証した時の記事。 LambdaLayer用zipをCodeBuildでお手軽に作ってみる。 LambdaDockerコンテナイメージ使えるってマジですか?(Python3でやってみる) GiNZA とは 形態素解析を始めとして各種自然言語処理が出来るpythonライブラリ。spaCyの機能をラップしてる(はず)なのでその機能は使える。形態素解析エンジンにSudachiを使用したりもしている。 前提 リソース群は基CloudFor

    Lambda+EFSで自然言語処理ライブラリ(GiNZA)使ってみる - Qiita
  • 1