gengohouseのブックマーク - はてなブックマーク

大規模言語モデルをシングルGPUで動かせる!? FlexGenを触ってみた | DevelopersIO

こんちには。データアナリティクス事業本部インテグレーション部機械学習チームの中村です。今回は大規模言語モデルをシングルGPUで動かせるという噂のFlexGenについて使ってみて紹介したいと思います。 FlexGenとは FlexGenは、大規模言語モデル（LLM: Large Language Model）をシングルGPU（例えば、16GBのT4や24GBのRTX3090）で実行可能な高スループットな生成エンジンです。以下がGitHubになります。 FlexGenは、Meta社が開発したOPT（Open Pre-trained Transf ormer）を動かすことができ、実際にAIアシスタントと会話することができます。参考までにOPTに関する論文は以下です。使用環境 Google ColaboratoryのPro環境を使います。モデルのアーキテクチャによって動作させるスペック

gengohouse 2023/03/07

“大規模言語モデルをシングルGPUで動かせる!? FlexGenを触ってみた”

リンク

Contact Lens for Amazon Connectの感情分析は、どのような言葉がポジティブ、ネガティブと判断されるか調査してみた | DevelopersIO

はじめに Contact Lens for Amazon Connect(以降、Contact Lens)の機能の一つに感情分析機能があります。感情分析機能は、Connectでオペレータと顧客が話している言葉の感情を捉えて分析します。肯定的、中立的、否定的の３つに分類されます。例として、以下のように感情分析の結果が表示されます。具体的な処理内容は、Contact Lens側でAmazon Transcribe を利用して通話を文字起こしされ、Amazon Comprehendを利用して、文字起こしした言葉に対して感情分析されます。ちなみに、勘違いされやすいですが、発する声色は、感情分析の対象ではありません。文字起こしした言葉(テキスト)のみが対象です。今回は、コールセンターで使用される言葉のうち、どういった言葉が肯定的、中立的、否定的と判定されるか調査してみました。テスト結果

gengohouse 2023/03/01

リンク

「コサイン類似度」で文書がどれだけ似ているかを調べてみた | DevelopersIO

今年のマックフルーリー「ストロベリーココアクッキー」が個人的大ブームになっています。暖かい部屋で猫と触れ合いながらアイスを食べる至福の時間を楽しんでいるのですが、実はお腹が弱いので色々なものとトレードオフでアイスを食べて家で仕事を頑張る日々です。 ▲ ラムレーズンのアイスも好きです、オススメがあったら教えてくださいこんにちは。データアナリティクス事業本部インテグレーション部機械学習チームのShirotaです。これは「クラスメソッド機械学習チームアドベントカレンダー 2022 」12/21（水）の記事となっております。前日 12/20（火）の記事は以下よりご覧ください。自然言語処理においてTransf ormersなどで有名なHugging FaceのモデルをVertex AIにデプロイするという、Google CloudとHugging Faceの個人的には嬉しい二つを活用

gengohouse 2022/12/22

“「コサイン類似度」で文書がどれだけ似ているかを調べてみた”

リンク

日本語自然言語処理オープンソースライブラリ「GiNZA」で構文解析をやってみた | DevelopersIO

だいぶ寒くなってきたので、慌てて冬支度を始めました。毎日のように何かしらの荷物が届きます。 ▲ 今年は猫用のホットカーペットを買いました、たまに乗っていただけますこんにちは。データアナリティクス事業本部インテグレーション部機械学習チームのShirotaです。これは「クラスメソッド機械学習チームアドベントカレンダー 2022 」12/8（木）の記事となっております。前日 12/7（水）の記事は以下よりご覧ください。Amazon SageMaker Studio Labの新機能を早速試してみたブログになっております。自然言語処理強化月間ということにして私は今回のアドベントカレンダーを執筆していくことにしましたが、今回もそんなわけで自然言語処理に関するお話をしていこうと思います。それではいきましょう！日本語自然言語処理オープンソースライブラリ「GiNZA」いきなりライ

gengohouse 2022/12/09

リンク

Hugging Faceを使って事前学習モデルを日本語の感情分析用にファインチューニングしてみた | DevelopersIO

こんちには。データアナリティクス事業本部機械学習チームの中村です。最近以下の書籍を読んでいます。機械学習エンジニアのためのTransf ormers こちらの書籍はHugging Faceにおけるライブラリ（Transf ormersなど）の使用方法について、ライブラリの作者自身が解説した本となっています。様々なタスクにおける、Hugging Faceのライブラリの使用方法の他、Transf ormerの進化の歴史や、Transf ormerのアーキテクチャをゼロからPyTochで実装する箇所もあり、結構濃い内容でオススメです。現在まだ途中までしか読めていませんが、読んだ内容を日本語タスクでも試してみたいということで、本記事では日本語を題材にした、テキスト分類の１つである感情分析をやってみたいと思います。 Hugging Faceの概要 Hugging Faceは主に自然言語処理を

gengohouse 2022/09/22

リンク

textlintで表記ゆれチェックルール集を一部無視する設定 | DevelopersIO

ひらがなを提案される部分を漢字で書きたい場合を想定しました。表記ゆれのルールファイル（今回はWEB+DB_PRESS.yml）では、「期待する正規表現」がexpected、「表記ゆれの正規表現」がpatternにあたります。以下が無視の設定をしていないprh.yaml例です。 prh.yaml version: 1 imports: - path: ./node_modules/prh/prh-rules/media/WEB+DB_PRESS.yml disableImports: true 無視設定を書く importsでインポートするルールの中から無視したいものは、ignoreRulesで指定します。指定方法は2種類あり、無視したいルールのexpectedかpatternを書きます。ここで1つ注意です。表記ゆれのルールファイル（今回はWEB+DB_PRESS.yml）で書かれ

gengohouse 2022/06/01

リンク

【Python】TF-IDF を使って自分のブログの特徴を取得してみた | DevelopersIO

列の各単語がその文書内にいくつ出現するかを表すのが BoW です。後述の TF-IDF 計算で必要となってきます。各ブログの BoW を計算する CountVectorizer を作成します。 from sklearn.feature_extraction.text import CountVectorizer import random vectorizer = CountVectorizer() vectorizer.fit_transf orm を使って全ブログの BoW を計算します。結果(各ブログの BoW ベクトル) を BLOG[i]["bow"] に格納します。 X = vectorizer.fit_transf orm([BLOG[i]["wakati"] for i in BLOG.keys()]) for i, bow in enumerate(X.toarray

gengohouse 2021/05/05

リンク

GCPの「Natural Language API」を試してみた | DevelopersIO

概要 GCPにおける自然言語系機械学習サービスである、Natural Languageについて調べました。また、日本語の対応状況を調べ、「日本語対応しているサービス（コンテンツ分類以外）」については、実際に操作してみました。 GCPにおける自然言語サービスの日本語対応状況について調べてみたい、という方の参考になれば幸いです。目次「Natural Language」について「Natural Language API」について「感情分析」をやってみた「エンティティ分析」をやってみた「エンティティ感情分析」をやってみた「構文解析」をやってみたまとめ「Natural Language」について「Natural Language」は「AutoML Natural Language」、「Natural Language API」の2つのサービスからなり、それぞれ特徴があります。

gengohouse 2021/03/09

リンク

【レポート】自然言語解析を体験 ~Amazon Translate, Amazon Polly, Amazon Transcribe, Amazon Comprehend ~ #AWSSummit | DevelopersIO

せーのでございます。本日は2020/09/08-2020/09/09にかけて行われたAWS Summit Onlineからセルフペースハンズオン「自然言語解析を体験 ~Amazon Translate, Amazon Polly, Amazon Transcribe, Amazon Comprehend ~ 」をレポートいたします。スピーカーはアマゾンウェブサービスジャパン株式会社シニアアドボケイト亀田治伸氏です。アーカイブ動画のアーカイブはこちらになります。レポート Amazon Translate: 複数言語に対応した翻訳サービス Amazon Polly: 音声の読み上げ Amazon Transcribe: Pollyの逆。音声を文字に起こしてくれる Amazon Comprehend: 文字列の構造を解析したり感情を分析したりする各サービスのデモをマネー

gengohouse 2020/09/09

リンク

みんなアイカツ！についてどう思ってる？理解したいので、ツイートを形態素解析するサーバレスな構築を作ってみた | DevelopersIO

みんなアイカツ！についてどう思ってる？理解したいので、ツイートを形態素解析するサーバレスな構築を作ってみたデータアナリティクス事業本部＠札幌の佐藤です。先日『アイカツオンパレード！ドリームストーリー』が完結しましたが、皆さんご覧になられたでしょうか。音城ノエルの頑張りを見て、泣いてしまう姉の音城セイラ……『アイカツ！』をくらえって感じでしたね。最高でした。まだ見ていない人は、YouTubeバンダイチャンネルで配信中ですので是非ご覧ください。 1時間半程度で全話視聴可能です！そんな感動した『アイカツオンパレード！ドリームストーリー』、みんな見てどう思っていたか気になりませんか？私は気になります。ということで、Twitterのツイートを形態素解析してワードクラウドを作成、その結果をツイートする機能をサーバレスで構築したのでその話をしたいと思います。なお、Twitterに対しての

gengohouse 2020/07/16

Twitterのツイートを形態素解析してワードクラウドを作成、その結果をツイートする機能をサーバレスで構築

リンク

[自然言語処理/NLP] Okapi BM25についてざっくりまとめ (理論編) | DevelopersIO

こんにちは、Mr.Moです。文書中に含まれる単語の重要度を評価する手法でよく使うものにTF-IDFがありますが、別の手法でOkapi BM25というのもあります。ケースによってはTF-IDFよりも精度が出る場合がありそうですので本記事でOkapi BM25をざっくり理解していこうと思います。ちなみに、TF-IDFについては下記の記事を参考にしていただければと思います。 tf-idfについてざっくりまとめ_理論編 Okapi BM25とは Okapi BM25は、情報検索における順位付けの手法である。検索エンジンがクエリとの関連性に応じて、文書を順位付けするのに用いられる。1970年代から1980年代にかけて、スティーブン・ロバートソンやカレン・スパーク・ジョーンズらが確率適合モデル（英語版）に基づいて開発した。BM25の "BM" は、 "Best Matching" の略である。 h