タグ

ブックマーク / tech.stockmark.co.jp (4)

  • ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開

    Research部門の近江崇宏です。 ストックマークではビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)を商用利用も可能なライセンスで公開しました。 モデルはHuggingface Hubからダウンロードいただけます。 https://huggingface.co/stockmark/stockmark-13b このモデルは、合計2200億トークンの日語のテキストデータにより事前学習が行われました。 一般に事前学習でよく使われるWikipediaやCommonCrawl由来のコーパスだけではなく、当社が独自に収集しているビジネスに関連するWebページや特許などのデータも用いました。 そのため、既存のモデルに比べると、最新の情報やビジネスのドメインに対応したようなモデルになっております。 実際に、ビジネスに関連する知識を問うタスクで

    ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開
  • 最近の話題にも詳しい14億パラメータの日本語LLMの公開

    Research部門の近江崇宏です。 今回、ストックマークは最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日語のLLM(大規模言語モデル)をオープンソースとして公開します。モデルはHugging Face Hubからダウンロードいただけます。 https://huggingface.co/stockmark/gpt-neox-japanese-1.4b 当社はビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっております。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ(2023年6月まで)も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発しました。具体的には、事前学習に用いたデータセットはCC100の

    最近の話題にも詳しい14億パラメータの日本語LLMの公開
  • AWSのコスト削減: ストレージクラスの最適化

    クラウドインフラに関わるコストは、各企業にとって1つの重要テーマかと思います。毎月、支払うコストであり、数%の増減であったとしても最終的にかなりの金額になります。 昨今の為替事情もあり、そんなクラウドインフラのコストを弊社で削減してきた方法を記事で紹介いたします。記事を読むことで、実例と共に手法を学んでいただけます。 何を実施したか?ストックマークでは、クラウドインフラに AWS を活用しています。AWS のコスト削減のプラクティスは広く知られており、公式からもドキュメントが提供されています。 具体的な方法の中からいくつか代表的なものを取り上げると次のような項目があります。 コスト分析と監視リザーブドインスタンス、スポットインスタンスの活用オートスケーリングの活用ストレージの最適化データ転送の最適化リソースの削除や停止たとえばリザーブドインスタンスの導入といったすでに利用中なものもあり

    AWSのコスト削減: ストレージクラスの最適化
  • 月間1.6億秒の Lambda x Node.js 利用から得られた知見

    はじめにStockmark のプロダクトでは、各メディアから記事を収集するために AWS Lambda (実行環境はNode.js) を大量に利用しています。「大量」とは実際にはどの程度なのかを紹介すると、月間で 1.6億 秒ほど(1日で約60日分) 使用しています。もしかしたら「えっ、なんでそんなに使っているの?」と思われているかもしれません。 記事ではその疑問に回答しつつ、実運用から得られた知見を一部共有していきます。段階的に理解いただけるように、技術選定理由から説明していきます。 なぜ Node.js なのか?なぜ AWS Lambdaなのか?Lambda x Node.js でスクレイピングする際の落とし穴ということで、早速1つ目からいってみましょう! なぜ Node.js なのか?ストックマークのプロダクトでは、Web記事などを中心としてスクレイピングして収集した情報をベースに

    月間1.6億秒の Lambda x Node.js 利用から得られた知見
  • 1