サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
tech.stockmark.co.jp
dummy GA 新しいURLに転送しています… https://stockmark-tech.hatenablog.com/entry/2024/01/25/170000...
dummy GA 新しいURLに転送しています… https://stockmark-tech.hatenablog.com/entry/2023/12/15/110000...
dummy GA 新しいURLに転送しています… https://stockmark-tech.hatenablog.com/entry/2023/12/14/170000...
dummy GA 新しいURLに転送しています… https://stockmark-tech.hatenablog.com/entry/2023/12/05/130000...
Research部門の近江崇宏です。 ストックマークではビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)を商用利用も可能なライセンスで公開しました。 モデルはHuggingface Hubからダウンロードいただけます。 https://huggingface.co/stockmark/stockmark-13b このモデルは、合計2200億トークンの日本語のテキストデータにより事前学習が行われました。 一般に事前学習でよく使われるWikipediaやCommonCrawl由来のコーパスだけではなく、当社が独自に収集しているビジネスに関連するWebページや特許などのデータも用いました。 そのため、既存のモデルに比べると、最新の情報やビジネスのドメインに対応したようなモデルになっております。 実際に、ビジネスに関連する知識を問うタスクで
より多くの “気づき” を届ける- 世界中のテキストの構造化に挑む Knowledge Unit の紹介 -
最近の話題にも詳しい14億パラメータの日本語LLMの公開
はじめにどのスタートアップ企業でも、プロダクトリリースサイクルの高速化・最適化を心がけているかと思います。本記事では、ストックマークのプロダクトである Anews の新機能(論文配信)を例にとって、ストックマークの開発の実際について紹介いたします。 本記事から学べる点は大きく 3 点です。 高速な価値提供を実現するために意識すべきことフロー効率の極大化によりユーザー価値へつなげる方法中期目線で開発速度を保つ方法それでは、それぞれ個別に 1 つ見ていきましょう。 高速な価値提供を実現するために意識すべきことどんなプロダクトであっても、実装しようとしている機能は、何らかの方法で検証してみるまで顧客にとって必要なものか分かりません。本記事のテーマである論文配信機能についても同様ですが、少なくともユーザーインタビューなどの仮説検証で一定のニーズは確認できていました。 ニーズまでは確認できているので
Web上の記事から意味のある情報を抽出するためのノイズ削除の方法を紹介している。また、ChatGPTによるノイズ削除との比較も示す。
dummy GA 新しいURLに転送しています… https://stockmark-tech.hatenablog.com/entry/2023/04/19/093000...
dummy GA 新しいURLに転送しています… https://stockmark-tech.hatenablog.com/entry/2023/02/17/080000...
日本語ビジネスニュースコーパスを学習したBART事前学習済モデルを紹介します。
2022年のニュースから自然言語処理技術を用いてキーフレーズを抽出
自然言語処理技術を用いてAstrategyにおける顧客体験向上のための取り組みを行った話です。
ストックマークのプロダクト開発・運用で意識・工夫していること(リグレッションテストやライブラリメンテナンスなど気をつけていることなど)を紹介します。
ストックマークのプロダクト開発・運用では、Node.jsを利用してAWS Lambda を月間1.6億秒利用しています。本記事ではそこから分かった知見を紹介します。
ストックマークではプロダクト開発の方法として、プレスリリース駆動開発を採用しています。このアプローチは Amazon で Working Backwards と呼ばれる方法に類似した方法です。本記事では、実際にプレスリリース駆動開発を実施すると何が起こるのか?という点について紹介します。今後、プロダクト開発においてプレスリリース駆動開発を採用してみようかな?という方には、有益な情報になると思います。 先に実物を紹介本記事でベースとしているプレスリリースは Astrategy というプロダクトの新機能になります。 詳細は実物をご覧いただければと思いますが、内容草案はまさにプロダクトのPRD(Product Requirements Document)や、実装が進む前からプロダクトオーナーが書いていたものです。 では、詳細検討が進む前にプレスリリース案を作成すると、社内では何が起こるのでしょう
概要組織の拡大に伴う開発チームの分割、独立性向上のためにGitHubの運用フロー見直しと同時にFeature Flagの導入を行いました。 結果として、独立した開発をしてもコンフリクトが発生しづらくなったことにより生産性が向上、副次的効果として部分リリースにより問題の先行発見をしやすくなり、品質向上にもつながりました。 背景:GitHubのブランチ戦略がチームスケールの弊害にプロダクトや会社の成長に伴い、開発チームにはスピードと安定性の両面が求められるようになっていきますが、少人数のメンバーだと限界がやってきます。実際に、小さな改善はできるけど、ソフトウェアアーキテクチャ自体を見直すような大きな改善施策は、新規開発もある中で中々優先度を上げられないような状態が起きていました。 このような状況下で、開発組織としては総スループットを向上させる必要がありますが、単純に同じプロダクトの開発人数を増
2022/5/25 に Stockmark Tech Meetup #02 を開催しました!本記事では、2つ目のLTである “個別最適でプロダクトを作り続けたスタートアップがデータ専任部隊を作ることにした話” を再編成してお伝えいたします。本記事を読むことで、以下の2点が分かります。 AIスタートアップが膨大なデータに立ち向かってきた歴史ストックマークが抱える膨大なデータに対して、どのように開発チームがアプローチしているかストックマークのプロダクトはデータに支えられているまず前提として、ストックマークのプロダクトである Anews と Astrategy はどちらも、国内外で公開されている膨大なデータを利用しています。 上図のデータはWebクローラーによって毎日収集され蓄積されています。実装としては、大量のAWS lambdaによる汎用的な収集・抽出処理が内部で動作しています。Webクロー
グローバル化が進む現代において、様々な言語で情報収集を行う必要性がこれまで以上に高まっています。Stockmark ではそうしたお客様の情報収集を支援するために多言語テキストの解析にまつわる研究が行われています。本日はその基礎技術である多言語モデルについて紹介します。 多言語モデル (multilingual language models, crosslingual language models) は複数の言語を扱うことができる言語モデルです1。リソースが十分にない言語での下流タスクにおいて、多言語モデルのパフォーマンスが単言語の言語モデルよりも優れていることが報告されています (Wu and Dredze 2019)。また多言語を1つのモデルで扱えるようになることで、言語ごとに異なるモデルを用意する必要がなくなるという運用上の利点もあります。こうした点から近年では多言語モデルは自然言
検索エンジンのMore-Like-Thisクエリとグラフアルゴリズムによる類似記事集約
Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms
OpenSearchのMore Like This Queryを利用した類似記事集約について解説します。
ボケて電笑戦(AIによる画像大喜利)で作成したモデルについて紹介します。
はじめにこんにちは、Anewsのエンジニアリングマネージャーの山崎です。 この記事はストックマークアドベントカレンダーの22日目の記事です。 普段は、エンジニアリングマネージャーとして開発体制や中長期のエンジニア戦略を考えています。 またエンジニアリングマネージャーとは別にエンジニアとしてAnewsのFlutterアプリの開発を行なっています。 Anewsの開発組織では全員がフルスタックエンジニアとして働くことを推奨しており、 開発体制やプロセスについてもフロントエンド、バックエンドなどの領域を意識せず顧客への価値提供を最大化するためエンジニアが必要な開発を行うようにしています。 その中で、モバイルアプリだけは固定されたメンバーで開発を行うような体制になっています。 理由としては、 ・ モバイルアプリの開発経験が少ない ・ モバイルアプリのコードが複雑になっており、学習コストが高くなってい
ML事業部の金田です。今回はAnewsへの応用を見越して実施した、公開データセット(MINDデータセット)を用いた既存ニュース推薦手法の性能確認実験について紹介します。なお、実験で用いたコードはこちらに公開しています。 背景当社の開発する法人向けサービスのAnewsには、ニュース推薦システムが実装されています(その概要は以前の記事で紹介したとおりです)。 このシステムは、製品開発の初期段階に構築されたものです。その際には顧客要求を素早く叶えることが優先されており、当時はニュース推薦システムの研究動向を十全にフォローアップできていませんでした。構築以降に実施されたシステム品質改善も、顧客から寄せられた問題の解消を目的としていたため、「そもそも技術的観点から現行システムにどの程度改善の余地があるのか?」という疑問に対して、これまで明確な回答を用意できていませんでした。 この問題を解消するため、
自由と責任を開発チームにもたらしたら開発速度が上がった話
dummy GA 新しいURLに転送しています… https://stockmark-tech.hatenablog.com/entry/2021/10/01/120000...
はじめにこんにちは、ストックマークでエンジニアをしている麻生です。ストックマークでは、「Anews」というウェブサービスを提供しています。この度、Anewsで新機能導入のために日次バッチの大規模なインフラ変更を行い、GPU並列処理環境を構築しましたのでご紹介します。 組織の自律化を支援するナレッジプラットフォーム「Anews」Anewsは国内外30,000メディアのニュースを毎日収集し、最先端の自然言語処理で個人や組織のミッションに即したニュースをレコメンドします。コメント機能で簡単にチームにアイデアを共有でき、社内の知見者から学ぶことでチームの情報感度が底上げされます。 エンタープライズを中心に、累計1500社以上のお客様にご利用いただいているサービスです。 英語記事をレコメンドする上での課題Anewsでは、記事への行動履歴からユーザーや組織の好みを学習し、記事をレコメンドしています。ユ
次のページ
このページを最初にブックマークしてみませんか?
『https://tech.stockmark.co.jp/』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く