ブックマーク / tech.stockmark.co.jp (9)

  • より多くの “気づき” を届ける- 世界中のテキストの構造化に挑む Knowledge Unit の紹介 -

    Stockmark の Researcher の広田です。 Stockmark には自然言語処理の研究開発を行う Research チームがあり、 その中の1つの組織に知識グラフの自動構築をテーマとする Knowledge Unit があります。 この記事では Knowledge Unit の取り組みを紹介します。 なぜ知識グラフなのか?ストックマークは企業向けの情報収集ツール Anews を提供しています。 私たちはよくお客様から、まだ自分たちが気づけていない情報があるのではないか不安だ、という声を耳にします。 市場動向や技術動向・競合他社情報などから気づきを得ることはビジネスにおいて非常に重要です。 一方で気づきを得るための情報収集はとても大変です。 インターネット上では日々膨大な量のテキストが公開されており、これらを人力で収集し尽くすことはとても難しくなっています。 また収集を行うに

    より多くの “気づき” を届ける- 世界中のテキストの構造化に挑む Knowledge Unit の紹介 -
    gengohouse
    gengohouse 2023/08/23
    “より多くの “気づき” を届ける- 世界中のテキストの構造化に挑む Knowledge Unit の紹介 -”
  • 日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介

    はじめにResearch部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 弊社では、大量のビジネスニュースを解析対象としていますが、人間がすべてのビジネスニュースを精読することは不可能です。そのため、読むべき記事を判断するために、記事分類や要約等を行うことが必要不可欠となります。 近年では、この要約タスクの分野では、高い精度が報告されている事前学習済モデルBART等が存在します。 そこで、弊社で日語向けのBART事前学習済モデルを作成しましたので、今回はそのモデルの紹介と公開を行います。 BART とはBART は、2019 年 10 月 29 日に Facebook社によって提案されました。 BART は、双方向エンコーダー (例えばBERT) と左から右へのデコーダー (例えばGPT) を使った seq2seq 構造を使用します。BART は、基的に

    日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介
  • 顧客体験の向上に向けた自然言語処理技術の活用: 定義文抽出

    はじめにこんにちは、Researcherの北山です。今回は自然言語処理技術を用いてAstrategyにおける顧客体験向上のための取り組みを行ったので、その内容を共有したいと思います。 内容は弊社のTech Meetup #04でも発表した内容になりますので、ご興味のある方はそちらもご覧いただけますと幸いです。 自然言語処理とは自然言語処理とは、我々が日常のコミュニケーションで用いている言語(自然言語)を機械で処理する技術のことです。情報系の分野では単に言語というとプログラミング言語を連想する方も多いため、それと区別するために自然言語という用語が使われています。自然言語処理が活用されている事例としては、例えば以下のようなものがあります。 弊社では、そういった自然言語処理を活用し、ニュース記事内の情報を構造化することによって顧客体験の向上に取り組んでいます。例えば、以下の例ではニュース記事か

    顧客体験の向上に向けた自然言語処理技術の活用: 定義文抽出
  • 日本語ニュース分類から見る多言語モデル

    グローバル化が進む現代において、様々な言語で情報収集を行う必要性がこれまで以上に高まっています。Stockmark ではそうしたお客様の情報収集を支援するために多言語テキストの解析にまつわる研究が行われています。日はその基礎技術である多言語モデルについて紹介します。 多言語モデル (multilingual language models, crosslingual language models) は複数の言語を扱うことができる言語モデルです1。リソースが十分にない言語での下流タスクにおいて、多言語モデルのパフォーマンスが単言語の言語モデルよりも優れていることが報告されています (Wu and Dredze 2019)。また多言語を1つのモデルで扱えるようになることで、言語ごとに異なるモデルを用意する必要がなくなるという運用上の利点もあります。こうした点から近年では多言語モデルは自然言

    日本語ニュース分類から見る多言語モデル
  • Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム

    ML事業部の金田です。今回は、ストックマークの提供する法人向けサービス「Anews」の裏側で動くビジネスニュース推薦システムについて、簡単に紹介いたします。 AnewsとはAnewsは組織変革のための情報収集+コミュニケーションプラットフォームです。 情報収集のためのコア機能としては、国内外3万メディアから収集したビジネスニュースから、利用者の興味・関心に合わせて記事を配信するサービスを提供しています。日々配信されるニュースから業務ニーズに直結するインサイトを獲得し、これを話題にユーザ同士が交流することで、組織全体の情報感度やコミュニケーションを促進させるのが、サービスの狙いです。 事前準備:ことばの定義具体的な機能説明の前に、Anewsにおける基的な概念について軽く整理します。 Anewsは1企業=1集団としての利用を想定しています。以降ではこの集団をチーム、チームに所属する各利用者を

    Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム
  • GPT-2におけるテキスト生成

    はじめにMachine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 昨今、OpenAIからGPT-3が発表され、生成系モデルが大きな注目を集めています。 そこで、記事では、弊社で作成している生成系モデルの紹介をいたします。 自然言語処理におけるテキスト生成自然言語処理(NLP)は、人間の言語(自然言語)とコンピュータの相互理解、特に大量の自然言語データをコンピュータに処理および分析させるための研究分野です。 今回紹介するテキスト生成は、この自然言語処理の研究分野の一つです。 テキスト生成の応用例の一つは、スマートフォンのキーボードでの次の単語の予測です。このタスクはまさに​​言語モデルが行うことと同様です。言語モデルは、単語のリストを受け取り、次の単語を予測します。 図1の例では、言語モデルが「今日は」という単語を受け取り、次の単語で

    GPT-2におけるテキスト生成
  • Wikipediaを用いた日本語の固有表現抽出データセットの公開

    ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

    Wikipediaを用いた日本語の固有表現抽出データセットの公開
  • BERTによるニュース記事の構造化:企業名抽出

    はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。 先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。 ストックマークが公開した言語モデルの一覧と振り返り 今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。 ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。 弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう

    BERTによるニュース記事の構造化:企業名抽出
  • ストックマークが公開した言語モデルの一覧と振り返り

  • 1