並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 20 件 / 20件

新着順 人気順

retrievaの検索結果1 - 20 件 / 20件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

retrievaに関するエントリは20件あります。 NLPBERT自然言語処理 などが関連タグです。 人気エントリには 『日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG』などがあります。
  • 日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG

    こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、国立国語研究所様との共同研究で作成した日本語話し言葉BERTとその利用方法について紹介します。 概要 BERTの簡単な説明 話し言葉BERT作成方法 書き言葉BERTの文法を表現する部分のみをCSJで追加学習 書き言葉BERTに対して、話し言葉データを用いた分野適応 実験 文法を表現する部分のみを追加学習することの有効性の確認 話し言葉データを用いた分野適応を行うことの有効性の確認 日本語話し言葉BERTの公開 ご利用方法 まとめ 概要 近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれるモ

      日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG
    • BERTを利用した日本語文書要約をやってみた - Retrieva TECH BLOG

      こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップを行っております。 今回の記事では、以前作成した日本語wikiHow要約データに対して、BERTを用いて抽出型、抽象型要約を行った話をします。 概要と背景 wikiHow要約データの特徴 BERTを用いた要約 抽出型要約 抽象型要約 実験 実験設定 実験結果 まとめ 概要と背景 前回の記事ではwikiHowから日本語要約データを作成しました。 その記事内では、簡単な要約実験として教師なし抽出型要約を試しました。 今回は、BERTを利用した抽出型、抽象型要約を用いて要約実験を行いたいと思います。 wikiHow要約データの特徴 前回の記事の再掲になりますが、wikiHow要約データ量は次の通りとなっています。 train dev test

        BERTを利用した日本語文書要約をやってみた - Retrieva TECH BLOG
      • TopicModelの最終形態? Structured Topic Modelのご紹介 - Retrieva TECH BLOG

        こんにちは。レトリバの飯田です。カスタマーサクセス部 研究チームに所属しており、論文調査やそのアルゴリズムを実行するスクリプトの実装などを行なっています。 今回は、Bag of Words(BoW)表現に於いて、これがTopicModelの最終形態ではないか?と私が思っているStructured Topic Modelの紹介と再現実装をpythonで行なったので、その紹介をします。 https://github.com/retrieva/python_stm Structured Topic Modelとは Correlated Topic Model(CTM) Sparse Additive Generative Model(SAGE) STMの更なる特徴 文書ートピックの分布の推定に対し文書属性情報を考慮できる 積分消去による高速化 STMの使い方 Covariate(Y)の使い方 P

          TopicModelの最終形態? Structured Topic Modelのご紹介 - Retrieva TECH BLOG
        • TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG

          こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。 本記事では、Hugging Face 社が開発しているTransformersのPipelinesという仕組みを使って日本語の固有表現抽出を行う方法をご紹介します。 Transformersとは? 日本語学習済み言語モデル Pipelines Trainer 固有表現抽出とは? 実際に日本語NERTを試してみる 必要な各種依存ライブラリのインストール 使用するデータ 日本語固有表現抽出データセットでのFine-tuning Pipelinesを使った固有表現抽出 実行例 おわりに 参考 Transformersとは? TransformersはHuggingFace社が公開しているPython用ライブラリで、BERTを始めとするTransformer系の言語モデルを使用する際のデファクトスタンダードになっています。また、最

            TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG
          • 文脈化された転置インデックス - Retrieva TECH BLOG

            こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。 従来の検索アルゴリズムの問題点 COILの概要 検索時の挙動 学習時の挙動 結果 実験 終わりに 従来の検索アルゴリズムの問題点 従来の検索アルゴリズムの問題点といえば、"意味"を考慮できないということが挙げられます。従来の検索アルゴリズムは、単語一致をベースとして、そのスコアリングをするのが基本だからです。そのため、単語が一致しないことによる弊害がおきます。そして、「あー、意味を考慮できたらなー」という発想に至ります。 その結果、クエリも文書もベクトル表現にして計算してしまえ!ということで近年研究が盛んに行われており、BERT1が提案されて以降、教師データがあれば、うまく行くことがわかってきています。さらに、近年、最近傍アル

              文脈化された転置インデックス - Retrieva TECH BLOG
            • BERTを用いた教師なし文表現 - Retrieva TECH BLOG

              こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。今回は、教師なしの文表現作成手法SimCSEを紹介します。 背景・概要 手法 要因 実験 NLIタスクによる実験 クラスタリングによる実験 終わりに 背景・概要 自然言語処理は、昨今様々な領域へ応用することが期待されていますが、特に企業での応用においては、ラベル設計が出来ず、教師あり手法が使えない場面に遭遇することが多々あります。そんな場面で、きっと助けになってくれるのが教師なし手法です。特に、文の類似度については、様々なタスクやデータ作成に際して便利に使える場合があります。 近年、BERTなどの大規模事前学習済み言語モデルが出てきていましたが、教師なしの文類似度タスクの場合、BERTを使って単語をベクトルに変換し、そのベクトル

                BERTを用いた教師なし文表現 - Retrieva TECH BLOG
              • 検索の評価指標 - Retrieva TECH BLOG

                こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。 皆さんは、検索エンジンの評価をどのように行なっていますか?検索エンジンの評価は、実はユーザが求めていることによって変わってきます。今回は、ユーザが求めていること=ユーザモデルと検索評価指標の関係について、書いていきます。なお、以下の内容は酒井先生の書籍に記載されておりますので、詳細が気になる方は、こちらも読んでみてください。 集合検索指標 1クエリに対する評価 複数クエリに対する評価 ランク付き検索指標 平均精度と逆数順位のユーザモデル 終わりに 集合検索指標 1クエリに対する評価 最も基本的な指標は、集合検索指標です。これは機械学習でよく用いられる、 再現率・適合率・スコアを使用します。以下、それぞれ式にします。まず、ある検

                  検索の評価指標 - Retrieva TECH BLOG
                • BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG

                  こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。 みなさんは、BERTなどの学習済み言語モデルに対して語彙を追加したくなることはありませんか? 諸々の論文(こちらやこちらやこちら)により、特定ドメインやrare-wordの語彙を追加することによって、性能が上がることが知られています。 そこで、語彙を追加しようと思い、TransformersのTokenizerの仕様を見ると、add_tokens という関数があります。これを使えば、tokenizerに語彙を追加できるので、あとはembedding側にも新しい語彙を受け取れるようにすれば万事解決です! とは、うまくいかないので、今回はこの辺りについて、ちょっとした解説をします。 add_tokensの問題点 なにがうまくいかな

                    BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG
                  • Huggingface transformersモデルのONNX runtimeによる推論の高速化 - Retrieva TECH BLOG

                    Chief Research Officerの西鳥羽 (Jiro Nishitoba (@jnishi) | Twitter) です。 今回はHugging Face TransformersのモデルのONNX runtimeで実行を試してみました。それにより特にCUDAでの実行では2.4倍近い高速化が行えました。 Hugging Face TransformersのモデルのONNX形式への変換方法から、ONNX runtimeでの実行も含めて紹介したいと思います。 ONNXとは ONNX形式への変換 ONNX形式に変換したモデルを用いて推論する ONNX形式のモデルからGPUでの推論 実験 まとめ ONNXとは ONNX とは、機械学習のモデルを表現するOpenなフォーマットです。機械学習を実現するフレームワークは数多くありますが、ONNX形式での出力をサポートしてるものも多数存在 *1

                      Huggingface transformersモデルのONNX runtimeによる推論の高速化 - Retrieva TECH BLOG
                    • Railsオンプレミス製品のためのDockerベストプラクティスver1.0 - Retrieva TECH BLOG

                      レトリバの今村です。2019年9月中旬、Answer Finder 2.1.0 をリリースいたしました。「Docker による提供形態の開始」が 2.1.0 の主な変更点となりますが、本記事ではその内容の設計の過程で得られた知見やハマりどころなどを紹介します。 レトリバ製品開発部で確立できた「Docker まわりの定石」に関する一種の備忘録的な内容となります。Answer Finder をはじめとして、レトリバの製品は Ruby on Rails アプリケーションがほとんどのため、本記事で紹介する Docker イメージは基本的には Rails アプリ提供用のものです。 自己紹介 本記事のあらすじ レトリバ製品のDockerに関する定石あれこれ 1コンテナ = 1プロセス Dockerfile の内部で CMD を記述しない 開発用ファイルと本番用ファイルの置き方 docker-compo

                        Railsオンプレミス製品のためのDockerベストプラクティスver1.0 - Retrieva TECH BLOG
                      • とりあえず動かしてみる自然言語処理入門 ~ BERT MLM 編 ~ - Retrieva TECH BLOG

                        こんにちは。カスタマーサクセス部 研究チームリサーチャーの坂田です。 レトリバでは、主にPoCやPoC支援ツールの開発、話し言葉関連の研究に取り組んでいます。 今回は、最近自然言語処理に興味を持ち始めた方に向けてPythonを使ってBERTを試す方法をご紹介します。 BERTとは? BERT自体に関しては、Web上に分かりやすい解説記事が既に多く存在していますので、ごく簡単な説明とさせて頂きます。 BERTは、2018年の10月にGoogleから発表され、2019年の6月のNAACL 2019に採択されました。 大規模な文書群から、それぞれの語彙がどのような使われ方をしているのかを統計的な言語モデルの学習を行います。 BERTでは、言語モデルの学習に、以下の2つのタスクを解きます Masked Language Model (MLM) 文書中の単語をランダムに隠し、それが何なのかを当てるタ

                          とりあえず動かしてみる自然言語処理入門 ~ BERT MLM 編 ~ - Retrieva TECH BLOG
                        • 簡潔データ構造第2回: ビットベクトルに対する簡潔データ構造 - Retrieva TECH BLOG

                          こんにちは。レトリバのリサーチャーの木村@big_wingです。COVID-19の影響でテレワークが推進されていますが、現在私も奈良県の生駒市からフルリモートで業務を行っています。 今回は簡潔データ構造について2回目の記事で、あらゆる簡潔データ構造の基本となるビットベクトルに対する簡潔データ構造を紹介します。 1回目の記事はこちらです。 簡潔データ構造をさらに詳しく知りたい方向けの紹介として、Navarro氏の本、日本語で書かれたものとしては定兼氏の本と岡野原氏の本があります。 ビットベクトルに対する簡潔データ構造 ビットベクトルに対する演算 accessの例 rankの例 selectの例 ビットベクトルの情報理論的下限 ビットベクトルに対する簡潔データ構造の実現 rankの実現: 着想 rankの実現: 2種類のブロックによる分割 rankの実現: 時間計算量と空間計算量 まとめ ビッ

                            簡潔データ構造第2回: ビットベクトルに対する簡潔データ構造 - Retrieva TECH BLOG
                          • DeepSpeedの紹介 - Retrieva TECH BLOG

                            Chief Research Officerの西鳥羽 (Jiro Nishitoba (@jnishi) | Twitter) です。 前回のブログでBigBirdを触ってみたを予告してましたが、BigBirdのような巨大なモデルを学習するために有用なライブラリがあったので、先にそちらを紹介したいと思います。 皆様は最近のモデルをみて、「お、いいな」と思うものの学習環境で16GPUとか64GPUなどの記述を見つけてしまい、遠い目をしながらそっ閉じした経験などありませんでしょうか。 今回紹介するDeepSpeed というライブラリは、物理メモリや外部SSDなどを活用してより大きなモデルを学習できるようにするものです。 実際GPUメモリ24GBのGeForce TitanRTX 2台でbaseサイズのBERTがほぼ同等の条件で学習できます。 DeepSpeed ZeRO ZeRO-Offloa

                              DeepSpeedの紹介 - Retrieva TECH BLOG
                            • wikiHowから日本語要約データを作成してみた - Retrieva TECH BLOG

                              こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事ではKoupaee and Wang1によって作成された英語要約データセットを参考に、日本語でも同様の要約データセットを作成した話をします。 現状の日本語要約データセット wikiHowを利用したデータセット作成 wikiHowの構造 wikiHowから作成した要約データの特徴 wikiHowから作成したデータの統計情報 データサイズ 単語数など 簡単な実験 手法 実験結果 まとめ 現状の日本語要約データセット 執筆現在で私が知る限り、研究目的で使用可能な日本語要約データセットは次の2つです。 朝日新聞要約データ(JNC, JAMUL/JAMUL2020)2 3行要約データセット(Livedoor Ne

                                wikiHowから日本語要約データを作成してみた - Retrieva TECH BLOG
                              • ACL2021のBest PaperのVOLTを日本語文書分類で試してみた結果...! - Retrieva TECH BLOG

                                こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、先日開催された自然言語処理のトップカンファレンスである、ACL-IJCNLP2021でBest Paperとなった、VOLT(VOcabulary Learning approach via optimal Transport)を日本語文書分類で試してみた話をします。 概要 VOLTとは? VOLTの概要 VOLT内部の尺度であるMUVについて VOLTのアルゴリズム 実験 実験設定 日本語文書分類タスクについて 分類モデルのハイパーパラメーターについて VOLTのハイパーパラメーターについて 実験結果 VOLTを使用しなかった場合と使用した場合の比較 VOLTを使用せずに最適な語彙サイズを決める まとめ 概要 一般

                                  ACL2021のBest PaperのVOLTを日本語文書分類で試してみた結果...! - Retrieva TECH BLOG
                                • 文字列アルゴリズムは世界を救う?Suffix Array と Longest Common Substrings - Retrieva TECH BLOG

                                  レトリバのCTOの武井です。 https://twitter.com/goth_wrist_cut 新型コロナウィルスが世界で猛威を振るっていますが、皆様安全に過ごせておりますでしょうか。 レトリバでは フルリモート化 や、 交流なども オンライン飲み会 にするなど、工夫して過ごしています。 さて、今回はそんな新型コロナウィルス、COVID-19の遺伝子配列をターゲットに、 Longest Common Substring(最長共通部分文字列)を求めたり、そのアルゴリズムの解説をしてみようと思います。 アルゴリズムの説明自体は William Fiset さんという方が動画で説明しており、 非常に分かりやすい図示がありますので、是非ご覧になって下さい。 https://www.youtube.com/watch?v=Ic80xQFWevc https://www.youtube.com/w

                                    文字列アルゴリズムは世界を救う?Suffix Array と Longest Common Substrings - Retrieva TECH BLOG
                                  • MLFlowと他ツールの組み合わせ - Retrieva TECH BLOG

                                    こんにちは。カスタマーサクセス部 リサーチャーの坂田です。 レトリバでは、固有表現抽出、分類、PoC用ツール作成に取り組んでいます。 PoC用ツール作成は、研究成果をより迅速にPoCで試せることを狙いとしています。 実験結果の可視化UIが充実しているMLFlow を中心に、足りないところを補うため、その他のツールとの組み合わせについて考えていきます。 MLFlow MLFlow は、実験管理からデプロイまでカバーしたツールです。特定のツールに依存しないということに重きを置いています。 4つのコンポーネントに分かれており、必要な機能のみを使えるようになっています。 MLflow Tracking : パラメータ、コードのバージョン管理、生成物の捕捉などを行う機能など。 MLflow Projects : 再現性を担保するための機能など。 MLflow Models : デプロイの支援機能など

                                      MLFlowと他ツールの組み合わせ - Retrieva TECH BLOG
                                    • BERTを用いた教師なし文表現の発展 - Retrieva TECH BLOG

                                      こんにちは。レトリバの飯田(@HIROKIIIDA7)です。TSUNADE事業部 研究チームのリーダーをしており、分類エンジンの開発・マネジメント、検索分野の研究、チームマネジメントを行っています。今回は、教師なしの文表現作成手法DiffCSEを紹介します。なお、日本語のより詳しい資料はこちらにありますので、合わせて参考にしてください。 前置き 丁度1年ほど前に、BERTを使った教師なし文表現としてSimCSEをご紹介しました。こちらの発展系として、DiffCSEをご紹介します。以下の図は、コメントがない限り、DiffCSE: Difference-based Contrastive Learning for Sentence Embeddingsより引用しています。 手法 発想の背景 この手法は、画像分野で提案されたEquivariant Contrastive Learningに影響を

                                        BERTを用いた教師なし文表現の発展 - Retrieva TECH BLOG
                                      • 社Dへの道 ~社会人博士課程に入学しました~ - Retrieva TECH BLOG

                                        社Dへの道 ~社会人博士課程に入学しました~ こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。 この4月から、東京工業大学(東工大)の岡崎研究室に社会人博士課程で所属しており、動機・受験・会社の支援など書いていきたいと思います。 社Dへの道 ~社会人博士課程に入学しました~ 動機~なぜ、社会人博士?~ 受験まで 試験 入学してから 動機~なぜ、社会人博士?~ 少し、身の上話から始めます。 私は、現在でこそ自然言語処理に携わっていますが、元々は航空宇宙工学専攻の修士卒業でした。その後、研究開発ファンディング機関に所属し、プリセールスとしてレトリバ(当時Preferred Infrastructure)に入社した後、リサーチャーになりました。高校生の時から、「技術で世の中を効率的

                                          社Dへの道 ~社会人博士課程に入学しました~ - Retrieva TECH BLOG
                                        • テキストマイニングの基礎知識|3つの手法から活用例までわかりやすく解説 - Retrieva OFFICIAL BLOG

                                          テキストマイニングとは、テキストデータを活用し、情報を抽出することを指します。社内のデータを活用して、テキストマイニングを行いたいと考えている担当者も多いでしょう。この記事では、テキストマイニングとは何なのか、目的や種類、代表的な手法などについて詳しく解説します。導入を検討している場合は、ぜひ参考にしてください。 テキストマイニングとは? テキストマイニングの目的 テキストマイニングの種類 探索的データ解析 文書分類 教師あり文書分類 教師なし文書分類 テキストマイニングの代表的な手法 センチメント分析 対応(コレスポンデンス)分析 主成分分析 テキストマイニングでできること|活用例で紹介 顧客からのフィードバックを分析 社内業務の改善策へ活用 市場動向や需要の予測を立てる テキストマイニングを活用する際の注意ポイント テキストマイニングをExcelで行う方法 手順 テキストを単語に分解す

                                            テキストマイニングの基礎知識|3つの手法から活用例までわかりやすく解説 - Retrieva OFFICIAL BLOG
                                          1

                                          新着記事