retrievaの人気記事 20件 - はてなブックマーク

1 - 20 件 / 20件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

retrievaの検索結果1 - 20 件 / 20件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

retrievaに関するエントリは20件あります。 NLP、 BERT、自然言語処理などが関連タグです。人気エントリには『日本語話し言葉BERTを作成、公開します！ - Retrieva TECH BLOG』などがあります。

日本語話し言葉BERTを作成、公開します！ - Retrieva TECH BLOG
- 61 users
- tech.retrieva.jp
- テクノロジー
- 2021/04/01
こんにちは。カスタマーサクセス部リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、国立国語研究所様との共同研究で作成した日本語話し言葉BERTとその利用方法について紹介します。概要 BERTの簡単な説明話し言葉BERT作成方法書き言葉BERTの文法を表現する部分のみをCSJで追加学習書き言葉BERTに対して、話し言葉データを用いた分野適応実験文法を表現する部分のみを追加学習することの有効性の確認話し言葉データを用いた分野適応を行うことの有効性の確認日本語話し言葉BERTの公開ご利用方法まとめ概要近年、自然言語処理の分野ではBERT（Bidirectional Encoder Representations from Transformers）と呼ばれるモ
BERTを利用した日本語文書要約をやってみた - Retrieva TECH BLOG
- 42 users
- tech.retrieva.jp
- テクノロジー
- 2020/08/28
こんにちは。カスタマーサクセス部リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップを行っております。今回の記事では、以前作成した日本語wikiHow要約データに対して、BERTを用いて抽出型、抽象型要約を行った話をします。概要と背景 wikiHow要約データの特徴 BERTを用いた要約抽出型要約抽象型要約実験実験設定実験結果まとめ概要と背景前回の記事ではwikiHowから日本語要約データを作成しました。その記事内では、簡単な要約実験として教師なし抽出型要約を試しました。今回は、BERTを利用した抽出型、抽象型要約を用いて要約実験を行いたいと思います。 wikiHow要約データの特徴前回の記事の再掲になりますが、wikiHow要約データ量は次の通りとなっています。 train dev test
TopicModelの最終形態？ Structured Topic Modelのご紹介 - Retrieva TECH BLOG
- 31 users
- tech.retrieva.jp
- テクノロジー
- 2020/02/07
こんにちは。レトリバの飯田です。カスタマーサクセス部研究チームに所属しており、論文調査やそのアルゴリズムを実行するスクリプトの実装などを行なっています。今回は、Bag of Words(BoW)表現に於いて、これがTopicModelの最終形態ではないか？と私が思っているStructured Topic Modelの紹介と再現実装をpythonで行なったので、その紹介をします。 https://github.com/retrieva/python_stm Structured Topic Modelとは Correlated Topic Model(CTM) Sparse Additive Generative Model(SAGE) STMの更なる特徴文書ートピックの分布の推定に対し文書属性情報を考慮できる積分消去による高速化 STMの使い方 Covariate(Y)の使い方 P
- NLP
- あとで読む
TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG
- 27 users
- tech.retrieva.jp
- テクノロジー
- 2021/08/30
こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。本記事では、Hugging Face 社が開発しているTransformersのPipelinesという仕組みを使って日本語の固有表現抽出を行う方法をご紹介します。 Transformersとは？日本語学習済み言語モデル Pipelines Trainer 固有表現抽出とは？実際に日本語NERTを試してみる必要な各種依存ライブラリのインストール使用するデータ日本語固有表現抽出データセットでのFine-tuning Pipelinesを使った固有表現抽出実行例おわりに参考 Transformersとは？ TransformersはHuggingFace社が公開しているPython用ライブラリで、BERTを始めとするTransformer系の言語モデルを使用する際のデファクトスタンダードになっています。また、最

文脈化された転置インデックス - Retrieva TECH BLOG
- 23 users
- tech.retrieva.jp
- テクノロジー
- 2021/07/19
こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。従来の検索アルゴリズムの問題点 COILの概要検索時の挙動学習時の挙動結果実験終わりに従来の検索アルゴリズムの問題点従来の検索アルゴリズムの問題点といえば、"意味"を考慮できないということが挙げられます。従来の検索アルゴリズムは、単語一致をベースとして、そのスコアリングをするのが基本だからです。そのため、単語が一致しないことによる弊害がおきます。そして、「あー、意味を考慮できたらなー」という発想に至ります。その結果、クエリも文書もベクトル表現にして計算してしまえ！ということで近年研究が盛んに行われており、BERT1が提案されて以降、教師データがあれば、うまく行くことがわかってきています。さらに、近年、最近傍アル
- アルゴリズム
- BERT
- 学習
- 検索
- tech
- あとで読む
- search
BERTを用いた教師なし文表現 - Retrieva TECH BLOG
- 21 users
- tech.retrieva.jp
- テクノロジー
- 2021/10/12
こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。今回は、教師なしの文表現作成手法SimCSEを紹介します。背景・概要手法要因実験 NLIタスクによる実験クラスタリングによる実験終わりに背景・概要自然言語処理は、昨今様々な領域へ応用することが期待されていますが、特に企業での応用においては、ラベル設計が出来ず、教師あり手法が使えない場面に遭遇することが多々あります。そんな場面で、きっと助けになってくれるのが教師なし手法です。特に、文の類似度については、様々なタスクやデータ作成に際して便利に使える場合があります。近年、BERTなどの大規模事前学習済み言語モデルが出てきていましたが、教師なしの文類似度タスクの場合、BERTを使って単語をベクトルに変換し、そのベクトル
- BERT
- NLP
- 学習
- 勉強
- あとで読む
検索の評価指標 - Retrieva TECH BLOG
- 16 users
- tech.retrieva.jp
- テクノロジー
- 2020/08/20
こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。皆さんは、検索エンジンの評価をどのように行なっていますか？検索エンジンの評価は、実はユーザが求めていることによって変わってきます。今回は、ユーザが求めていること=ユーザモデルと検索評価指標の関係について、書いていきます。なお、以下の内容は酒井先生の書籍に記載されておりますので、詳細が気になる方は、こちらも読んでみてください。集合検索指標 1クエリに対する評価複数クエリに対する評価ランク付き検索指標平均精度と逆数順位のユーザモデル終わりに集合検索指標 1クエリに対する評価最も基本的な指標は、集合検索指標です。これは機械学習でよく用いられる、再現率・適合率・スコアを使用します。以下、それぞれ式にします。まず、ある検
BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG
- 10 users
- tech.retrieva.jp
- テクノロジー
- 2021/12/27
こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。みなさんは、BERTなどの学習済み言語モデルに対して語彙を追加したくなることはありませんか？諸々の論文(こちらやこちらやこちら)により、特定ドメインやrare-wordの語彙を追加することによって、性能が上がることが知られています。そこで、語彙を追加しようと思い、TransformersのTokenizerの仕様を見ると、add_tokens という関数があります。これを使えば、tokenizerに語彙を追加できるので、あとはembedding側にも新しい語彙を受け取れるようにすれば万事解決です！とは、うまくいかないので、今回はこの辺りについて、ちょっとした解説をします。 add_tokensの問題点なにがうまくいかな
- あとで読む
Huggingface transformersモデルのONNX runtimeによる推論の高速化 - Retrieva TECH BLOG
- 7 users
- tech.retrieva.jp
- テクノロジー
- 2022/02/28
Chief Research Officerの西鳥羽 (Jiro Nishitoba (@jnishi) | Twitter) です。今回はHugging Face TransformersのモデルのONNX runtimeで実行を試してみました。それにより特にCUDAでの実行では2.4倍近い高速化が行えました。 Hugging Face TransformersのモデルのONNX形式への変換方法から、ONNX runtimeでの実行も含めて紹介したいと思います。 ONNXとは ONNX形式への変換 ONNX形式に変換したモデルを用いて推論する ONNX形式のモデルからGPUでの推論実験まとめ ONNXとは ONNX とは、機械学習のモデルを表現するOpenなフォーマットです。機械学習を実現するフレームワークは数多くありますが、ONNX形式での出力をサポートしてるものも多数存在 *1
Railsオンプレミス製品のためのDockerベストプラクティスver1.0 - Retrieva TECH BLOG
- 7 users
- tech.retrieva.jp
- テクノロジー
- 2019/09/25
レトリバの今村です。2019年9月中旬、Answer Finder 2.1.0 をリリースいたしました。「Docker による提供形態の開始」が 2.1.0 の主な変更点となりますが、本記事ではその内容の設計の過程で得られた知見やハマりどころなどを紹介します。レトリバ製品開発部で確立できた「Docker まわりの定石」に関する一種の備忘録的な内容となります。Answer Finder をはじめとして、レトリバの製品は Ruby on Rails アプリケーションがほとんどのため、本記事で紹介する Docker イメージは基本的には Rails アプリ提供用のものです。自己紹介本記事のあらすじレトリバ製品のDockerに関する定石あれこれ 1コンテナ = 1プロセス Dockerfile の内部で CMD を記述しない開発用ファイルと本番用ファイルの置き方 docker-compo
- あとで読む
とりあえず動かしてみる自然言語処理入門　~ BERT MLM 編 ~ - Retrieva TECH BLOG
- 6 users
- tech.retrieva.jp
- テクノロジー
- 2020/11/27
こんにちは。カスタマーサクセス部　研究チームリサーチャーの坂田です。レトリバでは、主にPoCやPoC支援ツールの開発、話し言葉関連の研究に取り組んでいます。今回は、最近自然言語処理に興味を持ち始めた方に向けてPythonを使ってBERTを試す方法をご紹介します。 BERTとは？ BERT自体に関しては、Web上に分かりやすい解説記事が既に多く存在していますので、ごく簡単な説明とさせて頂きます。 BERTは、2018年の10月にGoogleから発表され、2019年の6月のNAACL 2019に採択されました。大規模な文書群から、それぞれの語彙がどのような使われ方をしているのかを統計的な言語モデルの学習を行います。 BERTでは、言語モデルの学習に、以下の2つのタスクを解きます Masked Language Model (MLM) 文書中の単語をランダムに隠し、それが何なのかを当てるタ
- あとで読む
簡潔データ構造第2回: ビットベクトルに対する簡潔データ構造 - Retrieva TECH BLOG
- 5 users
- tech.retrieva.jp
- テクノロジー
- 2020/07/30
こんにちは。レトリバのリサーチャーの木村@big_wingです。COVID-19の影響でテレワークが推進されていますが、現在私も奈良県の生駒市からフルリモートで業務を行っています。今回は簡潔データ構造について2回目の記事で、あらゆる簡潔データ構造の基本となるビットベクトルに対する簡潔データ構造を紹介します。 1回目の記事はこちらです。簡潔データ構造をさらに詳しく知りたい方向けの紹介として、Navarro氏の本、日本語で書かれたものとしては定兼氏の本と岡野原氏の本があります。ビットベクトルに対する簡潔データ構造ビットベクトルに対する演算 accessの例 rankの例 selectの例ビットベクトルの情報理論的下限ビットベクトルに対する簡潔データ構造の実現 rankの実現: 着想 rankの実現: 2種類のブロックによる分割 rankの実現: 時間計算量と空間計算量まとめビッ
- あとで読む
DeepSpeedの紹介 - Retrieva TECH BLOG
- 4 users
- tech.retrieva.jp
- テクノロジー
- 2021/07/26
Chief Research Officerの西鳥羽 (Jiro Nishitoba (@jnishi) | Twitter) です。前回のブログでBigBirdを触ってみたを予告してましたが、BigBirdのような巨大なモデルを学習するために有用なライブラリがあったので、先にそちらを紹介したいと思います。皆様は最近のモデルをみて、「お、いいな」と思うものの学習環境で16GPUとか64GPUなどの記述を見つけてしまい、遠い目をしながらそっ閉じした経験などありませんでしょうか。今回紹介するDeepSpeed というライブラリは、物理メモリや外部SSDなどを活用してより大きなモデルを学習できるようにするものです。実際GPUメモリ24GBのGeForce TitanRTX 2台でbaseサイズのBERTがほぼ同等の条件で学習できます。 DeepSpeed ZeRO ZeRO-Offloa
- あとで読む
wikiHowから日本語要約データを作成してみた - Retrieva TECH BLOG
- 4 users
- tech.retrieva.jp
- テクノロジー
- 2020/07/03
こんにちは。カスタマーサクセス部リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事ではKoupaee and Wang1によって作成された英語要約データセットを参考に、日本語でも同様の要約データセットを作成した話をします。現状の日本語要約データセット wikiHowを利用したデータセット作成 wikiHowの構造 wikiHowから作成した要約データの特徴 wikiHowから作成したデータの統計情報データサイズ単語数など簡単な実験手法実験結果まとめ現状の日本語要約データセット執筆現在で私が知る限り、研究目的で使用可能な日本語要約データセットは次の2つです。朝日新聞要約データ（JNC, JAMUL/JAMUL2020）2 3行要約データセット（Livedoor Ne
- あとで読む
ACL2021のBest PaperのVOLTを日本語文書分類で試してみた結果...！ - Retrieva TECH BLOG
- 4 users
- tech.retrieva.jp
- テクノロジー
- 2021/08/30
こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、先日開催された自然言語処理のトップカンファレンスである、ACL-IJCNLP2021でBest Paperとなった、VOLT（VOcabulary Learning approach via optimal Transport）を日本語文書分類で試してみた話をします。概要 VOLTとは？ VOLTの概要 VOLT内部の尺度であるMUVについて VOLTのアルゴリズム実験実験設定日本語文書分類タスクについて分類モデルのハイパーパラメーターについて VOLTのハイパーパラメーターについて実験結果 VOLTを使用しなかった場合と使用した場合の比較 VOLTを使用せずに最適な語彙サイズを決めるまとめ概要一般
文字列アルゴリズムは世界を救う？Suffix Array と Longest Common Substrings - Retrieva TECH BLOG
- 4 users
- tech.retrieva.jp
- テクノロジー
- 2020/06/02
レトリバのCTOの武井です。 https://twitter.com/goth_wrist_cut 新型コロナウィルスが世界で猛威を振るっていますが、皆様安全に過ごせておりますでしょうか。レトリバではフルリモート化や、交流などもオンライン飲み会にするなど、工夫して過ごしています。さて、今回はそんな新型コロナウィルス、COVID-19の遺伝子配列をターゲットに、 Longest Common Substring(最長共通部分文字列)を求めたり、そのアルゴリズムの解説をしてみようと思います。アルゴリズムの説明自体は William Fiset さんという方が動画で説明しており、非常に分かりやすい図示がありますので、是非ご覧になって下さい。 https://www.youtube.com/watch?v=Ic80xQFWevc https://www.youtube.com/w
MLFlowと他ツールの組み合わせ - Retrieva TECH BLOG
- 4 users
- tech.retrieva.jp
- テクノロジー
- 2020/07/28
こんにちは。カスタマーサクセス部リサーチャーの坂田です。レトリバでは、固有表現抽出、分類、PoC用ツール作成に取り組んでいます。 PoC用ツール作成は、研究成果をより迅速にPoCで試せることを狙いとしています。実験結果の可視化UIが充実しているMLFlow を中心に、足りないところを補うため、その他のツールとの組み合わせについて考えていきます。 MLFlow MLFlow は、実験管理からデプロイまでカバーしたツールです。特定のツールに依存しないということに重きを置いています。 4つのコンポーネントに分かれており、必要な機能のみを使えるようになっています。 MLflow Tracking : パラメータ、コードのバージョン管理、生成物の捕捉などを行う機能など。 MLflow Projects : 再現性を担保するための機能など。 MLflow Models : デプロイの支援機能など
- hydra
- mlOps
- nlp
- data
- mlflow
BERTを用いた教師なし文表現の発展 - Retrieva TECH BLOG
- 3 users
- tech.retrieva.jp
- テクノロジー
- 2022/11/01
こんにちは。レトリバの飯田(@HIROKIIIDA7)です。TSUNADE事業部研究チームのリーダーをしており、分類エンジンの開発・マネジメント、検索分野の研究、チームマネジメントを行っています。今回は、教師なしの文表現作成手法DiffCSEを紹介します。なお、日本語のより詳しい資料はこちらにありますので、合わせて参考にしてください。前置き丁度1年ほど前に、BERTを使った教師なし文表現としてSimCSEをご紹介しました。こちらの発展系として、DiffCSEをご紹介します。以下の図は、コメントがない限り、DiffCSE: Difference-based Contrastive Learning for Sentence Embeddingsより引用しています。手法発想の背景この手法は、画像分野で提案されたEquivariant Contrastive Learningに影響を
- あとで読む
社Dへの道 ~社会人博士課程に入学しました~ - Retrieva TECH BLOG
- 3 users
- tech.retrieva.jp
- テクノロジー
- 2020/06/08
社Dへの道 ~社会人博士課程に入学しました~ こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。この4月から、東京工業大学(東工大)の岡崎研究室に社会人博士課程で所属しており、動機・受験・会社の支援など書いていきたいと思います。社Dへの道 ~社会人博士課程に入学しました~ 動機~なぜ、社会人博士？~ 受験まで試験入学してから動機~なぜ、社会人博士？~ 少し、身の上話から始めます。私は、現在でこそ自然言語処理に携わっていますが、元々は航空宇宙工学専攻の修士卒業でした。その後、研究開発ファンディング機関に所属し、プリセールスとしてレトリバ(当時Preferred Infrastructure)に入社した後、リサーチャーになりました。高校生の時から、「技術で世の中を効率的
テキストマイニングの基礎知識｜3つの手法から活用例までわかりやすく解説 - Retrieva OFFICIAL BLOG
- 3 users
- blog.retrieva.jp
- 世の中
- 2021/03/31
テキストマイニングとは、テキストデータを活用し、情報を抽出することを指します。社内のデータを活用して、テキストマイニングを行いたいと考えている担当者も多いでしょう。この記事では、テキストマイニングとは何なのか、目的や種類、代表的な手法などについて詳しく解説します。導入を検討している場合は、ぜひ参考にしてください。テキストマイニングとは？テキストマイニングの目的テキストマイニングの種類探索的データ解析文書分類教師あり文書分類教師なし文書分類テキストマイニングの代表的な手法センチメント分析対応（コレスポンデンス）分析主成分分析テキストマイニングでできること｜活用例で紹介顧客からのフィードバックを分析社内業務の改善策へ活用市場動向や需要の予測を立てるテキストマイニングを活用する際の注意ポイントテキストマイニングをExcelで行う方法手順テキストを単語に分解す