タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとcontestとNLPに関するsh19910711のブックマーク (10)

  • Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する

    Raggleの第2回コンペでアイデア賞をいただいたのでメモ。ありがとうございます〜 ソースコード 下記を参考に、Transformerモデル組み込みたいんやけど...と生成AI相談してコード作りました。要件定義と手元デバッグ野郎でした。 解法のコア このツイートにほぼすべてが詰まっています。Twitter最高! TransformerではないEmbeddingモデルである、static-embedding-japaneseをベクトル検索に用いました。 著者のセコンさんもTwitterに書いてくださっていますが、CPUでも爆速でEmbeddingできます。 今回のコンペで使った文書のEmbeddingに使う時間を比較してみたところ、以下の通りでした。 モデル 時間 上記は 396chunks(1chunk, 1000文字ごとチャンク) での計測時間です。 ※ 各々のCPUのスペックやOpe

    Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する
    sh19910711
    sh19910711 2025/05/27
    "OpenAIのtext-embeeding-smallとアンサンブル / StaticEmbeddingで類似度を計算し、コサイン類似度が0.9を下回っている場合のみRAGの候補として追加とすることで参考情報の多様性を担保"
  • 単語埋め込みにおけるout-of-vocabularyの対応 - magnitudeの初期化

    概要 magnitudeという単語埋め込みを扱うライブラリには、単語を構成する文字列を考慮したout-of-vocabularyの初期化の方法が実装されています。EMNLP 2018の論文と実際のコードを元に、その初期化の方法を実装して試してみました。 背景 KaggleのQuora Insincere Questionsコンペを終えて KaggleのQuora Insecure QuestionsのコンペではOOVの対応が重要だったっぽいけど、magnitudeはランダムベクトルの付与とかミススペルの対応とかしてくれるみたいだ。ロジック確認しないと何してるのかわからないけど……  https://t.co/d8tteqwwCp — やぐ (@yag_ays) February 26, 2019 KaggleのNLPコンペであるQuora Insincere Questions Class

    単語埋め込みにおけるout-of-vocabularyの対応 - magnitudeの初期化
    sh19910711
    sh19910711 2024/02/29
    arXiv:1810.11190 / "コンペでは主催側が定めた幾つかの学習済み単語埋め込みしか使うことができない / out-of-vocabularyをどう扱うか / magnitudeというPythonパッケージにおいて特徴的なOOV対策がされている" / 2019
  • Kaggle Google QUEST Q&Aコンペに参加した記録 - statsuのblog

    Kaggle Google QUEST Q&Aコンペに参加して61位(1571チーム中)でソロ銀メダルを取れました。 以下ではその記録についてまとめます。 記事の概要 コンペ概要 私の取り組み 興味深かった上位ソリューション 感想 コンペ概要 Google QUEST Q&A Labeling | Kaggle タスク概要 QAサイトの質問・回答に対して人が主観的にどう感じたかを予測するタスク。後述の入力データから予測対象データを予測する。 データ 入力データ:stackoverflowなどのQAサイトの質問タイトル、質問文、回答文、カテゴリ、等 予測対象データ:質問・回答に関する人の主観的な30個の項目について、0~1の得点が与えられる。例えば、answer_helpfulという項目は回答がhelpfulであるかどうかを表しており、得点0に近ければhelpfulではなく、1に近ければh

    Kaggle Google QUEST Q&Aコンペに参加した記録 - statsuのblog
    sh19910711
    sh19910711 2024/02/19
    "QAサイトの質問・回答に対して人が主観的にどう感じたかを予測 / 学習率は1e-4。Bertは5e-5~2e-5が推奨されているらしいですが、1e-4でうまくいった / Bertの入力にスペシャルトークン[category]を追加" / 2020
  • 【Kaggle】NBME - Score Clinical Patient Notesコンペにチーム参加し、4位となり金メダルを獲得しました

    【Kaggle】NBME - Score Clinical Patient Notesコンペにチーム参加し、4位となり金メダルを獲得しました はじめに こんにちは。新卒2年目になりました、中間です。業務では主にレコメンドシステムの改善に取り組んでいます。 今回は、5月初旬に終了したKaggleのNBME - Score Clinical Patient Notesという文書データを扱うコンペにチームで参加して1471チーム中4位となり金メダルを獲得することができたので、取り組みなどを紹介しようと思います。 順位の右に表示されている数値が、参加中に確認できる順位と最終順位がどれくらい異なるかを表しています。ご覧の通り、若干の順位の変動があったコンペで、金メダルを獲得することができました。 コンペURL: https://www.kaggle.com/competitions/nbme-sco

    【Kaggle】NBME - Score Clinical Patient Notesコンペにチーム参加し、4位となり金メダルを獲得しました
    sh19910711
    sh19910711 2023/04/03
    2022 / "KaggleのNBME - Score Clinical Patient Notesという文書データを扱うコンペ / 特定の症例に関連する文言があるかどうかを検出 / DeBERTa: BERTやRoBERTaと比較して、 SQuADなどのデータセットに対してより良い精度が出ているモデル"
  • AIで法律文書解釈、静岡大1位 国際法律文書処理コンテスト:朝日新聞

    人工知能AI)を活用して法律関係の文章を解釈する国際コンテストで、静岡大情報学部の狩野芳伸准教授のチームが1位を獲得した。狩野准教授は「裁判の自動化を支援するなど多くの分野に応用できる技術。さらに…

    AIで法律文書解釈、静岡大1位 国際法律文書処理コンテスト:朝日新聞
    sh19910711
    sh19910711 2022/07/21
    "COLIEE: 国際法律文書処理コンテスト + 欧米やアジアの大学が参加 / 4部門あり、静大が優勝したのは、日本の司法試験(民法短答式)の問題を加工した部門 / 条文などを覚え込ませたので、自分も法律に詳しくなった"
  • 競技プログラミングAI「AlphaCode」のコードレビューをしてみた 😱 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? DeepMindのAlphaシリーズ最新作「AlphaCode」が、競技プログラマーの標準レベル(Codeforces TOP 54%)に達したとの発表がありました。 AlphaCodeは今をときめくTransformer系のディープラーニングで、課題文を入力すると解答プログラムを出力する自然言語処理を行います。そうです、これはすなわちプログラミングをするプログラムです。マジかよ……。 詳しい手法については公式ブログや論文を参照してほしいのですが、DeepMindは別途いくつかの解答例について正誤あわせて確認できるデモサイトも用意してい

    競技プログラミングAI「AlphaCode」のコードレビューをしてみた 😱 - Qiita
    sh19910711
    sh19910711 2022/07/18
    "AlphaCode: 競技プログラマーの標準レベル(Codeforces TOP 54%)に達したとの発表 (2022.03) + いくつかの解答例について正誤あわせて確認できるデモサイトも用意 / その中にいくつかPetr Mitrichev氏による評価文付きのものが"
  • kaggleのメルカリ価格予測コンペの反省とword2vec、Embeddingについて - 時給600円

    そういえば年末年始あたりにメルカリのコンペに冬休みの自由研究として参加してました 他のことに追われていたらいつの間にかコンペが終了したので反省という名の手法の振り返りをする コンペ自体の詳細は以下のリンクから Mercari Price Suggestion Challenge | Kaggle 何をするコンペだったかというと主催側で商品名、商品の品質(5段階)、商品のカテゴリ名や説明文などが100万件以上あるデータを提供するのでそこから与えられた商品の価格を予測してねっていう感じのコンペ 価格の予測というわけで二値分類とかではないから半教師分類が使えなくて困った(値段予測を10ドル区切りのnクラス分類と置けばゴリ押しできたかも) まずは自分が行ったデータ分析をば。コードはここ 与えられた訓練用のデータtrain.tsvの欠損値の確認を最初に行うtsvファイルで与えられたので読み込みで最初

    kaggleのメルカリ価格予測コンペの反省とword2vec、Embeddingについて - 時給600円
    sh19910711
    sh19910711 2022/06/30
    2018 / "商品名、商品の品質、商品のカテゴリ名や説明文など + 価格を予測 / ブランド名が付与されているだけである程度の価格は検討つきそう / ポアンカレ埋め込み: リーマン最適化、測地線、などなど聞いたこともない"
  • 【SIGNATE】BERTで医療論文を2値分類する(PyTorch BERT)

    何をしたのか(概要) 🤗Huggingface Transformersで提供されているmicrosoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltextをベースにして、医療論文の2値分類用にFine tuningしました。 Modelには、上記のBERTをベースとして、LSTM, Conv1D, Linear層を追加し、BERTの重みを最大限活かした予測ができるように工夫しています。 Datasetには、Argument(データ拡張)処理を実装し、学習データの文章をランダムに削除したり入れ替えることで過学習の抑制をしました。 ラベル1が全体のうちの 1/43 程度しかなかったこと、評価指標がラベル1の正解を高く評価する指標であることから、損失関数のラベル1に対する重みを130倍 (ヒューリスティックス) に設定した。 Datase

    【SIGNATE】BERTで医療論文を2値分類する(PyTorch BERT)
    sh19910711
    sh19910711 2022/06/03
    "医学論文の自動仕分けチャレンジ (SIGNATE): 網羅的に収集された論文の中から、目的に沿った論文のみを抽出 / microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltextをベースにして、医療論文の2値分類用にFine tuning"
  • Transformerを用いた表現学習・推薦の実装 | フューチャー技術ブログ

    こんにちは!SAIGの金子です。 普段はフューチャーのAIグループで開発を行っている他、nadareというハンドルネームでデータ分析コンペティションに参加しています。 自然言語処理でよく使われるWord2VecやTransformerをログデータやテーブルデータの予測・分析に活用するためのオレオレベースラインを紹介します。 対象読者 既にWord2VecやTransformerについて知識があり、その上自身で改造を行いたい人 レコメンド・検索技術に興味のある人 はじめに昨今、ECサイトの閲覧・購入履歴の分析やワクチンの開発といった自然言語以外の分野でも、それぞれの商品やアミノ酸を単語とみなして埋め込み表現を獲得するWord2VecやBERTのような自然言語処理由来の技術が活用されています。 これらの分析にはgensimのようなよく整備されたライブラリが活用されますが、それらは自然言語処理を

    Transformerを用いた表現学習・推薦の実装 | フューチャー技術ブログ
    sh19910711
    sh19910711 2022/05/30
    "Kaggleのriiidコンペ: TOEICの問題集のアプリを使うユーザーが過去に解いた問題から、次に解く問題についての正解率を予測 / 問題は13000問、ユーザーは40万人分"
  • TF-IDFを用いた「Kaggle流行語大賞2018」【kaggle Advent Calendar 14日目】 - u++の備忘録

    記事は、kaggle Advent Calendar 2018の14日目の記事です。12日目で最後の予定でしたが、穴が空いていたので2日ぶり6回目の投稿です。 qiita.com はじめに 記事では、年の瀬ということで「Kaggle流行語大賞2018」という題材に取り組みます。 具体的には、今年に公開された全てのKernelのタイトルを収集し、単語ごとの登場回数を計算しました。冠詞や代名詞などの一般的な単語を除外し、さらにTF-IDFを用いて2018年に特に多く登場した単語を特定することで、栄えある「Kaggle流行語大賞2018」を決定したいと思います。 データ収集 今回は「Meta Kaggle」という、Kaggle公式が1日ごとにデータを更新しているメタ情報を利用します。最新のデータが12月12日の時点のcsvをダウンロードしました。 www.kaggle.com "Kernel

    TF-IDFを用いた「Kaggle流行語大賞2018」【kaggle Advent Calendar 14日目】 - u++の備忘録
  • 1