「コーパス」を検索 - はてなブックマーク

161 - 200 件 / 845件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

コーパスの検索結果161 - 200 件 / 845件

査読ガチャは甘え――トップAI会議で使われる査読割当てシステムToronto Paper Matching Systemを攻略してキミも超ウルトラ高度AI人材になろう！ - Qiita
- 38 users
- qiita.com/hmkz
- テクノロジー
- 2021/12/30
査読ガチャは甘え――トップAI会議で使われる査読割当てシステムToronto Paper Matching Systemを攻略してキミも超ウルトラ高度AI人材になろう！機械学習MachineLearning論文研究AI はじめに KLab機械学習グループの濱田です．KLabアドベントカレンダー2021 22日目のこの記事では，トップAI会議で使われる査読割当てシステムToronto Paper Matching System (TPMS)の仕組みを解説します．加えて，TPMSを使う会議で適切な査読者に論文が割り当てられやすくなるような論文の書き方について，私の考えを紹介します．この記事の第一の対象読者は，基本的な研究のやり方と英語論文の書き方は習得したけれど，なかなかトップAI会議に通らず悩んでいる投稿経験3～10回程度の方です．研究内容は良いはずだし，文章も十分に磨いたはずなのに，それ
- 査読
- 論文
- 機械学習
- AI
- あとで読む
- 研究
- 人工知能
BERTopic で文書のクラスタリングを試す - Sansan Tech Blog
- 37 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2023/02/21
こんにちは。研究開発部の青見 (@nersonu) です。そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次目次 BERTopic とは文書の埋め込み文書のクラスタリングトピック表現手法の概要まとめ BERTopic を試してみるインストールモデルのロードクラスタリングの実行結果の確認トピックごとの単語の重要度トピックごとの文書を眺めてみる次元削減手法・クラスタリング手法の変更使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。トピックモデルは、文書集合から「トピック」は何が含まれ
PythonからDataprocを操作してシームレスに並列処理を実現する - astamuse Lab
- 37 users
- lab.astamuse.co.jp
- テクノロジー
- 2020/04/08
初めまして。2019年6月にAstamuseにjoinした rinoguchi です。ついに昨日、日本でも緊急事態宣言が出ましたね。小学校の休校も１ヶ月程度延長されましたし、会社もリモートワークにほぼ移行してますし、ここできっちりウイルスの拡散を防ぎたいところです。ちなみに、妻がドイツに単身赴任中なのですが、ドイツでは感染者は多くて外出自粛モードになっているものの、現地の人たちはせっかくだからと日曜大工したり、庭を改造したりとそれなりに楽しんでいるみたいです。私たちも制限された環境の中ですが、せっかくなので楽しみたいですね！屋根瓦. なんとなく並列処理を連想しませんか？はじめにそれはそうと、私は当社で、特許データなどの名寄せ（同一人物に対してユニークなIDをふる作業）を担当しております。特許の名寄せには、人物名・組織名・出願日・共同出願人など様々な特徴を利用するのですが、中国人
日本語に強い大規模言語モデル「Swallow」　産総研と東工大が公開　事前学習用の日本語データに工夫
- 37 users
- www.itmedia.co.jp
- テクノロジー
- 2023/12/20
産業技術総合研究所と東京工業大学の研究チームは12月19日、日本語に強い大規模言語モデル（LLM）「Swallow」を公開した。米Metaが開発したLLM「Llama 2シリーズ」をベースに日本語能力を改善させたもの。ライセンスは「LLAMA 2 Community License」で、研究や商業目的で利用できる。今回公開したのは、パラメータ数が70億（7B）、130億（13B）、700億（70B）のモデル3種類。Llama 2シリーズが持つ高い言語処理能力を維持しながら日本語能力を強化することを目指した。このため、AIモデルに日本語の文字や単語などの語彙を追加し、新たに開発した日本語データで継続事前学習（学習済みのLLMに対して追加で事前学習を行う手法で、異なる言語などで言語モデルを活用するときに使われる）を行った。結果、日本語に関するベンチマークデータで、全モデルがベースモデルより
- 人工知能
- techfeed
- AI
- 技術
- あとで読む
- モデル
- 日本語
自然言語処理の最新モデル日本語版ELECTRAを公開しました | 株式会社シナモン（シナモンAI）
- 36 users
- cinnamon.ai
- テクノロジー
- 2020/09/10
こんにちは。シナモンAI広報担当です。シナモンAIでは自然言語処理技術を用いたプロダクトAurora Clipper（オーロラ・クリッパー）を展開しており、特定の文脈を持つ日付や人物名の取得、長い文章からの要点抽出、テキストの分類など様々な用途で用いられる製品を提供しております。弊社では100名程度のAIリサーチャーを抱えており、その中でも自然言語処理に特化したチームではAurora Clipperの基礎となるAIモデルも日々改善しています。本記事では、自然言語処理技術に関わる研究の成果として日本語版ELECTRAを公開したため、弊社のPMが概要をご紹介いたします。自然言語処理の課題自然言語処理はその名の通り、言葉を数値情報として取り扱うことで、言葉の持つ意味を解析します。この技術が特に注目されるようになったのは、Google Brainが2018年5月にBERT (Bidire
色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
- 36 users
- tech-blog.abeja.asia
- テクノロジー
- 2023/12/21
こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。まずは言語を対象として日本語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々
深層学習系のトップ会議ICLR2020のNLP系論文についてざっくり紹介 - 株式会社ホクソエムのブログ
- 36 users
- blog.hoxo-m.com
- テクノロジー
- 2020/04/21
ホクソエムサポーターの白井です。今回はICLR2020 の論文を紹介します。 The International Conference on Learning Representations (ICLR) は機械学習の中でも特に深層学習を専門とした国際会議です。 OpenReview.net によるopen peer reviewを採用しているので、submitされた論文はだれでも閲覧可能です。(ICLR2020 open review) 2020年はエチオピアで開催予定でしたが、COVID-19の影響でvirtual conferenceとなりました。今回はNLP系の論文について5本紹介します。すでに日本語ブログ記事で紹介されているような論文もありますが、自分が興味を持った部分を中心としてざっくりと紹介したいと思います。以降、とくに記載がない場合、図は論文またはブログからの引用で
- NLP
- 機械学習
- deeplearning
- あとで読む
- HotEntry
- 論文
メルカリにおける機械学習による検索のリランキングへの道のり | メルカリエンジニアリング
- 35 users
- engineering.mercari.com
- テクノロジー
- 2023/01/26
※本記事は2023年1月1日に公開された記事の翻訳版です。メルカリのマーケットプレイスにおける商品検索は、お客さまが欲しい物を発見する最も基本的な方法です。この中核となる機能は、テキストマッチングによる情報検索システムによって実現されています。しかし最近、私たちは自問自答しました。お客さまの検索体験を向上させる、合理的な機械学習ベースのアプローチはあるのだろうか？という疑問が生まれました。メルカリアプリ上のお客さまの行動を、彼らにとってより関連性の高い検索結果についてのヒントとして捉えることはできないでしょうか？学習データにラベルを付け、単体のユーザークリックという行為をもとにした分析の限界を念頭に置きながら、モデルが学習するための、より情報量の多いコンテキストを構築できないでしょうか？ビジネスKPIとの関係を把握するために、どのようにデータラベリングを利用できるでしょうか？それは、
公開しているモデル・コーパス・ツール
- 35 users
- llm-jp.nii.ac.jp
- テクノロジー
- 2023/10/20
LLM-jp で開発したモデルやツールを公開しています。コーパスを含む各種データは今後順次公開していく予定です。公開プラットフォームモデル: https://huggingface.co/llm-jp ツール: https://github.com/llm-jp 事前訓練済みモデル 13B v1.0 LLM-jp-13B-v1.0 1.3B v1.0 LLM-jp-1.3B-v1.0 チューニング済みモデル 13B v1.1 LLM-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 LLM-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1 LLM-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oass
- LLM
- 自然言語処理
- データ
- ツール
- あとで読む
- 人工知能
- 統計
- tool
ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す？Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge
- 35 users
- www.techno-edge.net
- テクノロジー
- 2023/11/30
同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文の断片などがありました。 LLMはチャットボットやテキスト画像生成AIなど、テクノロジー界隈をこの1年半ほど賑わせている生成AIの基盤技術です。その深層学習アルゴリズムは、膨大な量のデータに基づいてトレーニングされていますが、その膨大な量のデータセットは一般に、公共のインターネットから収集されることが多いと言われています。しかし、OpenAIのLLMはクローズドソースであるため、どのようなデータセットを用いてトレーニングしてきたのかは、ほとんど知られていませんでした。研究者は、
GiNZA version 4.0: 多言語依存構造解析技術への文節APIの統合 - Megagon Labs | リクルート AI研究機関
- 35 users
- www.megagon.ai
- テクノロジー
- 2020/09/12
Universal Dependenciesのもとで日本語文法に根ざした直感的な統語解析を可能にしたい。GiNZAが目指してきた自然言語処理のゴールにまた一歩近づきました。2020年8月16日にリリースした「GiNZA version 4.0」ですが、日本語の公式サポートが始まったspaCy version 2.3を土台とし、機能と性能を隅々までブラッシュアップしています。これまで以上に日本語の分析が容易になったGiNZA v4の文節APIについて詳しく解説します。 GiNZAでできること NLP（自然言語処理）技術は人が日常的に使う言葉を機械的に分析するための一連の解析処理に用いる技術の総称です。この「一連の解析処理」という部分が非常に重要で、例えば日本語の書き言葉の文であれば、最初に単語を区切ってからそれらを文節にまとめて係り受け関係を解釈する、という流れになります。英語の文の場合、単
- 自然言語処理
- nlp
- ライブラリ
- 日本語
- あとで読む
- API
- 研究
- web
系列ラベリングによる NPS コメントのポジティブ・ネガティブ部分の抽出 - クックパッド開発者ブログ
- 35 users
- techlife.cookpad.com
- テクノロジー
- 2020/05/15
こんにちは。研究開発部の深澤(@fukkaa1225)と申します。クックパッドでは、顧客のロイヤルティを測る指標であるNPS(ネットプロモータースコア)のアンケートを毎月実施しています。このNPSアンケートで集まってきたユーザの声(フリーコメント)は、クックパッドにとって大変貴重なものです。しかし、毎月多くの声が届くこともあり、担当者だけで目を通して集計するというのは難しくなってきました。そこで昨年、予め定義したカテゴリにコメントを自動で分類するシステムを構築し、既に稼働させています。 NPSアンケートを自動分類した話 - クックパッド開発者ブログこのシステムによって「いただいたコメントが何を話題にしているか」はある程度自動的に把握できるようになりました。次に課題となったのは、例えば「このコメントはレシピの多さに関するものである。でもその中にはポジティブな部分とネガティブな部分が混じ
- 機械学習
- あとで読む
End-to-End音声認識の計算量を削減した話
- 35 users
- techblog.yahoo.co.jp
- テクノロジー
- 2020/06/29
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯（黒帯はヤフー内のスキル任命制度）の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。音声認識で用いられるEnd-to-Endモデルとは？音声認識技術は音声をテキ
LLM のデータセットまとめ｜npaka
- 34 users
- note.com/npaka
- テクノロジー
- 2023/04/03
LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich
世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開／商用・非商用を問わず、誰もが自由に利用・改変・再配布可能
- 34 users
- forest.watch.impress.co.jp
- テクノロジー
- 2023/01/20
- AI
- 音声
- 音声認識
- 文章
- 日本語
- モデル
安倍晋三会話botを作っています+助言いただきたいです - イカれた男のイカれたブログ
- 34 users
- nutsboy710.hatenablog.com
- 政治と経済
- 2022/09/26
不謹慎極まりないですが、安倍晋三氏の発言を学習データとして安倍晋三botなるものを製作しております。題材が安倍晋三氏なのは、発言に大きな特徴がある、国会での発言からそこそこの量のデータを容易に用意できる、国会議事録から簡単に対話コーパスを作成できる、というようにキャラクター対話botという題材に非常に適した存在であるからです。作成途中に痛ましい事件が起こりましたが、人間の欲求は止められねえということで、不道徳の誹りを甘んじて受けることとして、作成を続行しています。以下に作成過程、作成状況を記載しますので、この分野に詳しい人おられましたら是非助言よろしくお願いいたします。ブログのコメント欄、もしくはメールアドレスとTwitterアカウントも掲載しておきますので、どの媒体でも構いませんのでマジでお願いします。ちなみに私は情報系ではないど素人門外漢なので(専攻は材料とかそっち系)、的外れなこと
- bot
- AI
- Webサービス
- 自然言語処理
- 2022
- あとで消す
- 文章
- 学習
- エンタメ
- ネット
Alpaca-loraを日本語タスクでファインチューニングする - Qiita
- 34 users
- qiita.com/toshi_456
- テクノロジー
- 2023/03/19
Alpaca-LoRAという家庭用GPUでも大規模言語モデルのFineTuningが可能なモデルが発表されました。本記事では、livedoorニュースコーパスを使用してAlpaca-LoRAをFineTuningしてニュースのタイトルを考えさせるというタスクに挑戦してみます。技術の概要 Alpacaとは Alpacaとは、先日Metaが発表したLLaMa 7Bをtext-davinci-003によるself-instructで生成されたデータを使用してFineTuningした言語モデル。生成したデータは52K個で生成コストは500ドル以下と低コストです。人間による予備評価では7Bという比較的小さなモデルにも関わらず、text-davinci-003に似た挙動を示すという報告があげられています。 Alpaca-LoRAとは Alpaca-LoRAとはAlpacaで作成したデータセット
- Alpaca
- 機械学習
- NLP
- AI
- 自然言語処理
- 日本語
継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development
- 34 users
- tech.preferred.jp
- テクノロジー
- 2024/04/17
この記事は、金融チームエンジニアの今城(@imos)と金融チームリサーチャーの平野(@_mhirano)による寄稿です。概要本稿では、ドメインに特化したLLMの構築の一環として、金融ドメイン特化のLLMの構築の検証を行いました。継続事前学習によるドメイン知識の獲得を模索し、特定のドメイン向けに専用のパラメータ数が多い高性能なLLMを提供を可能にすることを目指します。実験では、nekomata-14bとPFNで構築した金融に特化したデータセットを用いて、継続事前学習を実施しました。継続事前学習の結果として、金融ベンチマーク性能が向上することが確認できました。出力の差としては、Instruction Tuningを施していないため、大きな差は見られないものの、一定の差が見られるケースもありました。継続事前学習後のモデルは、https://huggingface.co/pfnet/n
BARTを用いた新しい固有表現抽出手法の紹介
- 34 users
- zenn.dev/fujisyo32
- テクノロジー
- 2021/12/28
input,output 山田太郎は10月にXX株式会社に入社しました。,山田太郎は人名です。山田太郎は10月にXX株式会社に入社しました。,10月は時間表現です。山田太郎は10月にXX株式会社に入社しました。,XX株式会社は組織名です。山田太郎は10月にXX株式会社に入社しました。,10月にXXは固有表現ではありません。山田太郎は10月にXX株式会社に入社しました。,入社しましたは固有表現ではありません。山田太郎は10月にXX株式会社に入社しました。,山田太郎は10月は固有表現ではありません。加藤部長は昨日つけ麺を食べました。,加藤は人名です。 …… 学習やっていることはすごく単純で、先ほど作ったデータセットのinputの文を入力としてoutputの文を出力するようにBARTを学習します。推論推論するときは全てのスパンでそれぞれテンプレートを埋めてみて、どれが一番しっく
- 自然言語処理
- あとで読む
ウェイ（18）がビッグデータで導く†最強英会話フレーズ300選† - Qiita
- 34 users
- qiita.com/pigiipanku
- テクノロジー
- 2019/09/18
英会話してる時に、「あれ？？言いたいことが口から出てこない...やばい」　ってシチュエーション、結構ありませんか？このビッグデータで日常英会話をを分析した「最強英会話フレーズ300選」さえあれば、英語で言いたいことがスラスラ話せる！最悪、アメリカで一文無しになっても生存できる英語力が手に入るはずです。きっかけ Chris(日本語二年目）「What the hell. Japanese is really freaking vague!(ふざけんな、この日本語とかいう言語難し過ぎだろw）」ウェイ「Really?? Why are you confused?(まじ？どこらへんがわからないんだよ）」 Chris「For example, irregular verbs are. What's the difference between Infinitive and Negative.
LINE、商用利用が可能な日本語大規模言語モデルをOSSで公開
- 34 users
- codezine.jp
- テクノロジー
- 2023/08/21
「japanese-large-lm」は、同社が以前から取り組んでいる日本語の大規模言語モデル「HyperCLOVA」の研究開発プロジェクトと並行して、Massive LM開発ユニットにより開発された。なお、本モデルのライセンスは、商用利用が可能な「Apache License 2.0」となっている。同モデルの訓練には、同社独自の大規模日本語Webコーパスが利用され、Web由来のテキスト特有のノイズを除去するために、同社NLPチームのメンバーが開発したOSSの「HojiChar」によるフィルタリング処理が適用されている。また、最終的な学習には約650GBのコーパスが利用されている。加えて本モデルでは、「3D Parallelism」「Activation Checkpointing」などの手法を用い、学習を高速化している。学習したモデルの性能評価には、Perplexityスコア（PP
- LINE
- 日本語
- LLM
- 学習
- AI
- 開発
はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
- 34 users
- www.ogis-ri.co.jp
- テクノロジー
- 2019/08/27
前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能／操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ
- Spacy
- 自然言語処理
- nlp
- python
- tutorial
- web
- あとで読む
「めちゃめちゃ」「超」のような俗な強調言葉は、昔もあったのでしょうか - ことばの疑問 - ことば研究館
- 33 users
- kotobaken.jp
- 学び
- 2023/10/26
「めちゃめちゃ」「超」など強調の言葉が便利でつい使ってしまいますが、日本語の歴史のなかでは俗な強調言葉はどんなものがあったのでしょうか。「めちゃめちゃ」や「超」は、「今日の話めちゃめちゃよかった」「その服超かっこいい」のように、後に形容詞や形容動詞などの状態性を持つ語が来て、その状態の程度の甚だしさを表す程度副詞です。この類には「とても」「非常に」「随分」など様々な語がありますが、「程度の甚だしさ」を表す点では似たような意味を持つため、その使い分けを説明するのは簡単ではありません。渡辺実（『国語意味論』）が挙げたように、「うれしい」などの情意性形容詞との結びつきや、比較構文での用いられやすさ、評価のプラス・マイナスなどの尺度での使い分けが考えられますが、それ以外にも、俗な言い方なのか硬い文章語なのかというような文体的特徴も、各語の役割分担に大きく関わっていると考えられます。例えば①「去
- 言葉
- ことば
- 研究
- 文化
- 日本語
- あとで読む
- 歴史
- 社会
サイバーエージェントが手がける日本語LLM開発　MLエンジニアが語る「Weights & Biases」の活用
- 33 users
- logmi.jp
- テクノロジー
- 2023/11/30
自社における日本語LLMの開発について発表したのは、株式会社サイバーエージェントの石上亮介氏。Weights & Biasesのユーザーカンファレンス「W＆Bカンファレンス」で、開発において得た知見や課題、Weights & Biasesの活用法について話しました。登壇者の自己紹介とアジェンダの紹介石上亮介氏：それではサイバーエージェントの石上から、「CyberAgentにおける日本語LLMの開発」というタイトルで発表いたします。あらためまして自己紹介ですが、私は石上と申します。現在は、サイバーエージェントの基盤モデルプロジェクトのリードを担当しています。基盤モデルというのは、大規模なAIでさまざまなタスクがこなせるという、いわゆるすごいAIなんですね。今日は特にLLMですね。大規模言語モデルについて、どういう取り組みをしているかをお話しいたします。サイバーエージェントのLLMの
LEIA: 言語間転移学習でLLMを賢くする新しい方法
- 33 users
- zenn.dev/ikuyamada
- テクノロジー
- 2024/04/24
Studio Ousiaと理化学研究所に所属している山田育矢です。この記事では、大規模言語モデル（LLM）の性能を向上させる新しい方法であるLEIA（Lightweight Entity-based Inter-language Adaptation）を紹介します。 LLMは言語によって性能に顕著な差があり、訓練に使われるテキストが最も多い英語において特に性能が高い傾向があることが知られています。LEIAは、LLMが蓄えている英語の知識を他の言語から使えるようにする訓練を施すことで、英語以外の言語でのLLMの性能を向上させる新しい手法です。この度、英語・日本語の2言語LLMであるSwallowの7Bと13Bのモデルに対してLEIAによる訓練を施して性能向上を行ったモデルを公開します。ライセンスは、Swallowと同様のLlama 2 Community Licenseです。これらのモ
- LLM
- あとで読む
「AIに感情がある」と錯覚してしまうのは、そもそも脳についてわかっていないから | 「意識」の正体を知らないまま「意識」を語れない
- 33 users
- courrier.jp
- テクノロジー
- 2023/05/06
ChatGPTが世界的に大きな話題となっているいま、実際に使ってみた人も多いだろう。そしてAIが台頭するにつれて、一度は誰もが考えたことがあるはずだ──人工知能に感情や人格は生まれ得るのか？ 2022年、AI倫理学者のブレイク・レモインが「AIにも感情がある」と主張して、グーグルを解雇されるという事態が起きた。彼の主張を足がかりに、感覚や感情を持つとはどういうことなのかを再考しよう。ブレイク・レモインというグーグルの社員が、同社のAI言語モデルの1つ「ラムダ（LaMDA）」が有感性（sentient：感覚や感情を感じる能力）を持っていると主張し、休職処分となった後に解雇された。彼は自身の懸念を公表し、ラムダと交わした対話テキストを公開している。レモインが「あなたにとって『魂』という言葉はどんな意味を持ちますか」と尋ねたとき、ラムダは「私にとって魂とは、意識と生命そのものの背後にある活力
Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
- 32 users
- qiita.com/peisuke
- テクノロジー
- 2020/12/23
ABEJAアドベントカレンダー2020の19日目の記事です。この記事は何？結局AIって何個データ必要なの？ってよく聞かれると思います。そんなん知るかこの記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ！ってツッコミも歓迎です。あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます！とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ
日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介
- 31 users
- tech.stockmark.co.jp
- テクノロジー
- 2023/01/24
はじめにResearch部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。弊社では、大量のビジネスニュースを解析対象としていますが、人間がすべてのビジネスニュースを精読することは不可能です。そのため、読むべき記事を判断するために、記事分類や要約等を行うことが必要不可欠となります。近年では、この要約タスクの分野では、高い精度が報告されている事前学習済モデルBART等が存在します。そこで、弊社で日本語向けのBART事前学習済モデルを作成しましたので、今回はそのモデルの紹介と公開を行います。 BART とはBART は、2019 年 10 月 29 日に Facebook社によって提案されました。 BART は、双方向エンコーダー (例えばBERT) と左から右へのデコーダー (例えばGPT) を使った seq2seq 構造を使用します。BART は、基本的に
Shinnosuke Takamichi (高道慎之介) - jvs_corpus
- 31 users
- sites.google.com
- エンタメ
- 2019/08/17
This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut
- 日本語
- 言語
- research
- dataset
- データ
- 研究
大規模言語モデルを使って組織内の全データを検索する時にはどのような前処理を行うと効率的なのか？
- 31 users
- gigazine.net
- テクノロジー
- 2024/05/05
組織には構造化されたデータベースやきれいにフォーマットされたCSVのほか、何気なく書いたメールから複雑な技術マニュアルまでさまざまな形式のデータが大量に保存されています。検索拡張生成(RAG)は大規模言語モデル(LLM)を使用して全てのデータから適切な情報を引き出すための技術ですが、RAGを使用する際にデータの取り込みと前処理をどのように行うと効率的なのかを、RAG向けデータ前処理サービスを展開するUnstructuredが解説しました。 Understanding What Matters for LLM Ingestion and Preprocessing – Unstructured https://unstructured.io/blog/understanding-what-matters-for-llm-ingestion-and-preprocessing LLMを最大限に
- 人工知能
- techfeed
- あとで読む
- AI
- 仕事
ベクトル検索（近似最近傍探索）でいい感じの MoreLikeThis を実現する | by mocobeta | Medium
- 31 users
- mocobeta.medium.com
- テクノロジー
- 2019/12/23
この記事は，「情報検索・検索エンジン Advent Calendar 2019」23日目のエントリーです。モノは生煮えですが，背景含めて頑張って説明したいと思うので，ご容赦ください…。目次 Apache Lucene とはLucene にベクトル検索を実装してみたベクトル検索版 MoreLikeThisUnsolved issues（積み残し）雰囲気だけ知りたいという方は，「ベクトル検索版 MoreLikeThis」のところだけ眺めると良いかもしれません。 Apache Lucene とは Apache Lucene は，ピュア Java で書かれた，高速・スケーラブルな検索エンジンライブラリです。OSS 検索エンジンとして人気の高い Elasticsearch や Solr のコアエンジンとして使われているため [1]，検索システムに携わっている方なら，名前は聞いたことがあるかもしれ
- solr
- search-engine
- elasticsearch
- 検索
- あとで読む
- AI
- web
- knn
ソフトバンク、3500億パラメーターの国産LLM構築へ　「国内最大級」生成AI計算基盤、稼働スタート
- 31 users
- www.itmedia.co.jp
- テクノロジー
- 2023/10/31
ソフトバンクは10月31日、「国内最大級」（同社）の生成AI開発用計算基盤の稼働を始めたと発表した。新設したAI子会社「SB Intuitions」とともに活用し、2024年内に3500億パラメーターの国産LLMの構築を目指す。大学や研究機関、企業などに提供する計画もあるという。計算基盤は、AI向けスーパーコンピュータ「NVIDIA DGX SuperPOD」と、AIソフトウェアスイート「NVIDIA AI Enterprise」、NVIDIAのネットワーキングで構成された大規模クラスタで、「国内最大級の計算基盤」という。伊藤忠テクノソリューションズの協力を得て構築を進めた。「ソフトバンクが日本語のデータセットを活用した高品質な国産LLMを開発することで、日本の商習慣や文化に適した生成AIサービスの提供を実現する」としている。まずソフトバンクとSB Intuitionsで段階的に利用
- 人工知能
- AI
- IT
- あとで読む
【お知らせ】AIトレンド・トップカンファレンス報告（NeurIPS2019）の無料オンライン公開について – 人工知能学会 (The Japanese Society for Artificial Intelligence)
- 31 users
- www.ai-gakkai.or.jp
- テクノロジー
- 2020/04/30
AIトレンド・トップカンファレンス報告（NeurIPS2019）の無料オンライン公開について人工知能学会　企画委員会全体概要人工知能に関する最新の研究開発動向をお届けすべく、AIトップカンファレンス報告会を継続的に開催してきました。今回、NeurIPS 2019 (Thirty-third Conference on Neural Information Processing Systems、2019年12月8日 – 14日、バンクーバー) にレポータを派遣し、３月に報告会を開催予定でしたが、新型コロナウイルス感染症に関わる事情から、報告会を中止しました。一方、報告内容に関する関心は高く、多数の問い合わせを頂いておりました。この度、３件の講演に関して、オンライン公開の準備が整いましたので、スライド資料と、報告者による音声付きスライド映像を、無料で公開いたします。公開終了日：6月23日
テキストデータのかさましを実装する - 一休.com Developers Blog
- 31 users
- user-first.ikyu.co.jp
- テクノロジー
- 2021/07/27
はじめにデータサイエンス部の平田です。ディープラーニングのモデルを作る際、学習データが少ないことが原因で精度が上がらない場合、データのかさまし（augmentation）を行うことがあります。画像の場合は、オリジナルに対して回転させたりノイズを少し加えることで同じラベル付けがされている別の画像を作り出すことができ、それを学習データに加えることで頑健なモデルになります。ただし、テキストの場合は回転させると意味不明になるのでどういう操作をしてかさましするかというのを考える必要があります。そこで、EDA(Easy Data Augmentation)というものが考案されました。参考 Synonym Replacement：文中の単語の内n個、同義語に置き換える Random Insertion：文中の単語をランダムに選んで同義語にしてランダムな場所にinsert、n回繰り返す Rand
ゲームキャラ1万3000人を調べた結果「男性キャラは女性キャラの2倍セリフが多い」ことが判明
- 30 users
- gigazine.net
- 学び
- 2023/12/14
スコットランドのグラスゴー大学とイギリスのカーディフ大学の研究者らは、ゲーム上における対話に関する史上最大規模の調査を実施しました。1万3000人以上のゲームキャラクターを集計した結果、「ゲームでは、男性が女性の2倍話している」ということが示されています。 Gender bias in video game dialogue https://royalsocietypublishing.org/doi/10.1098/rsos.221095#d1e902 Largest study of video games reveals male characters say twice as much as female characters https://phys.org/news/2023-05-largest-video-games-reveals-male.html イギリス王立協会オー
トピックモデルを使って問い合わせ内容を分析した話 - Classi開発者ブログ
- 30 users
- tech.classi.jp
- テクノロジー
- 2021/12/18
この記事はClassi developers Advent Calendar 2021の18日目の記事です。昨日は基盤インフラチームのめるさんによる「バックエンドエンジニアが基盤インフラチームに異動して半年ほど経った話」でした。こんにちは、データAI部でデータサイエンティストをしている高木です。弊社では顧客である先生、生徒、保護者からClassiの機能や契約に関する問い合わせを日々頂いております。これらの問い合わせの内容を分析し、Classiの現状の課題や今後解決していくための施策などを社内で検討しています。今回は問い合わせ内容を言語処理技術の一つであるトピックモデルを使って分析した内容についてご紹介します。なぜ分析する必要があったのか？ Classiへの問い合わせやその対応の内容は、担当者によってテキスト化された状態で管理されています。弊社のカスタマーサポート・カスタマーサ
生TensorFlow七転八倒記(11)：TensorFlow周りの最近のアップデートについて - 渋谷駅前で働くデータサイエンティストのブログ
- 30 users
- tjo.hatenablog.com
- テクノロジー
- 2021/03/21
2年ぐらい前に必要があって生TensorFlowとTensorFlow-Hubによる様々なモデルやフレームワーク並びに事前学習済みモデルの実装を試していたのですが、TF2の浸透に伴いそれらの多くの仕様が変更になっており、中には回らなくなっていたコードもあったので、それらを調べるついでに最近のTF-Hubのアップデートも覗いてきました。ということで、自分向けの備忘録として簡単にまとめておきます。 TensorFlow-Hubの事前学習モデル Estimatorクラス余談 TensorFlow-Hubの事前学習モデルまず試したのがUniversal Sentence Encoderの多言語版。リンク先を見れば分かるように、16言語（アラビア語・簡体字中国語・繁体字中国語・英語・フランス語・ドイツ語・イタリア語・日本語・韓国語・オランダ語・ポーランド語・ポルトガル語・スペイン語・タイ語・トル
ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki
- 29 users
- www.jonki.net
- テクノロジー
- 2019/12/01
本記事は，自然言語処理 Advent Calendar 2019 - Qiitaの１日目の記事です．はじめに今回の記事では，去年末ごろからPythonとCythonだけでチマチマ作った形態素解析器Taiyakiをベースに，形態素解析器の解説をしようかなと思います．この形態素解析器の完成はまだ程遠いんですが，ひとまず簡単な形態素解析はできるようになったのでここでお披露目しておきます．本記事は実質，Double-Arrayの辞書引きと最小コスト法に基づく形態素解析器の解説記事となっています．なぜ今更に形態素解析器を作ったかと問われると困ってしまうのですが，NLPerなら１つぐらい自作しても良いのかなってことと．形態素解析がどう動いているかって意外と知らなかったのが動機です．解説内容間違えてる可能性はあるので，見つけた方はコメント欄でご指摘いただけると嬉しいです．作っているものは下記リポ
『スーパーマリオ』のステージを生成するAI「MarioGPT」発表。注文どおりに多彩なステージを生成、ほぼすべてクリア可能 - AUTOMATON
- 29 users
- automaton-media.com
- テクノロジー
- 2023/02/17
コペンハーゲンIT大学（IT University of Copenhagen）の研究チームは2月12日、「MarioGPT」の研究論文を公開した。「MarioGPT」とは、大規模言語モデル（LLM）を用いて『スーパーマリオブラザーズ』のステージを生成する試みだという。 Want to create your next game levels through natural language 🗣️🎮? Wait no more, we present: "MarioGPT: Open-Ended Text2Level Generation through Large Language Models". PDF: https://t.co/oZX5Jk1sX9 MarioGPT also predicts the player's path! pic.twitter.com/fMwSlq
- AI
- 人工知能
- 学習
- 研究
- あとで読む
低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer
- 29 users
- hironsan.hatenablog.com
- テクノロジー
- 2019/08/31
ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが、要するに低リソースかつノイジーなテキストに対する固有表現認識を上手くやるための方法だと考えればいい。手法としては言語モデルを事前学習して、それを使って固有表現認識するというもの。時代の異なる２つのデータセットに対して検証したところ、従来手法より良い結果となった。昔のドイツ語に対する固有表現認識には3つの課題がある。一つはリソースの量が少ない点。現在よく使われているCoNLL 2003のデータセットと比べると、タグの付いたデータ量が少なく、その分難しくなっている。2つ目はテキ
- 機械学習
- あとで読む