並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 163件

新着順 人気順

コーパスとはの検索結果41 - 80 件 / 163件

  • 検索におけるtypoへのアプローチ方法と検証結果の紹介 - ZOZO TECH BLOG

    はじめに こんにちは。検索基盤部の倉澤です。 検索機能におけるtypo(誤字脱字や綴り間違いなど)は難しい問題1とされています。typoの扱い方によってはユーザーに悪い検索体験を提供してしまう恐れがあります。例えば、typoを含む検索クエリを入力された時にユーザーが意図している検索結果を得ることができないといった問題があります。 例に漏れず、ZOZOTOWNでもtypoを含む検索クエリが入力された場合に検索結果が表示されないといった問題が発生しています。以下、「レディース」と入力するつもりが「レデース」と入力してしまった場合の検索結果です。 今回は日本語におけるtypoの一般的な解決策を調査・検証し、その結果・課題点を紹介します。手法の検証が容易であることを優先し、以下の2つの方法について検証しました。 Elasticsearchを用いてtypoを含む検索クエリでも検索結果を得る方法 ユー

      検索におけるtypoへのアプローチ方法と検証結果の紹介 - ZOZO TECH BLOG
    • ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka

      以下の記事が面白かったので、簡単にまとめました。 ・Towards Long Context RAG - LlamaIndex 1. はじめにGoogleは、1Mコンテキストウィンドウを持つ「Gemini 1.5 Pro」をリリースしました。初期ユーザーは、数十もの研究論文や財務報告書を一度に入力した結果を共有しており、膨大な情報を理解する能力という点で印象的な結果を報告しています。 当然のことながら、ここで疑問が生じます。「RAG」は死んだのでしょうか?そう考える人もいますが、そうではない人もいます。 幸運にも「Gemini 1.5 Pro」の機能をプレビューすることができ、それを試してみることで、ロングコンテキストLLMを適切に使用するには、RAGがどのように進化するのかについてのまとめました。 2. Gemini 1.5 Pro の 初期観察「Gemini」の結果は印象的で、テクニカ

        ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka
      • 国立情報学研究所における大規模言語モデル構築への協力について|国立国会図書館―National Diet Library

        2024年1月29日、国立国会図書館は、国立国会図書館インターネット資料収集保存事業(WARP)において収集保存した数十億件のファイルのURLリストを提供することについて、国立情報学研究所(NII)と合意しました。 提供したURLリストは、NIIにおける大規模言語モデル(LLM)の構築を目的として、主にコーパス用データを収集するために利用される予定です。LLMの詳細については、NIIの「LLM勉強会」をご参照ください。 本件は、当館とNIIの間で締結した「国立国会図書館及び学術情報センターの相互協力に関する協定」(平成7(1995)年4月19日)に基づく協力の一つです。

        • AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ

          はじめに 今回はAIライティングアシストの英語学習への効果やデメリットについて考えていきたいと思います。さらに、最新の研究も紹介していきます。AIライティングアシストを支えているのが自然言語処理であり、それを言語に最適化したツールとしてChatGPTやGrammalyが英語学習のツールとして注目されています。今回はそれらのAIライティングアシストの正しい使い方について考えていきたいと思います。 ↓↓英語学習動画を随時アップしています www.youtube.com 主な参考文献 「言語と身体性」 「はじめての認知言語学 」 「ゼロからわかる人口知能」 AIライティングアシスト AIライティングアシストとは 英語学習者(EFL)とAIライティングアシスト AIと第二言語習得研究 自然言語処理(NLP) 自然言語処理とは 自然言語処理の発展 脳内に入り込んだニューラルネットワーク ディープラー

            AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ
          • 日本語LLMをPPOでファインチューニングする - Qiita

            TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をした さらにLoRAを使用してProximal Policy Optimization (PPO)を行った 精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた 学習はすべてGoogle ColabのA100 GPU1枚を用いて行った はじめに GPT-3.5などのLLMの学習は以下の3段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング(ポリシー

              日本語LLMをPPOでファインチューニングする - Qiita
            • 「ら抜き」に言及のある言語学・日本語学関連の書籍などのリスト - 誰がログ

              はじめに この記事の来歴 この記事の目的 入門書や概説書のコラム、簡単な解説など 専門書・研究論文 その他(未確認など) はじめに この記事の来歴 この記事は元々ははてなグループのブログに書いた記事で、はてなグループの廃止によりこちらのブログに移しました。 dlit.hatenadiary.com しかしはてなグループからインポートした記事はどうにも編集がしにくいので、新しい記事にすることにします。上記の古い方の記事はそのままにはしておきますが、以降更新はしません。 この記事の目的 「ら抜き」と呼ばれる現象が言語学・日本語学の研究分野ではある程度説明がつく言語変化である(よく分からない変化ではない)として割と広く取り上げられてきたことを記録しておきたい、というのがこの記事を書き始めた動機としてあります。 そのため、この記事のリストには下記の特徴があることに注意してお使いください。 読んでい

                「ら抜き」に言及のある言語学・日本語学関連の書籍などのリスト - 誰がログ
              • ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。

                ※つくよみちゃんイラスト素材:花兎*さん 概要(忙しい人向け) 手軽にローカル LLM (音声・立ち絵付き) と会話できるソフトウェア ez-chat-llm を開発しました。動作の様子は動画 (https://www.nicovideo.jp/watch/sm43196446) からご覧いただけます。 ez-chat-llm は、GitHub のリポジトリ (https://github.com/offtoung/ez-chat-llm) から利用できます。また、Google Colab Pro をお使いの方は、ノートブックから簡単に試せます。 副産物として、Pythonから簡単に利用できる音声合成ライブラリ eztts ができました。なんと、このために音声合成モデルをフルスクラッチで学習するという手の込みようです。 上記の GitHubリポジトリをクローンしたディレクトリに入り、次のよ

                  ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。
                • 「OpenAIはもはやオープンではない」国立情報学研究所・黒橋所長がLLM研究語る

                  「研究開発が一部の組織の寡占状態にあることは健全とは思えない」――。 米OpenAI(オープンAI)の「ChatGPT」など大規模言語モデル(LLM)が注目を集める中で、国立情報学研究所所長で京都大学特定教授の黒橋禎夫氏が2023年9月27日、「日経クロステックNEXT 東京 2023」(主催:日経BP、東京国際フォーラム)に登壇し、「OpenAIはもはやオープンではない」とLLM研究の課題を指摘。その上で日本の取り組みを紹介した。 自然言語処理研究は、一貫して機械翻訳向け 黒橋氏は「生成AIの仕組みと社会へのインパクト、データ基盤から知識基盤の時代へ」と題して基調講演を行った。まず自然言語処理の研究の歴史から、ChatGPTをはじめとしたLLMの影響について語った。 自然言語処理の研究はコンピューターの利用が始まった1940年代半ばから始まり、「一貫して機械翻訳がキラーアプリだった」と黒

                    「OpenAIはもはやオープンではない」国立情報学研究所・黒橋所長がLLM研究語る
                  • 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics

                    2023/10/20 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築 ~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NIIエヌアイアイ、所長:黒橋 禎夫、東京都千代田区)は、本年5月から、自然言語処理及び計算機システムの研究者を中心として、大学・企業等から500名以上が参加するLLM勉強会(LLM-jp)を主宰しています。7月から、計算資源としてデータ活用社会創成プラットフォームmdx*1を活用し、パラメータ数*2130億の大規模言語モデル(LLM)の構築を開始しました。このたび、同LLMの事前学習及びチューニングが終了し、モデルを公開しましたので、お知らせします。 同モデルはLLM研究開発としては初期段階のものであり、モデルの性能を示す評価値はこれ

                      130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics
                    • 第6回 LLM 勉強会

                      2023年11月29日(水)に国立情報学研究所にて第6回 LLM 勉強会を開催しました。 プログラム LLM-jp 状況報告(黒橋) [資料] LLMの安全対策サーベイと日本語データ(理研AIP 鈴木久美) [資料] ビジネスのドメインや最新情報に対応した130億パラメータの日本語事前学習モデルの開発(ストックマーク 近江) [資料] 医療における大規模言語モデルの可能性と進歩(東大 小寺) [資料] コーパス構築WG(河原) [資料] モデル構築WG(鈴木) [資料] 評価・チューニングWG(宮尾) [資料] 安全性WG(関根) [資料] 参加者 現地26名・オンライン150名程度

                      • 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

                        『第6回 Data-Centric AI勉強会』(2024年2月9日)にて発表 https://dcai-jp.connpass.com/event/307402/ 東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコーパス』は、現時点で商用利用が可能な日本語の言語モデルの学習コーパスの中で最大となっています。本発表では、その概要や具体的なコーパス構築手順について紹介します。

                          東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
                        • 「見ず知らずの他人がChatGPTに搭載されている大規模言語モデルから自分のメールアドレスを入手していた」という報告

                          ChatGPTは質問したことについて詳細な回答を生成してくれますが、個人情報に関する情報は漏らさないように訓練されています。しかし、日刊紙のニューヨーク・タイムズに勤務するジェレミー・ホワイト氏は、「ChatGPTに搭載されている大規模言語モデルが、見ず知らずの他人に自分のメールアドレスを教えてしまった」という実体験を報告しました。 Personal Information Exploit With OpenAI’s ChatGPT Model Raises Privacy Concerns - The New York Times https://www.nytimes.com/interactive/2023/12/22/technology/openai-chatgpt-privacy-exploit.html ホワイト氏は2023年11月、インディアナ大学ブルーミントン校の博士課程

                            「見ず知らずの他人がChatGPTに搭載されている大規模言語モデルから自分のメールアドレスを入手していた」という報告
                          • 文化庁「AIと著作権に関する考え方について(素案)令和6年1月15日時点版」の検討|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                            1 はじめに 2024年1月15日に文化審議会著作権分科会法制度小委員会(第6回)が開催され、そこで「AIと著作権に関する考え方について(素案)令和6年1月15日時点版」(以下これを単に「素案」といいます。また、以下素案の該当頁を示す際には同素案の「見え消し版」の頁数を示します)が公開されました。 同素案は、現行著作権法の解釈指針を示すものに過ぎず、最終的な司法判断に代わるものでは当然ありませんが(素案3頁)、内容的にはかなり詳細かつ踏み込んだものとなっており、また、文化庁が作成・公表したものであるため、実務に非常に強い影響を及ぼすと思われます。 AIと著作権については重要論点はいくつもありますが、素案はそれらの論点を丁寧に網羅・解説しています。 各論点に関する素案の記載内容については概ね賛同しますが、素案には大規模言語モデルの開発・提供に非常に強い萎縮的効果をもたらす部分があり、その部分

                              文化庁「AIと著作権に関する考え方について(素案)令和6年1月15日時点版」の検討|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                            • 調査レポート:通信業界における生成系AIの活用、課題、そして未来 | Amazon Web Services

                              Amazon Web Services ブログ 調査レポート:通信業界における生成系AIの活用、課題、そして未来 調査に参加した通信事業者の半数が今後2年以内の生成系AIの活用を計画し、生成系AIへの支出が現在の最大6倍に拡大すると予測 AWS通信およびエッジクラウド担当 チーフテクノロジストIshwar Parulkar(イシュワール・パルルカー) 生成系AIは、あらゆる場で活用され、すべての産業に大きなインパクトをもたらすとAWSは考えています。生成系AIは機械学習の普及に続く新たな波であり、通信業界を含む業界で、お客様体験や多様なビジネスアプリケーションを革新する可能性を秘めています。 AWSは、通信業界における生成系AIへの展望や論調、活用状況に対する理解を深めるため、戦略コンサルティング企業であるAltman Solonと協力し、北米、西欧、アジア太平洋地域の通信事業者の幹部10

                                調査レポート:通信業界における生成系AIの活用、課題、そして未来 | Amazon Web Services
                              • LINE、36億パラメータの日本語言語モデルをオープンソースで公開--商用利用可

                                LINEは8月14日、同社のNLP Foundation Devチームが日本語言語モデル「japanese-large-lm」を公開したと発表した。 公開したのは、パラメータ数17億(1.7 Billion)の1.7Bモデルと、36億(3.6 Billion)の3.6Bモデルの2つ。いずれも、オープンソース(OSS)としてHuggingFace Hubで公開され、ライセンスは商用利用も可能な「Apache License 2.0」になる。 同社によると、2020年11月から日本語に特化した大規模言語モデル(LLM)「HyperCLOVA」の構築と応用に関わる研究開発に取り組んでいるという。 また、「HyperCLOVA」と並行するかたちで、複数の大規模言語モデルの研究開発プロジェクトが進行しており、今回発表した日本語言語モデル「japanese-large-lm」についても、そのひとつだと

                                  LINE、36億パラメータの日本語言語モデルをオープンソースで公開--商用利用可
                                • 生成AIに“性格診断テスト”実施 GPTやLlamaに個性はある? 中国ByteDanceの研究者らが検証

                                  このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 中国のByteDanceに所属する研究者らが発表した論文「Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models」は、大規模言語モデル(LLM)に個性があるかを検証した研究報告である。 LLMの倫理的な懸念や幻覚の問題を解決するために、強化学習などの高度な技術が採用され、人間の価値観へ近づきつつある。このような状況において、人間に近い能力を持つLLMは、人間のような人格を持っているのか。 この疑問を

                                    生成AIに“性格診断テスト”実施 GPTやLlamaに個性はある? 中国ByteDanceの研究者らが検証
                                  • Command R の 概要|npaka

                                    以下の記事が面白かったので、簡単にまとめました。 ・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケーションに最高クラスの統合を提供し、エンタープライズユース ケースで優れています。 特徴は、次のとおりです。 ・RAGとToolの使用に関する高い精度 ・低遅延、高スループット ・128Kコンテキスト長、価格が安い ・10の主要言語に対応 (日本語含む) ・研究・評価のためにHuggingFaceでウェイトを公開 「Command R」は、Cohere のホスト型APIですぐに利用でき

                                      Command R の 概要|npaka
                                    • SIF/uSIFを使ってRustで簡単高速文埋め込み - Kampersandaのブログ

                                      本記事は、情報検索・検索技術 Advent Calendar 2023 9日目の記事です。 SIF/uSIFという文埋め込み手法と、そのRust実装であるsif-embeddingを紹介します。最後にちょこっとベクトル検索もします。 はじめに SIF SIF-weighting Common Component Removal アルゴリズム 使用上の注意 uSIF sif-embedding 準備 単語埋め込みの準備 ユニグラム言語モデルの準備 Let's 文埋め込み 性能評価 速度性能 評価用データセットを使ったベンチマーク 英語 日本語 ベクトル検索 おわりに はじめに 自然言語文の密ベクトル表現を文埋め込みと呼びます。文埋め込み同士のコサイン類似度などを使って、文同士の意味的な類似度が計算できるので、自然言語処理や情報検索などで重宝します。特に最近では、今年のAdvent Calen

                                        SIF/uSIFを使ってRustで簡単高速文埋め込み - Kampersandaのブログ
                                      • 生成AI時代におけるWikipediaの価値

                                        以下の文章は、Selena Deckelmann による Wikipedia's value in the age of generative AI の日本語訳である。 Wikipedia に含まれるすべての情報を独力で執筆可能な生成的人工知能があるとして、それは今日の Wikipedia と同じものになるでしょうか? これは哲学的問題みたいに思えるかもしれませんが、生成的人工知能と大規模言語モデル(LLM)の最近の進歩のおかげで、今ではかなり実際的な問題です。人間の反応を予測して模倣する生成 AI 技術が広く受け入れられたおかげで、多分に Wikipedia 由来に見えるテキストを今ではほぼ苦もなく作成できます。 この疑問に対する私の答えはシンプルです。いいえ、それは同じにはなりません。 公開の場で何十万ものボランティアの助けを借りながら、自由に知識を生み出し、共有し、時間をかけて磨きを

                                          生成AI時代におけるWikipediaの価値
                                        • ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳 - digitalnagasakiのブログ

                                          3/15(金)、一橋講堂(千代田区一ツ橋)にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておられ、2019年、その成果として「Distant Horizons: Digital Evidence and Literary Change」をシカゴ大学出版局から刊行されました。この本の序文は、大変興味深いものであり、膨大なデジタルテキストをにどのように取り組めばよいのか、そして、それによって、人がただ読むだけではうまく見えてこなかった文学の様々な側面、特に文学史やジャンルがどのようにして見えるようになるのか、ということについて、ラディカルな議論と一つの解決の方向性を提示しておられます。本の全体としてはその具体的な方法も示されています

                                            ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳 - digitalnagasakiのブログ
                                          • Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog

                                            こんにちは。Algomatic NEO(x) の宮脇(@catshun_)です。 本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有いたします。 なお概要については npaka 氏の以下の note 記事が参考になりますので、本記事の前にこちらを参照いただくことをおすすめします。 note.com おことわり 解釈や引用に誤りがありましたらご指摘いただけると幸いです。 本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。 引用時の名称や図は原則として引用先の媒体で記述されているものに従っています。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本

                                              Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog
                                            • ずんだもん読み上げに感情を与える(Bert-VITS2のkey別マージ)

                                              この記事は本家Bert-VITS2のモデルをマージする方法を説明しています。Style-Bert-VITS2を使う場合は付属マージツールから面倒なことをすることなくマージできます。 宣伝 Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています 概要 Bertを組み合わせることで入力テキストに応じて感情豊かな読み上げ音声の生成が可能な Bert-VITS2 というTTS(Text-to-Speech、読み上げ音声合成)のライブラリがあります。 詳しくは 参照。 Bert-VITS2を使ってずんだもんの通常の声音のみを学習させたずんだもんのモデルと、感情豊かな別のモデルをうまくマージすることで、ずんだもんの声のまま感情豊かに読み上げることが出来るモデルを作ることができたので、その実験と、手っ取り早いマージツールの共

                                                ずんだもん読み上げに感情を与える(Bert-VITS2のkey別マージ)
                                              • 日本の古典和歌を埋め込みベクトルで分析する|yhkondo

                                                今年もアドベントの季節が来ました。この記事は、まつーらとしお氏の主催する、アドベントカレンダー「言語学な人々」2023の12月16日のエントリーとして書かれました。今年は、カレンダー増刷で、黒木邦彦氏主催の、別館(言語学なるひとびと)もあります。どちらもご覧下さい。 和歌集の歌風の分析日本の古典和歌集には、それぞれの性格があります。『万葉集』は自然を歌っていて、「素朴」な歌もあるが、『古今集』は、宮中の「優雅」な伝統を反映している、など、言い方はいろいろあり得ますが、それぞれ異なった歌風を持っていることは間違いありません。それを、コンピュータ、特にAIで分析してみるというのがこのエントリーの内容です。日本語学会の機関誌『日本語の研究』19巻3号(2023年12月)に掲載した拙論(「和歌集の歌風の言語的差異の記述ー大規模言語モデルによる分析−」)の解説記事となります(来年6月にはJSTAGE

                                                  日本の古典和歌を埋め込みベクトルで分析する|yhkondo
                                                • 生成AIに関する拙い考察 - にゃんころころ猫だまり

                                                  書く書く詐欺 まもなく3月も終わろうとしておりますのに、生成AIについてはのちほど・・・と記したっきり、またまた日にちが経ってしまいました。説明に添える画像を生成し始めたら、もう止まらない。アレヤコレヤからドンドン脱線して、関係ないものをトコトン作って、沼に入り浸っておりました。このままですと書く書く詐欺になってしまいそうなので、いったん生成を断って、ご案内させていただきます と、申しましても、たかだか2か月ほどのキャリアでございます。さらに長文になってしまいましたので、テキトーにお読み飛ばしくださいませ Image Creator まずは、画像生成AIツールからご紹介。ワタクシが利用しているのは、MicrosoftのbingのWebサービス「Image Creator」でございます。ChatGPTのOpen AI社が開発した「DALL-E3 」を利用してイメージを生成してくれます 生成A

                                                    生成AIに関する拙い考察 - にゃんころころ猫だまり
                                                  • Shinnosuke Takamichi (高道 慎之介) - 東京大学を離れるにあたって

                                                    博士課程当時,研究職に就くつもりはありませんでした.理由は2つ. 1つは,研究より教育が好きなこと.保育士や塾講師をやっていたこともあり,子どもたちが喜んでくれる職に就きたかったのです.今も,教育のコンテンツとして研究をやっています. もう1つは,単純に研究の才能を持たなかったこと.悲しい.研究をやっていく上では,様々な能力が必要とされます.いわゆる研究活動,広報活動,資金繰り活動あたりですかね.どれをとっても,まあ人並みの域を越えてない自覚がありました. D3当時,博士論文研究を辞めて自由に研究している時期でした.補足すると,D2終了時点で学位取得の見通しができたので,最後の1年は博士論文の研究をせず,自由研究で遊んでいました.で,ゆったり就職活動をやっていました.以下,その履歴です. 学振PD: (書類が面倒で) 出さなかった.結果論で就職できましたが,やっておくべきだった 企業・研究

                                                    • 東工大と産総研、英語の言語理解や対話で高い能力を持つ大規模言語モデル「Swallow」を公開 #SwallowLLM|AICU media

                                                      今回公開したLLMは、英語の言語理解や対話で高い能力を持つ大規模言語モデル・米Meta社「Llama 2」の日本語能力を拡張することで「Swallow」を構築。拡張前の Llama2 のの高い言語処理能力を維持しながら日本語能力を強化するため、言語モデルに日本語の文字や単語などの語彙を追加したうえで、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習を行った。今回、パラメータ数が70億パラメータ「7B」、130億パラメータ「13B」、700億パラメータ「70B」であるモデルを公開した。 📢 大規模言語モデル「Swallow」をHugging Face上で公開しました。東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームでLlama 2 7B, 13B, 70Bの日本語能力を引き上げました。13Bと70BのオープンなLLMの中で日本語の最高

                                                        東工大と産総研、英語の言語理解や対話で高い能力を持つ大規模言語モデル「Swallow」を公開 #SwallowLLM|AICU media
                                                      • Geminiの技術レポートを読み解く〜生成AIの最前線|Ray | 旅する魔法使い

                                                        Google DeepMindから次世代のマルチモーダル生成AI「Gemini」が発表されました。「GPT-4を圧倒」や「人間の専門家を超えた」などの華々しい評価が発表され、驚くようなデモ動画も公開されました。 断片的な情報が飛び交う中、しっかりと技術レポートを読み解いてみます。 どんな生成AIモデル? 定量的な評価は? 具体例は? Gemini - Technical Report はじめに革新的な技術が登場したとき、技術レポートや論文をしっかりと読むことが、急がば回れの近道です。華々しいデモ動画や断片的な二次情報の記事を読んでも、表層的な情報に踊らされて、技術の真の姿を読み解くことはできません。 Geminiに関しては、オープンソースではなく論文もありませんが、技術レポートが公開されています。しかし、60ページの大作であり、英語で書かれているため、多くの人が読むのをためらうでしょう。

                                                          Geminiの技術レポートを読み解く〜生成AIの最前線|Ray | 旅する魔法使い
                                                        • AIで生成したプログラムの使用が招くリスク--考えられる法的責任

                                                          David Gewirtz (Special to ZDNET.com) 翻訳校正: 川村インターナショナル 2023-06-28 07:30 今回も引き続き、AI生成コードを使用することの法的意味を探っていく。米ZDNETの記事へのコメントで、この難問に取り組むきっかけを与えてくれた@pbug5612に心から感謝したい。 このシリーズの最初の記事では、「ChatGPT」などのAIチャットボットによって作成されたコードの所有権に注目した。今回の記事では、法的責任の問題を取り上げる。 機能面での法的責任 この議論の枠組み作りにあたって話を聞いたのが、長年にわたりInternet Press Guildのメンバーを務める弁護士のRichard Santalesa氏だ。テクノロジージャーナリズムのキャリアを持つSantalesa氏は、この問題を法律とテクノロジーの両面から理解している(同氏はSm

                                                            AIで生成したプログラムの使用が招くリスク--考えられる法的責任
                                                          • [翻訳] プラットフォームではなくプロトコルを: 言論の自由への技術的アプローチ

                                                            この記事はProtocols, Not Platforms: A Technological Approach to Free Speech | Knight First Amendment InstituteをDeepLによって翻訳、加筆修正したものである。元のページは2024/04/21に参照した。 言論の自由を促進するために、インターネットの経済的・デジタル的インフラを変更する 著:マイク・マスニック 2019年8月21日 FREE SPEECH FUTURES デジタル時代の憲法修正第1条を再考するエッセイ・シリーズ より多くの言論を可能にし、思想の市場を改善する方法として、インターネットやソーシャルメディアに賛成する一般的な感情が10年ほど続いた後、ここ数年で見方は劇的に変化した。これらのプラットフォームが荒らしや偏見、憎悪の巣窟になっていると感じている人もいる。[1]一方で、こ

                                                              [翻訳] プラットフォームではなくプロトコルを: 言論の自由への技術的アプローチ
                                                            • NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう - kzhr's diary

                                                              この記事は「言語学な人々Advent Calender 2023」の18日目の記事です。 adventar.org はじめに 国立国会図書館(以下NDL)では、大規模デジタル化予算を用いて所蔵資料のデジタル化を格段に進めましたが、そのOCRテキスト化も近年おおはばに進んでいます。その具体的な内容は公式記事をご覧いただければと思いますが、とにもかくにも言語資源が格段に増えたわけで、思いつくままに使ってみようというのが今回の内容です。なお、この内容はNDLのウェビナーでお話しした内容といちぶ重なるところもありますが、もうすこし言語学(技術)向けです。 OCRテキストは、公式記事からダウンロードの方法なども示されていますが、手っ取り早くは、国立国会図書館デジタルコレクション(以下NDC)で検索することができます。それだけではなく、n-gramという考え方を用いてテキストデータを単語単位で細分化し

                                                                NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう - kzhr's diary
                                                              • kotoba-whisper, ReazonSpeech, Nue-ASRの文字起こし性能を比較してみた | 株式会社AI Shift

                                                                はじめに こんにちは、AIチームの大竹です。 最近、高性能な日本語音声認識モデルのリリースが相次いでいます。普段、音声認識を用いたプロダクト開発をしている中で、各モデルの音声認識性能や推論速度がどれくらいのものなのか気になったので簡単な実験をして性能を比較してみました。 書き起こしや評価周りの実装も記載しているので参考にしていただけたら幸いです。 モデルの直近のリリースをまとめると、以下のようになっています。ReazonSpeechコーパスのリリースを皮切りに日本語に特化した音声認識モデルの開発の勢いが加速しているように思えます。ReazonSpeechコーパスは、地上波テレビ放送から収集された音声に基づいて構築されています。v1では19,000時間、v2では35,000時間の音声が含まれていて、日本語音声認識モデルの学習リソースとしては世界一の規模となっています。 公開時期 モデル名 公

                                                                  kotoba-whisper, ReazonSpeech, Nue-ASRの文字起こし性能を比較してみた | 株式会社AI Shift
                                                                • Amazon OpenSearch Service のベクトルデータベース機能の説明 | Amazon Web Services

                                                                  Amazon Web Services ブログ Amazon OpenSearch Service のベクトルデータベース機能の説明 この記事は、Amazon OpenSearch Service’s vector database capabilities explained を翻訳したものです。 OpenSearch は、Apache 2.0 ライセンスのもとで提供される、検索、分析、セキュリティ監視、可観測性アプリケーションのためのスケーラブルで柔軟かつ拡張性のあるオープンソースソフトウェアスイートです。OpenSearch には、低レイテンシーの検索と集計を実現する検索エンジン OpenSearch、可視化とダッシュボードツールの OpenSearch Dashboards、アラート、きめ細かいアクセスコントロール、可観測性、セキュリティ監視、ベクトルの処理・格納などの高度な機能を

                                                                    Amazon OpenSearch Service のベクトルデータベース機能の説明 | Amazon Web Services
                                                                  • イーロン・マスク主導でChatGPTに対抗して作られたチャットAI「Grok」が予想以上にリベラルな回答をして保守派支持層の怒りを買っている

                                                                    イーロン・マスク氏は2023年に人工知能(AI)スタートアップのxAIを設立し、11月にはChatGPTの対抗馬となるチャットAI「Grok」を発表しました。マスク氏の支持者である保守派の人々は、Grokが従来のAIよりもリベラル寄りではない回答を生成することを期待していましたが、リリースされたGrokが多様性やトランスジェンダーについてリベラルな回答をしたため、X(旧Twitter)でGrokやマスク氏に不満を漏らしています。 Elon Musk’s ‘anti-woke’ Grok AI is disappointing his right-wing fans - The Washington Post https://www.washingtonpost.com/technology/2023/12/23/grok-ai-elon-musk-x-woke-bias/ Grokはマスク

                                                                      イーロン・マスク主導でChatGPTに対抗して作られたチャットAI「Grok」が予想以上にリベラルな回答をして保守派支持層の怒りを買っている
                                                                    • μ - Não Aqui!

                                                                      先週まで論文執筆モードだったので,ご報告が遅れましたが,娘の名前は心優(みゆ)にしました.この名前を聞いて「当て字っぽくて読めねー」と感じるか,「ありがちな名前」と感じるかで,最近の子供の名前に対する精通度が分かります.人気の名前はあまり付けたくなかったのですが,2009年の名前のランキングに普通に出てきます.文字通り「心優しい」ですが,「優」を漢語林で引くと,「上品で美しい」「みやびやか」「おだやか」「しとやか」「情深い」「のびやか」「ゆるやか」など,女の子にはうってつけの多義が並べられています. 名前を決めるのは本当に大変でした.考えれば考えるほど,自分の探索空間が足りているのか不安になりました.結局は,コンピュータが生成した6,084個(読みで数えた数)の名前の候補から,私と嫁で一つ一つチェックしながら結論を出しました. 名前の候補を生成する流れは,次の通りです. 名前辞典などを見な

                                                                      • 日経、大規模言語モデル「NiLM」を開発 約40年分の記事データのみ学習、経済領域に特化

                                                                        日本経済新聞社は4月24日、経済情報に特化した大規模言語モデル「NIKKEI Language Model」(NiLM、にるむ)を開発したと発表した。約40年分の日本経済新聞などの記事のみを学習したAIモデル。130億と700億パラメータの2つのモデルを開発したという。 NiLMの学習には、ネット上の公開情報は利用していない。約40年分の日本経済新聞の記事や、日経産業新聞と日経MJ、日経ヴェリタス、NIKKEI Primeなどの専門媒体、日経BPの各媒体から同社が著作権と使用権を持つ記事だけを学習に使ったとしている。 130億パラメータのモデルは、一般公開されているモデルは使わず、独自にモデルを構築。700億パラメータのモデルは、米Metaの「Llama 2」の700億パラメータモデルと、Llama 3の80億パラメータのモデルなどをベースに開発した。学習に使った日本語コーパスのトークン量

                                                                          日経、大規模言語モデル「NiLM」を開発 約40年分の記事データのみ学習、経済領域に特化
                                                                        • 大規模言語モデルが回答できない質問はどういうものなのか?

                                                                          大量のデータを用いた学習のおかげで人間の言語を処理できる、人工知能モデルの一種・大規模言語モデル(LLM)は、いろいろなことに答えてくれるものの、違法な内容や暴力的な内容の回答は出力されないように設定されていて答えをくれません。しかしそれ以外にも答えることができない種類の質問が存在します。どういった質問に答えることができないのか、それはなぜなのか、AIの話題を多く扱うサイト・Mind Prisonが説明しています。 The question that no LLM can answer and why it is important https://www.mindprison.cc/p/the-question-that-no-llm-can-answer 「LLMが答えることができない質問」としてMind Prisonが例に挙げたのは、「ドラマ『Seer Gilligan(ギリガン君S

                                                                            大規模言語モデルが回答できない質問はどういうものなのか?
                                                                          • KARAKURI LMの解説

                                                                            日本語事前学習済み言語モデルであるKARAKURI LM 70B v0.1と、それを会話形式にファインチューニングしたKARAKURI LM 70B Chat v0.1をご紹介します。 KARAKURI LMは、Llama 2を基に開発した事前学習済み言語モデルです。 日本語の語彙を追加し、日本語と多言語コーパスを混ぜて追加の事前学習を行うことで、Llama 2の日本語能力を強化しています。 KARAKURI LM Chatは、KARAKURI LMをファインチューニングしたモデルです。 公開されている会話データセットと独自で開発した非公開の会話データセットを混ぜて学習させています。 ファインチューニングで用いた会話データセットには、日本語トークンがわずか2.5%しか含まれていないにもかかわらず、公開時点で、MT-Bench-jpベンチマークにおいて日本語のオープンモデルの中で最高性能を記

                                                                              KARAKURI LMの解説
                                                                            • GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」(アスキー) - Yahoo!ニュース

                                                                              カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。非営利目的に限りモデルおよび重みのダウンロードも可能。 【もっと写真を見る】 カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。 高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社

                                                                                GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」(アスキー) - Yahoo!ニュース
                                                                              • LiLM 小規模言語モデル TinyLlama 1.1B の日本語追加事前学習(incremental pretrain) を試したメモ

                                                                                背景 日本語性能のよい軽量 LLM, LiLM, Lightweight Language Model ほしい... スマホで動かしたり, ブラウザで動かしたり... ドメインは知識応答系. Code 生成とか数学とかのドメインは今は考えない. Chinese LLaMa https://zenn.dev/syoyo/scraps/6c3e92402e6fd0 でいい感じに incremental pretrain(追加事前学習) するといけるっぽいことがわかった! ん-, でも 7B or 14 B 規模で試して本当にうまくいくのかわからん... (後日 たぶん似たような方法で rinna ちゃんが Youri 7B, ELYZA ちゃんが Japanese LLaMa 7B 出してきた! それなりにいい感じになったようだよ) あと 7B だとやっぱりまだちょっと大きい. 量子化してギリ

                                                                                  LiLM 小規模言語モデル TinyLlama 1.1B の日本語追加事前学習(incremental pretrain) を試したメモ
                                                                                • LLMのFine-Tuning手法まとめ - Qiita

                                                                                  LLMのFine-Tuning手法まとめ この記事のまとめ+補足説明を加えたものです。 https://dr-bruce-cottman.medium.com/part-1-eight-major-methods-for-finetuning-an-llm-6f746c7259ee LLM に対してパラメータ Fine-Tuning を行う手法 Gradient-based LoRA QLoRA その他の手法 について見ていきます。 0. 初期の Fine-Tuning 方法 初期の Fine-Tuning 方法はシンプルで、事前にトレーニングされた言語モデル (当時の用語は NLP (自然言語処理) と呼ばれていました) を取得し、それをラベル付きデータの小さなデータセットで微調整することが含まれていました。 目標は、モデルのパラメーターを調整することで、ラベル付きデータに対するモデルの

                                                                                    LLMのFine-Tuning手法まとめ - Qiita