moriokaのブックマーク / 2023年2月22日

言語生成AIは文章を“盗作”しているのか？　21万件の文章から米国の研究者らが分析

Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2 米ペンシルベニア州立大学と米ミシシッピ大学に所属する研究者らが発表した論文「Do Language Models Plagiarize？」は、自然言語生成モデルが剽窃（ひょうせつ）している可能性を分析した研究報告である。剽窃されたコンテンツを自動的に識別するためのパイプラインを構築することにより、言語モデルがコピー＆ペーストだけでなく、気が付かないうちにより高度な盗用をしていないかを検証する。この研究では、21万件のテキストを用い、事前に訓練された言語モデルと専門分野に特化するよう微調整された言語モデルの2パターンの剽窃行動を検証する。具体的には、事

morioka 2023/02/22

あとで読む

リンク

ベクトル検索エンジンQdrantの紹介

はじめにこれはLivesense Advent Calendar 2022 DAY 14 の記事です。普段は主にレコメンドシステムの開発・運用をやっています。仕事ではPythonを書くことが多いです。好きな言語はRustです。この記事では、ベクトル検索エンジンQdrantを紹介します。ベクトル検索とはそもそもベクトル検索とは何だ、という人もいると思います。簡単に言えばベクトル検索は類似するベクトルを（正確性を犠牲にして）高速に計算する技術です。なぜそのような技術が必要になるのか簡単に説明しましょう。なぜベクトルの類似度を計算する必要があるのか近年、機械学習技術によって様々なものがベクトルで表現されるようになりました。典型的には画像と文書（単語）です。「類似する画像を求める」「ユーザーが入力したワードに関連する文書を返す」「ユーザーが閲覧したアイテムに類似するアイテムのリスト

morioka 2023/02/22

あとで読む

リンク

【図解】誰でもわかるTransformer入門！凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM

始めにこんにちは！自然言語処理（NLP）・自然言語生成（NLG）の解説記事を書いている、すえつぐです！突然ですが、BERT、GPT-3、PaLMを使ったことはありますか？Transf ormerはこれらの最先端のモデルに使用されている、現代のNLPモデルには欠かせないモデルです。おそらくBERTやGPT-3でTransf ormerを知った、このページに来たという人も多いのではないでしょうか。機械学習、特にNLPの勉強をしている方々は、Transf ormerの概要は知っておいた方が良いと思います。ただ多くのサイトは、いきなり細かい仕組みの解説をする中級者以上向けの記事が多いですよね。そこで、このページでは、Transf ormerの入門〜中級までの解説をしていきます！まず入門として、「Transf ormerの使い道」「Transf ormerの何が凄いのか？」を先に解説します。その上で「T

morioka 2023/02/22

あとで読む

リンク

DBサーバでUPDATE/DELETEを打つ安心感を高める

近年はDBサーバで直接UPDATE/DELETE文を発行する場面はかつてより減ったように感じますが、引き出しとして持っていて損はないと思ったので私が普段やっている方法をメモしておきます。プロトタイピングだったり、開発環境でも有効なので手癖にしておくのは有効だと考えます。 MySQLを例に書いていますが、対象のRDBMSは特に限定されません。 1. 対象のレコードを下見するまずはこれから更新する対象を見ておきましょう。 mysql> select * from books where id=1; +----+-----------+-----------------+-------+ | id | author_id | title | price | +----+-----------+-----------------+-------+ | 1 | 1 | Learning UPDA

morioka 2023/02/22

あとで読む

リンク

AIの権威による「ChatGPT」の説明が分かりやすい！　東大松尾教授の資料が話題

「ChatGPTって何？」と聞かれたら、取りあえずこの資料を渡せば良い──2022年11月末に登場してすぐに世間を驚かせたAI「ChatGPT」。自民党もAIには注目しており、「AIの進化と実装に関するプロジェクトチーム」を開催しているのだが、そこで東京大学の松尾豊教授が提出した資料が「分かりやすい」と話題だ。資料が提出されたのは2月17日開催の第2回会議。「AIの進化と日本の戦略」というタイトルで、大規模言語モデルの仕組みやChatGPT、今後の日本の戦略について説明するものだ。同資料は塩崎彰久衆議院議員が投稿したnote記事からダウンロードできる。 ChatGPTについては、その学習方法から、高度な会話を実現できた理由、ChatGPTでできること、利用場面や受け取られ方まで網羅的にまとめられている。例えば、高度な会話後実現できた理由のパートでは、従来のモデルには「生成分が人間の好み

morioka 2023/02/22

あとで読む

リンク

契約書の差分比較をGPT-3を使って自動化する - Qiita

こんにちは！逆瀬川 ( https://twitter.com/gyakuse ) です！今日は契約書の更新差分の比較をGPT-3とGoogle Document AIを使ってやってみたいと思います。概要異なるバージョンの契約書をPDF解析システムとGPT-3を使って自動的に比較し、リスクなどの検討も自動で出力する仕組みを作る。 Colab 使い方 Document AIの準備 (作成方法など詳しくは後述) Google CloudのDocument AIでプロセッサを作成するプロセッサ一覧から作成したプロセッサを選び、予測エンドポイントをコピーする https://console.cloud.google.com/ai/document-ai/processors json形式のAPIキーファイルをダウンロードしておく OpenAI APIキーの準備すべてのセルを実行比較した

morioka 2023/02/22

あとで読む

リンク

「AIが書いた盗作」の投稿が爆増しSF雑誌が新作募集を打ち切り

SF 小説雑誌「Clarkesworld Magazine」が「AIによる盗作の投稿が増えた」として新作投稿受付を停止しました。盗作の投稿は2022年末から急増しており、盗作のほとんどはChatGPTなどの高性能チャットAIを用いた作品だとされています。 A Concerning Trend – Neil Clarke http://neil-clarke.com/a-concerning-trend/ Clarkesworld Magazineの編集者であるニール・クラーク氏によると、Clarkesworld MagazineにはチャットAIの発達以前にも毎月数件の盗作が投稿されていたとのこと。しかし、チャットAIが発達し始めてから盗作の投稿件数が爆発的に増加してしまいました。以下のグラフは、Clarkesworld Magazineに投稿される盗作の数を月ごとにまとめたものです。盗作投

morioka 2023/02/22

あとで読む

リンク

テレビ朝日「タモリ倶楽部」３月末で40年の放送終了発表「番組としての役割は十分に果たした」 - 芸能 : 日刊スポーツ

テレビ朝日は22日、1982年（昭57）10月9日に放送がスタートした深夜バラエティー番組「タモリ倶楽部」の放送を、3月末をもって終了すると発表した。「放送開始から40年という節目を迎え、番組としての役割は十分に果たしたということで、総合的に判断し3月末をもって終了することにいたしました」と説明した。「タモリ倶楽部」は、タモリ（77）が1981年（昭56）から司会を務め、日曜夕方に放送された「夕刊タモリ！　こちらデス」の終了を受けて、土曜の深夜枠でスタート。“元祖脱力系番組”がコンセプトで、オープニングの「毎度おなじみ流浪の番組、タモリ倶楽部でございます」のあいさつ通り、オールロケーションによる流浪の番組で、番組全編を通じた、ゆるりとした雰囲気がコアな層に根強く支持された。鉄道企画が多く、番組内で「タモリ電車クラブ」が結成された。また92年4月に「あなたにも音楽を」のタイトルでスタート

morioka 2023/02/22

あとで読む

リンク

太った少年→巨大な少年　『チャーリーとチョコレート工場』から体形・性別・肌の色描写が削除　「検閲」と作家ら危険視

ジョニー・デップ主演の映画「チャーリーとチョコレート工場」原作などで知られる英作家ロアルド・ダールの著作に、“現代でも全ての人が楽しめるよう”変更が加えられました。出版社と著作権を有する会社によるもので、最新版では「太った」「醜い」「狂った」といった多くの言葉が変更されており、作家らはこれに「ばかげた検閲」などと危険性を訴えています。テレグラフ紙がレポート(画像は英The Telegraph紙Instagramから) 英The Telegraph紙は2月17日、著作の出版社「パフィン・ブックス」と、著作権を有する「ロアルド・ダール物語社」による変更を大々的にレポート。例えば、「太った（fat）」「狂った（crazy）」「醜い（ugly）」といった言葉は削除されるか変更され、「チャーリーとチョコレート工場」に登場する食いしん坊のオーガスタクス・グループは「とても太った9歳の少年」の代わりに

morioka 2023/02/22

あとで読む

リンク

「タモリ倶楽部」3月末で終了　放送40年「役割は十分に果たした」　さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能

「タモリ倶楽部」3月末で終了　放送40年「役割は十分に果たした」　さらば空耳アワー、マニアック企画…

morioka 2023/02/22

あとで読む

リンク

コピペOK！ChatGPT×英語学習に使える「深津式プロンプト」

英語学習の強い味方、ChatGPT。指示の出し方ひとつで、生成される文章のパフォーマンスが大きく変わることを知っていましたか？ ChatGPTが欲しい答えをくれないのではなく、私たちの指示の出し方が悪かったのです。この記事では、noteのCXO深津貴之さんが提唱した、ChatGPTに最高の仕事をさせる「深津式汎用プロンプト」を英語学習に適用する方法を紹介します。

morioka 2023/02/22

あとで読む

リンク

はてなブックマーク

タグ

2023年2月22日のブックマーク (11件)

言語生成AIは文章を“盗作”しているのか？　21万件の文章から米国の研究者らが分析

ベクトル検索エンジンQdrantの紹介

【図解】誰でもわかるTransformer入門！凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM

DBサーバでUPDATE/DELETEを打つ安心感を高める

AIの権威による「ChatGPT」の説明が分かりやすい！　東大松尾教授の資料が話題

契約書の差分比較をGPT-3を使って自動化する - Qiita

「AIが書いた盗作」の投稿が爆増しSF雑誌が新作募集を打ち切り

テレビ朝日「タモリ倶楽部」３月末で40年の放送終了発表「番組としての役割は十分に果たした」 - 芸能 : 日刊スポーツ

太った少年→巨大な少年　『チャーリーとチョコレート工場』から体形・性別・肌の色描写が削除　「検閲」と作家ら危険視

「タモリ倶楽部」3月末で終了　放送40年「役割は十分に果たした」　さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能

コピペOK！ChatGPT×英語学習に使える「深津式プロンプト」

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス