misshikiのブックマーク / 2023年8月23日

SIGNATE Career Up Challenge | SIGNATE - Data Science Competition

misshiki 2023/08/23

“SIGNATE Career Up Challengeは、人材採用を兼ねた社会人限定データサイエンスコンペティションです。参加者には、データサイエンティストを募集している企業の採用情報が提供されます。”

リンク

Sign In | SIGNATE - Data Science Competition

misshiki 2023/08/23

“SIGNATE Partners 登録フォーム”

リンク

SIGNATE Partners 企業様向け

SIGNATE Partnersは、データ活用に関する課題を解決したい「企業」と「個人」のプロフェッショナル人材をマッチングするサービスです。

misshiki 2023/08/23

AI／DX／データ分析／機械学習／データサイエンス／データ分析基盤などで副業できる“SIGNATE Partners”の企業向けランディングページらしい。

リンク

GitHub - confident-ai/deepeval: The LLM Evaluation Framework

DeepEval is a simple-to-use, open-source LLM evaluation framework. It is similar to Pytest but specialized for unit testing LLM outputs. DeepEval incorporates the latest research to evaluate LLM outputs based on metrics such as G-Eval, hallucination, answer relevancy, RAGAS, etc., which uses LLMs and various other NLP models that runs locally on your machine for evaluation. Whether your applicatio

misshiki 2023/08/23

“Deepeval は、Python 単体テストを作成するのと同じくらい簡単に、LLM アプリケーション (RAG など) のテストを作成できるようにすることを目的としています。”「LLM用のPytest」

自然言語処理

リンク

TOP 20にランク入りした「Julia」とは――プログラミング言語の人気ランキング「TIOBEインデックス」に波乱

ソフトウェア品質の評価と追跡を手掛けるTIOBE Softwareは、2023年8月版の「TIOBEプログラミングコミュニティーインデックス」（通称「TIOBEインデックス」）を発表した。 TIOBEインデックスはプログラミング言語の人気度を示すランキングで、同社が毎月更新している。2023年8月のランキングでは「Python」が13.33％で首位を維持した。2位～5位は「C」（11.41％）、「C++」（10.63％）、「Java」（10.33％）、「C#」（6.38％）だった。関連記事「COBOL」がトップ20にまさかの復帰、「C++」は「C」を超えるか――2023年7月言語人気ランキング発表プログラミング言語の人気ランキング「TIOBEインデックス」の2023年7月版が公開された。「C++」が順位を上げ、「C」を追い抜こうとしている。「JavaScript」は史上最高ランクに達

misshiki 2023/08/23

Juliaが上がってきているのか。しかしRやMATLABよりまだ下位だし先は長そう。

リンク

Topic Modeling with Llama 2

misshiki 2023/08/23

“Llama 2 によるトピックモデリング：大規模言語モデルを使用して簡単に解釈できるトピックを作成する”

自然言語処理

リンク

Seamless Expressive Translation Demo

Create translations that follow your speech style. Translate from nearly 100 input languages into 35 output languages. This is a translation research demo powered by AI.

misshiki 2023/08/23

SeamlessM4Tのデモサイト。直感的な操作で簡単に使える。

リンク

Seamless Communication - AI at Meta

A significant step towards removing language barriers through expressive, fast and high-quality AI translation

misshiki 2023/08/23

“SeamlessM4T (Massive Multilingual Multimodal Machine Translation) は、音声から音声への翻訳、および音声からテキストへの翻訳と文字起こしにおける重要な進歩を表す最初のマルチモーダルモデルです。” 日本語もできる。デモ可能。

リンク

GPT-3.5 Turbo fine-tuning and API updates

Developers can now bring their own data to customize GPT-3.5 Turbo for their use cases. Fine-tuning for GPT-3.5 Turbo is now available, with fine-tuning for GPT-4 coming this fall. This update gives developers the ability to customize models that perform better for their use cases and run these custom models at scale. Early tests have shown a fine-tuned version of GPT-3.5 Turbo can match, or even

misshiki 2023/08/23

ついに来ましたね。“GPT-3.5 Turbo のファインチューニングが利用可能になり、GPT-4 のファインチューニングがこの秋に提供される予定です。”

リンク

Google、大規模言語モデル「PaLM 2」が日本語対応したと発表。ダジャレを理解する能力も

Googleは、都内で開催したイベント「Generative AI Summit Tokyo」で、同社の大規模言語モデルである「PaLM 2」が日本語対応したことを発表しました。 PaLM 2は今年（2023年）5月に行われたイベント「Google I/O 2023」で発表された、同社の最新の大規模言語モデルです。グーグル・クラウド・ジャパン合同会社上級執行役員小池裕幸氏は、日本語対応となったPaLM 2の日本語能力を客観的に測定する試験として、主に外国人向けに行われているJ.TEST A-C（上級）でPaLM 2が94％の正答率を獲得したと説明。さらに、日本語のダジャレ「おでんの予約は？お電話で！」がなぜ面白いかを英語で説明できることも紹介し、高い日本語能力をアピールしました。また、コストの透明性を高めるために文字数ベースの価格設定にしたことも日本語対応における特長だとしま

misshiki 2023/08/23

“大規模言語モデルである「PaLM 2」が日本語対応したことを発表”

リンク

松尾研、公開したLLMの「オープンソース」記述を削除　X（Twitter）で指摘相次ぐ

東京大学院工学系研究科・松尾研究室（主宰：松尾豊教授）は8月22日、「オープンソース」として18日に公開した大規模言語モデル（LLM）「Weblab-10B」について、「商用利用不可のため定義に当てはまらない」としてオープンソースの記述を削除した。 Weblab-10Bは、日本語と英語のデータセットを学習させることで学習データ量を増やし、日本語の精度を高めたモデルとしている。パラメータサイズは100億。研究目的での利用のみ認めており、商用利用は不可としている。しかし、X（Twitter）などでは「商用利用不可ならオープンソースとはいえないのではないか」といった旨の指摘が相次いでいた。米Open Source Initiativeが定める「オープンソースソフトウェア」の定義には「再頒布の自由」という項目があり、「ソフトウェアなどの一部として販売・頒布することを制限してはならない」と規定さ

misshiki 2023/08/23

“「オープンソース」として18日に公開した大規模言語モデル（LLM）「Weblab-10B」について、「商用利用不可のため定義に当てはまらない」としてオープンソースの記述を削除した。”

リンク

Microsoft Announces Python In Excel - Slashdot

misshiki 2023/08/23

否定的な反応が多いかな。確かにセキュリティ面の不安があるのだけど、どう対処するんだろう。

リンク

Microsoft、「Python in Excel」を発表～Windows向けベータ版でテスト開始／統計処理、機械学習、ビジュアライゼーションなどに「Python」の力を

misshiki 2023/08/23

“プレビュー中は「Microsoft 365」サブスクリプションに含まれるが、プレビューが終了すると一部の機能は有償ライセンスがないと制限される。詳細に関しては、一般提供の開始前にアナウンス”

リンク

Excelが「Python」に対応　シート上でコードを実行できるように　グラフ作成、機械学習なども可能

米Microsoftは8月22日、Excelにプログラミング言語「Python」を搭載すると発表した。セルに「PY関数（=PY）」を入力するとPythonのコードを記述できるようになる。Pythonのライブラリとシート上のデータを参照して高度なグラフ作成や機械学習などができるという。機能の名前は「Python in Excel」。利用には試験的に実装された機能を体験できるプログラム「Microsoft 365 Insider Program」への参加が必要。 Pythonコードは、クラウドプラットフォーム「Microsoft Cloud」上で実行。Pythonの各種ライブラリをまとめた「Anaconda」を活用しており、グラフ作成ライブラリを使ったデータの視覚化や、機械学習ライブラリを使った機械学習や予測分析などもできる。

misshiki 2023/08/23

“セルに「PY関数（=PY）」を入力するとPythonのコードを記述できるようになる。” 直感的で分かりやすい。

リンク

misshiki 2023/08/23

“「Flowise」は、大規模言語モデル（LLM）を使った開発のためのライブラリとして有名な「LangChain」と同様に、複数の機能を組み合わせたチャットアプリをGUIで設計できるローコードツールだ。”

リンク

YouTubeが「アーティストや作品を守りながらAIを活用するための3原則」を大手音楽企業と提携して発表

さまざまなミュージックビデオや音楽を配信しているYouTubeが、大手音楽企業であるユニバーサルミュージックグループと提携し、「生成AIを使ってアーティストやその作品を保護しながら音楽のクリエイティブでユニークな表現を強化していくための3原則」を発表しました。 Our principles for partnering with the music industry on AI techno logy https://blog.youtube/inside-youtube/partnering-with-the-music-industry-on-ai/ An artist-centric approach to AI innovation https://blog.youtube/news-and-events/an-artist-centric-approach-to-ai-innova

misshiki 2023/08/23

“原則1：AIは存在し、私たちは音楽パートナーと共に責任を持ってAIを受け入れます”など。

リンク

BraveのNightly版に日本語でも返答可能なチャットAI「Leo」が搭載されたので使ってみた

ウェブブラウザ「Brave」のNightly版(開発者向けテスト版)にチャットAI「Leo」が搭載されました。LeoはMetaが開発した大規模言語モデル「Llama 2」をベースに開発されており、ユーザーの質問に自然な言語で返答できるほか、ウェブページの要約機能なども備えているとのこと。Leoの性能を確かめるべく、実際にBraveのNightly版をインストールして使ってみました。 Leo, Brave's browser-native AI assistant, is now available in Nightly version for testing | Brave https://brave.com/leo-release/ BraveのNightly版をインストールするには、まず以下のリンク先にアクセスします。 Brave Nightlyをダウンロード | Brave http

misshiki 2023/08/23

“LeoはMetaが開発した大規模言語モデル「Llama 2」をベースに開発されており、ユーザーの質問に自然な言語で返答できるほか、ウェブページの要約機能なども備えているとのこと。”

人工知能

リンク

AI Demos

misshiki 2023/08/23

マルチモーダル検索のデモ。StackOverflowでテキスト検索、メルカリでテキストから画像検索、メルカリで画像から画像検索が試せる。

リンク

Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開

Googleが、大規模言語モデル(LLM)に「視覚」を持たせた「大規模視覚モデル(LVM)」のデモを公開すると同時に、LVMの仕組みについての解説記事を投稿しました。 Multimodal generative AI search | Google Cloud Blog https://cloud.google.com/blog/products/ai-machine-learning/multimodal-generative-ai-search?hl=en LVMのデモは「https://ai-demos.dev/」で公開されています。このサイトでは複数のデモがまとめて公開されているので、「MERCARI TEXT-TO-IMAGE」をクリックしてLVMのデモを表示させます。このデモは名前にMERCARIと付いている通り、メルカリの商品データを利用して作成されているとのこと。自分でテ

misshiki 2023/08/23

“Googleが、大規模言語モデル(LLM)に「視覚」を持たせた「大規模視覚モデル(LVM)」のデモを公開すると同時に、LVMの仕組みについての解説記事を投稿しました。”マルチモーダル検索

リンク

AI活用で転がり軸受の余寿命を高精度予測、より正確な交換時期を把握

NTNは2023年8月21日、複数のAI（人工知能）手法を組み合わせて、転がり軸受の高精度な余寿命予測技術を開発したことを発表した。2017年に大阪大学大学院工学研究科に設立した「NTN次世代協働研究所」との共同研究により実現した。機械設備に組み込まれた軸受は、使用条件によっては軽微なはく離が発生し、進行すると最悪の場合は破損につながる。ただ、はく離が発生後も機器の構造や設置場所などにより交換などのメンテナンスが難しいと、運転に支障がない範囲において軸受が使用され続けるケースもあるという。軸受の状態は振動データなどから把握することができる。しかし、はく離などの異常が発生後、どのぐらいの期間、使用できるのか（余寿命）を精度良く把握する方法はなかった。そのため、軸受がまだ使用可能な状態でも早めに交換したり、軸受が破損してから交換したりしなければならなかった。 NTNでは今回、深層学習とベイ

misshiki 2023/08/23

“複数のAI（人工知能）手法を組み合わせて、転がり軸受の高精度な余寿命予測技術を開発”

人工知能

リンク

Google、OSS向けファジングサービス「OSS-Fuzz」をLLMで改善

Googleは2023年8月16日（米国時間）、同社の大規模言語モデル（LLM）を利用して、オープンソースソフトウェア（OSS）向けファジングサービス「OSS-Fuzz」の対象プロジェクトのコードカバレッジ（網羅率）を高めることに成功したと発表した。ファジングは、ソースコードを直接解析するのではなく、極端に長い文字列や不正な形式の値など、さまざまな入力データを与えてコードを実行し、予期せぬ動作やクラッシュを意図的に引き起こすテスト手法を指す。 OSS-Fuzzは、オープンソースプロジェクト向けにファジングツール（ファザー）を実行し、検出されたバグを非公開で開発者に知らせる無償サービスだ。2016年から運営されており、現在では1000以上のオープンソースプロジェクトを継続的なファジングでサポートしている。関連記事不正データを与えてOSSの脆弱性をあぶり出す「ファジング」とは？　Goog

misshiki 2023/08/23

“ファジングは、ソースコードを直接解析するのではなく、極端に長い文字列や不正な形式の値など、さまざまな入力データを与えてコードを実行し、予期せぬ動作やクラッシュを意図的に引き起こすテスト手法”

人工知能

リンク

AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」

AIで生成された動画を見てみると、連続した動きの中で文脈を無視するようにオブジェクトが突然別の物に変わったり、「大ざっぱなパラパラ漫画」のように映像がガクガクと揺れたりすることがままあります。そうした問題を改善する「Content Deformation Field(CoDeF：コンテンツ変形フィールド)」が公開されました。 CoDeF https://qiuyu96.github.io/CoDeF/ [2308.07926] CoDeF: Content Deformation Fields for Temporally Consistent Video Processing https://arxiv.org/abs/2308.07926 CoDeFのデモ映像を以下から確認できます。CoDeFで動画の処理を行うと、入力された動画に自然な形で脚色を加えることができます。「CoDeF」の

misshiki 2023/08/23

“連続した動きの中で文脈を無視するようにオブジェクトが突然別の物に変わったり「大ざっぱなパラパラ漫画」のように映像がガクガクと揺れたりすることがままあります。そうした問題を改善するContent Deformation Field”

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第六回：Stable Diffusionの基本2 / LoRAの概要と6つの例を紹介 (西川和久) | テクノエッジ TechnoEdge

LoRAとは前回はモデルの1つであるCheckpointについていろいろお話した。今回はStable Diffusionが扱えるモデルの中で次によく使われるLoRAについてがお題となる。連載の第一回では、自前で撮影した実在モデルの写真を学習させた専用のCheckpointを作り、そちらで生成した作例をいくつか掲載した。これはCheckpoint自体に学習結果を保存する形式で一般的にはファインチューニングと呼ばれている。このキーワード自体は、LLM(大規模言語モデル)でもよく耳にするので、覚えのある人もいらっしゃるのではないだろうか。

misshiki 2023/08/23

人工知能

リンク

日本がIT後進国になったのは｢技術力の差｣ではない…数多のチャンスをすべて潰してきた｢著作権法｣という闇アメリカが伸びたのは｢フェアユース｣があったから

厳しい著作権法が日本のITをダメにした前回の記事（20年前なら日本のIT 技術は世界一だった…天才プログラマーの7年半を奪った｢著作権法｣という闇）において、2004年にファイル共有交換ソフト「Winny」を開発した東京大学大学院特任教授（当時）の金子勇氏が著作権法違反幇助罪で逮捕、起訴されたことで、日本が世界のIT革命に乗り遅れた件を取り上げた。その一方で、動画配信システム「YouTube」が生まれたアメリカでは、1998年に制定されたデジタル・ミレニアム著作権法で、検索エンジンや動画サービスなどのサービス・プロバイダーは、法律に定める要件を満たしていれば著作権侵害の責任を負う必要がなく、そのおかげでYouTubeが世界を席巻するようになったこともお伝えした。