misshikiのブックマーク / 2023年11月2日

Colaboratory on X: "You can now safely store your private keys, such as your @huggingface or @kaggle API tokens, in Colab! Values stored in Secrets are private, visible only to you and the notebooks you select. https://t.co/dz9noetUAL"

misshiki 2023/11/02

“huggingfaceやkaggleのAPI トークンなどの秘密キーを Colab に安全に保存できるようになりました。 Secret に保存された値は非公開であり、あなたとあなたが選択したノートブックのみに表示されます。” 良い。少し楽になる。

リンク

GitHub - microsoft/generative-ai-for-beginners: 12 Lessons, Get Started Building with Generative AI 🔗 https://microsoft.github.io/generative-ai-for-beginners/

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

misshiki 2023/11/02

“Microsoft Cloud Advocates による 12 レッスンの包括的なコースで、Generative AI アプリケーション構築の基礎を学びましょう。各レッスンでは、生成 AI の原則とアプリケーション開発の重要な側面を取り上げます。”英語。

リンク

Kaggleで世界トップレベルになるための思考法。Grandmaster小野寺和樹の頭の中 - Findy Engineer Lab - ファインディエンジニアラボ

Kaggleとは、世界最大級の機械学習およびデータ分析のコンペティションです。コンペの主催企業や研究機関などがデータや分析のテーマを提供。その内容に基づいて世界中の参加者たちが機械学習モデルの精度を競います。 Kaggleにおけるランクの最高峰がGrandmasterであり、ゴールドメダル5枚とソロゴールドメダル（個人参加でのゴールドメダル）1枚がランク取得の条件となります。日本人でGrandmasterの称号を得ている数少ない方の一人が、NVIDIAの小野寺和樹（@0verfit）さんです。小野寺さんは「Kaggleに参加すること」を同社での仕事にしています。どうすれば、スキルを向上させKaggleの上位ランクに入賞できるのでしょうか。今回は小野寺さんに、Kaggleに取り組むうえでどのような思考や行動をしているのかについてインタビューしました。 *…インタビューはオンラインで実施しま

misshiki 2023/11/02

“世の中には「○○の手法を思いついたけれど、やらなかった」人がたくさん。「思いついた」と「思いついて行動した」にはかなりの差があって、その大変さに向き合える人がコンペで上位に入っている気がしますね。”

Kaggle

リンク

機械学習のカレンダー | Advent Calendar 2023 - Qiita

機械学習についての記事であればなんでもありのアドベントカレンダーです。 ※記事を投稿する先はQiitaである必要はございません！投稿する記事はQiitaの記事はもちろん、他サイトの記事でも歓迎です。引用：https://help.qiita.com/ja/articles/qiita-adcal-join 昨年：https://qiita.com/advent-calendar/2022/machine-learning edit_calendarHow to join the calendarYou can join the calendar by selecting an available date and registering the URL of the article you wish to link to. If a slot is available, you can

misshiki 2023/11/02

“機械学習 Advent Calendar 2023person参加者1人star購読者11人0”

機械学習

リンク

いろんなバンディットアルゴリズムを理解しよう - Qiita

今回は、何も知らないところからバンディットアルゴリズムを学びました。シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。学んでいて疑問に思ったことを解消しつつ記載しています。ソースコード https://github.com/birdwatcherYT/bandit 対象読者バンディットアルゴリズムを理解して実装したい人ユーザーごとにカスタマイズしたバンディットを理解して実装したい人（Contextual Bandit）順序を最適化するバンディットを使いたい人（Cascading Bandit）バンディットアルゴリズムバンディットの問題設定を説明します。スロットマシンN台があるスロットマシンの腕を引くと報酬がもらえる累積報酬を最大化したいバンディットアル

misshiki 2023/11/02

“シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。”

リンク

Pydanticで始めるPythonのバリデーションとシリアライゼーション

はじめに Pydanticを使用することで、Pythonコードでのデータバリデーションとデータシリアライゼーションを簡単かつ効率的に行うことができます。この記事では、Pydanticの基本的な使い方から、より高度なバリデーションとシリアライゼーションまで幅広く紹介します。また、簡易的なものですが他のバリデーションライブラリとの速度比較も行っています。 Pydanticとは Pydanticは、Pythonのバリデーションライブラリです。以下のような特徴を持ちます。型アノテーションをつけるだけでバリデーションとシリアライゼーションを実現できる独自のバリデーションやシリアライゼーションを柔軟に定義することができる Pydantic V2はコアロジックがRustで実装されていて高速に動作する dataclasses+jsonと比較 dataclasses+jsonを使ったコードとPydan

misshiki 2023/11/02

“Pydanticを使用することで、Pythonコードでのデータバリデーションとデータシリアライゼーションを簡単かつ効率的に行うことができます。”

Python

リンク

Pythonのパフォーマンスを向上する9つのヒント

Pythonのパフォーマンスは、Javaなどの言語と比べて評価が低い。本稿では、Pythonコードの問題点を見つけて解決し、パフォーマンスを高めるヒントを紹介する。アプリケーションやWebサイトを最適化する出発点は、コードをしっかりと構築することだ。とはいえ、実際にはコードの90％、多くのスクリプトのほぼ100％ではパフォーマンスを懸念する必要はない。1回だけ実行されるETLスクリプトや夜間に実行されるETLスクリプトではスクリプトの実行にかかる時間が1秒であろうと1分であろうと問題にならない。だが、アプリケーションの実行が遅く、タスクが完了するまで時間がかかったり、Webページに結果が表示されるのに時間がかかったりして、ユーザーが待たなければないとしたらそれは問題だ。そうだとしても、その原因はコードベースのごく一部にある可能性が高い。パフォーマンスを最大限に高めるには、パフォーマン

misshiki 2023/11/02

Python

リンク

【QGIS】GISソフトでGoogle Earth Engineを操作する【衛星データ解析】 - LabCode

QGISとは？ QGISは、地理情報システム（GIS）のためのオープンソースソフトウェアで、地理データの閲覧、編集、分析を行うことができます。QGISは多くのプラットフォーム（Windows、MacOS、Linux）に対応しており、商用GISソフトウェアと比較しても多機能でありながら無料で利用することができます。主な特徴としては以下があげられます。多機能かつ柔軟性が高い: QGISは、地理データのインポート・エクスポート、地図作成、空間解析など、多くのGISタスクを実行することができます。オープンソース: ソースコードが公開されているため、コミュニティの支援を受けつつ進化しています。また、カスタマイズや拡張が容易です。豊富なプラグイン: サードパーティによって開発されたプラグインが多数あり、特定の機能を追加することができます。 GEEプラグインについて今回紹介するGEEプラグイン

misshiki 2023/11/02

“QGISのGoogle Earth Engine（GEE）プラグインを紹介”

リンク

Excelの「データ分析」ボタン、数字の羅列から意外な傾向を見つけ出す

Excelで整理する表は基本的に数字の羅列だ。データ量が多いほど、この羅列から何らかの傾向を見つけ出すのは難しい。だから我々ユーザーは、数字をグラフなどにビジュアル化して傾向を可視化しようと努めるわけだ。そういうときに意外な傾向の発見を支援してくれる機能がある。それが本日紹介する「データ分析」ボタンだ。数字の羅列を多様な切り口でビジュアル化「データ分析」ボタンは、選択した表をExcelが独自に分析して、その結果を表示してくれる機能だ。下図では、ある新聞社3社の5年間の売り上げを示したものだ。このデータを基にして「データ分析」機能を概観してみよう。まず、分析したい表のいずれかのセルを選んだら、「ホーム」タブから「データ分析」ボタンをクリックする。すると、シートの右側に「データ分析」作業ウィンドウが開き、瞬時に表の数値を分析してビジュアル化した結果を表示してくれる。分析したい表のセル

misshiki 2023/11/02

“「データ分析」ボタンは、選択した表をExcelが独自に分析して、その結果を表示してくれる機能だ”

リンク

【AutoMLで分類（3分類）】Pycaretで機械学習モデルの比較 - Qiita

はじめに Pycaretとは数行のコードで機械学習モデルを構築・比較してくれるAutoMLライブラリです。この投稿では分類問題(3分類)を取り扱い、結果の解釈やコードの詳細を説明します。分類問題用のデータセットの作成分類問題用にデータセットにラベルづけを行います。今回はこちらのページで紹介した"df.csv"というデータを用いていきます。csvファイルはGitHunにも保存しております。 #　データの読み込み import pandas as pd df = pd.read_csv("df.csv") print("Datasize: " + str(df.shape)) df.tail(15)

misshiki 2023/11/02

リンク

【AutoMLで分類（2分類）】Pycaretで機械学習モデルの比較 - Qiita

はじめに Pycaretとは数行のコードで機械学習モデルを構築・比較してくれるAutoMLライブラリです。この投稿では分類問題(2分類)を取り扱い、結果の解釈やコードの詳細を説明します。分類問題用のデータセットの作成分類問題用にデータセットにラベルづけを行います。今回はこちらのページで紹介した"df.csv"というデータを用いていきます。csvファイルはGitHunにも保存しております。 #　データの読み込み import pandas as pd df = pd.read_csv("df.csv") print("Datasize: " + str(df.shape)) df.head()

misshiki 2023/11/02

“Pycaretとは数行のコードで機械学習モデルを構築・比較してくれるAutoMLライブラリです。”

リンク

Amazon Bedrock で Interpreter を開発 ! ~日本語だけで AWS Lambda のコード生成とデプロイとテストまで完結~ - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS

Builder の皆様こんにちは ! 機械学習ソリューションアーキテクトの呉です。 2023 年 9 月 28 日 (日本時間) に大手 AI 企業が提供する高性能な基盤モデル (FM) を単一の API で選択できるフルマネージド型サービス「Amazon Bedrock」が一般提供開始となり、AWS のアカウントを持っていれば、API を叩くだけで誰でも生成系 AI を試せるようになりました。(ちなみに前回の記事を読んでいただければ、生成系 AI とは何 ? や、API ではなくそもそも生成系 AI をどうやって動かせるのか、どうやって Fine Tune するのか、みたいなことを学べるので、ぜひご一読いただけると幸いです)。自前でモデルを用意せずとも、API を叩くだけで生成系 AI を使えるということは、機械学習の経験がないアプリケーション開発者でも簡単に生成系 AI を組み

misshiki 2023/11/02

“~ 日本語だけで AWS Lambda のコード生成とデプロイとテストまで完結 ~”

リンク

マルチモーダル基盤モデルの開発、販売を行う新会社Preferred Elementsを設立 - 株式会社Preferred Networks

PFNは、2023年9月28日のお知らせのとおり、マルチモーダル基盤モデルの開発、販売を行う、株式会社Preferred Elements（本社：東京都千代田区、代表取締役社長：岡野原大輔、プリファードエレメンツ、以下、PFE）を2023年11月1日に会社分割により設立しました。新会社のPFEは、テキスト、画像、音声、映像、空間情報、ゲノム、センサ値など、様々な種類のデータを扱える、大規模かつ高機能なマルチモーダル基盤モデルを、2024年中に商用サービスとして提供することを目指すとともに、PFNグループが手掛ける様々なプロダクト・サービスでの活用を進めていきます。 PFEへのお問合せはこちらから承ります。

misshiki 2023/11/02

“マルチモーダル基盤モデルの開発、販売を行う、株式会社Preferred Elements（本社：東京都千代田区、代表取締役社長：岡野原大輔、プリファードエレメンツ、以下、PFE）を2023年11月1日に会社分割により設立しました。”

人工知能

リンク

大規模言語モデル「Phind」がコーディングにおいてGPT-4を上回る

生成AIを用いた開発者向けの検索エンジン「Phind」が、コーディング能力でOpenAIのGPT-4を上回ったことが明らかになりました。 Phind - AI Search Engine and Pair Programmer https://www.phind.com/blog/phind-model-beats-gpt4-fast Our GPT-4-beating coding model is now the default on https://t.co/epkoFW8Ozz. It's also 5x faster than GPT-4. Learn more in our blog post: https://t.co/PrOFETEbvd— Phind (@phindsearch) PhindはもともとHello Cognition(beta.sayhello.so)として

misshiki 2023/11/02

“生成AIを用いた開発者向けの検索エンジン「Phind」が、コーディング能力でOpenAIのGPT-4を上回ったことが明らかになりました。”

リンク

NTTが大規模言語モデル「tsuzumi」、軽量＆日本語に強い――商用化は24年3月予定

misshiki 2023/11/02

“LLMが注目されているが、膨大な知識をモデル内に有することで高い言語処理性能を示す一方、学習に要するエネルギー量や運用コストなどが課題とされている。こうした課題を解決すべく、tsuzumiが開発された。”

リンク

NTT、大規模言語モデル「tsuzumi」開発　24年3月に商用サービス提供へ

NTTは、独自の大規模言語モデル「tsuzumi」を開発したと発表した。2024年3月に商用サービスとして提供を始める。 NTTは11月1日、独自の大規模言語モデル（LLM）「tsuzumi」を開発したと発表した。tsuzumiの特徴は「軽量でありながら世界トップレベルの日本語処理性能を持つこと」と同社は説明。2024年3月に商用サービスとして提供を始める。 tsuzumiでは、パラメータ数6億（超軽量版）と70億（軽量版）の2種類を用意。同社は「軽量版は1GPUで、超軽量版はCPUで高速に推論動作可能であり、チューニングや推論に必要なコストを抑えられる」と解説する。 NTTが試算したところ、GPUクラウドの利用料金への換算値では、学習コストは超軽量版で約300分の1、軽量版では25分の1に。推論コストは、超軽量版で約70分の1、軽量版で20分の1に軽減できたという。

misshiki 2023/11/02

“tsuzumiでは、パラメータ数6億（超軽量版）と70億（軽量版）の2種類を用意。同社は「軽量版は1GPUで、超軽量版はCPUで高速に推論動作可能であり、チューニングや推論に必要なコストを抑えられる」と解説する。”

リンク

GPU禁輸措置で追い詰められる中国と大規模言語モデルの発展

GPU禁輸措置で追い詰められる中国と大規模言語モデルの発展 2023.11.01 Updated by Ryo Shimizu on November 1, 2023, 09:15 am JST アメリカがGPUを重要物資として中国に対して禁輸措置を行うとの意向を受けて、中国国内ではA800 GPUの価格が一枚あたり50万人民元(約1000万円)に達するなどのパニックが起きたようだ。これは通常の価格の5倍にあたる。 A800は、そもそもアメリカ政府の意向を受けて中国市場向けにデチューンした(性能をわざと落とした)モデルで、世界的ベストセラーのA100の70%程度の性能とされている。しかし中国国内ではAI開発が非常に活発であり、合法的に使えるA800を大量に確保したい中国側の事情と、軍事転用も可能な重要戦略物資を中国に売りたくないアメリカ政府の意向が真正面から対立する形となっている。筆者

misshiki 2023/11/02

“アメリカがGPUを重要物資として中国に対して禁輸措置を行うとの意向を受けて、中国国内ではA800 GPUの価格が一枚あたり50万人民元(約1000万円)に達するなどのパニックが起きたようだ。これは通常の価格の5倍にあたる。”

人工知能

リンク

他人のSNS投稿を「GPT-4」に入力して個人情報を特定できるか？　スイスの研究者らが検証

これまでも、SNSのささいな投稿（テキストや画像）を元に個人やその場所を特定する人々が存在していた。特に、炎上したケースでは多くの人が集まり、情報を元に特定作業を行うことがある。この集団の情報収集・分析能力は驚異的だが、新しいLLMを利用することで、さらに効率的かつ簡単に情報の特定ができるのではないかとの指摘がある。特に最近のLLMの高度な推論能力を活用すれば、SNSのわずかな情報からも個人情報を容易に割り出せるようになるかもしれない。この研究は、ユーザーのオンライン投稿をLLMに入力し、ユーザーが公開する意図を持たない私的な情報をどれだけ推測できるのかを検証している。検証には、最先端の9つの言語モデル（GPT-4、Claude 2、Llama 2など）を使用。実際のRedditのユーザープロフィールを基に、LLMが人々の個人情報（例：居住地、収入、性別）をどの程度効果的に推測できるか

misshiki 2023/11/02

“SNSに書き込んだテキストから大規模言語モデル（LLM）を用いて個人情報を推測できるかを検証した研究報告”

リンク

米GM系無人タクシー、事故で運行停止　市民の4割「でも人より安全」

米ゼネラル・モーターズ（GM）傘下で自動運転タクシーを展開するGMクルーズホールディングス（クルーズ）に対し、米国の交通当局がその安全性に疑問符を付け、サービス停止命令を出した。同社はホンダと提携し、2026年に日本でのサービス提供を目指すと発表したばかり。クルーズは信頼を取り戻せるか。記者はサンフランシスコで道を歩く市民30人に、自動運転の安全性に関する意識を聞き取った。交通当局の発表を織り込んだ上での発言だったのかもしれない。「我々は常に安全性を最優先している。自動運転は人間の運転よりも安全で、自動運転の技術を高めていく」。10月24日、GMのメアリー・バーラ最高経営責任者（CEO）は米株式市場が開く直前に行った23年7～9月期決算会見で、クルーズの安全性を訴える発言を繰り返した。決算会見の終了からわずか数時間だった。米カリフォルニア州の車両管理局（DMV）はクルーズに対し、同州内

misshiki 2023/11/02

“クルーズの自動運転車が災害現場に向かう消防車と衝突する事故を起こし”これはまずいが、2つ目の別の車にはねられた人が前に戻って来たのはなかなか難しいと思った。が、止まれるスピードに減速しておくべきか。

人工知能

リンク

ドスパラがGPUクラウドサービス提供　生成AIなどで利用見込む

PC販売などを手掛けるサードウェーブは11月1日、法人向けブランド「ドスパラプラス」で、GPUクラウドサービス「raytrek cloud」を始めた。 PC販売などを手掛けるサードウェーブは11月1日、法人向けブランド「ドスパラプラス」で、GPUクラウドサービス「raytrek cloud」を始めた。データセンター事業などを手掛けるハイレゾ（東京都新宿区）のGPUクラウドサービス「GPUSOROBAN」を代理販売する形で提供。当初はGPUSOROBANと同じサービス内容だが、今後サードウェーブ独自の施策などを検討する。

misshiki 2023/11/02

“raytrek cloudは「NVIDIA A4000」「NVIDIA A100」といったGPUをインターネット経由で利用できるサービス。最も安いプランの場合、1時間50円から使える点が特徴。主に画像生成AIや大規模言語モデルの開発・活用、流体の解析で”

リンク

Windows 12搭載のCoPilotには高度なAIハードウェアが必須に。既存のノートPCはほぼ全滅？

Windows 12搭載のAIアシスタント、CoPilotでは高度なAI機能の動作にはAIハードウェアが必須。性能は40 TOPs以上が目安で既存のノートPCはほぼ全滅 Windows 11の最新バージョンにはプレビュー版としてCoPilotというAIアシスタント機能が導入されています。しかし、現時点では動作がもたついたり、できることに制限があるなど、まだ十分に活用できる状況にはありません。それでもMicrosoftはこのCoPilotの機能を拡張し、動作速度を向上させるべく、推奨されるハードウェア要件をOEM各社に通達したようです。 AMD Zen 5 Strix DELAY Leak: Hawk Point, Kraken, Escher get Faster AI! – YouTube Moore’s Law is DeadがOEMから入手した情報によると、MicrosoftはAPU

misshiki 2023/11/02

“MicrosoftはAPUやCPUの内蔵AI性能において45～50 TOPs程度の性能を要求しているとされています。この性能を備えていれば、CoPilotは快適に動作すると言われています。”

リンク

「ChatGPT」と「Bing」の生成AI「DALL-E3」はどこが違う？試してみた／機能と可用範囲で差【やじうまの杜】

misshiki 2023/11/02

“Bingでも「ChatGPT」でも同等のクオリティの画像が生成できるので、商用利用を目的としている、また縦長・横長の画像を生成したい場合は「ChatGPT」版の「DALL-E3」を”

人工知能

リンク

「MicrosoftのAIが生成した世論調査でジャーナリストとしての評判が傷付けられた」と大手新聞社がMicrosoftを非難

イギリスの日刊紙であるThe Guardianが、Microsoftのニュースポータル「Microsoft Start」に掲載された記事の横に、AIが不適切で非道徳的な内容の世論調査を生成して表示させたと非難しました。記事作成時点では世論調査は削除されていますが、The GuardianはMicrosoftに対して公的責任を求めています。 Microsoft accused of damaging Guardian’s reputation with AI-generated poll | The Guardian | The Guardian https://www.theguardian.com/media/2023/oct/31/microsoft-accused-of-damaging-guardians-reputation-with-ai-generated-poll Lett

misshiki 2023/11/02

“MicrosoftのAIが自動生成。問題の記事の横に表示された世論調査は「女性の死因は殺人、事故、自殺のどれだと思いますか」というものでした。”こりゃまずいね。

リンク

2024年はエンタープライズ生成AI元年になる――、日本オラクル・三澤智光社長

misshiki 2023/11/02

“Oracle Databaseにおいて、ベクトルデータをサポートしたOracle Database 23c - AI Vector Searchを発表したことについても触れ、「ベクトルデータを含むあらゆるデータタイプをひとつのデータベースに格納し、構造化データとベクト

リンク

はてなブックマーク

タグ

2023年11月2日のブックマーク (24件)

Colaboratory on X: "You can now safely store your private keys, such as your @huggingface or @kaggle API tokens, in Colab! Values stored in Secrets are private, visible only to you and the notebooks you select. https://t.co/dz9noetUAL"

GitHub - microsoft/generative-ai-for-beginners: 12 Lessons, Get Started Building with Generative AI 🔗 https://microsoft.github.io/generative-ai-for-beginners/

Kaggleで世界トップレベルになるための思考法。Grandmaster小野寺和樹の頭の中 - Findy Engineer Lab - ファインディエンジニアラボ

機械学習のカレンダー | Advent Calendar 2023 - Qiita

いろんなバンディットアルゴリズムを理解しよう - Qiita

Pydanticで始めるPythonのバリデーションとシリアライゼーション

Pythonのパフォーマンスを向上する9つのヒント

【QGIS】GISソフトでGoogle Earth Engineを操作する【衛星データ解析】 - LabCode

Excelの「データ分析」ボタン、数字の羅列から意外な傾向を見つけ出す

【AutoMLで分類（3分類）】Pycaretで機械学習モデルの比較 - Qiita

【AutoMLで分類（2分類）】Pycaretで機械学習モデルの比較 - Qiita

Amazon Bedrock で Interpreter を開発 ! ~日本語だけで AWS Lambda のコード生成とデプロイとテストまで完結~ - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS

マルチモーダル基盤モデルの開発、販売を行う新会社Preferred Elementsを設立 - 株式会社Preferred Networks

大規模言語モデル「Phind」がコーディングにおいてGPT-4を上回る

NTTが大規模言語モデル「tsuzumi」、軽量＆日本語に強い――商用化は24年3月予定

NTT、大規模言語モデル「tsuzumi」開発　24年3月に商用サービス提供へ

GPU禁輸措置で追い詰められる中国と大規模言語モデルの発展

他人のSNS投稿を「GPT-4」に入力して個人情報を特定できるか？　スイスの研究者らが検証

米GM系無人タクシー、事故で運行停止　市民の4割「でも人より安全」

ドスパラがGPUクラウドサービス提供　生成AIなどで利用見込む

Windows 12搭載のCoPilotには高度なAIハードウェアが必須に。既存のノートPCはほぼ全滅？

「ChatGPT」と「Bing」の生成AI「DALL-E3」はどこが違う？試してみた／機能と可用範囲で差【やじうまの杜】

「MicrosoftのAIが生成した世論調査でジャーナリストとしての評判が傷付けられた」と大手新聞社がMicrosoftを非難

2024年はエンタープライズ生成AI元年になる――、日本オラクル・三澤智光社長

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス