Kaggleとは、世界最大級の機械学習およびデータ分析のコンペティションです。コンペの主催企業や研究機関などがデータや分析のテーマを提供。その内容に基づいて世界中の参加者たちが機械学習モデルの精度を競います。 Kaggleにおけるランクの最高峰がGrandmasterであり、ゴールドメダル5枚とソロゴールドメダル(個人参加でのゴールドメダル)1枚がランク取得の条件となります。日本人でGrandmasterの称号を得ている数少ない方の一人が、NVIDIAの小野寺和樹(@0verfit)さんです。小野寺さんは「Kaggleに参加すること」を同社での仕事にしています。 どうすれば、スキルを向上させKaggleの上位ランクに入賞できるのでしょうか。今回は小野寺さんに、Kaggleに取り組むうえでどのような思考や行動をしているのかについてインタビューしました。 *…インタビューはオンラインで実施しま
機械学習についての記事であればなんでもありのアドベントカレンダーです。 ※記事を投稿する先はQiitaである必要はございません! 投稿する記事はQiitaの記事はもちろん、他サイトの記事でも歓迎です。 引用:https://help.qiita.com/ja/articles/qiita-adcal-join 昨年:https://qiita.com/advent-calendar/2022/machine-learning edit_calendarHow to join the calendarYou can join the calendar by selecting an available date and registering the URL of the article you wish to link to. If a slot is available, you can
今回は、何も知らないところからバンディットアルゴリズムを学びました。 シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。 学んでいて疑問に思ったことを解消しつつ記載しています。 ソースコード https://github.com/birdwatcherYT/bandit 対象読者 バンディットアルゴリズムを理解して実装したい人 ユーザーごとにカスタマイズしたバンディットを理解して実装したい人(Contextual Bandit) 順序を最適化するバンディットを使いたい人(Cascading Bandit) バンディットアルゴリズム バンディットの問題設定を説明します。 スロットマシンN台がある スロットマシンの腕を引くと報酬がもらえる 累積報酬を最大化したい バンディットアル
はじめに Pydanticを使用することで、Pythonコードでのデータバリデーションとデータシリアライゼーションを簡単かつ効率的に行うことができます。 この記事では、Pydanticの基本的な使い方から、より高度なバリデーションとシリアライゼーションまで幅広く紹介します。また、簡易的なものですが他のバリデーションライブラリとの速度比較も行っています。 Pydanticとは Pydanticは、Pythonのバリデーションライブラリです。以下のような特徴を持ちます。 型アノテーションをつけるだけでバリデーションとシリアライゼーションを実現できる 独自のバリデーションやシリアライゼーションを柔軟に定義することができる Pydantic V2はコアロジックがRustで実装されていて高速に動作する dataclasses+jsonと比較 dataclasses+jsonを使ったコードとPydan
Pythonのパフォーマンスは、Javaなどの言語と比べて評価が低い。本稿では、Pythonコードの問題点を見つけて解決し、パフォーマンスを高めるヒントを紹介する。 アプリケーションやWebサイトを最適化する出発点は、コードをしっかりと構築することだ。とはいえ、実際にはコードの90%、多くのスクリプトのほぼ100%ではパフォーマンスを懸念する必要はない。1回だけ実行されるETLスクリプトや夜間に実行されるETLスクリプトではスクリプトの実行にかかる時間が1秒であろうと1分であろうと問題にならない。 だが、アプリケーションの実行が遅く、タスクが完了するまで時間がかかったり、Webページに結果が表示されるのに時間がかかったりして、ユーザーが待たなければないとしたらそれは問題だ。そうだとしても、その原因はコードベースのごく一部にある可能性が高い。 パフォーマンスを最大限に高めるには、パフォーマン
QGISとは? QGISは、地理情報システム(GIS)のためのオープンソースソフトウェアで、地理データの閲覧、編集、分析を行うことができます。QGISは多くのプラットフォーム(Windows、MacOS、Linux)に対応しており、商用GISソフトウェアと比較しても多機能でありながら無料で利用することができます。 主な特徴としては以下があげられます。 多機能かつ柔軟性が高い: QGISは、地理データのインポート・エクスポート、地図作成、空間解析など、多くのGISタスクを実行することができます。 オープンソース: ソースコードが公開されているため、コミュニティの支援を受けつつ進化しています。また、カスタマイズや拡張が容易です。 豊富なプラグイン: サードパーティによって開発されたプラグインが多数あり、特定の機能を追加することができます。 GEEプラグインについて 今回紹介するGEEプラグイン
Excelで整理する表は基本的に数字の羅列だ。データ量が多いほど、この羅列から何らかの傾向を見つけ出すのは難しい。だから我々ユーザーは、数字をグラフなどにビジュアル化して傾向を可視化しようと努めるわけだ。 そういうときに意外な傾向の発見を支援してくれる機能がある。それが本日紹介する「データ分析」ボタンだ。 数字の羅列を多様な切り口でビジュアル化 「データ分析」ボタンは、選択した表をExcelが独自に分析して、その結果を表示してくれる機能だ。下図では、ある新聞社3社の5年間の売り上げを示したものだ。このデータを基にして「データ分析」機能を概観してみよう。 まず、分析したい表のいずれかのセルを選んだら、「ホーム」タブから「データ分析」ボタンをクリックする。すると、シートの右側に「データ分析」作業ウィンドウが開き、瞬時に表の数値を分析してビジュアル化した結果を表示してくれる。 分析したい表のセル
はじめに Pycaretとは数行のコードで機械学習モデルを構築・比較してくれるAutoMLライブラリです。 この投稿では分類問題(3分類)を取り扱い、結果の解釈やコードの詳細を説明します。 分類問題用のデータセットの作成 分類問題用にデータセットにラベルづけを行います。今回はこちらのページで紹介した"df.csv"というデータを用いていきます。csvファイルはGitHunにも保存しております。 # データの読み込み import pandas as pd df = pd.read_csv("df.csv") print("Datasize: " + str(df.shape)) df.tail(15)
はじめに Pycaretとは数行のコードで機械学習モデルを構築・比較してくれるAutoMLライブラリです。 この投稿では分類問題(2分類)を取り扱い、結果の解釈やコードの詳細を説明します。 分類問題用のデータセットの作成 分類問題用にデータセットにラベルづけを行います。今回はこちらのページで紹介した"df.csv"というデータを用いていきます。csvファイルはGitHunにも保存しております。 # データの読み込み import pandas as pd df = pd.read_csv("df.csv") print("Datasize: " + str(df.shape)) df.head()
Builder の皆様こんにちは ! 機械学習ソリューションアーキテクトの呉です。 2023 年 9 月 28 日 (日本時間) に大手 AI 企業が提供する高性能な基盤モデル (FM) を単一の API で選択できるフルマネージド型サービス「Amazon Bedrock」が一般提供開始となり、AWS のアカウントを持っていれば、API を叩くだけで誰でも 生成系 AI を試せるようになりました。(ちなみに前回の 記事 を読んでいただければ、生成系 AI とは何 ? や、API ではなくそもそも生成系 AI をどうやって動かせるのか、どうやって Fine Tune するのか、みたいなことを学べるので、ぜひご一読いただけると幸いです)。 自前でモデルを用意せずとも、API を叩くだけで生成系 AI を使えるということは、機械学習の経験がないアプリケーション開発者でも簡単に生成系 AI を組み
PFNは、2023年9月28日のお知らせのとおり、マルチモーダル基盤モデルの開発、販売を行う、株式会社Preferred Elements(本社:東京都千代田区、代表取締役社長:岡野原大輔、プリファードエレメンツ、以下、PFE)を2023年11月1日に会社分割により設立しました。 新会社のPFEは、テキスト、画像、音声、映像、空間情報、ゲノム、センサ値など、様々な種類のデータを扱える、大規模かつ高機能なマルチモーダル基盤モデルを、2024年中に商用サービスとして提供することを目指すとともに、PFNグループが手掛ける様々なプロダクト・サービスでの活用を進めていきます。 PFEへのお問合せはこちらから承ります。
生成AIを用いた開発者向けの検索エンジン「Phind」が、コーディング能力でOpenAIのGPT-4を上回ったことが明らかになりました。 Phind - AI Search Engine and Pair Programmer https://www.phind.com/blog/phind-model-beats-gpt4-fast Our GPT-4-beating coding model is now the default on https://t.co/epkoFW8Ozz. It's also 5x faster than GPT-4. Learn more in our blog post: https://t.co/PrOFETEbvd— Phind (@phindsearch) PhindはもともとHello Cognition(beta.sayhello.so)として
NTTは、独自の大規模言語モデル「tsuzumi」を開発したと発表した。2024年3月に商用サービスとして提供を始める。 NTTは11月1日、独自の大規模言語モデル(LLM)「tsuzumi」を開発したと発表した。tsuzumiの特徴は「軽量でありながら世界トップレベルの日本語処理性能を持つこと」と同社は説明。2024年3月に商用サービスとして提供を始める。 tsuzumiでは、パラメータ数6億(超軽量版)と70億(軽量版)の2種類を用意。同社は「軽量版は1GPUで、超軽量版はCPUで高速に推論動作可能であり、チューニングや推論に必要なコストを抑えられる」と解説する。 NTTが試算したところ、GPUクラウドの利用料金への換算値では、学習コストは超軽量版で約300分の1、軽量版では25分の1に。推論コストは、超軽量版で約70分の1、軽量版で20分の1に軽減できたという。
GPU禁輸措置で追い詰められる中国と大規模言語モデルの発展 2023.11.01 Updated by Ryo Shimizu on November 1, 2023, 09:15 am JST アメリカがGPUを重要物資として中国に対して禁輸措置を行うとの意向を受けて、中国国内ではA800 GPUの価格が一枚あたり50万人民元(約1000万円)に達するなどのパニックが起きたようだ。これは通常の価格の5倍にあたる。 A800は、そもそもアメリカ政府の意向を受けて中国市場向けにデチューンした(性能をわざと落とした)モデルで、世界的ベストセラーのA100の70%程度の性能とされている。 しかし中国国内ではAI開発が非常に活発であり、合法的に使えるA800を大量に確保したい中国側の事情と、軍事転用も可能な重要戦略物資を中国に売りたくないアメリカ政府の意向が真正面から対立する形となっている。 筆者
これまでも、SNSのささいな投稿(テキストや画像)を元に個人やその場所を特定する人々が存在していた。特に、炎上したケースでは多くの人が集まり、情報を元に特定作業を行うことがある。 この集団の情報収集・分析能力は驚異的だが、新しいLLMを利用することで、さらに効率的かつ簡単に情報の特定ができるのではないかとの指摘がある。特に最近のLLMの高度な推論能力を活用すれば、SNSのわずかな情報からも個人情報を容易に割り出せるようになるかもしれない。 この研究は、ユーザーのオンライン投稿をLLMに入力し、ユーザーが公開する意図を持たない私的な情報をどれだけ推測できるのかを検証している。検証には、最先端の9つの言語モデル(GPT-4、Claude 2、Llama 2など)を使用。実際のRedditのユーザープロフィールを基に、LLMが人々の個人情報(例:居住地、収入、性別)をどの程度効果的に推測できるか
米ゼネラル・モーターズ(GM)傘下で自動運転タクシーを展開するGMクルーズホールディングス(クルーズ)に対し、米国の交通当局がその安全性に疑問符を付け、サービス停止命令を出した。同社はホンダと提携し、2026年に日本でのサービス提供を目指すと発表したばかり。クルーズは信頼を取り戻せるか。記者はサンフランシスコで道を歩く市民30人に、自動運転の安全性に関する意識を聞き取った。 交通当局の発表を織り込んだ上での発言だったのかもしれない。「我々は常に安全性を最優先している。自動運転は人間の運転よりも安全で、自動運転の技術を高めていく」。10月24日、GMのメアリー・バーラ最高経営責任者(CEO)は米株式市場が開く直前に行った23年7~9月期決算会見で、クルーズの安全性を訴える発言を繰り返した。 決算会見の終了からわずか数時間だった。米カリフォルニア州の車両管理局(DMV)はクルーズに対し、同州内
Windows 12搭載のAIアシスタント、CoPilotでは高度なAI機能の動作にはAIハードウェアが必須。性能は40 TOPs以上が目安で既存のノートPCはほぼ全滅 Windows 11の最新バージョンにはプレビュー版としてCoPilotというAIアシスタント機能が導入されています。しかし、現時点では動作がもたついたり、できることに制限があるなど、まだ十分に活用できる状況にはありません。それでもMicrosoftはこのCoPilotの機能を拡張し、動作速度を向上させるべく、推奨されるハードウェア要件をOEM各社に通達したようです。 AMD Zen 5 Strix DELAY Leak: Hawk Point, Kraken, Escher get Faster AI! – YouTube Moore’s Law is DeadがOEMから入手した情報によると、MicrosoftはAPU
イギリスの日刊紙であるThe Guardianが、Microsoftのニュースポータル「Microsoft Start」に掲載された記事の横に、AIが不適切で非道徳的な内容の世論調査を生成して表示させたと非難しました。記事作成時点では世論調査は削除されていますが、The GuardianはMicrosoftに対して公的責任を求めています。 Microsoft accused of damaging Guardian’s reputation with AI-generated poll | The Guardian | The Guardian https://www.theguardian.com/media/2023/oct/31/microsoft-accused-of-damaging-guardians-reputation-with-ai-generated-poll Lett
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く