Pythonで統計・データ分析!~基本統計量の活用と機械学習の基本:数学×Pythonプログラミング入門(1/5 ページ) データ分析において最もよく使われる表形式のデータを取り扱う方法を見ていく。まず、pandasデータフレームの基本的な取り扱い方法を確認し、次に、各種の基本統計量を求める。また、基本統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介する。
![Pythonで統計・データ分析!~基本統計量の活用と機械学習の基本](https://cdn-ak-scissors.b.st-hatena.com/image/square/7f7e438255af9d421beb699760fa37bea0a774be/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fait%2Farticles%2F2301%2F23%2Fcover_news009.png)
こんにちは。dcm_chidaです。 ドコモ開発者ブログ初投稿です。よろしくお願いします。 はじめに みなさん「NeurIPS」と言う国際会議名を聞いたことがあるでしょうか? 機械学習・データ分析の分野では毎年たくさんの国際会議が開催されていますが、NeurIPSはその中でも歴史あるトップカンファレンスの一つです。世界中の研究機関や企業から最先端の論文が投稿されます。 NTTドコモR&DではKDDやNeurIPSといった国際会議の論文読み会を不定期に開催しております。「今年もNeurIPSの論文読み会やるかー」と思って、会議そのもの概要や最新の研究動向などを調べてみたので、ブログ記事にまとめようと思います。 論文そのものの解説記事ではないのでご注意ください。 1分で分かるNeurIPS2022の概要まとめ 会議名称 The Conference and Workshop on Neural
MLOpsを体系的にまとめた論文「Machine Learning Operations (MLOps): Overview, Definition, and Architecture」を読んだので、要点をまとめました。 元論文:https://arxiv.org/abs/2205.02302 TL;DR 「MLOpsって何?」に答えた論文 MLOpsに関わる文献調査・ツール調査・専門家インタビューを行った MLOpsに必要な原理・要素・ロール・アーキテクチャをまとめた MLOpsの言葉の意味を定義した MLOpsの課題をまとめた 本文要点 0 Abstract MLOpsは今だに漠然とした言葉であり、研究者と専門家間でMLOpsの定義が曖昧となっている。 本論文では文献調査・ツール調査・専門家へのインタビューを行い、MLOpsを調査した。 調査から以下の結果を体系的にまとめた MLOps
はじめに 研究しなきゃなのはわかってるが何から始めればいいんだ、とりあえずでモデル組んだけどまともに動かん。なにがダメなのか分からねぇ、どこをどういじれば何がどう変わるんだ、、、と日々悲鳴をあげている中、Google Researchの研究者による、Deep Learning Tuning Playbook( https://github.com/google-research/tuning_playbook )が公開されました。 どうやら深層学習ネットワークをチューニングする際の考え方やら注意点を、Googleの神たちがまとめてくださっているようです。これは読んでおこうと思い、自分の読解とメモついでに和訳してみることにしました。 【注意】 翻訳アプリそのままではなく、一応多少自分なりに解釈して理解したいということで、一部抜けてたり言い回しが違ったり、そのまんま和訳になっているとは限りませ
現在,ディープニューラルネットワークを実際にうまく機能させるためには,驚くほど多くの労力と推測が必要です.さらに悪いことに,深層学習で良い結果を得るために実際に使われるレシピが文書化されることは稀です.論文では,よりきれいなストーリーを提示するために,最終的な結果に至ったプロセスは無視され,商業的な問題に取り組む機械学習エンジニアには,一歩下がってそのプロセスを一般化する時間はほとんどありません.教科書は,たとえ著者が有用な助言を提供するために必要な応用経験を有していたとしても,実用的な指針を避け,基本原理を優先する傾向がある.このドキュメントを作成する準備をしていたとき,私たちは,深層学習で良い結果を得る方法を実際に説明する包括的な試みを見つけることができませんでした.その代わりに,ブログ記事やソーシャルメディア上のアドバイスの断片,研究論文のappendixから覗くトリック,ある特定の
gpt-indexは長いコンテキストに対してQAを行えるフレームワークです。 デフォルトではOpenAIのAPIを利用するので無邪気に長いコンテキストに質問を投げているとすぐ数$の請求になって焦りますね。 今回はローカルでオープンな日本語モデルを使って動かす方法をご紹介します。 あくまで試みであり、正答率もいまひとつで実用性があるものではありませんが、学習データセットを作るコード、モデル学習コード、gpt-indexを実行するコードはこのリポジトリに置いています。 https://github.com/oshizo/gpt_index_japanese_trial 1/18のツイートで投稿したツリーをもう少し詳しく説明する内容です。 gpt-indexをOpenAIなし&日本語で動かしてみています。かなりカスタマイズ性がある。 embed_modelとllm_predictorにローカルの
こんにちは!AIチームの戸田です! 本記事では私がKaggleのコンペティションに参加して得た、Transformerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます。 以前も何件か同じテーマで記事を書かせていただきました。 Kaggleで学んだBERTをfine-tuningする際のTips①〜学習効率化編 Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜 Kaggleで学んだBERTをfine-tuningする際のTips③〜過学習抑制編〜 Kaggleで学んだBERTをfine-tuningする際のTips④〜Adversarial Training編〜 今回はラベルなしデータの活用について書かせていただきます。 世の中の様々な問題を、蓄積された大量のデータを使った教師あり学習で解こうとする試みは多くなされてい
TOPTECH BLOG【AI Shift/Kaggle Advent Calendar 2022】Kaggleで学んだBERTをfine-tuningする際のTips④〜Adversarial Training編〜 【AI Shift/Kaggle Advent Calendar 2022】Kaggleで学んだBERTをfine-tuningする際のTips④〜Adversarial Training編〜 こんにちは!AIチームの戸田です! 本記事はAI Shift Advent Calendar 2022、及びKaggle Advent Calendar 2022の9日目の記事です。 本記事では私がKaggleのコンペティションに参加して得た、Transformerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます。 以前も何件か同じテーマで記事を書
こんにちは AIチームの戸田です 本記事では前回、前前回に引き続き、私がKaggleのコンペティションに参加して得た、Transformerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます 前前回は学習の効率化、前回は精度改善について書かせていただきましたが、今回は精度改善にも関わりますが、過学習の抑制について書かせていただきます データ 引き続きKaggleのコンペティション、CommonLit-Readabilityのtrainデータを使います validationの分け方などは 前前回の記事を参照していただければと思います 過学習対策 Transformerモデル以外にも言えることですが、パラメータの多いモデルは表現力が豊かな分、過学習にも気を配る必要があります 有名なものでDropoutやBatch Normalization、 Weight
こんにちは AIチームの戸田です 近年、自然言語処理タスクにおいて、BERTを始めとするTransformerをベースとした事前学習モデルを感情分類や質問応答などの下流のタスクでfine-tuningする手法が一般的になっています huggingfaceのTransformersなど、事前学習モデルを簡単に使うことのできるライブラリもありますが、Kaggleなどのコンペティションで上位に入るには素のモデルのままでは難しく、ヘッダや損失関数などの工夫などが必要です 本記事では私がKaggleのコンペティションに参加して得た、事前学習モデルのfine-tuningのTipsを共有させていただきます 書きたい内容が多くなってしまったので、今回は学習の効率化について、次回精度改善について、と2回に分けて書かせていただきます 事前準備 学習データとして、先日終了したKaggleのコンペティション、C
こんにちは、TURING株式会社(チューリング)でインターンをしている、東大大学院修士一年の舘野です。 TURINGは完全自動運転EVを開発しているベンチャー企業です。 完全自動運転を実現するには、車の周りの環境をセンシングし認識するシステムが不可欠です。センシングのためのセンサーは様々考えられますが、TURINGでは主にカメラを用いています。 自動運転AIにはカメラデータから信号機・標識・周囲の車、などの情報を読み取る必要がありますが、そのためにはそれぞれの目的に対応した学習が必要です。 一番単純な方法は、学習させる各動画フレームに対して人間が信号機・標識・周囲の車などの正解情報を付与し、AIモデルが動画を見て正解情報を予測できるようにすることです。下図は、画像から車を検出するモデルの例です。モデルの中身は画像の特徴量を抽出する部分と、分類を行う部分を分けて表現していますが、学習時は元デ
こんにちは、優勝しました。 背景 Juliaを使おうとしたら様々な環境構築時のトラブルに見舞われました。終わりです。 使えるけどストレスなところ グラフの描画が遅い matplotlibと比較してしまう PyPlotが使えない -> ローカルPCのpyenvのせい Plotsを使うことにした グラフを描画しても画像に焼いてブラウザから見るしかなかった 困ったこと pkgのインストールにたまに失敗する すでに削除したはずのpkgが原因で実行時にエラーがこびりつく これらは全部ローカル環境でJuliaを使おうとしているために起こる問題です。原因解決するのも時間かかるし、将来的なことを考えてDockerを使うことを決意しました。 Dockerの構成 全部Jupyter Labに投げる方針です。Jupyter公式のイメージを持ってくるだけで、Python、Julia、Rが使えるらしいです。 Doc
すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール 法人向け サポート ソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画とテレビ番組 法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W
2022.03.30 | Writer:NTT東日本 アベ AI音声認識とは?仕組み・活用方法を分かりやすく解説 NTT東日本のクラウドAIに関するソリューション資料です。ぜひダウンロードしてご活用ください。 AIを活用した音声認識技術は、昨今急速に身近な存在になりつつあります。例えば、スマートフォンに搭載されている「Siri」や「Google音声アシスタント」に話しかけるだけで音声が認識され、即時に回答を得たり画面の操作をしたりすることが可能です。 しかし、こうした音声認識がどのような仕組みで行われているか深く理解している方は少ないのではないでしょうか。また、「音声認識AIをビジネスに導入して効率化を図りたいけど、具体的に何ができるか分からない」という方もいるのではないでしょうか。 そこで今回は、音声認識とは何か・AIとは何かという基礎的な内容から、音声認識AIでは何ができるのか、メリッ
An AI art generator processed copyrighted work from Getty Images, and now has to face the consequences. Readers like you help support MUO. When you make a purchase using links on our site, we may earn an affiliate commission. Read More. You may have seen all your Facebook or Instagram friends posting more artwork than they’ve been known to have the skills for. AI art is easy for people to obtain,
12年間「書くこと」を教えてきたが… 洗練された文章を生成するAIプログラム、オープンAIが開発したChatGPTの登場が、作文課題そのものの終わりを告げようとしているのかもしれない。 それどころか、文章を書くことが教育の要とされることも、知性の物差しとなることも、教授可能な技術であることも過去のものとなるのか。 ChatGPTとは、歴史にたとえるなら、印刷機や蒸気ドリル、電球が子供を産み、その子供が人類の知識と理解を集めたすべてのコーパスへのアクセス権を持っているようなものだ。私を含む多くの教師、教授、家庭教師、学校管理者の人生が今大きく変わろうとしている。 私は、サンフランシスコ・ベイエリアの小さな私立高校で人文系(文学、哲学、宗教、歴史)の授業を教えている。担当するクラスは、たいてい15名ほどの16〜18歳の生徒たちだ。 今学期は、幸運にもジェームズ・ボールドウィンやグロリア・アンサ
バカガキがホームレス女性をなぶりものにして動画にしているとの記事があった。 差し入れを装って異物を食べさせて喜ぶ輩がいるのでホームレスは貰った食べ物を捨てるのだという話も。直接的に寝込みを襲う事例も昔からある。 なんでそんな酷いことをするのだと思う? って、別にバカのやることに大した理由はない。ド詰めにして「真意」を吐かせたところで「ちゃんと働いてなくてけしからんから」とか、その程度のものしか出てこないだろう。 むしろそういうことをしない者はなぜしないのか。 同情心、共感能力があるから。それはそう。しかし「しない人」がみな生来優しい心の持ち主なわけではない。 ひとつの理由は合理的判断だ。露見して罪に問われたら割に合わないから。 もうひとつの理由は抽象思考だ。どういう立場の人間の尊厳も尊重すべきというフィクションに現行社会制度が立脚しているのを理解しているから。 教育によって遍くすべてのバカ
Open AIが開発した高性能チャットAI「ChatGPT」は、非常に高精度な会話が可能なことから大きな注目を集めています。そんなChatGPTのような「質問すると自然な文章で応じてくれるAI」をオープンソースで実現することを目指した「ChatRWKV」の開発が、ソフトウェア開発者のBlinkDL氏によって進められています。 GitHub - BlinkDL/ChatRWKV: ChatRWKV is like ChatGPT but powered by the RWKV (100% RNN) language model, and open source. https://github.com/BlinkDL/ChatRWKV ChatRWKVは、BlinkDL氏が開発した言語モデル「RWKV Language Model」をベースにしたチャットAIで、ユーザーが入力した文章に自然な言
OpenAIのChatGPTは高度な自然言語処理モデルを利用した対話型AIで、文章を入力するとまるで人間が書いたような自然な文章を返してくれます。これまでの検索エンジンでは検索クエリに複数の単語を入力する必要がありましたが、このChatGPTを応用すれば、調べたいことを直接文章で入力することでより適切な検索結果を示す次世代の検索エンジンが可能になると期待されています。そんなChatGPTの回答を実際にGoogleやBingなどの検索結果に表示させる拡張機能「ChatGPT for Search Engines」が、Chrome・Firefox・Edge向けにリリースされています。 ChatGPT for Search Engines https://chatonai.org/ ChatGPT for Search Enginesを利用するには、あらかじめChatGPTにアカウントを作成して
入力した文章にアルゴリズムが自動で返答する「チャットボット」の歴史は長く、メッセージアプリやウェブサイト上ですでに運用されています。そんなチャットボットの対話能力を、OpenAIのChatGPTのベースにもなっている言語モデル・GPT-3.5のAPIを使って構築できる機能が、会話AI構築プラットフォーム「mebo」に搭載されたと、meboを開発・運用しているmaKunugi氏が自身のブログで発表しています。 ChatGPT相当モデルを使ったチャットボットを簡単に作れるツールを開発した話 https://zenn.dev/makunugi/articles/001ac46ff35718 maKunugi氏によれば、meboはノーコード、つまりプログラミングをほぼ行わずに高性能なチャットボットを構築するためのサービスだとのこと。チャットボットを構築するには高度なプログラミング知識が求められます
ChatGPTを利用して仕事を早く済ませる方法は、誰でも何かしらある可能性が高い。オープンAI(OpenAI)が開発したこのAIチャットボットの活用は、マーケティングから教育まで、多種多様な業界で進んでいる。では実際にどの様に利用されているのか、ユーザーたちの具体事例を集めてみた。 ChatGPTを利用して仕事を早く済ませる方法は、誰でも何かしらある可能性が高い。オープンAI(OpenAI)が開発したこのAIチャットボットの活用は、マーケティングから教育まで、多種多様な業界で進んでいる。 ChatGPTはメール、台本、ソーシャルメディア用のコピーの作成など、さまざまな作業に使用できる。利用するためのアカウント作成も簡単で、メールアドレス、電話番号、氏名だけあればいい。 「うまく機能することに毎回驚かされる」 活用方法は次々と見つかっており、LinkedInやTwitterがその披露の場とな
オープンAIが開発したチャットボット「ChatGPT(チャットGPT)」をオフィスの仕事にいち早く活用している人は、少なくない。瞬時にコンサルタントはメモを用意し、マーケティング担当者は新たな宣伝コピーを量産し、ソフトウエアエンジニアはバグを修正していることが、最新の調査で分かった。 約4500人の専門職を対象にソーシャルプラットフォームのフィッシュボウルが今月実施した調査の結果によれば、全体の約30%がチャットGPTや他の人工知能(AI)プログラムを仕事で使ったことがある。アマゾン・ドット・コムやバンク・オブ・アメリカ(BofA)、JPモルガン、グーグル、ツイッター、メタ・プラットフォームズの社員・行員らも回答者に含まれる。 マーケティング関係の専門家は特に試験利用に熱心で、37%が仕事でAIを使った経験がある。技術者が35%、コンサルタントが30%で続く。メールの下書きやアイデアの発案
「Midjourneyはすごく強力になっている」――そんなコメントと共に投稿された、AI生成による画像がパッと見はかなりリアルに見えると反響を呼び、約1万8000件のいいねを集めています。 画像は技術者のMiles(@mileszim)さんが、画像生成AI「Midjourney」で作成したもの。ドレスを着た複数人の女性がカメラを手にした姿が描かれています。 パッと見は写真みたい インスタントカメラのような風合いの画像は、「昔パーティーで撮影した写真が出てきた」と言われたら信じてしまいそうなリアルさですが、どれも本物の写真ではなく、描かれている人間も存在しません。 ただ、一見すると本物の写真かと思える画像ですが、よく見ると不自然な点が見つかります。タトゥーがぼんやりしたシミのようになっていたり、歯が多すぎたり。また「AIは手を描くのが苦手」と言われるように、カメラを持つ手の指が多すぎることも
Content warning: this story contains descriptions of sexual abuse ChatGPT was hailed as one of 2022’s most impressive technological innovations upon its release last November. The powerful artificial intelligence (AI) chatbot can generate text on almost any topic or theme, from a Shakespearean sonnet reimagined in the style of Megan Thee Stallion, to complex mathematical theorems described in lang
トラウマを残した「労働搾取」 米「タイム」誌がテクノロジー業界の闇を暴き、大きな話題になっている。 問題となっているのは、高い文章生成能力が注目される、AI搭載チャットボットの「ChatGPT」。その生みの親であるAI企業「オープンAI」がパートナー企業を通じ、時給2ドル以下でケニア人労働者を雇っていたことがわかったのだ。 オープンAIはマイクロソフトから100億ドルの出資を受ける可能性が報じられるほど、いまもっとも注目されている企業だ。いったい何が起きているのか。 オープンAIが外注先として依頼していたのは、米サンフランシスコに拠点を置くサマ社。同社はケニアやウガンダ、インドの人材を雇い、グーグルやメタ、マイクロソフトなどの顧客向けに、有害なネット情報を選別する「データのラベリング作業」を実施していたという。 ケニア人の労働者たちは、データのラベリング作業の過程で、処刑や性的虐待など極め
日本を画像生成AIで再現する 「自分の見た景色」を学習したAIは強力な思い出再生装置に:清水亮の「世界を変えるAI」(1/3 ページ) AIで漫画を書こうとするとひとつ不便なことがある。StableDiffusionの元になっている学習データは「全世界」の画像を使っているので、日本人がイメージするような「郵便局」とはまったく異なるイメージになってしまう。そこで街のあちこちの景色を写真に撮った。これをAIに学習させて、独自の日本的な画像生成AIを作ろうというのだ。 2022年の夏に登場した画像生成AI「StableDiffusion」はたくさんのバリエーションを生んだ。しかしその多くは、ネット上にある画像を学習させたものばかりだ。 特に開発が活発なのはイラストを学習させたものだが、最近になって、著作権に配慮した学習モデルの「Mitua-Diffusion」など、変わったものも登場してきた。ま
このDiff-SVCを簡単に実行できるGoogle ColabのNotebookが1月23日に公開停止となってしまったのです。ですので、前回紹介したやり方での実行はできなくなります。筆者はGoogle Colabからローカルにコピーしているのでこれまで通りに使えますが、新規に手軽にやろうという人への道は一時的にではありますが、閉ざされたことになります。 ▲筆者はGoogle ColabのNotebookをローカルに保存しているので現在も利用可能 なぜこういうことになったかというと、それは悪質な利用者のせいです。 自分の音源や、権利を所有する、許可をもらっている人物の声であれば問題ないのですが、前回言及したように、よく知られている歌手、セレブ、VOCALOIDなど既存のバーチャルシンガーの音源などを勝手にDiff-SVCでAI音源にし、歌わせたものを例えば「AIアリアナ・グランデが~を歌った
アメリカのIT大手、グーグルは20日、世界的な景気減速を背景にコストの見直しが避けられなくなったとして、社員およそ1万2000人を削減すると発表しました。 これは、グーグルのスンダー・ピチャイCEOが社員に宛てたメッセージを会社の公式ブログに掲載して明らかにしたものです。 この中で、人員削減の理由について、世界的な景気減速を背景に経済環境が厳しくなりコストの見直しが避けられなくなったことを挙げ、世界の全社員の6%程度に当たる、およそ1万2000人の削減を決めたとしています。 影響を受けるアメリカの社員には、すでに電子メールで通知したということです。 ピチャイCEOは「今は事業の焦点を絞り、コスト構造を再構築して、人材と資本を優先すべき分野に向けるべき時だ」などとコメントしています。 アメリカでは、今月に入り、マイクロソフトが1万人の削減、アマゾンが人員削減を1万8000人を超える規模に拡大
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く