データ駆動社会といわれていますが、AIが出てきてさらにデータの重要性が増しています。 データの連携や利活用をしやすいようにデータモデルなどを政府相互運用性フレームワークで整備してきましたが、データモデルは所詮はルールにすぎません。 これを実装するのにスキーマやツールの提供をすることが有効です。 スキーマの提供これはやらなければと考えていますし、デベロッパーの方々からも要望があるのですが、まだ提供ができていません。schema.orgのようにコミュニティ化して検討することも考えたほうがもいいかもしれませんが検討中です。 ツールの提供こちらが先行して取り組んでいます。ルールやガイドラインを普及させるにはツールとセットで提供することが有効で、米国や欧州ではルールやガイド整備とともに常にツール整備が並行して行われています。 一方、日本では多くのルールやガイドなどが出ているもののツールの整備までいか
これは、機械学習に関する基礎知識をまとめたシリーズ記事の目次となる記事です。まとめることで知識を体系化できて自分自身の為にもなるので、こういうアウトプットをすることは大事だと思っています。ただ、普通にブログ記事を書くのも面白くないので、ちょっといつもとは違う方法でやってみようというのが今回のシリーズ記事。 2 ちゃんねるのキャラクターが登場人物として出てきて、彼らが会話して話が進んでいく「やる夫で学ぶシリーズ」という講義調の形式のものがあります。個人的にはやる夫で学ぶシリーズや 数学ガール のような会話形式で話が進んでいく読み物は読みやすいと思っています。さらに、先日みつけた やる夫で学ぶディジタル信号処理 という資料がとてつもなくわかりやすく、これの真似をして書いてみようと思い至りました。記事中のやる夫とやらない夫のアイコンは http://matsucon.net/material/m
「データサイエンティストと名乗るのは厚かましいというか、自分はむしろ外れ値です」そう切り出した小野寺和樹さんは現在、DeNAのAI本部データサイエンス第一グループに所属している。 確かにデータサイエンティストには数学や物理学の修士や博士といった理系のバックグラウンドを有する人が多い中、小野寺さんは経済学部出身で数学の知識も「二次関数の頂点がわかるくらい」だという。 そんな小野寺さんだがKaggle Grandmaster(カグル グランドマスター)という称号を持っている。世界では163人、日本では10人程度しかいない(2019年11月現在)。 【補足説明】Kaggle(カグル)とは、データサイエンティストや機械学習エンジニアが集まる世界最大のコミュニティ。大きな特徴は、誰でも参加可能なコンペティションがあることだ。世界中の企業や研究機関などが提供したビッグデータと課題に対し、モデルの精度を
前回は、線形回帰・ロジスティック回帰および(シンプルな)ニューラルネットワークの出力の式を理解するところまでを考えてみました。今回はその続きを考えていきます。 一番基本的な式は線形回帰の \[ y = wx + b \] という直線の式でしたが、では、この傾き \(w\) と切片 \(b\) はどのように求めればいいでしょうか? これら \(w\)、\(b\) が、いわゆるモデルのパラメータになります。このパラメータを最適化する(=きちんと求める)ことで、線形回帰が引く直線は、「データの関係性を最もよく表す直線」になるわけです。 この式が \(y = \boldsymbol{w}^T\boldsymbol{x} + b\) になっても、あるいはロジスティック回帰の \(y = f\left(\boldsymbol{w}^T \boldsymbol{x} + b\right) \) という式
1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。 このグループ1つ1つを「トピック」と呼びます。 例えば、大量のニュース記事にLDAを適用する例を考えます。 ニュース記事データにLDAを適用した例 LDAでは「各トピック(トピック数は予め指定)における各単語の所属確率」が算出されます。 理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法 との理解で大丈夫です。 よく勘違いされることとして以下の2点を示します。 トピック数(いくつ
少ない学習データでも機械学習の効果を高める、NECが機械学習向け技術を開発:学習効果を高める3つの技術 NECは、学習データが少ない場合の機械学習効果を高める技術を開発した。データ収集の初期段階やデータ収集コストが高い環境のように十分な学習データが得られない状況でも、機械学習技術を活用できるという。 NECは2018年7月10日、学習用のデータ量が十分に得られていない段階からでも機械学習を活用可能とする技術を開発したと発表した。これらの一部は、NEC-産総研 人工知能連携研究室、国立情報学研究所、科学技術振興機構、統計数理研究所、Max Planck Institute for Intelligent Systemsとのオープンイノベーションによって得られた成果である。 最近はディープラーニングをはじめとする機械学習技術の利用が進んでいる。ただこれまでの機械学習技術では、その効果を十分に得
しばらく前にこんな記事が出ていたのをお見かけしました。 明らかにこれは僕が某所(笑)で適当に放言したことがきっかけで巻き起こった議論の一旦なのではないかと思うのですが、個人的にはこちらの@yohei_kikutaさんの仰る通りで大体良いのではないかと考えております。 なのですが、言い出しっぺらしき身としてはもうちょっと何か具体的な話を書いた方が良いのかな?とも思いましたので、常々公言しているように数学が大の苦手な身ながらどの分野のどのレベルの数学が機械学習をやっていく上で必要なのかという点について戯言だらけの駄文を書いてみることにします。 深層学習 (機械学習プロフェッショナルシリーズ) 作者: 岡谷貴之出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本(ソフトカバー)この商品を含むブログ (13件) を見るちなみに、以下に並べる戯言は深層学習青本から得られた知識を
(Image by Pixaby) この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件(の2017年版)について考察したものでした。 で、まだ1年しか経ってないのに何でまた引き合いに出したのかというと、最近のメディア報道やニュースリリースの類などを見ていると「データサイエンティストにディープラーニングをやらせる」とか「高度な統計分析のできるエンジニアが必要」みたいなどう見ても色々混同している感のある内容が目に付くので、改めてちょっと自己流に交通整理してみようかなと思ったのでした。 特に、空前の人工知能ブームで「人工知能」の語が人口に膾炙すると同時に2014年頃にブームが終わったはずの「データサイエンティスト」の語が何故か復権してしまい、そこら中のメディアでかつて空回りした
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ホテルを直前に予約する時に人気のあるHotel Tonightというサービスを提供しているスタートアップがこちらシリコンバレーにあります。そこでデータ分析のチームを率いているAmanda Richardsonが、スタートアップがデータを使うときによく犯す間違いをこちらの"The Four Cringe-Worthy Mistakes Too Many Startups Make with Data"という記事の中で4つにまとめていますが、今日はそちらを紹介したいと思います。これらはもちろんスタートアップに限らず、どのようなサイズの会社で
この記事は、前出の本に入れる予定だったコラムのうちの一つです。 正確にいうと、本に入れる予定だったけど、メイン側で締め切りをぶっちぎっていたら、コラムを追加できるような空気じゃなくなって、書くのをやめたものです。 本の宣伝を兼ねて、没にしたコラムに日の目を見させて、あわよくば第二版で入ればいいなー、という内容です。 データサイエンティストの頭の中「偉い人たちは頭がおかしい」と言っても、それは相対的なものであるため、比較対象であるデータサイエンティストの頭の中を覗いてみましょう。 データサイエンティストは組織におけるデータ活用状況について、レベル分けして考えます。そして、基本的に前のレベルが実現できなくては、次のレベルに進むことはできないと考えています。 以下のレベル分けは私が適当に思い描いているものですが、同業者なら大よそ一緒なんじゃないかと思います。 Lv0: データ収集、ログ設計Lv1
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? #はじめに 本記事では、データサイエンティストを目指して勉強した半年間で学んだこと、気付いたことをまとめます。これからデータサイエンティストを目指して勉強する人の参考になればと思います。 #最初の一手 個人的にではありますが、最初はアプローチの理解から始めると思いますが、数式とプログラミングの両方を勉強する方が良いと思います。**数式→プログラミング or プログラミング→数式の順序はどちらでも良いと思いますが、プログラミング(フレームワーク)のみ**はやめた方が良いと思います。出力結果の解釈で苦労することになるので、理論、数式はしっか
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く