第14回情報科学技術フォーラム (FIT2015) のイベント企画「ビッグデータ解析のための機械学習技術」におけるチュートリアル講演資料です。ニューラルネットの基礎(計算グラフとしての定式化、勾配法、誤差逆伝播法)をさらったあと、最近画像や自然言語などで注目されている応用・手法について広く浅く紹介しています。Read less
![Deep Learningの基礎と応用](https://cdn-ak-scissors.b.st-hatena.com/image/square/ab8b91f3ef306ae1706014aaa86f0b0b438cdfe7/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2F201509-fit-deeplearning-150917023521-lva1-app6892-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
2015/04/14 初期バージョン 2015/04/16 ver1.4(参考資料追加、k平均法の解説追加など) 2015/04/20 ver1.5(最大対数尤度関数の評価、混合分布によるクラスタリングを追加) 2015/04/21 ver1.6(EM法のアルゴリズム説明を追加) 2015/04/24 ver1.7(その他の性能指標を追加) 2015/05/19 ver1.8(ギリシャ文字ベクトルフォントの修正、その他リファクタリング) 2015/05/25 ver1.9(EM法の初期データ画像を追加) 2015/06/07 ver2.1(セミナー用に修正) 2015/06/24 ver2.2(EM法の説明を追加) 2016/09/01 ver2.3(誤字修正) 2016/12/27 ver1.0 タイトルを変更 2016/07/07 ver1.4 UpdateRead less
こんにちは@hagino3000です。Zucks Ad Networkという広告配信サービスの開発をしています。最近はアドネットワークの広告配信最適化に利用できるアルゴリズムの調査もしています。 本稿では調査で読んだ論文の一つ、オンライン広告配信を想定した多腕バンディット問題である、Mortal Multi-Armed Banditsを紹介します。多腕バンディット問題になじみがある読者を想定しています。 papers.nips.cc オンライン広告と多腕バンディット問題 ここでは簡単のために、クリック課金型のディスプレイ広告を前提に説明します。オンライン広告配信システムにおける問題として「最初はどの広告がどれだけクリックされるかわからないが、なるべくクリックされる広告を多く配信したい。」という物があります。これは多腕バンディット問題として知られており、探索はCTRが推定できるまで配信する事
みなさんこんにちは。アナリストの荒木です。近い将来さまざまな仕事がロボットに置き換わっていくと多くの人が予想しており、そのコアテクノロジーの一つが機械学習です。GoogleがDeepMindを買収したことで機械学習という言葉も身近になりつつありますが、すでにamazonレコメンドや画像認識などで活躍しています。 そこで今回は、ウェブ担当者が「機械学習ってどんなことをやっているのだろう?」という場合に勉強できるスライドをまとめました。 ↓【無料DL】「SEO内部対策チェックシート」を無料ダウンロードする 機械学習によるデータ分析まわりのお話機械学習でどんなことをしているのかをまとめたスライドです。データのこと・機械学習のこと・評価のこと・分析のことの4部構成で、データマイニングの一連の流れを学ぶことができます。 Deep LearningGoogleの猫認識例で有名になった手法を紹介したスラ
www.youtube.com 去年のはじめに高速文字列本を買ったのですが、アルゴリズムを眺めるだけで実装はしていませんでした。特にウェーブレット行列は実装が大変そうにしか見えなくて敬遠していたのですが、ICPCの夏合宿で @hirokazu1020 さんに「あれはアイデアさえ理解していれば実装するのは簡単だよ」という旨のことを言われたので、学校のプログラミングの演習の自由課題としてウェーブレット行列とFM-indexを実装してみました。 制作物はブラウザ上で動く青空文庫のインクリメンタル検索です。C++で書いたFM-indexをboost-pythonを使ってPythonから呼び出せるようにし、Flaskを使ってブラウザからのリクエストに応答するような仕組みにしてみました。アルゴリズムの本質的なところは全て自分で書こう!というモチベーションで始めたのですが、SA-ISが難しくてsais.
こんにちは。pairsの分析・アルゴリズム担当の鉄本です。 恵比寿のランチ開拓がマイブームです。 最近のオススメは、タワーダイニングです。 常にダイエット中の私からすると、バジルチキンのサラダボウルが美味しくて、ヘルシーで、ボリューミーで… とにかくオススメなんです! 考え事や、開発以外の仕事をついでにしたい時に一人で行くことが多いです。決して寂しい人ではないです。 あえてです。 ……ちょっと寂しくなってきたので、早速本題に入ります。 「PDCA」で回すpairsのアルゴリズム改善 今回は、pairsのアルゴリズム改善についてお話ししたいと思います。 私の所属する分析・アルゴリズムチームでは、pairsの数値データを扱っています。 具体的には数値の計測、分析 → 考察 → 提案 → 開発 → 効果測定 → 改善 … といったサイクルで開発を進めています。いわゆる「PDCAサイクル」というも
2014年8月26日の日本神経回路学会主催セミナー「Deep Learningが拓く世界」における発表スライドです。Deep Learningの主なフレームワークで共通する設計部分と、実験の仕方について説明しています。Read less
機械学習の問題 については以前に紹介したので、次はどんなデータを収集し、どんな機械学習アルゴリズムを使うことができるのかを見ていきましょう。本投稿では、現在よく使用されている代表的なアルゴリズムを紹介します。代表的なアルゴリズムを知ることで、どんな技法が使えるかという全体的なイメージもきっとつかめてくるはずですよ。 アルゴリズムには多くの種類があります。難しいのは、技法にも分類があり拡張性があるため、規範的なアルゴリズムを構成するものが何なのか判別するのが難しいということですね。ここでは、実際の現場でも目にする機会の多いアルゴリズムを例にとって、それらを検討して分類する2つの方法をご紹介したいと思います。 まず1つ目は、学習のスタイルによってアルゴリズムを分ける方法。そして2つ目は、形態や機能の類似性によって(例えば似た動物をまとめるように)分ける方法です。どちらのアプローチも非常に実用的
対象とする人 ディープラーニングすごい! ←聞き飽きた チュートリアルあるよ! ←ふわっとしすぎて具体的なところが分からん こういう論文あるよ! ←読めるわけないだろ そういう人向け。(たぶん学部四年程度向け) ニューラルネット初学者が、書ききるまで怪しいところ満載でも突っ走ります。 ニューラルネット(この記事) →(AutoEncoder) →(DenoisingAutoEncoder) →ホップフィールドネットワーク →ボルツマンマシン →Restrictedボルツマンマシン →(Gaussian Binary - Restricted Boltzmann Machines) →(DeepBeliefNetwork) →(DeepNeuralNetworks) →畳み込みニューラルネット(後日) までやる。 太線以外は読み飛ばしてOK 本文中では怖い式は使わない。(Appendixに書
『幅優先探索』をRuby/Pythonで解いてみました。AIZU Online Judgeで対応している問題は『Seven Puzzle』です。 🏀 概要深さ優先探査の説明は『通勤・通学中に理解する深さ優先探索と幅優先探索』、 『アルゴリズム図鑑:iOS & Androidアプリ』が分かりやすかったです。 要点は次のとおり。 根ノードで始まり隣接した全てのノードを探索。階層(根ノードからの距離が近い順)にルートを調べる 🐯 サンプル問題(AOJ)Seven Puzzle Aizu Online Judge。1-7までの数字と、1つ空白のあるパズルをとく問題。 😀 Rubyコード 01234567がそろった状態(ゴール)からスタートして、0を移動させる 幅優先探索で過去に到達していない状態になったら、手数(移動数)を記録 すでに到達済の状態であれば、スキップ(幅優先探索なら手数が同等か
※この内容は個人的な考察なので、間違っている箇所もあると思います。そういう部分を見つけた際はぜひ教えて下さい。 RDBMSの検索を早くするためにIndexって使いますよね。例えばこんなテーブル CREATE TABLE user ( id INT UNSIGNED NOT NULL, name VARCHAR(255) NOT NULL, UNIQUE INDEX (id) ); idカラムにIndexを張っています。これはidでの検索を高速にするためです。ここでidカラムにIndexが貼っていない場合と比べると検索時間が大幅に変わってきてしまいます(特にレコードが多くなった時) ではなぜIndexを貼ると検索が早くなるんでしょう?? Indexとはその名の通り索引を意味します。特定のカラムの索引を作成しておくことで検索を高速化します。 (本の最後によみがな順で単語が並べられたりしています
最小カットを使って「燃やす埋める問題」を解く方法について、問題とソースコードつきで、まとめました。ニコニコ生放送「TopCoderでプログラムしてみた」2000回記念放送の資料です。
言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこで本チュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less
By Kai Schreiber IT技術の進化のスピードには目を見張るものがありますが、それを支えているのはアルゴリズムと呼ばれる処理方法(技術的アイデア)です。さまざまなアルゴリズムの中でも、コンピュータの進化に革命的な影響をもたらしたとされる偉大なアルゴリズムは以下の通りです。 Great Algorithms that Revolutionized Computing http://en.docsity.com/news/interesting-facts/great-algorithms-revolutionized-computing/ ◆ハフマン符号(圧縮アルゴリズム) Huffman coding(ハフマン符号)は、1951年にデービッド・ハフマン氏によって開発されたアルゴリズム。頻出頻度の大小によって対戦するトーナメントツリーを考えて、ブロックごとに0と1の符号をもたせる
概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ
概要 筑波大学計算科学研究センターは、全国共同利用施設として、一般公募による「学際共同利用プログラム」※1を実施しています。平成25年度に、茨城県立並木中等教育学校4年次(高校1年)の杉﨑行優(すぎざき・ゆきまさ)君の申請が採択されました。杉﨑君は筑波大学計算科学研究センターの朴泰祐教授と共同研究を進めた結果、スーパーコンピュータ「T2K-Tsukuba」※2を使った並列計算により、5×5の魔方陣の全ての解を求めることに成功しました。 魔方陣とは、正方形のマス目に、縦・横・斜めの合計が同じになるよう数字を置いたものです。5×5の魔方陣の全解は2億7530万5224通りあることがすでにわかっています。杉﨑君は「枝刈り法」を改良した求解アルゴリズムを考案し、スパコンに並列計算させるためのプログラムを開発しました。朴教授は、並列データの収集や並列化に関する詳細なアドバイスを行いました。並列計算
古典的統計手法に超高速アルゴリズムを組み合わせ、ビッグデータから新しい事象を見出す統計手法を開発 2013年8月22日 東京工業大学大学院 情報理工学研究科 計算工学専攻 瀬々 潤 准教授 生命科学の研究では、P値(検出された事象が誤りである確率を示す検定値)は発見の信頼性を担保する重要な概念となっており、P値が0.05あるいは0.01といった閾値以下(有意水準とした5%以下あるいは1%以下)であることが必須とされ、論文にも明記することが求められている。 遺伝子の変異を例に取ると、次世代シーケンサーの登場で読み取れる情報が膨大になり、数多くの変異が発見される一方で、変異が少数の場合と同一の基準で調べると、偶発的に生まれる誤発見を含む確率も高くなる。誤発見を避けるためには、データが増えるに従って、P値の計算方法をより精度の高いものにする必要がある。ところが、これまで膨大なデータからP値を精度
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く