サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
どうなる?Twitter
ch.nicovideo.jp
先日、MITの石井裕先生の講演を聞きに行った。 いつも通り、若い人たちへのエールというか、発破というか そういう、愛情を込めた挑発というのが石井先生の持ち味で、それは大変ありがたい話だし、素晴らしい話でもあると思うのだが、一体全体聞いてる人の何割がこれを実践できるのか。とも思った。 この話を聞いてる側というのは、たとえばnobiさんだったりとか古川SAM師匠だったりするわけで、いまさら古川さんに「山を作れ」と言ったところで「いや、けっこうでかい山つくりましたけど」という話にしかならない。 もっと若い人に向けた話をするんだったら、若い人が集まるところでやるべきじゃん?と思った。 石井先生がMITに抜擢されたのは30代だから、せめて20代の人にこういう話を聞いて欲しいな。 石井先生といえば前陣速攻であり、独自の回転と相手の意表をつく質問をすることで有名だ。 たとえばソムリエに「アルコールは明ら
「今週は暑かったのでうちの会社はサンダル出勤もOKだった」という文章が伝わらないと嘆いてるツイートを見たが僕も何を言ってるのかよくわからない。 というような書き込みが流れてきて、「あーあ」と思った。 でも残念なことに、僕もどちらかというと、そっち側の人間だった。 「今週は暑かったのでうちの会社はサンダル出勤もOKだった」という言葉は、日本語として文法にツッコミどころがあるかもしれない。 「そんな日本語はない」というセリフは、よく言われたし、残念ながら僕も言ったことがある。 なんでそんなふうに考えてしまうのか、自分なりに分析してみると、要は「言語の厳格な運用」が可能であるという仮説があるからだ。実際それは可能だ。 そして、厳格な運用をしなければどうにもならないものもある。プログラミング言語だ。 プログラミング教育によって得られる恩恵が「言語の厳格な運用」だとすれば、その弊害は「あらゆる言語に
畳み込みニューラルネットワークの説明をあちこちで繰り返しているので、自分的には整理していることのまとめを書いておく。コードは全てKeras ■基本 畳み込みニューラルネットワークは、1次元でも3次元でもいけるが、いま一番使われているのは二次元の畳み込みニューラルネットワークである。 畳み込みニューラルネットワークは、複数フィルタを学習するもので、入力されたデータがフィルタの数だけ増大する。データについては「チャンネル」と呼ぶ。たとえばRGBは3チャンネルでバラバラのデータとして入力される。入力された側は入力されたデータのチャンネル数がフィルタの数だけ増える。 しばしばフィルタ数=チャンネル数であり、この2つの用語が混在することでややこしさを増しているがデータはチャンネル、畳込み層はフィルタ数と呼ぶ。 ■畳み込み→バッチ正規化→活性化をワンセットにしたCBNA Convolution-Bat
マストドン会議に参加してきた。 この日のために安達くんに作って貰った新ソフトウェア「Naumanni」のデモが間に合ってよかった。さすが天才プログラマーである。僕が日曜の夜に書いた二枚のポンチ絵で、いきなりデモできるレベルまで持ってきた。 津田さんと鷲北さんとあと誰だっけ。わからんが、とにかく話が平坦だった。まあ仕方ないけど。 こりゃ眠い。しかし津田さん、頑張ってくれ。まだ安達のデモが完成しとらんのじゃ と、オレは必死で壇上から安達にエールを送っていた。 上手いことデモが完成した頃に遠藤さんが振ってくれたので、まああとは好きにできた。 会議の模様はタイムシフトで見ることができる → http://live.nicovideo.jp/watch/lv296526002 マストドン界隈は動きが早い。速過ぎる。 そしてたまたまオレはAI関連でP2P技術を数年前からウォッチしてた。 そして急にマス
深層学習の進化はとどまるところを知らない。 とりあえず馬がシマウマになるCycleGANというのが面白かったので、吾輩もやってみた。 CycleGANは、クロスドメイン生成学習という最近流行りのやつで、似たやつではDiscoGANというのがある。CycleGANはそれの高精度版と思えばいい。 全く異なる2つの領域の画像を学習させると、なんだか知らんがいい感じに一方からもう一方を生成できる。たとえば馬とシマウマ、男とオンナ、写真と絵、などなど。 と、いうことは、もしかしてもしかして、食べ物と人間でもいけるんじゃないの? というわけで善は急げでやってみた。結論としては出来てしまった。出来過ぎと言ってもいい。 学習と推論にはもちろんDEEPstationを使用。オレのは70万円するProfessional Editionだ!Pascal世代のTITAN X搭載 しかしやはりDEEPstati
最近のニューラルネットワークはなんだか半端ない。もう追いかけるのがつかれるほどだ。 たとえば、畳込みを正方形のカーネルではなくて、ある程度散らばったところからサンプリングして効率化したり・・・ クロスドメインで学習させて金髪から黒髪を生成したりその逆をしたり・・・ クルマから顔を生成したり・・・ 靴からカバン、カバンから靴を生成したり・・・ 漢字の形を覚えさせたり・・ https://kaonashi-tyc.github.io/2017/04/06/zi2zi.html Octree(八分木)を使って無駄な空間の計算を省いたり・・・
40歳である。 エイブラハム・リンカーンによれば、40 歳になったら男は自分の顔に責任を持たねばならないらしい。 しかし40といえばお肌の曲がり角。正直、肌のくすみやシミはどうしようもない。かといって女性のようにファンデーションを塗りたくるというわけにもいかない。どうしようかしら。 そんな人に言えないお悩みを抱えていた40歳男性に朗報が。 ひょんなことから知り合ったITジャーナリストあやのさんが、自撮りマスターとして色々な自撮り情報を教えてくれたのだ!(あやのさんのビデオブログはこちら→https://www.youtube.com/user/ayanotdo) 昨日はせきぐちあいみさんのVRアート個展に遊びに行ったのだが、そこに居たのが矢崎飛鳥Engadget編集長とITジャーナリストのあやのさん。 あやのさんはやたら山根博士とつるんでる動画で見て知っていたが、やはり実物も見ての通り美人
さて、卒論にはもう間に合わないかもしれないが、Chainerによるディープラーニングを手軽に扱えることでお馴染みのGUI深層学習環境、DEEPstation(ディープステーション)が地味にバージョンアップしたのでご紹介しよう。 ■DEEPstationってなに? さて、というわけで自社広告の時間ですよ 相変わらずミもフタもない入り方しますね教授 この仕事、ミもフタもないものなんですよ まあそれはそうと、そもそもDEEPstationってなんなんです? そこ聞いちゃう? その昔、大学や企業の研究者が使う高性能なパーソナルコンピュータをワークステーションと呼んでいました。それは知ってますね? あ、あれだ。うちの大学だとSONYのNEWSとか、SUNのSPARCとかだったな いま公開中の映画「スティーブ・ジョブズ」の第二幕に登場するNeXTも、ワークステーションだったね。 ちなみにSONYのワー
年が明けた。 なあに、ちょっとキャリーフラグが上がっただけのことである。 それでもなにか特別な気分になるというのがお正月の不思議なところだ。 クリスマスよりお盆よりお正月。 そんな気、しない? 新年の晴れやかな気分も、しかし、僕は年末に見たとある背中が目に焼き付いて離れない。 多くは語れないが、お正月に特にやることもないのでひとつ話しをさせて欲しい。 UEIの納会はいつになく盛大なものとなった。 子会社との事業分離が完了し、本社は身軽になったが、子会社含めて120人のスタッフのいる大所帯に戻った。 おおいに飲んで、おおいに騒いだ。 しかし僕には別にいくところがあって、早々に退散して次の場所の納会へと向かった。
一夜漬けAI開発合宿で何が作れるか実験してみた。 pix2pixは面白い。 面白いけれども、実用性の点ではどうか。 たとえばうまくいくと こんな感じで左の線画から、右の写真が生成できる。 しかしあんまりうまくいかない場合は まあ比較的うまくいってるかもしれないけど、顔のところで精度がガクッと落ちている。 人間は、顔が大事な生き物である。 体の精度はともかくとして、顔の精度が低いとちゃんとした絵には見えない。 また、もとがテキトーに生成した線画だから仕方がないが、このレベルの線画が描ける人間はそうはいない。 もっとテキトーな線画でなんとかラクをしたいのだ。 たとえば こんな線画である。 ほら、これなら僕にも描けそうじゃ無いの で、結論から先に言うと できてしまった。 あまりにも出来すぎた結果に、僕でさえ「ウソだろ」と声を漏らしてしまった。 生成されていることがわかりやすいように、あえてしくじ
個人的に今年一番のヒットといえばpix2pixである。 pix2pixとは、その名の通り、画像から画像を生成するニューラルネットワークの総称である。 何が凄いかと言えば、2つの画像のペアを提示し続けるだけでなんとなく雰囲気を掴み、似たような画像加工を全自動で行ってくれるところである。 特にpix2pixを使ってテキトーな輪郭線から中身を塗る、というのが面白かったので、試しに個人的に溜め込んだネットの素敵な画像フォルダを、非常に簡単なスクリプトで線画化し、学習できるかやってみた。 はたして で、できちゃったのである。 ほんの半日くらいでこれが学習できちゃったのである。 当然ながら、左の線画を与えると、右の絵が得られるわけよ。 わかりますこの凄さ。 まだ顔のディティールはいまひとつだけれども、それでもこんな自然な感じで色が塗れるってすごくね? なんか時代がヤバイ方角にいってますよ。 ちなみにイ
ソニーが嫌いな人は賢明なる電脳空間カウボーイズZZの読者諸氏には居ないと思うが、万が一嫌いな人がいたらそっとこのページを閉じて欲しい。 我々はソニーとホンダをことさら尊敬している。 UEIを設立した時、真っ先に頭に思い浮かんだのはソニーとホンダのことである。ちなみにソニー製品はよく買うが、ホンダのクルマは原付きしか買ったことがない。 経営者として最初に読んだのは、かの偉大なる経営者、盛田昭夫のメイド・イン・ジャパンであった。僕がなんだか知らないが本を書き続ける経営者をやっているのも、実は盛田昭夫の影響である。 ここ数年、ソニーはおびただしいリストラを繰り返してきた。 まさに聖域なき改革。ソニー通りと呼ばれた品川から五反田までの通りに、もはやソニーはほとんどない。 だがしかし、ようやくソニーは復活しつつある。銀座のソニービルは老朽化のため取り壊されてしまうが、ソニーは今年で70周年。 そんな
とにかく最近、工作が流行ってる。 DIY?まぁなんでもいいんだけど、ホームセンターやらアキバやらAmazonの有象無象やらを組み合わせてなんとなく機能する物を作る。 ということが流行っている。 流行っていると言うか、人類には普遍的に毎日毎日この「工作ブーム」が来ているがゆえにアキバのパーツショップやらホームセンターが商売として成り立つのであろう。 最近、作ったモノその一は、おもちゃのギターを電気的な出力をするようにしてエレキギター化したモノだ。 幼児用のアンパンマンギターに、家に余っていたエレキギターの電材を組み込んでみた。 ちゃんと電気的に音が出力されてアンプに繋げば音が鳴る。 ペグだけ手持ちがなかったのでAmazonで700円で購入した。 制作費700円と言いたいところだが、実際のところ余っていた部品を合計すれば8000円くらいになるだろう。ピックアップがDIMAZIOの7000円くら
みんな深層学習してるかな? さて、GoogLeNetとか、みんな好きかな?オレはわりと好き。 なにしろプリトレインドモデルがあるからお手軽なんだよね。そこが好き。 あと、なにしろalexnetはデカすぎる。 なんでこんなにデカイんだ、という感じ。まあ1GBくらいなんだけど、Raspberry Piだと普通に読み込めないほど巨大なのよね。 しかし自分で作ったニューラル・ネットワークにImageNetのILSVRC2012を学習させようとするとやばいことになる。 なんということでしょう。 この圧倒的絶望感 SSDonlyでこのスピードですからね。 9日経っても1エポックすら進んでいないとは 一説によると、GoogleのGPU(TPU?)ファームは3万GPU(Maxwell世代だと合計約1億2千万コア)あるらしく、1000GPU(300万コア)でILSVRC2012の学習に1日かかるらしい。 火
敵対生成学習した深層畳み込みニューラル・ネットワークをDCGANと呼ぶ。 最近はこのDCGANの育成にハマっているので、僕のかわいい人工知能ちゃんの観察日記をご紹介。人工知能の真実に迫るのに多少役立てば幸いである。 さて、今回は比較しやすいようにMNISTにしてみた。 MNISTで6万字のデータをぬきだし、学習させるとこんな感じになる。 つくづく驚異的なのは、GANの場合、画像しか見せないでラベル(その画像がなんであるか)は一切見せる必要がない。それでいてこんなにうまくもとの状態を表現できるのである。これが驚異でなくてなんだろうか。 しかしこれだけの表現を獲得するにはどれだけの学習データが必要なのか気になる。世の中には似たようなものが6万字とか、そんな恵まれたデータだけではないはずだ。 そこで徐々にデータを減らしてみた。 すると・・・ 3万字でも44エポックでここまでいく。 悪くない。悪く
Deep3dというのがあって、これは左目用画像を渡すと右目用画像を勝手に生成するというムチャクチャなエンジンだ。 んで、すごいのは、「奥行きとかどうでもよくて、なんとなく立体だとこんな感じの視差になるはず」というのを3D映画から学習しているのである。狂ってる。 この段階でも充分狂ってるが、これが意外となかなかいけてしまうから二重に狂ってるのである。 普通に考えると、画像→デプス(深度)マップ→右目用の映像という流れになるはずだが、デプスマップをすっ飛ばしていきなり右目用の画像を学ばせるという鬼畜ワザによって、一体全体AIが「どのようにして」空間の奥行きを確認しているのかは知りようもないが、とにかく力技によって出来てしまうことが事実として分かってしまっている。 ってここまで説明しても、「わかるかよ!」という気分である。 論より証拠、そのdeep3dとやらを動かせばいい・・・ ・・・が、このイ
去る10月22日、飯田橋にある角川富士見ビル神楽座にて、全国小中学生プログラミング大会の最終審査会と表彰式が開催された。 当日の様子はタイムシフトで見ることが出来る。→http://live.nicovideo.jp/watch/lv278899969?ref=zero_mytimeshift 北は北海道、南は沖縄から集まった全国のプログラミングが大好きな小中学生が、その才能を発揮して、大会テーマ「ロボットとわたしたち」を思い思いに表現した。 それぞれの作品がそれぞれ創意工夫に溢れており、審査は難航を極めた。どの作品も素晴らしすぎるのだ。 小学三年生による作品「大きくなーれ」は、巨大化光線を持つロボットと少年が触れ合うストーリーをプログラミンで表現していた。 なかでも優れた上位二作品のどちらをグランプリとするかで審査員の間で激論になり、審査会は延長を余儀なくされたそうだ。 惜しくも準グラン
FasterRNNは遅すぎることが問題だった。darknetによるYOLOはなかなか良かった。 しかし最近はもっと高速かつ高精度な物体位置検出手法があるらしい。それがSSDこと、Single Shot Multi-box Detectionだ!! https://github.com/weiliu89/caffe/tree/ssd まあ細かいことはどうでもいいが、重要なのは精度がそこそこ高くてかつ高速な位置検出ができるということだ。それ以外のことは基本的にどうでもいいのだ。詳しいことが知りたい人は論文を参照のこと さて、このSSDですが、ウェイ・リューさんという人が作った実装は相変わらずCaffe魔改造実装なので基本的にはすぐには動かない。面倒くさい。どうしてこんなことになっているのか。 とはいえ、まあ愚痴っても仕方がないので動かす方法を探す。できればCaffeのインストールは避けたい。M
前回、惜しくもメモリーエラーで終わってしまったMicrosoftの152層畳み込みニューラル・ネットワーク(略してCNN)、ResNet152のファインチューニング、人間の尊厳に掛けてできないというのは悔しい。 そこでついにChainerのソースを改変して対処することにした。 とはいっても、Chainerのソースをいじってしまうとあとで面倒なので、caffefunction.pyをコピーしてきてオレオレCaffeFunctionを作ったわけだ。 Chainerのソースの中でもCaffeのモデルを取り込むCaffeFunctionはとりわけ見どころが多いソースだと個人的には思う。 なぜなら、このソースさえマスターしてしまえば、CaffeとChainer、両方のことが一気に把握できる上に、これまであまりネットワークの構造を深く考えなくてもなんとなく使えてきてしまっていたChainerのモデルの
チャオ! オレだ。 深層学習を手軽に使いたいというニーズは日に日に高まっているはずなのに、ガクシャ先生どもと来たら、やれMatlabだ、やれPythonだのと軟弱言語の話しかしやしねえ。どこかに気骨溢れたナイスガイはおらんのか! と思ったら、居た。 それが今回紹介するdarknetだ。 darknetという名前から想像する異常にダークである。 バーン どうよこのダークネス感 いまどき黒いページというのは珍しい。 そして無駄に凝った魔法陣のようなロゴ。ダークだ。 しかしダークネット、厨二満開とせせら笑っていられるのもいまのうちだ。 このダークネット、実に必要十分な機能を最短で試せる超絶優れたツールなのである。 CaffeやTensorFlowほどの知名度はないが、実用性皆無なTensorFlowに比べてdarknetはものすごく実用的。Cが分かる人ならばこれほど使いやすいものもちょっと他にな
チュッス!オレだ。 あちら側でニューラル・ネットワークの蒸留がヤバイぜみたいな話になっているけど、あっちはあっちであんまり技術的要素強めの内容は書けないので実際に実験してみたオレの回顧録をここに記しておく。 蒸留について詳しくはあっちの記事を読んでほしいんだけど、かいつまんで言うと、要は勇気がないんでしょ・・・じゃなくて、複雑なネットワークをより単純なネットワークで置き換える手法である。 たとえばGoogLeNetで解析した画像をよりシンプルな構造のネットワークに転写することができるというわけだ。 ほんとかよ。 で、最初ためしに適当に作ってみたら・・・ わかりますかこの圧倒的絶望感 lossの値に注目 e+29ですよ。つまり0が29も付くんですよ。 たしかにlossは下がってるから学習はできているのだろう。 だがしかし!だがしかし!こんなんじゃいつまで経っても無理じゃんか なにがいけないの
前回、ついにChainerのCaffeFunctionを改造したことで、いろいろなCaffemodelを取り込んで使う時にもう「Chainerの内部で落ちてるから使い方わからんオワタ」と思わなくて済むようになった。しかし改めてChainerはわかりやすくて素晴らしい。 ちなみにCaffeモデルは公開されているものでも簡単に使えるやつと使えないやつがある。 ものによってはCaffeモデルだけでなく改造済みのCaffeとセットで公開されているものもあり、ちょっとノイローゼになりそうな気分である。それを移植しようとすると、改造済みのCaffeの中身も調査しなければならず、まあ単純に関数が増えたとかならまだいいんだけど、どうもそういうわけでもないケースも散見されて悩ましい。つらい まあいいや。 そういうわけで、いろいろすぐに使えるやつを試して見たんだけど、とりあえず性別判定と年齢判定、それと場所判
やあみんな、畳み込んでるかな? 今日はMicrosoft先生が昨年発表した152層というノイローゼのような超深層のニューラル・ネットワークの話をしよう。 GoogLeNetが、Inceptionモジュールという組を作って、Inceptionモジュールごとにlossを逆伝播させてやることで層を深くしていたことはみんなもよく知っていると思う。 これがInceptionモジュール Pervious layerから入力された特徴が1x1の畳み込みや3x3の畳み込みを経由して最終的には統合される。 これをノイローゼのように繰り返し繰り返し深くしていって、38層という非常に深いネットワークを構築している。 図で黄色で表されたところがSoftmax層で、要はここで推定しているわけだから、lossを返すのはこの三箇所ということになる。 GoogLeNetは層が深い割には計算量が少ない。そのかわり、学習させ
赤外線 それは男のロマンである。 シン・ゴジラにも登場する最先端攻撃ヘリ、AH-64D アパッチ・ロングボウにもFLIR製の赤外線サーモグラフィが搭載されている。 そしてなんとこのFLIRは、iPhoneにも搭載可能なのだ! マジか! これであの子のあんなところやこんなところを・・・ 「うおおおおおっっっ」 唐突に気絶した私は、きっかり65535秒後にAmazonから届いた箱を空けていた。 なんちゃって「サーモグラフィ」ではない、ホンモノのモノホンのコレモンのサーモグラフィである。 これが興奮せずにいられるだろうか。 さっそくiPhoneに装着してみる。 使用するには専用のアプリをダウンロードする必要がある。 まあこれはいつものアレだ。 そしてうおおお、見える!?何かが見えるぞお!! たとえばMacBookAirの熱が見える! 「これが見えると何が嬉しいの?」と言われるかもしれないが、人間
こいつで得られたlayers.hをC++プログラムから読み込んで前回と同じようなことをするわけだ。 今回も余裕だろうと思って試すと $ python bench_ae_chainer.py start Chainer:0.223642sec $ ./hoge 0.129455 sec 31.683862 どっどっどっ どういうことだってばよ!? 前回は500倍くらいのスピードだったのに今回は2倍程度のスピードになってしまっている。 いろいろ考えると、まあ結論はひとつしかない。 要するに、第一層がデカすぎるのである。 前回の第一層は1,407バイト、つまり1キロバイト強しかないのに対し、今回の第一層は3,513,339バイト、つまり3.5メガバイトもある。 コンピュータの世界ではキャッシュに乗るか乗らないかというのが非常に重要だ。 最新世代のCore i7であっても、L1キャッシュは32KB
さて、手書きとは何かというのを追求するのが僕のライフワークである。 そこで以前、樋口真嗣監督がenchantMOONの発表会で描いていたラクガキが発見されたので載せてみる。 懐かしい写真。 監督が暇つぶしに何を書いているのか覗いてみると・・・ すげえ上手い。 しかも怪獣を書いています。おもえばこの時は2013年。 まさにシン・ゴジラの構想を練っていた時でしょう。 このときは単に「樋口さんは本当に怪獣が好きなんだなあ」としか思わなかったのですが、まさかゴジラの構想を練っていたとはなあ。 とまあこのように、書く人によって全然違うのが手書きの面白いところです。 enchantMOONでは筆跡の予測が重要で、この予測によって見かけ上、反応速度が上がっているように見えます。ちなみにこの筆跡の予測は東芝のREGZA tabletのTruNoteにも入っていて、細かい字を書こうとする時に違いが出ます。絵
その日、僕は画面の前で固まっていた。 今でも目の前で起きていることが信じられない。 それくらい衝撃的だった。 「おい、ちょっとこれ見ろ」 後藤を呼び出して、画面を見せる。 「なんですかこれは」 後藤は迷惑そうに顔をしかめた。 「いいから。これな、これ何に見える?」 僕は画像ファイルをダブルクリックしてつけ麺の画像を表示した。 「えーっ、つけ麺でしょ。つけ麺じゃないんですか?」 「いや、つけ麺だ」 「????」 続いて僕は、コマンドラインでプログラムを実行した。 「これはカリフォルニア大学バークレー校で訓練された人工知能だ。こいつにつけ麺の画像を見せると・・・」 「どうなるんですか?」 「そもそもアメリカ人はつけ麺なんか知らないだろ?」 「たしかに」 「じゃあどうなると思う?」 後藤はクビを傾げる。 「エラーとかになるんですかね」 「そう思
いやー、休日でも毎週仕事だよ なーんて働き者なんざんしょ そんな感じでお台場に取材に行った帰り、不思議な光景を見た。
次のページ
このページを最初にブックマークしてみませんか?
『ch.nicovideo.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く