Bag of visual words (BoVW)は、一般物体認識において現在最も広く普及している画像特徴表現で、画像中の多数の局所特徴をベクトル量子化しヒストグラムにしたものです。最近はOpenCVなどのツールの普及により使いやすくなってきましたが、実際に使ってみようとすると細かい部分でつまづくことも多いのではないでしょうか。最新の研究では認識精度が飛躍的に向上していますが、局所特徴抽出などの細かいノウハウの蓄積による部分もかなり大きいと思います。 (そのような部分は学術的な新規性は低いため、論文ではさらりと書いてあることが多いのですが) 以下、自分が把握しているノウハウをまとめてみたいと思います。ただし、私自身の経験や主観に基づくものであり、絶対的なものではないことにご注意ください。 また、BoVWについて基本的な知識があることを前提としています。 画像サイズ まず、そもそも画像はど
はじめに 勉強会で、学習率を改善(自動調整)する事で学習時間を短縮し、ファンタジスタドールを見る時間を多く確保できる事が示されていた。 AdaGrad等をさらに改良したらしいAdaDeltaがあるようなので、ロジスティック回帰に適用してみた。 AdaDeltaとは M. D. Zeiler, ADADELTA: AN ADAPTIVE LEARNING RATE METHOD http://www.matthewzeiler.com/pubs/googleTR2012/googleTR2012.pdf 学習率を自動調整する方法の一つ 他の関連手法の問題点等を改良 過去すべての勾配を考慮→直近の勾配だけを考慮したいので、指数関数的に減衰するように考慮 グローバルな学習率を指定→second order methodsの特性を持つように、パラメータの変化について直近のパラメータの変化から計算し
環境 Ubuntu 14.04 LTS CLIにしたら、また英語配列キーボードに。 とりあえずずググると・・・何故か結構いろいろなやり方が出てくる。 まず Ubuntu 設定 を参考に/etc/default/keyboardを設定変更してみる。 が変わらず。 次に Ubuntu12.04 キーボード設定の変更 - Qiita を参考に、 dpkg-reconfigure keyboard-configuration で、 [Dell] ->[Japanese] ->[Japanese -> Japanese (OADG 109A)] ->[The default for the keyboard layout] ->[No compose key] ->[No] の順に選んだらOKでした。 とはいえ、何かCLIでファイル設定を変えることができるはずという事で、dpkgがどこに反映され
今回は、Caffeのprototxtに記されたニューラルネットワークの構造を可視化した。 なお、pycaffeがビルドされていることが前提になっている。 Caffeのインストール方法や実行環境については下記の記事を参照していただきたい。 【メモ書き】Ubuntu 14.04 CUDA6.5 GTX970 Caffeインストール - 下丸子のコネクショニスト 必要なものをインストール まず、下記のようにpythonライブラリをインストールした。 sudo pip install graphviz sudo pip install pydot export PYTHONPATH=/usr/local/lib/python2.7/dist-packages/:$PYTHONPATH pythonとGraphVizのインタフェースはインストールされたが、GraphViz本体が存在しないため、このま
この前ニューヨークに行った時に、UNIQLO行ってきました。5番街にある旗艦店。 うちは特に夫が部屋着や下着類はUNIQLOラブです。日本からアメリカに引っ越してくる時に、大量に購入しましたが、手が届くところに店があるとなれば覗かずにはいられない。 祝日セールをやっていたのに、「これで大丈夫なの?」と心配になるほど空いてました。 グラフィックTシャツなんかも、日本と同じデザインのものが売っていて、何枚か購入しようとしたのですが、「そういえば…」と思い出す。 なぜか、UNIQLOのTシャツ、アメリカの洗濯機で洗濯すると縮んでしまうんですよねー。。。伸縮性があって、肌触りがいいから、余計に縮んじゃうのかも…。それ以外のTシャツや、着古したものは縮まないんですけれど…。 なので、Tシャツはやめて、サッと羽織れるようなリネンやコットンのシャツを探しました。(アメリカはどこ行っても、冷房が効きすぎで
決定理論 予測するとは? 分類問題の目標は、観測したxがどのクラスに属するのかをはっきりと知る事。 そのための手法は「識別関数」「識別モデル」「生成モデル」の3つあるが、その前にまず「決定理論」と「そうでないもの」の2つに大別される。以下、言葉の意味を整理する。 ・決定理論 「推論」と「決定」の2段階に分ける手法。 ・そうでないもの 2段階に分けない手法。これが3つの手法のうちの1つ目の、識別関数。パーセプトロンやSVMがそう。 訓練データから識別関数f(x)を求め、未知の入力データxにそれぞれに対し、どのクラスに属するかの答えを直接与える手法。 確率を用いず、例えば2クラス分類であれば陽性と陰性との間の境界線のみを求める。 決定理論とは? 「推論」とは、訓練データから事後分布p(Ck|x) をモデル化する事。 識別関数が陽性/陰性を一発ではっきりと答えを出すのに対し、この患者xが陰性であ
Recursive Neural Network の訓練 (Backpropagation Through Structure) Recursive neural network (RNN) は, 構文木の意味を表現する特徴ベクトルを計算するために使用されるモデルである. 歴史的には,主に自然言語処理において利用されてきたが, プログラミング言語の意味の解析とかにも使える [Li14](詳細は, 1月2日の記事を参照のこと). 今日は,RNN の訓練に用いられる backpropagation through structure (BPTS) [Go96] というアルゴリズムについて紹介する. Recursive neural network (RNN) RNN では,子を表現する特徴ベクトルを用いて,親を表現する特徴ベクトルを計算する, という処理を再帰的に繰り返すことで,根に対応する特
Textual Entailment 評価データ † 近年、RTE(Recognizing Textual Entailment)に関する研究が盛んに行われています。英語では、共通の評価データを用いてワークショップが開かれ、RTEの技術が進歩してきています。しかし、日本語ではそのような評価データが存在しません。そこで、我々は日本語のRTE評価データを作成しました。 (注: 現在ではRITEやRITE2で日本語RTEの評価セットが公開されています。それらの評価セットは新聞やWikipediaなどの実際の文から作成されており、現在の自然言語処理技術では非常に難しい問題が多く含まれています。一方、我々の評価セットは人手で作成したもので、ほとんどの問題において表現のずれは1箇所であり、RITEやRITE2のデータに比べてやさしい問題になっています。) 評価データは約2700セットからなり、それぞれ
RITEはテキスト間の含意(推論)などを認識するテキスト理解システムのためのベンチマークタスクで、国立情報学研究所が主催する第9回NTCIR評価ワークショップのタスクになっています。 RITEは、Recognizing Inference in TExtを表していますが、こちらの元となったRTEはRecognizing Textual Entailmentの頭字語です。そもそもentailmentは論理的帰結として必然的に成り立つ関係を指しますが、RTEやRITEタスクでは、必ずしも成り立つ訳ではなくても可能性の高い関係や、常識的に成り立つと見なせる関係などの推論的な内容を扱います。2つのテキストの一方から他方が言えるかどうかを判定するテストは、RTEの他にも、FraCaS test suiteやAQUAINT KB Evalなどが計算言語学(形式意味論)の枠組みで提案されています。ちなみ
What We Do Studio Ousiaでは、「全ての組織に賢いAIを導入する」ことを目指して、自然言語処理の技術開発を行っています。 研究開発事業 弊社では創業以来、自然言語処理の研究開発を継続しておこなっております。最近ではLLMの研究開発に注力し、国際的な学会での論文発表やオープンソースとして公開をしております。また、これらの成果を活用して、企業の特定課題を解決する研究開発案件の取り組みもおこなっております。 業務に適した独自LLMの開発 LLMへの専門知識・組織の知識の追加 日本語LLMの性能改善 検索システムの性能改善 NLPソリューション事業 社内ドキュメントや問い合わせログなど、社内に蓄積された有益な情報の利活用に課題をお持ちの企業が多く存在します。弊社では、長年培った研究のノウハウと最先端の自然言語処理技術を活用して、以下のタスクに対して解決策を提示させていただきます
手持ちの MacBook Air (OS X 10.9.2) で word2vec を動かしてみる 2014-05-21-1 [Algorithm][Mac][NLP] 今個人マシンとしてメインで使っている MacBook Air (OS X 10.9.2) で word2vec を動かしてみましたよ、というお話。 - word2vec - Tool for computing continuous distributed representations of words. - Google Project Hosting https://code.google.com/p/word2vec/ マシン環境 - MacBook Air 13-inch (Mid 2013) - Mac OS X 10.9.2 (Mavericks) - 1.3GHzデュアルコアIntel Core i5 -
先月のとある勉強会で使ったスライドを今更ながら貼ります。 そこそこの「seq2seqやAttentionほどは脚光を浴びていない、RNNの基礎部分の改良や知見」を載せることを趣旨にしています。 口頭のみでの説明も多かったり、読み込みが浅かったり、量重視だったりして、スライドの各説明は特に詳しくないです。まだまだ十分に検証されていないことや納得しきれない(論文著者の)言明も多々ありますので、読む際は、ふわふわと話半分に小耳に挟むくらいがちょうどいっか〜と思って読んでください。 新たなRNNと自然言語処理 from hytae 需要と質はさておき英語版もあります。 Recent Progress in RNN and NLP from hytae Deep Learningを勉強するにあたって内容がまとまっている教材についてリスト化しました。 無論ここに挙げたもの以外にも充実した教材は多数存在
脳とdeep learning のアーキテクチャには共通の特徴が多くありますが、 脳にはあるのに現在(2012年時点)の deep learning にはない重要な特徴もあります。 その中には deep learning の性能をさらに向上させる 有望なヒントが含まれているのではないかと思います。 そこで、大脳皮質と deep learning の類似点と相違点を簡単にまとめてみました。 特に「脳は上の層ほど発火がスパース」「脳はあまり深くなくむしろ横に広い」 「脳では領野ごとに強い個性がある」といった特徴は、 重要なのではないかと思います。 ◆ 大脳皮質に見られる「深いネットワーク」 大脳皮質の視覚野(腹側経路と背側経路)、聴覚野、体性感覚野、運動野には 「深いネットワーク」の構造が見られる。 これらの領域における主な領野の階層構造を [Felleman and Essen 1991]
これなら分かる最適化数学―基礎原理から計算手法までposted with カエレバ金谷 健一 共立出版 2005-09-01 Amazonで探す楽天市場で探すYahooショッピングで探す 目次 目次 はじめに 最尤推定法とベイズ推定の違い 尤度をグラフィカルに説明する資料 参考資料 MyEnigma Supporters はじめに 学生の時から, "それは最尤推定法を用いています" とか, "その行は,尤度計算の部分ですね” とか,まるで尤度というものを知っていて, 使いこなしているかのような発言をしてきました. しかし,そう言いながらも, 自分的には,尤度というものがかなり漠然としていました. そもそも,尤度は文字通り「尤もらしさ」を表す度合いなので, 「最尤推定法でモデルのパラメータを決定します.」 っていうのは, 「一番それっぽいものを選びます」 と言っているのとあまり変わりがない気
提出日 2015年2月6日 Summary of Bachelor’s Thesis 2015年3月修了卒業論文概要書 Name 氏 名 井手和磨 ID number 学籍番号 1W110042-4 題 目 Title (日本語の場合は英文題目も記入) Supervisor 指導教員 渡辺 裕 印 日本語 Japanese コミックにおける背景画像によるジャンル分類について 英語 English On Genre Classification by Comic Background Images 概 要 Summary 現在,電子コミックにおけるメタデータ抽出のための研究として,コマの認識やキャラクター同定, 吹き出し検出などが行われている.本論文では,電子コミックにおける新たな利便性付与の可能 性として,コミックの背景画像によるジャンル分類の自動化の実現性を検討する.コミックの整理 や
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く