yoshi84のブックマーク - はてなブックマーク

今年の研究振り返り - Preferred Networks Research & Development

吉田です。弊社では主に研究開発に携わっていますが、最近は顧問的なポジションになっている気がします。普段は国立情報学研究所 (NII)という所で研究していて、よく論文を国際会議に投稿するということをします。先日、CIKMという会議の結果が帰ってきて、今年開催される国際会議の結果が全て出そろったので、思い出話をしてみたいと思います。紹介する論文の順番は、各会議が開催された(る)順です。所々、専門用語を説明なしに使っていますがご容赦ください。 Yoichi Iwata and Yuichi Yoshida, Exact and Approximation Algorithms for the Constraint Satisfaction Probl em over the Point Algebra. (STACS’13) 初めて東大の岩田君と書いた論文です。岩田君は弊社でインターンや

yoshi84 2013/08/16

リンク

オンライン凸最適化と線形識別モデル学習の最前線 - Preferred Networks Research & Development

内容は線形識別モデルの学習について（Perceptron, PA, CW, AROW, NHELDとNLP2010のtutorial + 最新のアップデート. 更新式が整理されています）、オンライン凸最適化のregret解析、sublinearなSVMの学習の話です。最近公開したjubatusの中の学習アルゴリズムの解説でもあります。コスト関数が凸である場合のOnline Gradient Descentのregret解析の証明は美しかったので、普通はこういうのはプレゼンではやらないとおもうのですが紹介しました。 Sublinearの学習の話は今後いろいろ発展しそうです。各学習例に動的に重みをつけて優先的に学習する方法は直感的にはできそうだと昔考えてたのですが、こういう形できれいに定式化できるのだと感心しました。 IBISはそこそこ参加していますが、毎年新しい分野の問題が登場してきて面白

yoshi84 2011/11/12

リンク

高速な安定ソートアルゴリズム "TimSort" の解説 - Preferred Networks Research & Development

先日、TimSortというソートアルゴリズムが話題になりました。TimSortは、高速な安定ソートで、Python(>=2.3)やJava SE 7、およびAndroidでの標準ソートアルゴリズムとして採用されているそうです。 C++のstd::sort()よりも高速であるというベンチマーク結果1が話題になり(後にベンチマークの誤りと判明)、私もそれで存在を知りました。実際のところ、ランダムなデータに対してはクイックソート(IntroSort)ほど速くないようですが、ソートというシンプルなタスクのアルゴリズムが今もなお改良され続けていて、なおかつ人々の関心を引くというのは興味深いものです。しかしながら、オリジナルのTimSortのコードは若干複雑で、実際のところどういうアルゴリズムなのかわかりづらいところがあると思います。そこで今回はTimSortのアルゴリズムをできるだけわかりやすく解

yoshi84 2011/10/27

リンク

モダン並列・並行プログラミング～ Concurrent Revisions による実装と現実～ - Preferred Networks Research & Development

本日社内向けのTechTalkにて、並列・並行プログラミングに関する話を行いました。昨今、プログラムの並列化はなくてはならないものとなっています。しかし、そのプログラミング環境は依然としてロックを用いたものが主流です。今回の発表の主張を端的に申し上げますと、 “Locks must go！” ということになります。並列プログラミングに銀の弾丸はありません。しかし、ロックは別の何らかの安全性を確保したプログラミングモデルで置き換えられなければいけません。そうでなければ、再現しにくいバグに苦しめられ、終電を逃す日々と決別することはできないでしょう。また、ロックによるプログラミングの抱える本質的問題にも言及しています。この界隈の最新の動向として、去年OOPSLA’10にて発表されたConcurrent Revisionsについての解説も行なっております。また、弊社研究開発において、先日Con

yoshi84 2011/10/23

リンク

研究・企業・生き方について - 情報科学若手の会2011 - Preferred Networks Research & Development

岡野原です。 2011/9/17〜2011/9/19に熱海で行われた情報科学若手の会2011に参加し、講演をしてきました。テーマを決めるに当たって、参加者の年齢、興味分野、スキルの幅が非常に広いということもあり、若手の会参加者のみなさんから質問を前もって聞いておき、それについて回答するという形にしました。自由に質問を集めたのですが、それらは研究・企業・生き方のテーマにまとめられそうだったので、それらのテーマに沿って講演をしました。研究 : 自然言語処理、機械学習、それらの今後企業：起業の話、PreferredInfrastructureの話、研究をビジネスに適用する際の話生き方：学生、社会人の心境、アドバイス、モチベーションの話など何か一つのメッセージを伝えるというよりは様々な考えや体験談、tipsなどを関係なく並べたものになっています。皆様にとって何か参考になれば幸いで

yoshi84 2011/09/22

リンク

専門知識の仕入れ方 - Preferred Networks Research & Development

今日は，普段どのようにして専門知識を仕入れているかについて書いてみようと思います．特に自分が得意でない分野を知りたいと思った時に，どうするかに注目したいと思います．自分の専門の場合は，いくらでも時間を注ぐことが出来るので，世界中のリソースを全て探し当てて勉強すれば良いのですが，ちょっと興味が有るぐらいではそこまでやる時間は取れません．なので出来るだけ効率的に分かった気になるのが目標です．まず，論文を直接読むのはあまり効率的では無いと思います．論文は広い分野の中の或る問題に対して一つの解決方法を書いているだけで，分野全体を俯瞰することは目指していません．論文だけ読んで分野全体を理解するには，最低50本ぐらい読む必要が有ると思います．

yoshi84 2011/09/19

リンク

開発プロジェクトの進め方 | Preferred Research

Research Blog上では初めまして。Professional and Support Serviceチームの西鳥羽です。 8/11のPFIセミナーでプロジェクトマネジメントの話をさせて頂きました。その時の様子はこちら前編後編です何度か開発プロジェクトを経験してきて、初期のプロジェクトと比べるとPMとしても開発者としても上手く回せるようになったし、勘所も見えてくるようになってきたので一度まとめてみることにしました。PFIは製品開発や研究開発が中心で直接お客がいる開発を行っている人間が少ないことや、今サマーインターンをやっていてたくさん学生が来てくれていることもあってシステム開発の様子が珍しいのではないかと思いプロジェクトマネジメントの話にしました。その時のスライドを公開します。元々学生ベンチャーで開発プロジェクトの経験も無く、教えてくれる先輩もなく、当然何度かデスマーチを経験し

yoshi84 2011/08/12

開発

リンク

乱択アルゴリズム紹介(Color-Coding) - Preferred Networks Research & Development

吉田です。今まで数解に渡って乱択アルゴリズムを紹介してきました。そろそろ解析やアイデアがシンプルかつ結果が綺麗な乱択アルゴリズムは尽きてきたかと思っていましたが、もう一つとても素敵な手法が有るのを思い出しましたので解説します。Color Codingと呼ばれる手法です。 \(G = (V, E)\)をグラフ、\(s,t\in V\)を\(G\)中の二頂点、\(k\geq 0\)を整数とします。\((s,v,k)\)パスとは、\(s\)と\(t\)を結ぶパスで内点の個数が丁度\(k\)個のものを指します。但しパスは同じ頂点や枝を二度使ってはいけません。例えば以下の図で赤い線で示されているパスは\((s,t,5)\)パスです。

yoshi84 2011/07/26

Algorithm

リンク

STL風に使えるマップ型コンテナの紹介と性能比較 - Preferred Networks Research & Development

最近スマートフォンに乗り換えました。徳永です。 C++は世に数あるプログラミング言語の中では比較的メモリを食わない方ですが、それでもメモリ使用量が問題となる場合はあります。そのような場合の対処方法はいくつか有りますが、手軽に選択できる方法として、今日はSTLのmapやunordered_mapと同じ感じで使えるデータ構造をいくつか紹介したい思います。以下、計算量の表記をする際には、要素数をnとします。 Loki::AssocVector LokiはModern C++ Designという本の作者であるAndrei Alexandrescuが開発したライブラリです。AssocVectorはその中の一つとして提供されているクラスで、vector<pair<key, value> >という型のベクターをkeyでソートした状態で持つ事により、二分探索による要素の探索を可能にしたデータ構造です。こ

yoshi84 2011/07/24

リンク

ユニークなクラウドソーシング・プロジェクト - Preferred Networks Research & Development

こんな暑い日はTDSに行きたい祢次金です。機械には難しい大量のタスクを不特定多数の人間に依頼できる、クラウドソーシング。有名どころはAmazonのMechanical Turk（以下、Mturk）かと思いますが、最近では機械学習や自然言語処理の研究で、学習データへのアノテーションタスクに活用されることもあるそうです。機械学習とは関係ありませんが、先日見たTEDのプレゼンテーションの中に、クラウドソーシングを利用した面白いプロジェクトがありましたので紹介したいと思います。このプレゼンテーションは現在Google Creative Labに所属するAaron Koblin氏によるものです。プレゼン中の、クラウドソーシングが絡むプロジェクトから幾つかピックアップします。 Ten Thousand Cents 100ドル札を10000の小さな区間に分割し、Mturkを使って各区間を10000

yoshi84 2011/07/22

プレゼン

リンク

ソフトな推論Markov Logic Networkの紹介 - Preferred Networks Research & Development

予約したもののインフォバーを手に入れられない海野です．人間の高度な知的処理の一つが、推論処理です．今日はその推論を、述語論理と機械学習の組み合わせで模倣したMarkov Logic Networkという手法と、そのOSS実装であるAlchemyの紹介です．鳥とはなんですか？という質問に対してどう答えるでしょうか．大雑把には、以下のように考えるでしょう．鳥とは、空を飛ぶ動物です．この回答に対して、「ペンギンは飛ばないよ」と反論する人がいるかも知れません．鳥とは、くちばしを持った動物です．すると、「カモノハシは鳥じゃないよ」と言われるでしょう．人間は初めて見た生き物が鳥かそうじゃないか判断するとき、どうしているのでしょうか．思うに、少数の規則（飛ぶかどうか．くちばしをもつか）から総合的に判断しているように思われます．人間の推論というのは概ね以下のような特徴を持っているのではないかと

yoshi84 2011/07/18

Algorithm

リンク

dag_vector: ランダムアクセス可能な圧縮配列 - Preferred Networks Research & Development

こんにちは、この夏はシルキードライで乗り切りたい岡野原です。今日は最近公開したC++のオープンソースであるdag vectorについて紹介します。 github: dag_vector ライセンスは修正BSDライセンスです。 dag vector (direct accessible gamma code vector) は値を圧縮して格納したまま任意の場所の値を高速に参照可能な配列ライブラリです。しかもデータ末尾への追記が可能です。 dag vectorはstd::vectorのように利用できます。下にいくつか例を見ていきましょう。 dag_vectorの例 #include "dag_vector.hpp" // dag_vectorは0以上の正整数の配列を扱う配列。 dag_vector dv; // 値はいつでも追加可能。追加された値は圧縮して格納される // 正整数xは2lg(

yoshi84 2011/07/18

リンク

MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development

どうも，実は今年から開発チームにjoinしていた中川です．可愛い犬の写真がなかったので，可愛いマスコットの画像を貼っておきます．最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました．これはつまり，それだけ大量のデータをなんとか処理したいという要望があるからだと思います．しかし当たり前ですが，MapReduceは銀の弾丸ではありません．ということで，最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について，社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います． Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです．長いのでBSPと書きます．さて，グラフから最短経路を求める時，MapReduceは使えるでしょうか？このような論文が出るくらいですから出来ないことはあ

yoshi84 2011/07/06

グラフの最短距離を求めるときにMapReduceを使えるかとか、気になる。分散処理、並列処理ができないことはないけど難しい…か。

リンク

乱択アルゴリズム紹介(最小カット) - Preferred Networks Research & Development

\(G\)のカット\(C \subseteq E\)とは、\(G\)から\(C\)を取り除くと、二つ以上(の連結成分)に分かれてしまうようなもののことを言います。特にカットの中で大きさが一番小さいものを最小カットと言います。恐らく具体例を見た方が良いと思いますので、下の図を見てください。さて「\((s,t)\)-最小カット=\((s,t)\)-最大フロー」という有名な事実が有ります。今回の目的ではないので、余り深入りはしませんが、\((s,t)\)-最小カットとは、グラフ中の頂点\(s, t\)を分けるカットで最小のものを指し、\((s,t)\)-最大フローは\(s\)から\(t\)に流れる”フロー(流れ)”で最大のものを指します。 \((s,t)\)-最大フローを求める決定性アルゴリズム(乱数を使わないアルゴリズム)はよく研究されていて、今現在最速なものは\(O(nm \log(n^2

yoshi84 2011/05/14

リンク

MinHashによる高速な類似検索 - Preferred Networks Research & Development

年が明けてもう一ヶ月経ちましたね．岡野原です．今日はMinHashと呼ばれる手法を紹介します．これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている）．今や世の中のあらゆる種類のデータが，高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました．例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル（Bag of Words）で表し，画像データも，SIFTをはじめとした局所特徴量を並べた特徴ベクトル（とそれをSkecth化したもの）として表せます．行動情報や時系列データも特徴量をうまく抽出する．グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ，グラフの特徴をよく捉えることができるのが最近わかっ

yoshi84 2011/02/03

リンク

乱択アルゴリズム紹介(3SATのO(1.334^n)時間アルゴリズム) | Preferred Research

\(\mathcal{C} = (x \vee y \vee z) \wedge (\neg x \vee y \vee z) \wedge (y \vee \neg z \vee w)\). 上の例だと、例えば\(\alpha(x) = \mathrm{true}, \alpha(y) = \mathrm{true}, \alpha(z) = \mathrm{false}, \alpha(w) = \mathrm{false}\)とすれば全ての節を充足することが出来ます。 3SATはNP完全なので全てのNPに属す問題は3SATとして解けるのですが、そうでなくても多くの問題から”自然”に3SATが導出されます。なので3SATを解くアルゴリズムを考えましょう。一番自明なアルゴリズムは次のようになると思います。変数の数を\(n\)、節の数を\(m\)としましょう。

yoshi84 2011/01/29

Algorithm

リンク

Androidで走るProcessingアプリケーション - Preferred Networks Research & Development

今日は24 Season8 を徹夜で見ます。祢次金です。前回、CinderでiPadアプリケーションを書きましたが、今回はJavaベースのProcessingを使ってAndroidアプリケーションを書いてみます。環境構築まだベータ版という位置づけですが、Android向けアプリケーションをつくることができるPDE(Processing Development Environment)が既に公開されており、こちらからダウンロードできます。勿論Android SDKもインストールしておく必要があります。上記リンク先のInstructionに従い、必要なAPI Levelのコンポーネントを入れておきましょう。 PDEを起動するとおなじみのスケッチ画面が現れます。メニューの「Android」から「Android Mode」を選択し、スケッチのモードを切り替えておきます。あとはスケッチに

yoshi84 2010/12/25

リンク

wat-array : wavelet木を利用した高速配列処理ライブラリ - Preferred Networks Research & Development

こんにちは岡野原です。もう年末になりましたが、私の今年はこれからです。 wat-arrayというC++ライブラリを公開しました。 google code:wat-array wat-arrayはフリーソフトウェアであり、修正BSDライセンスに基づいて利用できます． wat-arrayはwavelet木と呼ばれるデータ構造を利用することにより、配列上の様々な処理を効率的に行うことができるC++ライブラリです。例えば、 – 任意の連続した範囲内にある最大値 /最小値 / k番目に大きい値, またそれらの出現位置、頻度 – 任意の連続した範囲内にある指定した文字cの出現回数、c未満/より大きい文字の出現回数 – 任意の文字のi番目の出現位置といったものを求めることが全て範囲長、入力長に対して定数時間で行うことができます。例えば長さ10億、値の範囲が0から1000万であるような配列A中のA[

yoshi84 2010/12/19

リンク

C++の行列ライブラリ Eigenの紹介 - Preferred Networks Research & Development

C++で行列計算をする場合に便利なライブラリEigenを紹介したいと思います。ベクトル・行列演算は知っているからEigenの使い方だけを教えてくれというかたは最初の章は読み飛ばしてください。 — 多くの統計処理がベクトル・行列演算を用いるとコンパクトに表すことが知られています。ちょっと複雑そうにみえる問題も整理してみるとベクトル・行列演算で書ける場合が多いです。（ベクトル・行列という言葉に抵抗がある方はそれぞれを単に配列、配列の配列とでも思ってもらえればいいでしょう）。ベクトルの内積は\(u^T v = u_1 v_1 + u_2 v_2 + \ldots +\)として求められ、ベクトルのノルムは自分自身のベクトルとの内積の平方根、\(|u| = \sqrt{ u^T u} \)として求められます（以降ベクトルは全て列ベクトルを指すとします）。例えば、あるユーザーの商品の購買履歴は、\

yoshi84 2010/11/19

リンク

クリエイティブなC++ライブラリ "Cinder" の紹介 - Preferred Networks Research & Development

こんにちは、人恋しい季節になってきましたね。研究開発チームの祢次金(@nejigane)と申します。本エントリではCinderというクリエイティブなコーディング向けのライブラリについてご紹介したいと思います。 Cinderとは Cinderとは、画像、音声、動画等を簡単に処理＆可視化できる、主にビジュアルデザイン向けの強力なC++ライブラリであり、The Barbarian GroupのAndrew Bell氏が中心となってオープンソースとして開発が進められています。同様の思想を持つProcessingやopenFrameworksによく似ており、C++で簡単に記述できるうえ、Windows、MacOSX、iOS(iPhone/iPad)といった複数のプラットフォームをカバーしています。細かい機能/特徴の紹介は本家サイトに譲るとして、Cinderを極めるとどのぐらいクリエイティブな

yoshi84 2010/11/19

リンク

はてなブックマーク

タグ

ブックマーク / tech.preferred.jp (21)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス