gologo13のブックマーク - はてなブックマーク

「コンピューターサイエンスのすべての分野に精通していること」という応募資格に込めた想い | Preferred Research

※PFNの募集要項は、本ブログの内容をふまえ、適切に意図が伝わるよう一部更新しました PFN代表の西川です。今回は、SNS上でもたびたび話題（炎上？）になっているPFNの応募資格について、改めてご紹介したいと思います。 PFNの採用募集ページに書かれたリサーチャーの条件には、「コンピュータサイエンスのすべての分野に精通していること」という一文があります。この条件は、PFIの時から、リサーチャーの応募資格として常に掲げてきました。その背景にある想いは、コンピュータサイエンスの研究をする上では、一つの分野だけでなく、幅広い分野について深い知見を有することが極めて重要である、ということです。たとえば、データベースの研究をする上では、トランザクション処理の理論や関係代数について詳しく知っているだけではなく、データベースを動かすコンピュータアーキテクチャ、ストレージ、また、今では分散データベース

gologo13 2018/02/27

リンク

新入社員の丸山（宏）です - Preferred Networks Research & Development

新入社員の丸山（宏）です。4/1に入社してから、一週間が経ちました。PFNにはもう一人先輩社員の丸山さんがいて、なのでもう先生ではないですが、「まるやませんせい」と社内で呼ばれたりもしています。今回の転職は私にとっては3回めの転職になります。外資系のIBM、国内大手のキヤノン、それに政府の研究機関である統計数理研究所、それぞれに大きく環境や文化が違って、転職の度に「おおっ」と思うことがありました。PFNは4つ目の職場ですが、やはり大きく違います。なんと言っても、最大の違いは意思決定のスピードでしょう。私は入社時には「エグゼクティブ・フェロー」という肩書をいただいていましたが、翌週には「Chief Strategy Officerをやってください」、と言われてその場で肩書が変わりました。さらに、この一週間のうちに、どんどん会社の方針も変わっていくのを目の当たりにしました。大学共同利用機関法

gologo13 2016/04/12

なんと

リンク

画風を変換するアルゴリズム - Preferred Networks Research & Development

Deep Neural Networkを使って画像を好きな画風に変換できるプログラムをChainerで実装し、公開しました。 https://github.com/mattya/chainer-gogh こんにちは、PFNリサーチャーの松元です。ブログの1行目はbotに持って行かれやすいので、3行目で挨拶してみました。今回実装したのは”A Neural Algorithm of Artistic Style”(元論文)というアルゴリズムです。生成される画像の美しさと、画像認識のタスクで予め訓練したニューラルネットをそのまま流用できるというお手軽さから、世界中で話題になっています。このアルゴリズムの仕組みなどを説明したいと思います。概要 2枚の画像を入力します。片方を「コンテンツ画像」、もう片方を「スタイル画像」としましょう。このプログラムは、コンテンツ画像に書かれた物体の配置をそのま

gologo13 2015/09/11

リンク

技術と時機 - Preferred Networks Research & Development

2000年前後、クラウドという言葉が立ち上がった時、クラウドビジネスを立ち上げた企業の多くは失敗しました。（例：opsware 彼らはその後システム運用ツール提供で生き残ることができました）。クラウドという言葉はそれ以降あまり聞くことはなくなりました。2006年GoogleのErick Schmidtがクラウドという言葉を再登場させ、AmazonがAWSを提供開始します。それ移行クラウドは爆発的に普及し、ITの戦場は全てクラウドに移行しつつあります。（IBMですら、半導体部門を売却しクラウドに移行できるかに社運をかけています link）自社運用やDC運用をしている企業もまだ多く存在しますが、パブリック・クラウドを利用している企業の競争力は増すため、今後10年ぐらいを考えるとパプリッククラウドの影響力はさらに増していくと考えられます。 IoTという言葉も1999年から存在します。私自

gologo13 2014/12/27

その時期にあったサービスを提供するのが大事という話

リンク

今年のSIGKDDベストペーパーを実装・公開してみました - Preferred Networks Research & Development

毎日暑いですね。比戸です。ちょうど今週シカゴで開かれていたSIGKDD2013でBest research paperに選ばれたEdo Liberty氏 (Yahoo! Haifa Labs)の”Simple and Deterministic Matrix Sketching”のアルゴリズムを実装して公開してみました。元論文PDFは著者サイトから、私が書いたPythonコードはGithubからそれぞれ入手できます。 SIGKDD (ACM SIGKDD Conference on Knowledge Discovery and Data Mining)はACM主催で行われる、知識発見＆データマイニングにおけるトップ会議です。最近は機械学習との境目が曖昧になってきましたが、査読時には理論的な新しさだけでなく、実データ（特に大規模データ）を使った実験での評価が必要とされるのが特徴です。

gologo13 2013/08/17

リンク

ニューラルネットの逆襲 - Preferred Networks Research & Development

岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。画像認識 LSVRC 2012 [html] 優勝チームスライド [pdf], まとめスライド[pdf] Googleによる巨大なNeuralNetを利用した画像認識（猫認識として有名）[paper][slide][日本語解説] また、各分野のトップカンファレンスでDeep Learningのチュートリアルが行われ、サーベイ論文もいくつか出ました。おそらく来年以降こうした話が増えてくることが考えられます。 ICML 2012 [pdf] ACL 2012 [pdf] CVPR

gologo13 2012/11/02

machine_learning

リンク

Centroid Path Decompositionを使ったトライでダブル配列と勝負してみた - Preferred Networks Research & Development

釣りタイトルを付けたかったのですがさっぱり思いつかないのでもう諦めました。徳永です。今回はCentroid Path Decomposition（以下CPD）についての話を書きます。直訳すると重心パス分解となるでしょうか。Trieを実現するためのテクニック（普通のツリーにも使えるのかな？なかなか難しそうですが…）の一つです。CPDは一年前の弊社岡野原の記事に出てきますが、私のような素人にはあれだけでは理解できない部分があったので、今回はちょっと論文を読んでみました。 Trieの実装によくある問題 Trieを実現するためのデータ構造というとダブル配列とかが挙げられますが、こういった高速なデータ構造にも、ランダムアクセスが多いという弱点があります。メモリはHDDなどと比べるとランダムアクセスに耐えうる記憶媒体ですが、とは言えランダムアクセスは避けられるに越したことはありません。CPDを使うこ

gologo13 2012/09/02

リンク

博士公聴会：定数時間アルゴリズムについて | Preferred Research

吉田です．先日，博士論文の公聴会が終わりました．タイトルは「次数を制限したグラフと制約充足問題に対する定数時間アルゴリズムの研究」というものでした．また，博士課程での研究の成果が認められて，日本学術振興会から育志賞という賞を頂くことになりました．こちらは他の受賞者の研究内容が分からなさ過ぎて凄いですね．今後もPreferred Infrastructureにはアドバイザーの様な形で勤めることになると思いますので宜しくお願い致します．ということで博士課程の終わりも近く，良い区切りですので，これまで専門に研究してきた定数時間アルゴリズムについて簡単に話をすることにします．定数時間アルゴリズムは，その名のとおり入力長に依存しない計算時間で動作するアルゴリズムのことです．普通に考えてそんなアルゴリズムはあり得ないように思えますが，どうすればそんなアルゴリズムが実現出来るでしょうか

gologo13 2012/03/29

algorithm

リンク

大規模データ時代に求められる自然言語処理 - Preferred Networks Research & Development

話の内容は、自然言語処理が実世界で具体的にどのように応用されているのか、またその時に感じた課題についてです。後半の「何が必要とされているか」、あたりの話からは私や会社が特に重点的に取り組んでいる事そのものの話もなります。

gologo13 2012/02/09

nlp
PFI

リンク

任意の学習率の式に対する効率的なL1正則化の計算方法 : Preferred Research

今回はaveraged FOBOSの導出をしてみたのでその話を書こうかと思ったのですが、導出途中に平均化劣勾配法の場合と大差ないと気付いてしまってテンションが下がってしまいました。というわけで、ちょっとネタを変えて、学習率をいい感じに減衰させながら学習するためにはどうしたらいいのか、ありがちな実装テクニックについて書いてみます。前提知識前提知識として最適化問題をどう解くかを知っている必要があります。これについては以前に入門記事を書きましたので適宜ご参照下さい。文字数制限の関係で4回目と5回目のみリンクしておきます。劣微分を用いた最適化手法について(4) やっとFOBOSが出てくる第4回劣微分を用いた最適化手法について(完) 感動の最終回問題提起最近のオンライン学習において重要なテクニックの1つとして、パラメーター更新の遅延（lazy update）があります。これは、正則化の計

gologo13 2011/12/19

machineLearning

リンク

最速の疎ベクトルはどれだ - Preferred Networks Research & Development

海野です。自然言語処理などで機械学習を行おうとすると、非常に疎なベクトル表現を使いたくなります。疎、というのはほとんどの要素が0である、という意味です。前々から疎ベクトルライブラリのパフォーマンスに関して気になっていたので、幾つか調べてみました。 Jubatus Workshopでも話したとおり、機械学習を適用しようとすると、普通は対象のデータをベクトル表現に落とします。特に言語データの場合は、それぞれの単語や文字などを特徴次元とするため、非常に疎なベクトルとなってしまいます。純粋な配列（C++で言えばstd::vector）を使ってしまうと、大量にメモリを食ってしまうため疎ベクトル専用の表現を使うのが普通です。今日は様々な疎ベクトルライブラリのパフォーマンス比較を行おうと思います。比較したライブラリは以下のとおり。真の意味で、疎ベクトルのライブラリは、Eigenとublasだけで、残

gologo13 2011/11/23

eigen

リンク

オンライン凸最適化と線形識別モデル学習の最前線 - Preferred Networks Research & Development

内容は線形識別モデルの学習について（Perceptron, PA, CW, AROW, NHELDとNLP2010のtutorial + 最新のアップデート. 更新式が整理されています）、オンライン凸最適化のregret解析、sublinearなSVMの学習の話です。最近公開したjubatusの中の学習アルゴリズムの解説でもあります。コスト関数が凸である場合のOnline Gradient Descentのregret解析の証明は美しかったので、普通はこういうのはプレゼンではやらないとおもうのですが紹介しました。 Sublinearの学習の話は今後いろいろ発展しそうです。各学習例に動的に重みをつけて優先的に学習する方法は直感的にはできそうだと昔考えてたのですが、こういう形できれいに定式化できるのだと感心しました。 IBISはそこそこ参加していますが、毎年新しい分野の問題が登場してきて面白

gologo13 2011/11/21

リンク

モダン並列・並行プログラミング～ Concurrent Revisions による実装と現実～ - Preferred Networks Research & Development

本日社内向けのTechTalkにて、並列・並行プログラミングに関する話を行いました。昨今、プログラムの並列化はなくてはならないものとなっています。しかし、そのプログラミング環境は依然としてロックを用いたものが主流です。今回の発表の主張を端的に申し上げますと、 “Locks must go！” ということになります。並列プログラミングに銀の弾丸はありません。しかし、ロックは別の何らかの安全性を確保したプログラミングモデルで置き換えられなければいけません。そうでなければ、再現しにくいバグに苦しめられ、終電を逃す日々と決別することはできないでしょう。また、ロックによるプログラミングの抱える本質的問題にも言及しています。この界隈の最新の動向として、去年OOPSLA’10にて発表されたConcurrent Revisionsについての解説も行なっております。また、弊社研究開発において、先日Con

gologo13 2011/10/20

ParallelProgrammming

リンク

paper.jsでインタラクティブなグラフを描こう - Preferred Networks Research & Development

canvasベースのベクターグラフィクス描画用jsライブラリとして、既に各所で紹介されているpaper.jsですが、これを、ウェブに載せるグラフの描画に使ってみましょう、というお話です。 paper.jsではパスをつくって描画をしつつ、パスに対するhit testも可能ですし、アニメーションも実装することができます。プロジェクトサイトではオシャレなサンプルが多数掲載されていて、paper.jsで何ができそうなのかを簡単にざっくりと知ることが出来ます。 javascriptでインタラクティブなグラフを、というとGoogle Chart Toolsなど、既存のグラフ用ライブラリを使って簡単に済ませることもできますが、ひと手間加えて独自性のある表現を出したい場合は、paper.jsのようなライブラリを使ってみると良いかと思います。試しにpaper.jsの学習がてら、下記リンク先にあるような棒グ

gologo13 2011/10/20

JavaScript

リンク

研究・企業・生き方について - 情報科学若手の会2011 - Preferred Networks Research & Development

岡野原です。 2011/9/17〜2011/9/19に熱海で行われた情報科学若手の会2011に参加し、講演をしてきました。テーマを決めるに当たって、参加者の年齢、興味分野、スキルの幅が非常に広いということもあり、若手の会参加者のみなさんから質問を前もって聞いておき、それについて回答するという形にしました。自由に質問を集めたのですが、それらは研究・企業・生き方のテーマにまとめられそうだったので、それらのテーマに沿って講演をしました。研究 : 自然言語処理、機械学習、それらの今後企業：起業の話、PreferredInfrastructureの話、研究をビジネスに適用する際の話生き方：学生、社会人の心境、アドバイス、モチベーションの話など何か一つのメッセージを伝えるというよりは様々な考えや体験談、tipsなどを関係なく並べたものになっています。皆様にとって何か参考になれば幸いで

gologo13 2011/10/07

リンク

専門知識の仕入れ方 - Preferred Networks Research & Development

今日は，普段どのようにして専門知識を仕入れているかについて書いてみようと思います．特に自分が得意でない分野を知りたいと思った時に，どうするかに注目したいと思います．自分の専門の場合は，いくらでも時間を注ぐことが出来るので，世界中のリソースを全て探し当てて勉強すれば良いのですが，ちょっと興味が有るぐらいではそこまでやる時間は取れません．なので出来るだけ効率的に分かった気になるのが目標です．まず，論文を直接読むのはあまり効率的では無いと思います．論文は広い分野の中の或る問題に対して一つの解決方法を書いているだけで，分野全体を俯瞰することは目指していません．論文だけ読んで分野全体を理解するには，最低50本ぐらい読む必要が有ると思います．

gologo13 2011/09/19

0あとで読む

リンク

twitterで自然言語処理 - Preferred Networks Research & Development

勢い余ってスイカを買ったら、毎日食べるハメになってしまいました。海野です。どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。数えてみたら、重要国際会議であるACLで6件、EM NLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord

gologo13 2011/08/20

nlp

リンク

STL風に使えるマップ型コンテナの紹介と性能比較 - Preferred Networks Research & Development

最近スマートフォンに乗り換えました。徳永です。 C++は世に数あるプログラミング言語の中では比較的メモリを食わない方ですが、それでもメモリ使用量が問題となる場合はあります。そのような場合の対処方法はいくつか有りますが、手軽に選択できる方法として、今日はSTLのmapやunordered_mapと同じ感じで使えるデータ構造をいくつか紹介したい思います。以下、計算量の表記をする際には、要素数をnとします。 Loki::AssocVector LokiはModern C++ Designという本の作者であるAndrei Alexandrescuが開発したライブラリです。AssocVectorはその中の一つとして提供されているクラスで、vector<pair<key, value> >という型のベクターをkeyでソートした状態で持つ事により、二分探索による要素の探索を可能にしたデータ構造です。こ

gologo13 2011/07/20

リンク

単語と文字の話 - Preferred Networks Research & Development

4月からPFIで働いてます。海野です。今日は単語の話をします。読み物的な話なので軽く読んでください。テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

gologo13 2011/05/29

nlp

リンク

最近のtrieの話（xbwなど） - Preferred Networks Research & Development

ブログの更新がとまっていましたが、また少しずつ更新してきたいと思います。今回はtrie（トライ）の最近の話をしたいと思います。 trieはキー集合を扱うためのデータ構造の一種です。例えば、単語集合からなる辞書であったり、クロールしたURL情報を扱ったり、最近だと、KVS（Key Value Store)のようにキーを介してデータを保存、読み込みをしたりと様々な場面で利用されます。同じようにキー集合を格納するデータ構造としてハッシュを利用する方法があります。キーからハッシュ値を計算し、その場所に文字列へのポインタを格納しておくデータ構造です。ハッシュを利用した場合とtrieを利用した場合の一番の大きな違いは、trieの場合だと、ある文字列から始まるキーを全て列挙する、いわゆる接頭辞探索ができることです。例えば”te”で始まる文字列を網羅的に調べることができます。木をたどって、”te”の下

gologo13 2011/05/23

trie

リンク

はてなブックマーク

タグ

ブックマーク / tech.preferred.jp (30)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス