yosuke_furukawaのブックマーク - はてなブックマーク

yosuke_furukawa id:yosuke_furukawa

ブックマーク / tech.preferred.jp (11)

DNN推論用ライブラリ「Menoh」リリースについて - Preferred Networks Research & Development
Python以外も使いたくないですか？特にDeepLearning界隈で． Menoh開発者の岡田です．この記事ではMenohの紹介と開発に至った動機について説明します． Menohのレポジトリ： https://github.com/pfnet-research/menoh Menoh（メノウ）は学習済みのDNNモデルをONNX形式から読み込んで動作させる推論専用のライブラリです．実装はC++で書きましたが，C言語のインターフェースを持たせて，他の言語用からもその機能を呼び出しやすくしてあります．リリース時点でC++版ラッパーとC#版ラッパー，Haskell版ラッパーがあり，Ruby版ラッパーとNodeJS版ラッパー，Java（JVM）版ラッパーが開発中です．バックエンドにはIntelの開発しているMKL-DNNを採用し，GPUが無くてもIntel CPUが使える環境で高速にモデルの
yosuke_furukawa 2018/06/21
リンク
Preferred Networks における研究活動 - Preferred Networks Research & Development
こんにちは、新しく執行役員兼 Chief Research Strategist に就任した秋葉です。就任の挨拶を兼ねて、PFN における研究活動に関する考えを共有したいと思います。 PFN における研究とは何か？何が研究であり何が研究でないかという境界を引くのは非常に難しく、またそれを積極的に行う意味もありません。研究とは「研ぎ澄まし究めること」を語義とし、一般に、物事について深く調査・考察を行い事実を解明したり発明を行ったりすることを指します。 PFN では挑戦的であり不確実性の高いプロジェクトが大部分を占めており、ほぼ全てのプロジェクトが少なからず研究的側面を伴います。深層学習関連のコア技術の研究開発は勿論、その応用に関してもデータやタスクに応じた適切な手法の選択や非自明な工夫がなければ上手くいかないことが殆どです。また、ロボティクス、コンピュータビジョン、自然言語処理等のような多
yosuke_furukawa 2018/06/09
リンク
ウェーブレット木の世界 - Preferred Networks Research & Development
岡野原です。ウェーブレット木の解説を統数研チャンネルにて行いました。統数研チャンネル（プレミアム会員ならしばらくタイムシフト視聴可能）。ウェーブレット木は万能のデータ構造であり、系列データ、全文検索、グラフ、二次元情報、フィンガープリントなど様々なデータに対して多くの操作をサポートします。本解説では大規模データの背景、ウェーブレット木の作り方、使い方、様々なデータへの適用、最前線（ウェーブレット行列）などを紹介しています。本解説は拙著「高速文字列解析の世界」とあわせてみていただけたらと思います。
yosuke_furukawa 2013/01/10
かなりわかりやすい、詳細な記事。

自然言語処理

あとでみる
リンク
大規模データ時代に求められる自然言語処理 - Preferred Networks Research & Development
話の内容は、自然言語処理が実世界で具体的にどのように応用されているのか、またその時に感じた課題についてです。後半の「何が必要とされているか」、あたりの話からは私や会社が特に重点的に取り組んでいる事そのものの話もなります。
yosuke_furukawa 2012/02/09
読んでみたら面白い。この辺りの話もう一回おさらいしておきたい。

自然言語処理

データ

テキストマイニング

presentation

bigdata
リンク
高速な安定ソートアルゴリズム "TimSort" の解説 - Preferred Networks Research & Development
先日、TimSortというソートアルゴリズムが話題になりました。TimSortは、高速な安定ソートで、Python(>=2.3)やJava SE 7、およびAndroidでの標準ソートアルゴリズムとして採用されているそうです。 C++のstd::sort()よりも高速であるというベンチマーク結果1が話題になり(後にベンチマークの誤りと判明)、私もそれで存在を知りました。実際のところ、ランダムなデータに対してはクイックソート(IntroSort)ほど速くないようですが、ソートというシンプルなタスクのアルゴリズムが今もなお改良され続けていて、なおかつ人々の関心を引くというのは興味深いものです。しかしながら、オリジナルのTimSortのコードは若干複雑で、実際のところどういうアルゴリズムなのかわかりづらいところがあると思います。そこで今回はTimSortのアルゴリズムをできるだけわかりやすく解
yosuke_furukawa 2011/10/29
アルゴリズム

データ

プログラミング

技術

Algorithm

TimSort

Programming
リンク
Jubatusを公開しました - Preferred Networks Research & Development
先日、NTTと共同研究開発したJubatusを公開しました。 OSSで公開されてますので、興味がある方は使ってみるなり、ソースコードを眺めるなり、できればプロジェクトに参加していただけたらと思います。 Jubatus（ユバタス）は、大規模分散上でリアルタイムで機械学習を行うためのフレームワークです。このプロジェクトは元々、機械学習やデータ解析が好きなPFIと、ネットワークやシステム運用実績が豊富で技術力があるNTT情報流通プラットフォーム研究所と組んで何かできないかということで始めました。「大規模分散」＋「リアルタイム」＋「深い解析」という三つの特徴を持った上でデータを分析するためにどのようなアーキテクチャが考えられて、その上でどのような解析ができるのかというのを日々試行錯誤して作っています。今回はリリース第１段ということで、手法としては分類（教師有学習の多クラス分類）に絞ってOSS
yosuke_furukawa 2011/10/29
機械学習

OSS

アーキテクチャ

ネットワーク

開発

マイニング
リンク
averaged stochastic gradient descentのご紹介 - Preferred Networks Research & Development
そろそろ寒くなってきましたね。早速風邪を引きました。徳永です。今日は私の使っている自作の足置き（制作費600円）の紹介でお茶を濁そうと思っていたのですが、途中で方向転換しました。今日は機械学習の話をします。 Léon Bottouという研究者（彼はまたDjVuというドキュメントフォーマットの開発者でもあります）が開発・公開しているsgdというソフトウェアのバージョン2.0が公開されました。sgd 2.0ではaveraged stochastic gradient descent（ASGD）という手法が実装され、これまでのSGDと比べて性能が向上しました。今日はこのASGDを紹介したいと思います。日本語に訳すと平均化確率的勾配降下法でしょうか。漢字が多くて読みづらいので以下ではASGDと呼びます。もともと、SGD（確率的勾配降下法）はNLPのような高次元かつスパースなタスクではうまく行く
yosuke_furukawa 2011/10/21
SVM

機械学習

メモリ

NLP

データ
リンク
モダン並列・並行プログラミング～ Concurrent Revisions による実装と現実～ - Preferred Networks Research & Development
本日社内向けのTechTalkにて、並列・並行プログラミングに関する話を行いました。昨今、プログラムの並列化はなくてはならないものとなっています。しかし、そのプログラミング環境は依然としてロックを用いたものが主流です。今回の発表の主張を端的に申し上げますと、 “Locks must go！” ということになります。並列プログラミングに銀の弾丸はありません。しかし、ロックは別の何らかの安全性を確保したプログラミングモデルで置き換えられなければいけません。そうでなければ、再現しにくいバグに苦しめられ、終電を逃す日々と決別することはできないでしょう。また、ロックによるプログラミングの抱える本質的問題にも言及しています。この界隈の最新の動向として、去年OOPSLA’10にて発表されたConcurrent Revisionsについての解説も行なっております。また、弊社研究開発において、先日Con
yosuke_furukawa 2011/10/21
プログラミング

Programming

concurrent

並列処理

並行

並列

Parallel
リンク
専門知識の仕入れ方 - Preferred Networks Research & Development
今日は，普段どのようにして専門知識を仕入れているかについて書いてみようと思います．特に自分が得意でない分野を知りたいと思った時に，どうするかに注目したいと思います．自分の専門の場合は，いくらでも時間を注ぐことが出来るので，世界中のリソースを全て探し当てて勉強すれば良いのですが，ちょっと興味が有るぐらいではそこまでやる時間は取れません．なので出来るだけ効率的に分かった気になるのが目標です．まず，論文を直接読むのはあまり効率的では無いと思います．論文は広い分野の中の或る問題に対して一つの解決方法を書いているだけで，分野全体を俯瞰することは目指していません．論文だけ読んで分野全体を理解するには，最低50本ぐらい読む必要が有ると思います．
yosuke_furukawa 2011/09/19
大学

機械学習

programming

勉強

学習

research

研究

まとめ
リンク
twitterで自然言語処理 - Preferred Networks Research & Development
勢い余ってスイカを買ったら、毎日食べるハメになってしまいました。海野です。どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。数えてみたら、重要国際会議であるACLで6件、EM NLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord
yosuke_furukawa 2011/08/21
Twitter

blog

研究

自然言語処理

語彙

language

twitter

nlp
リンク
最近傍探索2011 - Preferred Networks Research & Development
こんにちは、二台目のmbaを買うのをためらっている岡野原です。アイテム集合に対し、与えられたアイテムと似ているアイテムを求める、という近傍探索問題は古典的な問題でありながら、現在でも多くの改善がされています。特に言語情報、画像情報、行動履歴情報、生物情報、購買情報などありとあらゆるデータが高次元中の点として表現されるようになってきており、こうしたデータの最近傍探索は広い分野で応用範囲がある技術になっています。アイテムが低次元（例えば2, 3次元）の場合はkd木や最近だとwavelet木を使う方法がありますが、今回扱うケースは各アイテムが高次元（数百万次元）中の点であったり、アイテム間の距離のみが定義されている場合（カーネル関数など）です。アイテム数は数万から数億ぐらいを想定しています。最近傍探索問題はいくつかありますが、例えばk近傍グラフ構築問題では、「アイテム集合X = x1,
yosuke_furukawa 2011/08/06
データ

技術

search

Algorithm

kNN

研究

research
リンク
1