タグ

ブックマーク / tech.preferred.jp (13)

  • データ解析作業の救世主! 超絶☆実験ビルドシステムmafをOSS公開しました - Preferred Networks Research & Development

    Photo by midiman under Creative Commons License (original) メリークリスマフ! 得居です。今日はクリスマスですね。皆様昨日はいかがお過ごしでしたでしょうか? クリスマスということで、今日は私たちから皆様に、特にデータ解析や論文執筆、手法の比較検証のために計算機上で様々な実験をしている方々に、プレゼントがあります! Github – pfi/maf 今日、実験結果を「ビルドする」ためのツールmafを公開しました! mafは、PFIでもよく使われているPythonベースのビルドツールwafを実験に使うための拡張です。大まかな使い方を学ぶために、ドキュメントとサンプルも公開しています。 maf — maf 0.1 documentation サンプル 実験手順をビルドだと思って宣言的に書くこと自体はwaf等既存のビルドツールで可能です。m

    データ解析作業の救世主! 超絶☆実験ビルドシステムmafをOSS公開しました - Preferred Networks Research & Development
  • ICML2013読み会を開催しました - Preferred Networks Research & Development

    夏ですね。暑いですね。比戸です。 先月開かれた機械学習のトップ会議ICML2013の論文読み会を開催しました。会議に参加したPFIメンバーがいたので、せっかくだからと外部公開にしたところ、想像以上の盛り上がりとなりました。 1週間前というかなり無理なスケジュールで募集をかけたにも関わらず、読む人枠は瞬時に埋まり、聞く人の数も予想を大きく超え合計40名と弊社オフィスでは収まらなくなったため、東大の中川先生にお願いして場所をお貸し頂きました。ありがとうございました。 平日夜18時から22時という時間にもかかわらず濃密なガチ発表が続き、とても有意義な情報共有・質疑が出来たのではないかと思います。ここ1-2年このような論文読み会の機会が減っていると感じていたので、今後も継続的に開催出来ればと思います。 発表者の皆さんもかなり資料をSlideshareに上げてくださったのでせっかくなのでここにまと

    ICML2013読み会を開催しました - Preferred Networks Research & Development
  • NIPS2012に行ってきました - Preferred Networks Research & Development

    先日、NIPS (Neural Information Processing Systems)という学会に参加してきました。今回はその報告です。 NIPSは機械学習の分野においてはトップに位置づけられる会議の一つです。今回、私は特に発表とかはなかったのですが、幸運にも参加することができました。2012年からしばらくは、アメリカ合衆国ネバダ州タホ湖湖岸にあるHarveys HotelとHarrah’s Hotelで開催されます。今回はチュートリアルからワークショップまで、6日間すべてに参加してきましたので、その印象を独断と偏見で語ります。 NIPSはシングルトラックで招待講演と口頭発表を聞いて、残りは全部ポスターセッションという構成になっているのですが、これは口頭発表で聞き逃しもないし、詳しく聞きたい奴はポスターで詳しく聞けるし、なかなかうまい方式だと感じました。代償として口頭発表は非常に数

    NIPS2012に行ってきました - Preferred Networks Research & Development
  • MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development

    どうも,実は今年から開発チームにjoinしていた中川です.可愛い犬の写真がなかったので,可愛いマスコットの画像を貼っておきます. 最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました.これはつまり,それだけ大量のデータをなんとか処理したいという要望があるからだと思います.しかし当たり前ですが,MapReduceは銀の弾丸ではありません. ということで,最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について,社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います. Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです.長いのでBSPと書きます.さて,グラフから最短経路を求める時,MapReduceは使えるでしょうか?このような論文が出るくらいですから出来ないことはあ

    MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development
  • 中心性:始まりから最近まで - Preferred Networks Research & Development

    PFI に入社して二ヶ月ちょっとの伊藤です。 ソーシャルネットワークサービスが一般的になるにつれ中心性という概念が注目されてきました。情報科学を専攻されている場合、Google PageRank や HITS アルゴリズムで算出されるグラフの節点に付与される重要度と言うと分かりやすいとのではないか思います。呼び方こそ違いますが、この中心性と重要度は同一の概念、つまりグラフの節点に重み(点数)をつける尺度として知られています。以下、PageRank とHITS が提案された論文です。 Brin, S. and Page, L. The anatomy of a large-scale hypertextual (web) search engine. Computer Network and ISDN Systems.1998. Kleinberg, J. M. Authoritative

    中心性:始まりから最近まで - Preferred Networks Research & Development
    rindai87
    rindai87 2012/03/29
    中心性の歴史のお話。後で読む!
  • 文書解析のための簡潔データ構造 - Preferred Networks Research & Development

    岡野原です。 12/1〜12/2に高松で開催されたALSIP2011で文書解析のための簡潔データ構造の最近の進展について話をしてきました。 ここの業界の進展は速く毎年様々な方法が出てきますが、要点だけを上げると – Wavelet Treeがアルファベットサイズが大きい場合のRank/Select操作だけではなく、2D矩形探索、最頻要素列挙など様々な問題を効率的に解けることが分かってきて非常に重要なデータ構造であることが分かってきた。2D探索も、もはや数億 x数億とかでも解けてしまうので2D探索を利用するような様々な手法が全部現実的になった。 – Top-K Queryが盛り上がっている。検索などデータ構造に問い合わせをする際に、該当する結果を全部を列挙することの高速化は理論的にも難しいが、スコアが高い順(例えばterm frequencyやPageRankなど)にk個だけ列挙するだけなら

    文書解析のための簡潔データ構造 - Preferred Networks Research & Development
  • 高速な安定ソートアルゴリズム "TimSort" の解説 - Preferred Networks Research & Development

    先日、TimSortというソートアルゴリズムが話題になりました。TimSortは、高速な安定ソートで、Python(>=2.3)やJava SE 7、およびAndroidでの標準ソートアルゴリズムとして採用されているそうです。 C++のstd::sort()よりも高速であるというベンチマーク結果1が話題になり(後にベンチマークの誤りと判明)、私もそれで存在を知りました。実際のところ、ランダムなデータに対してはクイックソート(IntroSort)ほど速くないようですが、ソートというシンプルなタスクのアルゴリズムが今もなお改良され続けていて、なおかつ人々の関心を引くというのは興味深いものです。 しかしながら、オリジナルのTimSortのコードは若干複雑で、実際のところどういうアルゴリズムなのかわかりづらいところがあると思います。そこで今回はTimSortのアルゴリズムをできるだけわかりやすく解

    高速な安定ソートアルゴリズム "TimSort" の解説 - Preferred Networks Research & Development
  • 機械学習の数学記号に慣れる ー初めの一歩で躓かないためにー - Preferred Networks Research & Development

    初めまして,大野と申します.今回から自分もリサーチブログを書く事になりました.これを期に定期的に投稿が出来ればと思っています. 自己紹介をしますと,私は学部から修士課程まで数学を専攻していました.入社したのは今年の4月ですが,PFIにはそれ以前から関わっており,昨年の夏にインターンに参加していました. インターンは今年も行っており,今年も皆さん奮闘しています.9月30日の13:00から15:00でUstream配信される予定ですので,是非ご覧になってください. さて,今回社内で「言語処理のための機械学習入門」(コロナ社)というを用いて勉強会を開く事になりました.私自身専攻していた分野はいわゆる純粋数学で,機械学習の分野はあまり詳しくはないので楽しみにしています. この勉強会では紙と鉛筆を用いて自分で計算過程を追いながら読もうとしています.そこで,その準備として第0回チュートリアルを行いま

    機械学習の数学記号に慣れる ー初めの一歩で躓かないためにー - Preferred Networks Research & Development
  • 分散データベース「HBase」の安定運用を目指して - Preferred Networks Research & Development

    1年経ってiPhone4の電池がヘタってきた、太田です。 指数関数的にエントリ数が少なくなってきたブログですがw、景気付けのためにエントリを投稿したいと思います!日はHBaseについてです。 Linux と Hadoop と HBase と ZooKeeper に詳しいあなた!あなたがターゲットです。 HBaseとは? HBaseとは、HDFS (Hadoop Distributed File System)上に構築された分散データベースです。大量の非常に細かいデータをリアルタイムに読み書き出来るのが特徴です。最近ではFacebook Messageの基盤技術として使用された事で注目を集めています。 HBase公式サイト Apache HBase ブック 保存されたデータはHDFS上に保存され、HDFSの仕組みによってレプリケーションされるため安全にデータを保持することが出来ます。 ま

    分散データベース「HBase」の安定運用を目指して - Preferred Networks Research & Development
  • 研究・企業・生き方について - 情報科学若手の会2011 - Preferred Networks Research & Development

    岡野原です。 2011/9/17〜2011/9/19に熱海で行われた情報科学若手の会2011に参加し、講演をしてきました。 テーマを決めるに当たって、参加者の年齢、興味分野、スキルの幅が非常に広いということもあり、若手の会参加者のみなさんから質問を前もって聞いておき、それについて回答するという形にしました。 自由に質問を集めたのですが、それらは研究・企業・生き方のテーマにまとめられそうだったので、それらのテーマに沿って講演をしました。 研究 : 自然言語処理、機械学習、それらの今後 企業:起業の話、PreferredInfrastructureの話、 研究をビジネスに適用する際の話 生き方:学生、社会人の心境、アドバイス、 モチベーションの話など 何か一つのメッセージを伝えるというよりは様々な考えや体験談、tipsなどを関係なく並べたものになっています。 皆様にとって何か参考になれば幸いで

    研究・企業・生き方について - 情報科学若手の会2011 - Preferred Networks Research & Development
  • 専門知識の仕入れ方 - Preferred Networks Research & Development

    今日は,普段どのようにして専門知識を仕入れているかについて書いてみようと思います.特に自分が得意でない分野を知りたいと思った時に,どうするかに注目したいと思います.自分の専門の場合は,いくらでも時間を注ぐことが出来るので,世界中のリソースを全て探し当てて勉強すれば良いのですが,ちょっと興味が有るぐらいではそこまでやる時間は取れません.なので出来るだけ効率的に分かった気になるのが目標です. まず,論文を直接読むのはあまり効率的では無いと思います.論文は広い分野の中の或る問題に対して一つの解決方法を書いているだけで,分野全体を俯瞰することは目指していません.論文だけ読んで分野全体を理解するには,最低50ぐらい読む必要が有ると思います.

    専門知識の仕入れ方 - Preferred Networks Research & Development
  • ユニークなクラウドソーシング・プロジェクト - Preferred Networks Research & Development

    こんな暑い日はTDSに行きたい祢次金です。 機械には難しい大量のタスクを不特定多数の人間に依頼できる、クラウドソーシング。有名どころはAmazonのMechanical Turk(以下、Mturk)かと思いますが、最近では機械学習や自然言語処理の研究で、学習データへのアノテーションタスクに活用されることもあるそうです。 機械学習とは関係ありませんが、先日見たTEDのプレゼンテーションの中に、クラウドソーシングを利用した面白いプロジェクトがありましたので紹介したいと思います。 このプレゼンテーションは現在Google Creative Labに所属するAaron Koblin氏によるものです。プレゼン中の、クラウドソーシングが絡むプロジェクトから幾つかピックアップします。 Ten Thousand Cents 100ドル札を10000の小さな区間に分割し、Mturkを使って各区間を10000

    ユニークなクラウドソーシング・プロジェクト - Preferred Networks Research & Development
  • 最近傍探索2011 - Preferred Networks Research & Development

    こんにちは、二台目のmbaを買うのをためらっている岡野原です。 アイテム集合に対し、与えられたアイテムと似ているアイテムを求める、という近傍探索問題は古典的な問題でありながら、現在でも多くの改善がされています。特に言語情報、画像情報、行動履歴情報、生物情報、購買情報などありとあらゆるデータが高次元中の点として表現されるようになってきており、こうしたデータの最近傍探索は広い分野で応用範囲がある技術になっています。 アイテムが低次元(例えば2, 3次元)の場合はkd木や最近だとwavelet木を使う方法がありますが、今回扱うケースは各アイテムが高次元(数百万次元)中の点であったり、アイテム間の距離のみが定義されている場合(カーネル関数など)です。アイテム数は数万から数億ぐらいを想定しています。 最近傍探索問題はいくつかありますが、例えばk近傍グラフ構築問題では、 「アイテム集合X = x1,

    最近傍探索2011 - Preferred Networks Research & Development
    rindai87
    rindai87 2011/08/24
    最近傍探索
  • 1