タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

PFIに関するmamorukのブックマーク (8)

  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

    mamoruk
    mamoruk 2011/05/29
    こんな論文あったのですね〜 id:emikoy さんが NAIST にいらしたとき、単語の内部構造の係り受けを求めるのに似たような手法を使っていたと思います。
  • Preferred Infrastructureは今年も夏期インターンを募集していますよ - 射撃しつつ前転 改

    あまり話題になっていませんが、私の勤務先のPreferred Infrastructure(略称PFI)では、今年も夏期インターンを募集しております。この夏は何をしようかなと悩んでいる大学3年生の方や大学院1年生の方などはぜひご検討ください。→ http://preferred.jp/intern_2010.html PFIがサマーインターンプログラムを実施する目的と言うか思惑は一つではありませんが、目的の一つとしては、会社で働くって言うのはこういう感じなのか、実際のところを学生さんに体験してもらう、というところにあります。そのため、期間も日の夏期インターンとしては比較的長く、格的に体験できる仕様になっております。具体的には2ヶ月の間週5日間(祝日は休み)、1日8時間の勤務で、社員と同じスケジュールになっています。 今回のインターンプログラムの内容に関しては、まだその詳細は発表できませ

    Preferred Infrastructureは今年も夏期インターンを募集していますよ - 射撃しつつ前転 改
  • 単語分割器Micterを公開しました - 射撃しつつ前転 改

    しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。 単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。 形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、

    単語分割器Micterを公開しました - 射撃しつつ前転 改
    mamoruk
    mamoruk 2010/06/25
    すばらしい
  • PFI インタビュー: 情報科学科の先輩に聞く!|東京大学理学部 情報科学科/東京大学大学院情報理工学系研究科 コンピュータ科学専攻

    ソフトウェア開発でいま最も熱い分野のひとつ「検索エンジン技術」。激しい技術革新と、し烈な開発競争が繰り広げられるこの分野で、「PFI」というベンチャー企業が注目を集めている。PFIを創業したのは、情報科学科の先輩たち。かつて同期生だった3人は、自分たちの技術力でビジネスの世界に挑戦中だ。 株式会社プリファードインフラストラクチャー(Preferred Infrastructure:PFI) 2006年3月、記事登場の3名を含む6名のエンジニアが集まって設立。エンタープライズ向け全文検索エンジン『Sedue(セデュー)』の開発を核に、リコメンドエンジン、連想検索エンジン、関連記事推薦エンジンなどの自然言語処理/大規模データ処理系のミドルウェアを開発している。社名は「純粋関数型言語(Purely Functional programming language)」の頭文字PFに由来している。

    mamoruk
    mamoruk 2010/05/19
    かっこいいっすねー
  • Preferred Infrastructure(PFI)のインターンに参加してきました。 - Yasuo Tabeiの日記

    8月と9月の二ヶ月間, Preferred Infrastructure(略してPFI)のインターンに参加してきました。 PFIは、主に情報検索やレコメンデーションソフトウェアーを開発しているベンチャー企業です。PFIについては、http://preferred.jp/index.htmlを参照してください。 7月の終わりにインターンの募集があります。インターンに応募すると、まず書類選考があり、それに通過すると面接があります。面接時間は約30分で、2つの問題が出題されます。今年は、以下の問題が出題されました。 1.現在の情報検索のランキングについて調べて、その利点と欠点を述べよ。 2. 整数の集合を格納するデーター構造、及び、検索アルゴリズムを記述せよ。 1に関しては、事前に出題(といっても5日ぐらい前)されます。2に関しては、その場で出題しその場で解きます。問題からわかるとおり、面接では

    Preferred Infrastructure(PFI)のインターンに参加してきました。 - Yasuo Tabeiの日記
    mamoruk
    mamoruk 2009/11/11
    ほうほう
  • 岡野原 大輔さんの講演 - Tocotonistの日記(晴れのち快晴)

    私の一番のmotivationはこのセッションでした。 11:00〜11:50 講師: 岡野原 大輔さん(blog, twitter) 所属:株式会社プリファードインフラストラクチャー(PFI)特別研究員, 東京大学辻井研, 辻井研の論文 講演タイトル:SBMの推薦アルゴリズム 〜はてなブックマークのレコメンド(関連エントリ)の仕組み〜 資料upあり videoあり rf. はてなおやさんの資料 講演概要 発表では、SBMの推薦アルゴリズムにおける精度、処理性能向上のための手法を最新の研究成果も含めて解説する。また、実例として、はてなブックマークにおける「関連エントリ」を弊社のシステムがどのように実現しているかを解説する。 以下は私のメモです。 PFIはもともとPurely Functional Infrastructureやったんや 岡野原さんではないが、(大田さんかな)Haskell

    岡野原 大輔さんの講演 - Tocotonistの日記(晴れのち快晴)
    mamoruk
    mamoruk 2009/09/13
    参考になった
  • PFIインターンに行ってきました。 - Blog by Sadayuki Furuhashi

    8月1日から8月31日までの1ヶ月間、PFI夏期インターンに行ってきました。 はてなインターンの 講義・課題・チーム 形式とは趣を異にして、個々人が何か1つのプロジェクトに取り組む方針で進みました。取り組むテーマは 新たに取り組みたい/今取り組んでいる 内容を前提に、既存の問題の中から近いテーマを見つけます(あるいはこじつける^^;)。 インターンの期間中の1ヶ月か2ヶ月の間に成果を出すのが目標! 取り組むテーマはスムーズに決まりました。何か自社で製品を作っていれば普通かと思いますが、探せば問題はいくらでもあるモノです^^ ちなみにPFIの製品は、全文検索エンジンやレコメンドエンジンなどです。 私は以下の4つのプログラムを実装しました: 既存の実装に代わるRPCフレームワーク MessagePack-RPC for PFI クラスタ管理ツール clx プロセス管理ユーティリティ daemo

    PFIインターンに行ってきました。 - Blog by Sadayuki Furuhashi
    mamoruk
    mamoruk 2009/09/10
    1ヶ月ですごい!
  • ネットコミュニケーション前提の起業とは?:日経ビジネスオンライン

    前回、サイボウズ創業者で米国での起業に挑戦した高須賀宣氏は、新ウェブサービス「Twitter(ツイッター)」に、業務の「マイクロ化」と能力の「インディビジュアル化」という流れが潜んでいることを指摘した。これは、海の向こうの話なのだろうか――。 いや、違う。日でも新しいタイプのベンチャー企業が登場している。検索エンジン開発のプリファード・インフラストラクチャー(東京都文京区)も、そうした1社と言えるだろう。独立行政法人の情報処理推進機構(IPA)がソフトウエア関連分野で優れた個人を発掘・育成する目的で実施している「未踏ソフトウェア創造事業」に選出されたメンバーがずらりと名を連ねている。 力のある個人が集まって起業する。ここに、高須賀氏の指摘する動きが、日にも押し寄せていることを感じざるを得ない。 プリファード・インフラストラクチャーの主要メンバーに、特別研究員の岡野原大輔氏がいる。3年前

    ネットコミュニケーション前提の起業とは?:日経ビジネスオンライン
    mamoruk
    mamoruk 2009/08/21
    おお将来に期待!!!
  • 1