タグ

2009年9月28日のブックマーク (10件)

  • 人物情報検索のトレンドご紹介 part3 テキストマイニング技術について

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、Yahoo! JAPAN 研究所の山下達雄です。 今回は「Yahoo!人物名鑑」の一要素である「関連人物モジュール」について技術的な解説をしていきたいと思います。よろしくお願いします。 関連人物モジュールは、人物名鑑のページの右カラムにある「関係ありそうな人物名」で使われています。 例)夫木聡さんの場合 ウェブ上のさまざまなテキストデータを分析して、人物同士の関連度を計算し、その関連度の高い人物をタグクラウド形式で表示しています。 関連度の計算には様々なテキストマイニング的な手法を用いていますが、ここではウェブ検索を利用した簡単で効果的を方法を説明します。 ■処理の流れ 分かりやすくするため、関連人物ではなく関連語を

    人物情報検索のトレンドご紹介 part3 テキストマイニング技術について
    hiromark
    hiromark 2009/09/28
    人物情報検索をどんなアルゴリズムで実現してるか概説。
  • BLOG::broomie.net: Thriftのスピードについて

    shunyaです.最近Crystal Keyのアルバムを聴いていてCrystal Keyが改めて良いと思いました.切なくて甘酸っぱいです. Thriftのパフォーマンスについて さて,前回のエントリー(Thriftが便利すぎる)では,僕が感じたThriftの便利さを熱弁する内容となっておりました.始めて使った感想としてはすごく便利!だったわけですが,実際に何かしらのサービスに導入するためにはThriftのパフォーマンスをチェックしなければなりません. で,今回は簡単なThriftのベンチをとってみることにしました.僕的に気になるのが,前回のエントリーでも書いたようにRESTととの違いです.つまりRESTではCGIを使ってHTTPで通信するので,比較的高速に処理できます.それに対して,Thriftでは独自に定義されたRPCで通信します.とても便利なのはいいのですが,この独自のプロトコルがどれ

  • 「テキストプロトコルは遅くないよ」という話 - kazuhoのメモ置き場

    「バイナリプロトコルは速い」「テキストプロトコルは遅い」という言説を、ときおり目にするけど、それって当なのか。個人的には、それって昔の話だと思ってる。 SMTP みたいな、ペイロードについてもターミネータ(とエスケープ)を使うプロトコル*1は確かに遅い。で、FTPプロトコルでは、大容量のデータを「高速」に転送するために、制御用のTCPコネクションと転送用のコネクションを分けたりしてた。 だけど、HTTPプロトコルは、テキストプロトコルだけど、ペイロードについてはターミネータを使わない。keep-alive を行う際には、Content-Length ヘッダ(あるいはchunkedエンコーディング)を使うことで、ペイロードのパース/変換処理を不要にしている。別の言い方をすると、テキストプロトコルだからと言って、バイナリプトロコルよりペイロードの処理時間が長くなるとは限らない。HTTP 以降

    「テキストプロトコルは遅くないよ」という話 - kazuhoのメモ置き場
    hiromark
    hiromark 2009/09/28
    なるほど。なんか手元のもので実験してみたいな。
  • Windows Mobileに「全力投球」を決めたMicrosoftの厳しい戦い

    ここの所モバイルの世界ではすっかりGoogleAppleにおいしいところをもっていかれてしまっているMicrosoft。そろそろ「撤退」か「全力投球」のどちらを選ぶ時期だと思っていたのだが、ついに「全力投球」を決めたそうだ。 今までは「Windows CEビジネスの延長上」程度にしか力を入れて来なかったWindows Mobileビジネスだが、Steve Ballmerが「開発者の心をAppleに奪われるなんて由々しき事態」と宣言し、主戦力をWindows部隊のトップクラスのエンジニアにごっそりと入れ替えての「体力勝負」に出る事にしたとのこと。

  • で、実際のところHTML5でどのくらいのアプリが実装できるのか実験してみた

    少し前のエントリーでも触れた事があるが、「このままHTML5が普及してくれればスマートフォン向けのアプリの大半はHTML+CSS+Javascriptだけで作れるんじゃないか」と感じ始めている私である。 もちろん、そうなるには「規格がきちんと統一される」「まともな実装をしたスマートフォンが十分に普及する」「iPhoneの一人勝ちにはならない」などの条件が満たされる必要があるため、必ずしもそうなるとは限らないが、少なくとも「そろそろキチンと勉強しておいて損はない」技術であることは確か。

    で、実際のところHTML5でどのくらいのアプリが実装できるのか実験してみた
  • 技術者が金儲けして何が悪い?-頭脳流出のススメ - My Life After MIT Sloan

    Tech-Onの記事「だから技術者は報われない」を読んだ。 日企業で「ものづくり」に関わる優秀なエンジニアが、安い給料で働かされ、しかも「好きなことやってるんだから、給料安くても仕方ない」と思わされてること。 この手の記事を読んでいると、私はいつも思う。 「技術者がお金を儲けて、何が悪い?」 別に金儲けを人生の目的にしろ、と言ってるんじゃない。 自分のスキルや仕事の成果に対して、相当の対価をもらうのはグローバルスタンダードだ。 それを、恥ずかしいことだなんて思わないでほしい。 だって日技術者はこんなに素晴らしい技術力を持ち、シリコンバレーのアメリカエンジニアなんかより、よっぽど真面目で、いつも遅くまで働いて・・・。 それなのに何でこんなに給料も安く、待遇も悪く、さらに皆それに甘んじているのか、と思うと、ものすごく腹が立つ。 私は、報われない日の優秀な技術者は、こんな国でイジイジし

  • アンパンマンミュージアムのアンパンマンパン - ズンガリガリガリズンガリガーリ

    アンパンマンミュージアム(の横のショッピングモール)にはジャムおじさんのパン工場があって、キャラクターのパンが買えますよ。バイキンマンをパンにするのは勇気がいることだったでしょう。なんといってもバイキンですからね。ちなみに中身はブルーベリージャムだ。ドキンちゃんがイチゴジャムなのでうまく対になっていると言えるかも。しかしブルーベリージャムでバイキンマンの紫色を表現してるのかと思うと複雑。買いませんでした。名犬チーズの中身はもちろんチーズ。あかちゃんまんはミルク的なクリームでした。あ、そういえばパンマンは何でできているのか見るの忘れたな。そもそもパンマンあったか覚えてないや。 カレーパンマンあかちゃんまん

    hiromark
    hiromark 2009/09/28
    これはすごい。
  • BLOG::broomie.net: 各種分類器の分類精度を示した絵がおもしろい

    今日会社で多次元のデータを2次元にクールでベストプラクティスな感じでプロットするにはどうしたらいいんだろうね、やっぱ多次元尺度構成法じゃない?的な会話をしていたのだけれども、2次元にデータを落とし込むと人間にもわかるデータになって当におもしろいですよね。今日はその一例というか、いくつかの分類器の分類精度を2次元にプロットした結果を示した実験結果を解説したページを紹介します。おおーこうゆうのみたかったんだよなー!と個人的にはかなりエキサイティングな感じでした。 要約というか意訳になってしまうのですが、ページに以下のように説明されています。(細かいところは訳してません) http://home.comcast.net/~tom.fawcett/public_html/ML-gallery/pages/index.html 分類タスクの機械学習の研究では定量的な評価が重要です(精度とかACUと

    hiromark
    hiromark 2009/09/28
    おもしろい。
  • クックパッドとHadoop - クックパッド開発者ブログ

    はじめまして。今年の5月に入社した勝間@さがすチームです。 入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う 「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています! さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、 クックパッドの検索まわりについて、いろいろな開発を行っています。 一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。 ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、 分散処理環境の必要性が高まってきました。 そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

    クックパッドとHadoop - クックパッド開発者ブログ
    hiromark
    hiromark 2009/09/28
    あとで。
  • 書いたり捨てたりするお仕事です。 - Ockham’s Razor for Engineers

    大量に書類を書くよ研究開発は、まるで大学の実験レポートとか宿題のよーに、大量に実験データをとって大量にグラフを描いて、精査して、報告書とか書類をごりごり書くのが仕事です。大学院のときのhttp://d.hatena.ne.jp/tsugo-tsugo/20090609を彷彿とさせるぐらい書きます。あと、プレゼンテーション。製品部に成果を報告するスライド、自分とこで何やってるかを説明する広く使えるスライド、学会用のスライド、なんかとにかくたくさん作りますよ。そして何度も上から指摘され、修正します。ぐすん。いやいや、だからこそ、仕事上指摘されたこと、注意されたこと、仕事上の議論は自分の人格とは関係ない、と切り分けないと精神が持たないのです。 だけど、実験データは要点だけ抑えてあとは捨てたりするよものづくりでは、世の中に安全な製品を送り出すために、わざわざ製品を苛酷な環境、運転状況に突き落として

    hiromark
    hiromark 2009/09/28
    あ、特許ノルマの締め切りが (汗)