タグ

2012年5月4日のブックマーク (7件)

  • 確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ

    GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスタート地点にして適合確率をモデル化した情報検索のいち分野.Binary independence modelやBM25などが含まれる (BM25はいろんなヒューリスティクスが入っているのだけれど). BM25とは, [tex:\sum_{t \in q} q_t \cdot \frac{f_{t,d} (k_1 + 1)}{k_1*1 + f_{t,d}} \cdot w_t] という (説明はノート参照),ぱっと見ワケワカラン計算式だけれど当た

    確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ
  • 世界半周で学んだこと – suadd blog

    まだ世界半周したくらいですが、ちょっと日で用事がいくつかあるためパリ経由で一時帰国しました。次は、数カ月後に同じ3ヶ月くらいで北ヨーロッパ、中東、アフリカ、インドを回る予定です。 3ヶ月弱、旅行していたことになります。じゃあこの間何を成果があったのか、と言われると、実際特にこれだ、というものがあるわけではないです。 ウユニ塩湖+4500mの高地から星を望むより 定番写真 posted by (C)suadd 2時間半待ってマチュピチュを望むより 見張小屋の近くから一望できてすごく気持ちがいい posted by (C)suadd えーっという感じですが、人生が3ヶ月足らずで変わる、なんてことはほとんどないはずです。だったらみんな世界一周すればいいという話なので、そんな人生甘いわけがありません。 僕は今まで、フリーで仕事したり、アメリカ移住したり、戻ってきて起業したり、たくさんのインターネ

    satojkovic
    satojkovic 2012/05/04
    「毎日の小さな何かが、これから先の決断に少しずつ影響して、最終的に決定的に効いてくる」という考え方は自分も好きだなー
  • Machine Learning in Python Has Never Been Easier!

    At BigML we believe that over the next few years automated, data-driven decisions and data-driven applications are going to change the world.  In fact, we think it will be the biggest shift in business efficiency since the dawn of the office calculator, when individuals had “Computer” listed as the title on their business card.  We want to help people rapidly and easily create predictive models us

    Machine Learning in Python Has Never Been Easier!
  • 武田邦彦氏の4月27日の主張を読んで三重県民として感じたこと

    康史💉MMMP+罹患+P @yasusy1973 日のツイート(およびtogetter)にて武田邦彦氏の所属を「中京大」と書きましたが正しくは「中部大」でした。武田氏及び関係各位にお詫びして訂正します。「武田邦彦氏の4月27日の主張を読んで三重県民として感じたこと」をトゥギャりました。http://t.co/iqRMK9zf 2012-04-28 21:16:25 山康史💉MMMP+罹患+P @yasusy1973 武田邦彦中京大教授が「三重県の外部からの被曝が1年5ミリになるのは、2012年1月から3年4ヶ月後となります。つまり、2015年4月1日になると、三重県には住めなくなるという計算結果です。」などということを言っていると聞き、流石に見過ごせないので原文を確認してみる(続く) 2012-04-28 13:14:11

    武田邦彦氏の4月27日の主張を読んで三重県民として感じたこと
  • canonicalは検索エンジンだけのものじゃない - web > SEO

    canonicalは、GoogleYahoo!、マイクロソフトが共同で策定した仕様です。 正しいサイトのURLを検索エンジンに指定することができるもので、これをうまく活用すると重複コンテンツやリンク価値の分散、無駄なインデックスのなどの様々な問題を防止することができます。 特に大量の動的ページを含む大規模サイトでは様々な意図でcanonicalが活用されていて、canonicalは無くてはならないものになっているサイトも少なくありません。 しかしcanonicalを活用しているのは検索エンジンだけではありません。Facebookやはてなブックマーク、Twitterなどソーシャルメディアもカノニカルを参考にしています。 そのような中、canonicalを検索エンジン対策、SEOのためだけに使っているとソーシャルメディア側で問題が起きる場合もありますので注意が必要です。 実際にどのような形で

    canonicalは検索エンジンだけのものじゃない - web > SEO
  • 大規模データマイニング・機械学習 Mahout 活用に向けて読んでおきたい12のプレゼン資料 - hamadakoichi blog

    2012年度が始まり1ヶ月が経ちました。2011年度は、大規模分散処理技術・データ基盤の普及が広く進んだ年だったと思います。2012年はそれら蓄積された大規模データを活用しデータマイニング・機械学習を用い、ビジネス・サービス洗練を大きく広げていく年ではないでしょうか。 Mahoutは 大規模分散データマイニング・機械学習のライブラリです。ApacheプロジェクトのOpen Sourceで、Hadoop上で動作しデータマイニング・機械学習の大規模分散実行を行うことができます。 Apache Mahout 大規模分散 データマイニング・機械学習を実行できる Mahout ですが、まだ「ドキュメント整備が発展途上で詳細を知るためにはソースコードから読み解く」必要がある場合が多く、また、活用には「対象とするデータマイニング・機械学習の基礎知識」が必要なため、まだまだ活用の敷居が高いのが現状ではない

    大規模データマイニング・機械学習 Mahout 活用に向けて読んでおきたい12のプレゼン資料 - hamadakoichi blog
  • Big Sky :: Go言語から BigQuery を操作して github リポジトリ情報を取得してみる。

    BigQueryが正式版としてリリースされたようです。 Google、ビッグデータ分析サービス「BigQuery」を一般公開 - ITmedia ニュース 米Googleは11月14日(現地時間)、同社のクラウド上でいわゆる「ビッグデータ」を分析する企業向けサービス「Google BigQuery Service」のプレビュー版を公開したと発表した。正式版は有料になる見込みだが、現在は無料で利用できる。 http://www.itmedia.co.jp/news/articles/1111/15/news028.html サンプルデータも幾つかある様で、githubのリポジトリ情報を格納している物もあったので試しにGo言語からクエリを発行して問い合わせてみた。 以下コード。 package main import ( "code.google.com/p/goauth2/oauth" "c

    Big Sky :: Go言語から BigQuery を操作して github リポジトリ情報を取得してみる。