ttakezawaのブックマーク - はてなブックマーク

大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

ttakezawa 2011/06/16

リンク

Quoraを支える技術 - nokunoの日記

勉強になる記事を見つけたので気になったところを翻訳してみました。Quora’s Techno logy Examined | Phil Whelan's Blog はじめにQuoraはハイテク起業家の世界を体現しており、問題を見つけるのが難しいほどなめらかなシステムを提供している。この巧妙なシステムは回答者と質問者だけに支えられているわけではなく、よく練られたバックエンドシステムによっても支えられている。それは共同創業者がFacebookで磨きをかけた技術でもある。さほど驚くべきことでもなく、賢い人々は良く考えられたたくさんの賢い道具を使う。NoSQL信者たちはこう言って頭をかかえる：「なぜQuoraはCassandraやMongo DBやCouchDBのようなNoSQLではなく、MySQLをデータストアとして使うのか？」このエントリではQuoraについての技術的な情報をまとめ、考察を行う。彼

ttakezawa 2011/02/04

リンク

nokunoの日記

nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.

ttakezawa 2010/10/27

リンク

CNFはGoogle日本語入力の夢を見るか？ - nokunoの日記

タイトルは釣りです（笑）。Conditional Neural Fields (pdf)NIPS 2009の論文が公開されていたので、上の論文を読みました。ちなみに最近はTwitterでこういった情報を知ることが多く、自然言語処理関係のリストを見ていると結構業界の動向がなんとなく分かったりします。さてConditional Neural Fields(CNF)というのはConditional Random Fields(CRF)の拡張なので、まずはCRFの簡単な紹介から。詳細は論文をご覧下さい。Conditional Random Fields(pdf)CRFはロジスティック回帰モデルを系列ラベリング問題に適用したモデルで、日本だと形態素解析mecabに使われていることで有名です。ちなみにmecabの作者の工藤さんは最近はGoogle日本語入力の開発をしているそうでこの釣りタイトルに繋がっ

ttakezawa 2009/12/29

リンク

協調フィルタリングのグラフィカルモデル - nokunoの日記

協調フィルタリングとはAmazonのお勧めのように「この商品を購入した人はこんな商品も購入しています」という情報を用いて推薦をする手法です。グラフィカルモデルはベイジアンネットワークとも呼ばれ、最近一部で流行している機械学習の手法です。今回は、協調フィルタリングをグラフィカルモデルで表現したらどのようになるだろう、と考えて思いついたアイデアを紹介します。今、ユーザuとアイテムiの組{u,i}のデータが大量に与えられているとします。例えばソーシャルブックマークならユーザとブックマークしているページの組み合わせ、E-commerseならユーザと購入した商品の組み合わせ、などです。ここではSBMを例に考えるので、はてブと同様にユーザはマイナスの評価を付けることはできないものとします。このときユーザuに対してお勧めのページを推薦することを考えると、ユーザuがまだブックマークしていないページiに

ttakezawa 2008/09/08

リンク

「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

ttakezawa 2008/05/04

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第3週）

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス