[B! 集合知] volonteのブックマーク

楽天版MapReduce・HadoopはRubyを活用－＠IT

2008/12/01 楽天は11月29日、東京・品川の本社で開催した技術系イベント「楽天テクノロジーカンファレンス2008」において、近い将来に同社のEコマースサービス「楽天市場」を支える計画があるRubyベースの大規模分散処理技術「ROMA」（ローマ）と「fairy」（フェアリー）について、その概要を明らかにした。レコメンデーションの処理自体はシンプル楽天市場では現在、2600万点の商品を取り扱い、4200万人の会員に対してサービスを提供している。この規模の会員数・商品点数でレコメンデーション（商品の推薦）を行うのは容易ではない。 ※記事初出時に楽天市場の会員数を4800万人としてありましたが、これは楽天グループのサービス利用者全体の数字でした。楽天市場の会員数は正しくは4200万人とのことです。お詫びして訂正いたします。レコメンデーションの仕組みとして同社は、一般的でシンプルなア

volonte 2011/12/06

集合知

リンク

The A. L. I. C. E. Nexus

volonte 2011/12/02

リンク

Siri誕生の逸話--開花した“強い人工知能”競争の行方

Siriの驚くべき出自 2010年2月5日、米国サンノゼの新興企業SiriがApp Storeに向けてアプリを無償公開した。それが「Siri Assistant」である。だがこのアプリは、センセーショナルに登場したわけでも、特別支持されたわけでもなかった。そして2010年4月28日、突如としてAppleがSiriの買収を発表した。この発表を受け、ネット上では早くからiOSに組み込まれるのでは？　という噂が流れた。そして2011年10月5日、iPhone 4Sの発表と同時に目玉機能の1つとしてSiriは発表された。10月14日にiPhone 4Sが発売されると、Siriは驚くべきことに母国語がサポートされていない日本でさえ人々を魅了した。これを機に英語を勉強する者さえ現れる始末だ。 Siriのすばらしい機能は他の解説記事に譲るとして、Siriの出自について語りたい。Siriの大元をたどると

volonte 2011/12/02

リンク

機械学習はじめよう記事一覧 | gihyo.jp

volonte 2011/11/25

集合知

リンク

JubatusをPHPから使うためのjubatus-php-clientを公開しました - ものづくり検定32級人

先日、ビッグデータリアルタイム分析基盤 Jubatus(http://jubat.us/)というものが、株式会社プリファードインフラストラクチャーさんと、日本電信電話株式会社さんとの共同研究開発で生まれOSSとしてリリースされました。これにより、大量の自然言語データを高精度で高速に学習・分類するシステムが誰にでも手軽に構築できるようになりました。正に、現在開発中のものに利用したい！ということで、とりあえず、公式のチュートリアルをPythonのまま行ってみて挙動を確認した後、すぐにでも使いたかったので公式のjubatus-python-clientをベースにまるっとPHPクライアントライブラリを作成してみました。現状、なかなか何とかの一つ覚え的な、ひどい写経なのですが、一応公開します。 https://github.com/oxalis-gps/jubatus-php-client 必

volonte 2011/11/25

リンク

レーベンシュタイン距離 - Wikipedia

レーベンシュタイン距離（レーベンシュタインきょり、英: Levenshtein distance）は、二つの文字列がどの程度異なっているかを示す距離の一種である。編集距離（へんしゅうきょり、英: edit distance）とも呼ばれる。具体的には、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数として定義される[1]。名称は、1965年にこれを考案したロシアの学者ウラジーミル・レーベンシュタイン (露: Влади́мир Левенште́йн) にちなむ。レーベンシュタイン距離は、同じ文字数の単語に対する置換編集に使われているハミング距離の一般化であると見なすことが可能である。レーベンシュタイン距離の更なる一般化として、例えば一回の操作で二文字を変換する等の方法が考えられる。例[編集] 実際的な距離の求め方を例示すれば、「kitt

volonte 2011/09/03

集合知

リンク

Pythonによる日本語自然言語処理 #pyconjp - nokunoの日記

本日PyConJP 2011で発表します．PyCon JP 2011Pythonによる日本語自然言語処理 #pyconjp View more presentations from nokuno 内容は予定通り，NLTK本の12章をベースにしたものです．Python による日本語自然言語処理よろしくお願いします．ツイートする

volonte 2011/08/29

リンク

米スタンフォード大学が「機械学習」「データベース」「人工知能」の無料オンライン授業を今秋から開始 − Publickey

米スタンフォード大学は、今秋から同大学で行われているコンピュータサイエンスの講義のうち、3つのコースをオンラインで無料公開することを発表しました。公開されるのは、「Machine Learning」（機械学習）、「Introduction to Databases」（データベース入門）、「Introduction to Artificial Intelligence」（人工知能入門）の3コース。どのコースも今年の10月に開講し12月に終了する3カ月間の予定。コースによっては実際の講義とほぼ同様の宿題も用意され、提出すると自動採点してくれるようです。機械学習のコースを担当するAndrew Ng准教授は発表の中で次のようにコメントしています。 “Both in the United States and elsewhere, many people simply do not have a

volonte 2011/08/19

集合知

リンク

NLPに関する良質なブログリスト - nokunoの日記

TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です．例によって順不同です．生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ！射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyhの日記 Preferred Research 糞ネット弁慶あしたからがんばる ―椀屋本舗unnonounouchiumi log BLOG::broomie.net蝉々亭Overlasting::Lifeやた＠はてな日記aito の日記睡眠不足？！go logo13の日記murawaki の雑記 - rekkenグループmots quotidiens.tb_yasuの日記y_tagの日記アスペ日記人

volonte 2011/07/13

集合知

リンク

大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

volonte 2011/06/30

集合知

リンク

Kazuho@Cybozu Labs: アクセスログからアテンション（注目情報）をデータマイニングする手法について

多数のユーザーの行動記録からアテンション情報（注目されているデータが何か）をデータマイニングしたいというのは、大量のデータを扱っているウェブサイトにおいては自然と出てくる要求です。そこで、先月末にサービスを終了したサービス「パストラック」において使用していた、アクセスログから注目度（人気度）の高いウェブページや人名等のキーワードを抽出するためのアルゴリズムを紹介しておきたいと思います。たとえばはてなブックマークのような、ユーザーの能動的な行為（「ブックマークする」という作業）から注目情報を抽出するのは決して難しいことではありません。それは、直近の一定期間内のブックマーク数＝注目度、という前提が上手に機能するからです。現に、はてなブックマークの人気エントリーは、最近24時間程度の期間内にブックマークしたユーザー数の多い URL を降順で並べているように見受けられます。しかし、アクセスログ

volonte 2011/01/20

集合知

リンク

計れないものを計る！ | | プログラマ2.0日報 | あすなろBLOG

「XOR」行の合計 3 が、Ａさんの見た映画とＢさんの見た映画の「差」であるハミング距離になるわけです（Tanimoto係数だと一致すればするほど値が大きくなりますが、ハミング距離だと一致すれば最小の０になります）。その他にも、いろいろな「（集合の違いなど）定性的とも考えられる「状態」を、違いを表す数値にする」さまざまな尺度があります。まあ、ですから、ここらへん「どれを使うのか」というのは場合によりけり... というものです。こういう尺度を使うと、差の値が２倍だから、中身の違いも「２倍違う」なんて思うと大間違いなのが一般です。単に大小関係しか信用できないケースがほとんどです。ここらへん大きく見るといわゆる「ノンパラメトリック検定」と呼ばれる統計手法で、母集団の分布に関する一切の仮定がない検定手法の手法の一つなんですね。勿論いわゆる「連続な値を計れる数値」でやる検定で、しかも測定

volonte 2010/11/26

集合知

リンク

steps to phantasien(2008-08-14) Netflix Prize 外野席

"集合知プログラミング" という本が出たらしい. 私の積読には元本の "Programming Collective Intelligence" があって, 途中まで読んだまま放置していたら日本語訳が出てしまった. (オライリーのアンチパターンと命名.) 悔しいので本は処分. そのうち日本語版で続きを読もう.... 興味を持っていたのは推薦エンジン(協調フィルタ)だった. 私の中では検索エンジンに匹敵するウェブのハイテクという位置付けなんだけど, 草の根には普及しておらず悲しい. 検索エンジンでの Hyper Estraier や senna に相当する協調フィルタの立ち位置はデッドヒートが予想される...とだいぶ前から思ってるんだけど, いまのところ閑古鳥気味. まったく, 出し抜くだけの実力があればなあ. 先の皇帝ペンギン本では, 一章にさっそく協調フィルタが登場する. 読んでみると

volonte 2010/11/25

リンク

TFおよびDFの集計速度をプログラミング言語毎に比較 | DJ_SATORUの研究日誌

これまでPHPで情報検索システムを作っていたのですが、検索結果が得られるまでの処理時間が長く、Javaに実装し直すと速くなるだろうかと検討中です。その検討の一要素として、TF（その単語が各記事に何回出現するか）とDF（その単語が出現する記事が幾つあるか）の集計を日経エコロジーの2004年7月号～2008年1月号を対象に実行するプログラムをJava、PHP、Rubyで作ってみました。作成したコードは、本記事の末尾に掲載しておきます。以下、処理速度を比較した結果。TFおよびDFを降順（TFおよびDFが同値の場合は単語の文字コードの昇順）にソートする場合と、ソートしない場合の2種類に分けて比較しています。＜ソートする場合＞ $ javac TFDFCounter.java $ time java TFDFCounter real 0m45.346s user 0m20.279