タグ

2011年3月11日のブックマーク (14件)

  • What does Watson mean? – Machine Learning (Theory)

    Watson convincingly beat the best champion Jeopardy! players. The apparent significance of this varies hugely, depending on your background knowledge about the related machine learning, NLP, and search technology. For a random person, this might seem evidence of serious machine intelligence, while for people working on the system itself, it probably seems like a reasonably good assemblage of exist

  • ある文字列をファイルの特定行に挿入するコマンド - 元RX-7乗りの適当な日々

    Linux等で、ファイルの特定の行に、ある文字列を挿入(追加)したい時のコマンド(sed)サンプルを備忘録的に。 前提 こんなファイルがあります。 $ cat test.txt line1 line2 line3 2行目に挿入 $ sed -e "2i hoge" test.txt line1 hoge line2 line3 2行目直下に挿入 $ sed -e "2a hoge" test.txt line1 line2 hoge line3 "line2"の行前に挿入 ※この辺の正規表現は、要件に応じて適当に変えてー。 $ sed -e "/^line2$/i hoge" test.txt line1 hoge line2 line3 "line2"の行後に挿入 $ sed -e "/^line2$/a hoge" test.txt line1 line2 hoge line3 sed

    ある文字列をファイルの特定行に挿入するコマンド - 元RX-7乗りの適当な日々
  • Linear Graph Miner: 線形グラフのマイニングアルゴリズム - Yasuo Tabeiの日記

    データマイニングの国際会議 PAKDD2011に線形グラフのマイニングアルゴリズムに関する論文がアクセプトされました。研究は、PFIの岡野原さん(@hillbig)、産総研の廣瀬さん、津田さん(@kojitsuda)との共同研究です。 論文をarxiv.orgにアップしました。 LGM: Mining Frequent Subgraphs from Linear Graphs, Yasuo Tabei, Daisuke Okanohara, Shuichi Hirose, Koji Tsuda, The 15th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD2011), link to the paper 線形グラフ(Linear Graph)とは、通常のグラフの頂点に順序がついたグラフです(下

    Linear Graph Miner: 線形グラフのマイニングアルゴリズム - Yasuo Tabeiの日記
  • CICLing 2011 行ってきました - 木曜不足

    早稲田大で行われていた CICLing 2011 (International Conference on Intelligent Text Processing and Computational Linguistics) の最終日にのこのこ行ってきました。 FSNLP の 10章をちょうど読み終わったばかりという初心者が、自然言語処理の国際会議を聴きに行っちゃう無謀っぷり。 ちょうど1年くらい前、まだ PRML の 10章を読んでた頃に SIG-DMSM #12 (IBISML の前身?)に のこのこ行って、「わかるところはなんとかギリギリ。わからんところは言葉からしてさっぱりわからん……」と知恵熱でそうなほどぐるぐるしてたりしてたわけだが、ちょうどおんなじ感じ。 国際会議なんだから、感想も英語。 CICLing 2011 retrospective | Shuyo's Weblog

    CICLing 2011 行ってきました - 木曜不足
  • LDA で実験 その1:stop words の扱い方でどう変わる? - 木曜不足

    LDA Python 実装編 LDA 解説編 というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメータはα=0.5, β=0.5、イテレーションは 100 回、というのが基条件。*1 そして stop words の扱いを「除外(-s 0)」、「除外しないで他の単語と同様に扱う(-s 1)」、そして「初期化時にストップワードを1つのトピック(k=0)に集中させる。その他の単語は残りのトピック(k>0)に分散させる (-s 2)」と変えてみて、それぞれ 10回推論を行わせて、perplexity やトピック-単語分布について確認する。ただし -s 0 のときは -s 2 との対比でトピック数 K=19 にして

    LDA で実験 その1:stop words の扱い方でどう変わる? - 木曜不足
  • Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る - 木曜不足

    Mahout の、と言いつつ今回も Hadoop の話ばかり。 Hadoop は各ノードにアプリケーションを配布する関係から、通常 jar を作らなければならない。そのため、Eclipse で書いたコードを実行するのもデバッグするのも非常にめんどくさい。 でもうまくやれば、スタンドアローンモード限定だが、Eclipse から jar も作らずそのまま Map-Reduce ジョブを起動できる。デバッグ実行もできるので、ブレイクポイント入れてステップ実行とかも可能だ。 今回はそういう環境の作り方の話。ずいぶん苦労したけど、出来るようになったら簡単。 Eclipse のセットアップなどは済んでいるものとする。Mahout の開発環境を Maven+Eclipse で作る (1) - Mi manca qualche giovedi`? 参照。 なお、Hadoop を展開すると contrib/

    Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る - 木曜不足
  • Latent Dirichlet Allocations(LDA) の実装について - 木曜不足

    昨日の "Latent Dirichlet Allocations in Python" の続きで実験結果を載せようかと思ったけど、先にやっぱりもうちょっと LDA を説明しておこう。 LDA の初出は [Blei+ 2003] Latent Dirichlet Allocation 。 ただし [Blei+ 2003] で "LDA" としているのはトピック-単語分布がただの多項分布(事前分布無し)のもの。"LDA" としてよく目にするトピック-単語多項分布にディリクレ事前分布が入ったものは "Smoothed LDA" として記載されている(確かにβでスムージングしているのと等価)。 今回実装した LDA も後者の "Smoothed LDA"。 その LDA はこんな感じ。αとβはハイパーパラメータだから、チビ黒丸で書いて欲しいんだけどね。 (図は Wikipedia-en の LD

    Latent Dirichlet Allocations(LDA) の実装について - 木曜不足
  • Latent Dirichlet Allocations の Python 実装 - 木曜不足

    LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple音楽apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

    Latent Dirichlet Allocations の Python 実装 - 木曜不足
  • Python入門者に贈る16の鍵 « python練習帳

    このエントリーは、Python入門者と、Python入門予備軍の方を対象としています。 どうしてPythonやるの? Pythonって覚えやすい言語なんです。といっても、それなりに使いこなせるようになるには、数十時間程度はかかるわけです。なんとなく・・で勉強するなら、やらないほうがましです。ちゃんと、自分なりの目標を設定してから勉強しましょう。私の目標は、2011年中に、Pythonで日国内でそこそこ有名になることです。そこそこでいいです。pythonでぐぐって10番ぐらいに表示されれば満足です。それぐらい有名になったら、来年はPython仕事しつつ、他のこと勉強してると思います。 実は世界的にはPHPより人気がある Pythonは、Java、C、C++に次いで人気のある言語です。決してマイナー言語ではありません。 2011年2月のランキング GoogleAppEngineで使える ク

  • 【画像あり】日本一の酷道といえば、国道308号線の暗峠でFAだよね 前から車がきたら軽く死ねる : 暇人\(^o^)/速報 - ライブドアブログ

    【画像あり】日一の酷道といえば、国道308号線の暗峠でFAだよね 前から車がきたら軽く死ねる Tweet 1:名無しさん@涙目です。(西日):2011/03/09(水) 16:29:12.54 ID:zuufMjoa0 【永久保存版】 絶対に行くな!世界の危険な道路11選 1903年にライト兄弟が人類初の有人動力飛行を行って以来、人はいとも簡単に世界中を旅してきた。しかしそれ以前は、陸地を移動するには、果てしなく続く道が主な移動手段だった。 ひとくちに「道」といっても、その姿は様々。平坦なものから険しいもの、「道」と呼べるのか疑問になるものまで、世界には驚くべき道が数多く存在する。そこで今回は、世界でも有数の危険な道を紹介したい。 1.ステルヴィオ・パス・ロード(Stelvio Pass Road)/イタリア 東アルプスの標高2757メートルに位置し、アルプスで2番目に高いところにある

    【画像あり】日本一の酷道といえば、国道308号線の暗峠でFAだよね 前から車がきたら軽く死ねる : 暇人\(^o^)/速報 - ライブドアブログ
  • https://jp.techcrunch.com/2011/03/10/20110309gmail-unveils-another-weapon-against-email-overload-smart-labels/

    https://jp.techcrunch.com/2011/03/10/20110309gmail-unveils-another-weapon-against-email-overload-smart-labels/
  • すくいぬ このかっこいい猫の画像ください

    2024 01 ≪ 1234567891011121314151617181920212223242526272829≫ 2024 03 1 名前:以下、名無しにかわりましてVIPがお送りします[] 投稿日:2011/03/09(水) 20:12:14.04 ID:4DuyOkRB0 以前見た超絶イケメンのの画像探しています こんな感じのです 提供のほどお願いします 3 名前:以下、名無しにかわりましてVIPがお送りします[] 投稿日:2011/03/09(水) 20:17:57.72 ID:4DuyOkRB0 絵がいけないのか・・・ 4 名前:以下、名無しにかわりましてVIPがお送りします[] 投稿日:2011/03/09(水) 20:19:15.51 ID:onMtmGF20 ちょっとわかりづらいからもう1枚例を頼む 6 名前:以下、名無しにかわりましてVIPがお送りします[] 投稿

  • HTML要素に着目した違法・有害サイト検出手法の提案と評価 読んだメモ - 糞糞糞ネット弁慶

    HTML要素に着目した違法・有害サイト検出手法の提案と評価(pdf) 背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watch Watch HTMLタグ内の記述に着目し、ウェブサイトの背景色が例えばピンクであることや、画像リンクが多用されていること、フレームが多用されていること、ポップアップなどブラウザーに特定の動作をさせるスクリプトが用いられているといった外形的特徴を捉えることで有害サイトを検出する。 背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watch Watch この記事で触れられていたのはこの論文であるとある方から教わったので読んだ. 目的 違法・有害サイトを検出したい. Black/While list形式だとコストがかかる,同一ドメインにコンテンツが混在するためめんどくさい,新規

    HTML要素に着目した違法・有害サイト検出手法の提案と評価 読んだメモ - 糞糞糞ネット弁慶
  • LDA で実験 その2:初期値を逐次サンプリングにしてみた - 木曜不足

    Collapsed Variational Bayesian での LDA 推論も実装してみたのだが、そのときに「パープレキシティが下がりきるのは非常に早いのに、その時点ではトピック-単語分布がストップワードだらけ」「イテレーションの最初のうちはパープレキシティがほとんど動かない」という現象にぶちあたってしまった。 で、その解決方法を考えているうちに、一つひらめいたことがあったので、また Collapsed Gibbs LDA に戻ってちょいと試してみた。 といっても大層なことではなく、推論の初期値に各 term のトピックをランダムに割り振るのだが、それを完全にランダム( K 個のトピックが一様分布)にするのではなく、Gibbs サンプリングに用いる事後分布を逐次更新しつつ、その分布からトピックをサンプリングするようにしてみたのだ。 つまり p( z_mn | z_mn より一つ前までの

    LDA で実験 その2:初期値を逐次サンプリングにしてみた - 木曜不足