タグ

2010年6月23日のブックマーク (16件)

  • nskt0628の日記

    ヤバス けっこう日数が経っちゃったので復習しますね(;_;) 局所的重み 局所的重みは、文書に対する索引語の出現頻度から計算されるのでした。 局所的重みだけでも4種類あるみたいデスね。 2進重み(binary weight) 索引語が文書に出現するときに1。出現しなければ0になるというもの。 あんまり使われてないらしいです。 索引語頻度(term ferquency; TF) 出現頻度のこと。索引語が該当文書にいくつ出現するかという値です。 TF-IDFのTFですよ! 対数化索引語頻度(logarithmic term ferquency) 出現頻度の高い索引語が極端に大きい重みを持たないようにするために対数を使います。 拡大正規化索引語頻度(augmented normalized term ferquency) 該当文書中でいちばん出現頻度の高い索引語の頻度を使って索引語頻度を正規化

    nskt0628の日記
    alfaladio
    alfaladio 2010/06/23
  • 数学にまつわる興味深い話:ハムスター速報

    数学にまつわる興味深い話 カテゴリ☆☆☆ 1 :以下、名無しにかわりましてVIPがお送りします:2010/05/24(月) 23:51:06.73 ID:UxsAEfH40 お願いします 2 :以下、名無しにかわりましてVIPがお送りします:2010/05/24(月) 23:51:35.32 ID:aoHbDKfOP 1+1=2になる 6 :以下、名無しにかわりましてVIPがお送りします:2010/05/24(月) 23:54:15.14 ID:EgCtIfBi0 1/9=0.1111111111...―? 1/9×9=1―? 0.1111111111...×9=0.9999999999...―? ???より1=0.9999999999... 8 :以下、名無しにかわりましてVIPがお送りします:2010/05/24(月) 23:55:10.27 ID:PxP6iHVo0 >>6 こ

    alfaladio
    alfaladio 2010/06/23
  • Ruby で高速に OAuth で認証して アクセス する方法 - Candy

    結論から言うと、強力な CPU と大容量のメモリを用意して Thread を大量に作るのが一番速い。 ださいことこの上無いが、これが速いんだから仕方ない。 def self.post tokens = [] User.all.each do |u| tokens << OAuth::AccessToken.new(consumer, u.token, u.secret_token) end tokens.each do |a| @t = Thread.start do res = a.post('/statuses/update.json', {:status => "なるほど四時じゃねーの"}) rescue nil end end @t.join end こんなの。当にださいのだけど、これで十分なのだからしょうがない。というか Ruby でやる限りこれが一番速い。うちのそれなりのサー

    Ruby で高速に OAuth で認証して アクセス する方法 - Candy
  • Twitter Streaming APIでデータ収集 - のんびり読書日記

    Twitterからデータを引っ張ってきたいと前から思ってたので、TwitterのStreaming APIを試し中。とりあえず1日分(2010/02/10 12:00 〜 2010/02/11 12:00)のデータを引っ張ってきてみました。ドキュメントはほとんど読んでないままやってるので、いろいろ間違ってるかも。 実際に引っ張ってくるコードはこんな感じ。ユーザ名、TweetのID、日付、Tweetの文面をタブ区切りで出力します。Config::Pitについてはここを参照。 #!/usr/bin/perl use strict; use warnings; use AnyEvent::Twitter::Stream; use Config::Pit; use Data::Dumper; use Encode qw(encode); my $config = pit_get('twitter.

    Twitter Streaming APIでデータ収集 - のんびり読書日記
  • GitHub - voloko/twitter-stream: Twitter realtime API client

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - voloko/twitter-stream: Twitter realtime API client
  • 武蔵野日記

    2022-12-07 水曜は休むと決めてスケジュール 12月以降は毎週水曜日は外せない予定が入っていなければ基的に有給休暇を取ることにしたので、有給休暇の日。3月まで全ての水曜日を休んで、ようやく今年度に付与された20日の有給休暇を全て使い切るくらいだし(そもそも年度末は会計の仕事やサーバ管理を… 2022-12-06 引率が必須になると手詰まりに 今日は出勤日。 午前中は基盤技術グループのミーティング。月最初の火曜日なので対面でやる回だが、そのせいか欠席者がいるような? 対面にすることで欠席になるなら、対面にしないでオンラインでやるし、対面でやる頻度が負担だという問題であれば、最初(… 2022-12-05 捨てる神あっても拾う神もいる 今日は必要があり出勤。 お昼休みの前後、論文紹介と研究会。研究会では4年生の進捗報告を聞く。あと D3 の学生が参加していた国際会議で最優秀論文賞をも

    武蔵野日記
    alfaladio
    alfaladio 2010/06/23
  • kokotech: 集合知プログラミングアーカイブ

    最適化の章。 Simulated Annealing(SA)とか遺伝的アルゴリズム(GA)とか。 今回はtwitterをグラフ化したものに最適化アルゴリズムを使ってみた。 図は僕のfollowerの中でfollowしあってる人たちを線でつなげてる。 最適化を適用した部分はどこかというと交差線の数。 これが少なくなるようにGAを適用してみた。 画像処理には再びcairoを使用。 見づらいといわれるかもしれないけど これでもランダムな場合に比べて交差線の数は 2000個から1100個くらいまで減ってるんすよ・・・ もうちょっとGAのパラメータをいじれば綺麗になるかもしれないけど そこを言及する意味はあまりないのでとりあえずこれで終了。 ソース: http://deepneko.dyndns.org/svn/repos/collective_intelligence/chapter5/ ---

    alfaladio
    alfaladio 2010/06/23
  • Advanced IT Specialist Cultivation Program

    ITSP インターンシップ科目 TBD (To Be Decided) 履修方法 各大学の履修方法に従ってください. プロジェクト発表 こちらをご覧ください. 授業ビデオアップロード方法 授業コンテンツ管理者用ページ リンク 慶應義塾大学政策・メディア研究科 2008年度募集要項 慶應義塾大学理工学部 早稲田大学 中央大学 情報セキュリティ大学院大学

    alfaladio
    alfaladio 2010/06/23
  • TTM: TinyTextMiner でテキストマイニング

    Tiny TextMinerとは、大阪大学大学院経済学研究科 松村研究所の松村真宏氏が公開しているフリーのテキストマイニングツールです。形態素解析にMeCabを利用して、単語の出現頻度と出現件数(単語を含むサンプル件数)を出力します。また係り受け解析のCaboChaと連携して係り受けによる、出現頻度と出現件数を出力することもできます。 ※ Tiny TextMinerでテキストマイニング(その2)もご覧ください csv形式のタグ付きテキストデータを読み込んで下記の6種類の出力結果が得られます。 語のタグ別出現度数(出現頻度) 語のタグ別出現度数(出現件数) 語×タグのクロス集計(出現頻度) 語×タグのクロス集計(出現件数) 語×語のクロス集計(出現件数) テキスト×語のクロス集計(出現頻度) Tiny TextMinerのインストール Tiny TextMinerのインストールを参照して下

    TTM: TinyTextMiner でテキストマイニング
  • クラスタリング

  • 階層型クラスタの作成 - kj-ki’s blog

    ついに題に入ります. 今回やること 「集合知プログラミング」の3章で使われている,単語の頻度がファイルになっている"blogdata.txt"を使って,階層型クラスタを作成します. 得られる結果はp.47にあるデンドログラムと同じになるはずですが... blogdata.txtの読み込み blogdata.txtはTSV(Tab Separated Values)になっています. このファイルを読み込み,URLをキーにしたHashに格納します. def blog_data_from(file) word_counts = {} lines = File.open(file, 'r').readlines # 先頭行を読んで,単語の配列を作る words = lines.shift.chomp.split("\t") words.delete('Blog') lines.each do |

    階層型クラスタの作成 - kj-ki’s blog
  • IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)

    Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。 そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。 というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。 ポイン

  • 論文投稿を前提とした研究計画をたてるときに注意すること - 発声練習

    Twitterでつぶやいたのをまとめておく。なお、私の分野は計算機科学系(応用含む)なので、分野のバイアスがかかっていることにご注意。 よく修士2年の学生や博士課程が「先生、論文を書きたいんですけど」と相談にくる。で、私やボスが「それで、何について書くの?」と学生に尋ねると「わかりません」と返事されてしまう。どうやら、論文と言うのは、成果がないと書けない性質のものであるということが分かっていないらしい。 論文も報告書の一種なので、誰かに何かを報告するのがその存在意義。誰に報告するかといえば、広く言えば人類、狭く言えば、ある分野における専門家がその相手。何を報告するかといえば、筆者が見出したもの/生み出したもの/改善したものが人類全体あるいはある分野において価値があるものであるということ。研究は未知のものを既知にする行為であるため、価値は新規性と独創性によって決められる。応用分野においてはこ

    論文投稿を前提とした研究計画をたてるときに注意すること - 発声練習
    alfaladio
    alfaladio 2010/06/23
  • Yahoo!ニュース

    「VIVANT」エキストラに大御所俳優?ファン二度見「続編の主役?」「別班か?公安か?」考察止まらん!

    Yahoo!ニュース
    alfaladio
    alfaladio 2010/06/23
  • trauma2u.com - trauma2u リソースおよび情報

    trauma2u.com は、あなたがお探しの情報の全ての最新かつ最適なソースです。一般トピックからここから検索できる内容は、trauma2u.comが全てとなります。あなたがお探しの内容が見つかることを願っています!

    alfaladio
    alfaladio 2010/06/23
  • おごちゃんの雑文 | NAVER等まとめサイトへの転載を禁じます

    通販とかオークションとか、小さい個人に近いところのものを買うと、時々変なオマケがついて来ることがある。 「オマケ」も中身はいろいろで、個人輸入の会社は謎の毛糸人形とか入ってたし、オークションみたいな完全に個人となると、メッセージカードだったりする。 くれる気持ちはわかるし、悪いものではない。微妙に嬉しい。そういった意味では良いものだなと思う。 とは言え、これらは「その後」に困る。 何が困ると言って、うっかり捨てられないのだ。何しろ「気持ち」なので、捨ててしまうと気持ちまで捨てるような、そんな感じに思ってしまう。いや、どうせ見も知らない、単に一度商取引をしただけの、そういった関係っだろって話もあるのだけど、それでも「気持ち」を物理で置かれてしまうと「物理」が邪魔になってしまう。でも、捨てられない。そうやって実用的にはゴミでしかない、かと言って粗末にできないものが増えて行く。 そこでいい解決を

    alfaladio
    alfaladio 2010/06/23