タグ

ブックマーク / mitsuruya.hatenablog.com (4)

  • ネットワークの中心性の話 - ij_spitz's Blog

    久々のブログ更新です。 最近は、卒論と機械学習やアドテク周りの勉強をやっていて中々ブログを書く時間が取れていませんでした。 卒論ではTwitterにおける情報拡散の研究をしているので、 基的なネットワークの特徴量である、中心性の話をしたいと思います。 まずネットワークの中心性がどのようなものなのかを簡単に説明すると、 ネットワーク上の点(ノードと言います)の中でどのノードが中心なのかを表す値です。 例えば、Twitterではインフルエンサーと言われるユーザーであったり、アジアのハブ空港となっているシンガポールであったり、などの中心的なノードを見極める上でとても重要な指標となります。 中心性にもいくつか種類があって、ここでは以下の3種類の中心性を取り扱います。 次数中心性 近接中心性 媒介中心性 次数中心性 他のノードとつながっているリンク(エッジと言います)が多いほど、中心性が高いとする

    ネットワークの中心性の話 - ij_spitz's Blog
  • PythonでScrapyを使ってクローリングをしてみる - ij_spitz's Blog

    前回はurllib2というモジュールを使った簡単なスクレイピングの方法を紹介しました。 今日はScrapyというクローリング+スクレイピングのフレームワークを使って、 ウェブから情報を取ってくる方法をご紹介します。 フレームワークな分、以前紹介した手法よりも大掛かりなものになるので クローリング対象の大小によって、使い分けするといいでしょう。 スクレイピングとクローリングの違い クローリング: Webページをリンクを辿り情報を収集すること スクレイピング: Webページから意図した情報を抜き出す作業のこと たまに一緒の意味で使う人がいるのですが、厳密にはこのような定義です。 Scrapyとは Scrapyはクローリングとスクレイピングの両方のフレームワークです。 robots.txtやsitemapをパースしてくれたり、 クローリングの間隔を一括で定義したりできるので便利です。 インストー

    PythonでScrapyを使ってクローリングをしてみる - ij_spitz's Blog
  • 【Python】urllib2とElementTreeで簡単スクレイピング - ij_spitz's Blog

    こんばんは! 今回はurllib2とElementTreeというモジュールを使った、 Pythonでの簡単なスクレイピングの方法について書いてみようと思います。 クローリングのような大規模なものになると、 scrapyやBeautifulSoup、Mechanize等のモジュールを使った方が楽ですが、 1ページだけスクレイピングして処理したいなどの場合には こちらの方法が手軽で便利です! 今回は、Wikipediaの職業一覧から職業名を全てスクレイピングして、 コンソールに出力する、というプログラムを書いてみようと思います。 以下がコードになります。 #! /usr/bin/python # -*- coding: utf-8 -*- import urllib2 import xml.etree.ElementTree as etree resp = urllib2.urlopen('h

    【Python】urllib2とElementTreeで簡単スクレイピング - ij_spitz's Blog
  • ログアウトしてもジョブを継続する方法 - ij_spitz's Blog

    こんにちは。 研究などで時間のかかるプログラムをサーバーなどで 実行しておきたいときがあると思います。 そんなときに普通にssh接続してプログラムをコンパイルしてログアウトすると プログラムは終了してしまいます。 これを解決するためにはLinuxのnohupコマンドを使います。 使い方は簡単で $ nohup python clustering.py > result.txt & 行末の「&」を忘れないように気をつけてください。 実行している間にコンソールに表示される情報はresult.txtに入ります。 プロセスを確認するコマンド(grepを併せて使うと便利) $ ps auxプロセスを終了させるコマンド(PID: プロセスID) $ kill PID 上記2つのコマンドはnohupを使う上で覚えておくといいと思います。

    ログアウトしてもジョブを継続する方法 - ij_spitz's Blog
  • 1