ブックマーク / yamitzky.hatenablog.com (2)

  • Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ

    今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと

    Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ
    miyashiki
    miyashiki 2013/12/31
  • アプリをパクって何が悪いんですか? - 病みつきエンジニアブログ

    っていうタイトルにすると炎上すると聞いたので・・・(震え声) 最近、アプリのパクリについていろいろ起きているようです。 スマホアプリ市場でパクリが横行していて凄いことになっています 「違法パクリアプリ」製造元を追う 似たような問題は前にもあったのですが(アプリ名を失念)、アプリをパクったとき「悪いパクリ方」と「良いパクリ方」があり(権利侵害と、真っ当な模倣)、その区別はちゃんとしなければならない気がします。 アイデアは著作権法では保護されない まず、大前提として、アイデアは著作権法では保護されません。 著作権法では、著作物を 思想又は感情を創作的に**表現したもの**であって、文芸、学術、美術又は音楽の範囲に属するもの とあります(著作権法 - Wikipedia)。したがって、アイデアのような思想や感情そのものは保護されません。 「釣りゲーム訴訟、グリー敗訴が確定 最高裁が上告退ける」と

    アプリをパクって何が悪いんですか? - 病みつきエンジニアブログ
    miyashiki
    miyashiki 2013/08/25
  • 1