タグ

webcrawlのブックマーク (1,830)

  • Yahoo! Pipes の Page Fetch モジュールでスクレイピングし放題 - てっく煮ブログ

    pipesこのブログでも何度か Yahoo! Pipes の話題は取り上げてきましたが、先日実装された「Page Fetch」モジュールは素敵すぎます。ほんとに。今まで、Yahoo! Pipes といえば、XML・CSVYahoo が提供してるサービスのデータを加工することしかできませんでした。それが、「Page Fetch」モジュールの登場により、任意の Web ページを加工できるようになったのです。Yahoo! Pipes の使い道といえば、次の2つだと思います。1. RSSリーダーで読むための XML 作り複数の RSS を結合したり、見た目を整えたりして、自分専用の RSS を作る。 (例)サイトの最新被ブックマークを livedoor Reader で読むための Pipes2. Web サービスとの連携JSONP に対応してるので、JavaScript と組み合わせてサーバ

  • ソフトウェアマネージャへの公開書簡:Geekなぺーじ

    「An Open Letter to the Software Managers of the World」という記事がありました。 世界のソフトウェア開発者から、世界のソフトウェアマネージャへの公開書簡らしいです。 原文は、マネージャへの要求と、要求を約束するのであればソフトウェア開発者が果たす義務の2部構成になっています。 最初に義務の部分が書いてあります。 ほどほどに面白い内容でした。 以下、要約です。 かなり省略/意訳しているので、詳細は原文をご覧下さい。 我々ソフトウェア開発者は、以下の事項を約束する。 我々は、要求されなくても任務遂行に必要な行動を自主的に起こす。 残業もこれに含まれる。 (ただし、次章の項目1を満たす限り) 我々は、つまらない仕事を任されても文句は言わない。 他人のコードの管理も行う。 (ただし、次章の項目4と5を満たす限り) 我々は、可能な解決法の提示するな

  • ブログの文体で書き手の性別を自動判別、リクルート子会社が広告配信に応用

    リクルート子会社のブログウォッチャー(東京・港区)は、2008年2月をメドに、「プロファイルパスポート」システムを稼働させる。ブログやSNS(ソーシャル・ネットワーキング・サービス)といったCGM(消費者発信型メディア)に書き込まれた文章を基に、インターネット利用者の行動を解析し広告配信などに活用するものだ。 独自の日語解析技術で、CGMの文章から書き手の属性や行動パターンを解析。これを、プロファイルパスポートに対応したゲーム占い、アンケートサイトなどから得た情報と組み合わせて、CGMの書き手に合った広告を配信する。 例えば、「自分のブログに『高級レストランAがおいしかった』と書き込んでいて、かつ、相性占いで恋人の誕生日を入力し、かつ、情報配信を許諾している」人に対象を絞って、「競合の高級レストランBの記念日特別メニュー」の案内を配信できる。誕生日などの個別登録された定型情報だけではな

    ブログの文体で書き手の性別を自動判別、リクルート子会社が広告配信に応用
  • ブログの文体で書き手の性別を自動判別 | スラド

    ITproの記事によると、リクルートの子会社であるブログウォッチャーは、2008年2月を目処に「プロファイルパスポート」というシステムを立ち上げるそうだ。 東工大の奥村学・准教授の研究をベースにした独自技術で、ブログやSNSといった消費者発信型メディア(CGM)に書き込まれた文章を分析し、書き手の属性や行動パターンを判定。これをプロファイルパスポートに反映させ、書き手に合った広告を配信するという仕組みらしい。「おいしい」「まずい」という言葉の使用から評判の良し悪しを判定したりできるそうだが、タレコミ子が気になったのは、「文体から書き手の性別を90%以上の精度で自動判定できる」というところ。性別によってよく使う言葉、使わない言葉があるということだが、自分が異性だと判定されたらちょっとショックかも。

  • 時空がグワンと歪むWindowsエラーメッセージの最高傑作

    レポートが止まったとレポートしてきたWindowの問題レポートです。 Windowsの問題レポートが止まりました 問題が発生しプログラムの正常な動作が止まりました。Windowsはプログラムを閉じます。 ソリューションがあれば後ほどお知らせします。 この狂気の入れ子のエラー画面は、LAエリアに住むギズモ読者ケビン・バービー(Kevin Barbee)さんのマシンに突如として現れました。事態を重くみたドラマ『24(トゥエンティ・フォー)』のトマス・レノックス大統領特別顧問は、今朝ホワイトハウスで緊急記者会見を開き、捜査方針をこう説明しています。 「地球外生命体がチューブに植えつけたトロイの木馬でしょうか。テキサスにもママと同居し奇行を繰り返す不審なホシが1人上がっていますが、事態は予断を許しません。エイリアン犯行の可能性、ママ犯行の可能性、ママがエイリアンの可能性まで睨んで、捜査を広げていき

  • 略地図がクリックするだけで簡単に作成できる「ALPSLAB 略地図」 - GIGAZINE

    地図上で道順をクリックしていくだけで略地図が作成でき、画像としてダウンロード可能というものすごく便利なサービスがアルプス社の次世代地図サービス実験サイト「ALPSLAB(アルプスラボ)」にて公開されました。シンプルで見やすい地図が簡単に作成可能です、かなり使える。 使い方は以下から。 ALPSLAB 略地図 http://yuru.alpslab.jp/ まずは住所を入力してスタート地点へ移動 移動したらあとはひたすら道順をクリック できあがり こんな感じで右側に地図が完成しているので、ダウンロードするだけ

    略地図がクリックするだけで簡単に作成できる「ALPSLAB 略地図」 - GIGAZINE
  • Flickrに写真編集機能「Picnik」統合→凄い! - ネタフル

    Flickr」オンライン写真編集ツール「Picnik」導入されることはお伝えしましたが、実際に導入されたので使ってみました。これはかなり凄い! 機能自体は「Picnik」として使っていたので驚くものではないのですが、その統合され具合が非常に良い感じなのです。 一言でいうと、非常に気持ちいい。気持ちいいということは、使う気にさせられる、ということです。 使い方は↑にあるように、各写真で表示される「EDIT PHOTO」をクリックします。すると‥‥ アプリケーションのロードが始まります。 このアニメーションが心地よいんですよ。 ただ単にロードされるのを待っているだけ、なんですけどね。 この「ちょっとした時間」がイヤで、使わなくなってしまうサービスってけっこうあるのではないでしょうか。 Flickr x Picnikにはそれが感じられませんでした。グッドグッド。さらに写真はFlickrにあるの

    Flickrに写真編集機能「Picnik」統合→凄い! - ネタフル
  • 進化型英語学習SNSの「iKnow!」がモバイル対応開始

    セレゴ・ジャパンは12月11日、自社で運営する無料の英語学習SNSをモバイルとポッドキャストに対応開始したと発表した。利用シーンを増やすことで、利用者数増を狙う。 英語学習SNS「iKnow!」は、自社開発の学習エンジンを核にした英語学習のプログラム。英単語の学習とディクテーション(単語やフレーズを聴き取ってタイピングする)のメニューを中心にしており、速く、強く記憶に残るようクイズ形式などを利用している。また、仲間を作ってともに学習できるようSNSの機能も提供する。 今回、携帯電話のサービスとポッドキャストへの対応を開始。いずれもPCと同期させており、学習内容の続きを携帯電話で学習したり、ポッドキャストで聞くことができる。これらの対応についてセレゴ・ジャパン代表取締役社長のアンドリュー・スミス・ルイス氏は「個々の学習スピードに合わせるのが大事だというセレゴの考え方がパーソナルなツールに合っ

    進化型英語学習SNSの「iKnow!」がモバイル対応開始
  • 話したい人のためのカンファレンスを開催します。(追記あり - IT戦記

    鉄は熱いうちに打て! ということでこの話題が盛り上がってるうちに企画しちゃいます。 話したい人のためのカンファレンスを行います。 このカンファレンスは「自分の技術について話したい!」という人のためのカンファレンスです。 人に伝えるということは知識を得るための一番手っ取り早い方法だと思いまが、 世の中にはなかなかそういうチャンスがないんじゃないかと思って、このカンファレンスを思いつきました。 話す内容は? ソフトウェアに関連する技術についてなら、どんなことでもかまいません。 話す時間は? 一人 10 分〜 20 分くらいで、話してください。 詳細は? 詳細は、現時点で以下のようになっています。決定次第、更新していきます。 日程:1/19(土曜日) 13:00 〜 17:00 (参加者が少なかったら早く終わります) 18:00 〜 (飲み会?) 場所:未定 参加費:未定(諸経費を割り勘) 話し

    話したい人のためのカンファレンスを開催します。(追記あり - IT戦記
    webcrawl
    webcrawl 2007/12/11
    行きたい。けど、時期的にたぶん無理><
  • はてなブログ | 無料ブログを作成しよう

    初めて梅干しを作ってみた話 今年の夏、初めて梅干しを作りました。 私梅干し大好きなんですが、自分で作るという発想がなくて…同僚が梅シロップを作っているのに影響されて去年から梅仕事を始めてみたんですが、そのときの説明書に「梅干しの作り方」というのも入っていて、えーー梅干しって自分…

    はてなブログ | 無料ブログを作成しよう
  • Webを進化させるスクレイピングのセオリー

    WebAPIだけに頼る必要はない。HTML構造を解析し、さらに情報集約や付加情報を加えたまとめサイトを作る。この特集は、Webをさらに使いやすくするためのガイドだ。 第1回目では、マッシュアップできないならば、スクレイピングすればよいと説明した。それでは、具体的に、どのようにスクレイピングすればよいのか。今回は、スクレイピングの考え方と技法を説明していこう。 CSSの普及で、容易になったスクレイピング 実際に、ほかのサイトにあるHTMLスクレイピングする場合、次の処理の流れとなる。 1)サーバからHTMLデータを取得する これは単純に、HTTP通信してHTMLデータを取得する操作である。例えばPerlであれば、LWP(libwww-perl)を利用すればよいだろう。もっと簡単に、UNIXに付属のwgetコマンドやfetchコマンドを使ってもよいはずだ。 2)HTMLから取り出したいデータ

    Webを進化させるスクレイピングのセオリー
  • RSS自動解析で分かる集合知

    RSSが公開されていれば、その内容から今何が話題になっているのかを把握することができる。このスクリプトが“まとめサイト”を作るピースの1つだ。 前回までは、スクレイピングの基礎を説明した。今回からは、実際にどのようにスクレイピングのプログラムを作っていけばよいのか、実践的な解説行っていこう。 今回の目的は、「RSSで配信されているブログ投稿を、コメント数が多いもの順に並べて表示する」という処理のスクリプト作成だ。 このようなスクリプトを作っておけば、数ある記事の中から、「盛り上がっている記事(炎上しているかもしれない)」を容易に把握することができる。そして、このスクリプトを以降の記事で紹介する自動化設定に組み合わせることで、“まとめサイト”を作り上げていくのだ。 PerlによるWebコンテンツの取得 スクレイピングするためには、まず、相手のWebサーバに接続してコンテンツを取得しなければな

    RSS自動解析で分かる集合知
  • スクレイピングで作る“まとめサイト”

    どんなサイトでも、マッシュアップすることができる。APIが公開されていなくてもいい。新たなまとめサイトを構築し、情報付加価値を高めるための手法を解説しよう。 さまざまなコンテンツを組み合わせて、好みに合ったページ(サービス)を作り上げる「マッシュアップ」。これの最たるものは、コンテンツ提供者が公開する「WebAPI」の組み合わせで実現するものだ。 しかし、利用する仕様を整備して、効果的なデータだけをメータデータ配信するWebAPIは、まだそれほど普及していない。つまりマッシュアップというキーワードから流行っている兆しはあっても、対象として使うことができるものは、意外と少ない。思い出してほしい。 このような状況を打開するのが、HTMLコンテンツを抜き出して加工する「スクレイピングscraping)」という手法だ。 このオンライン・ムックPlus「まとめサイト2.0」では、例として「ITme

    スクレイピングで作る“まとめサイト”
  • IT 戦士の作り方

    操作方法 → キー: 次のページへ ← キー: 前のページへ ↑ キー: 目次ページへ ↓ キー: 目次ページから戻る 目次ページでは ← → キーで一覧を移動し、クリックで選択します

    webcrawl
    webcrawl 2007/12/10
    ちょっとだけ感動した><
  • このままでは成果主義で会社がつぶれる (ザ・ターニングポイント):NBonline(日経ビジネス オンライン)

    特集「イノベーションで切り拓く新市場」が、「ザ・ターニングポイント ~イノベーションの軌跡」として装い新たに再スタートを切りました。動画番組もテキスト記事も今まで以上にパワーアップしてお届けします。人材育成のために成果主義を見直し、改良する企業が増えています。番組ではそうした企業の例として日産自動車、住友商事、積水化学工業を取り上げ人事担当者にインタビューを行いました。ぜひご覧ください。 ※上記でご覧になれない方、またはOSがMACの方はこちらから (システム条件がWindows XP Service Pack 2 or Vista以降で、Quicktime7.2が必要です。MACの方は、Mac OS X v10.3.9とv10.4.9以降。必要に応じてインストールをお願いします。 Quicktime:windowsMac) ※iTunesの登録はこちらから また、Windows Vis

    このままでは成果主義で会社がつぶれる (ザ・ターニングポイント):NBonline(日経ビジネス オンライン)
    webcrawl
    webcrawl 2007/12/10
    >アンケートは、日経ビジネスオンライン上で質問に答えてもらう形で行った なんかアンケートの取り方おかしくないか?
  • はてなブログ | 無料ブログを作成しよう

    初めて梅干しを作ってみた話 今年の夏、初めて梅干しを作りました。 私梅干し大好きなんですが、自分で作るという発想がなくて…同僚が梅シロップを作っているのに影響されて去年から梅仕事を始めてみたんですが、そのときの説明書に「梅干しの作り方」というのも入っていて、えーー梅干しって自分…

    はてなブログ | 無料ブログを作成しよう
    webcrawl
    webcrawl 2007/12/09
  • はてなブログ | 無料ブログを作成しよう

    【自分語り】1推しの卒業によせて . 私の1推し、ゆきりんこと柏木由紀ちゃんが、17年に渡り在籍したAKB48を卒業することになった。 この機会に、ゆきりん推し(48ファン)としての自分自身のことをすべては不可能であるものの振り返ろうと思う。 内容からして世代がわかることも仕方ないし、限りなくゼ…

    はてなブログ | 無料ブログを作成しよう
    webcrawl
    webcrawl 2007/12/09
    面白い試みだと思います
  • ウェブ・リテラシーを身につける方法 - My Life Between Silicon Valley and Japan

    最近、当社のメンバーを中心にネット上で面白いことをやろうという企画が盛り上がっています。 そんな最中、「ウェブ時代をゆく」が発売され、全員が読みました。その結果、ウェブ・リテラシーがメンバーの中で最も高い私に、「梅田さんの言う、ウェブ・リテラシーを私達にコーチして」という使命が生まれました。折角なので、考えたことをブログで公開しようと思います。(とは言っても、私の知識も大学時代に趣味的に取得した能力なので、凄く中途半端な知識が多いのですが…) なお、日人のウェブ・リテラシーの向上のためにも、私の考える方法に対してプラスとなる意見をお持ちの方は、コメントなりトラバなり怒涛の勢いでやっていただけると。 という書き出しで始まった「ウェブ・リテラシーを身につける方法ver0.1」。「頭で理解すること」と「体で感じること」で、まずは「親しむ」ことを主眼におき、やさしく丁寧な解説が続きそうな予感を抱

    ウェブ・リテラシーを身につける方法 - My Life Between Silicon Valley and Japan
    webcrawl
    webcrawl 2007/12/09
  • 404 Blog Not Found:Google Code Chart - 折れ線グラフうぃざ〜ど

    2007年12月08日01:00 カテゴリLightweight Languages Google Code Chart - 折れ線グラフうぃざ〜ど 絶対もっと美麗な類似品が登場するはずではありますが、とりあえずこさえたので。 Google Code Chartで折れ線グラフを勘弁、もとい簡便に作るツールです。 うーん、IE6だとうまく行かない。とりあえずFirefox/Opera/Safariでお試しを。 Step 1でtsvを(tabがわりに2つ以上のスペースでもよい)コピペして、Step 2で諸元を微調整。 体調ぼけぼけでリハビリ代わりに作ったのでコードはぐしゃぐしゃですが、この段階でもそれなりに使えるでしょう。Enjoy! Dan the Chartist Step 1 東京 札幌 Jan 5.8 -4.1 Feb 6.1 -3.5 Mar 8.9 -0.1 Apr 14.4 6.

    404 Blog Not Found:Google Code Chart - 折れ線グラフうぃざ〜ど
  • これは便利!誰でも簡単にグラフを描けるAPIがGoogleから登場!『Google Charts』 - IDEA*IDEA ~ 百式管理人のライフハックブログ ~

    ドットインストール代表のライフハックブログ

    これは便利!誰でも簡単にグラフを描けるAPIがGoogleから登場!『Google Charts』 - IDEA*IDEA ~ 百式管理人のライフハックブログ ~