タグ

2014年8月20日のブックマーク (3件)

  • KimonoLabsと今後のサービスのあり方のはなし - プログラマでありたい

    別記事にも書きましたが、第2回Webスクレイピング勉強会@東京に参加してきました。そこで注目のサービスであるKimonoLabの中の人であるPratap Ranadさんの話を聞いてきました。シンプルながら明確なメッセージで、非常に感銘を受けました。 KimonoLabsのミッション KimonoLabsの始まりは、あるサービスを作ろうとして航空会社ごとのデータを取得しようとしたことが始まりのようです。しかし、航空会社ごとにWebスクレイピングするのは手間で、非常に大変だったそうです。サイト側がAPIを提供すれば解決なのですが、APIを提供している会社は0.0005%に過ぎないそうです。またセマンティックWebにすれば良いという話もありますが、あれはデータを提供する側が努力する必要があり、そもそも構造として間違っていたとのことです。KimonoLabsはこの構造を逆転させ、データを取得する方

    KimonoLabsと今後のサービスのあり方のはなし - プログラマでありたい
    dkfj
    dkfj 2014/08/20
    KimonoLabs凄いという話と、SIerの行く末と、クローラー本の著者としての感想
  • 【徹底検証】大きなカブが抜けないのは、本当におじいさんのせいなのか?

    【おおきなかぶ】抜けない理由がシジイに有ることが判明。 http://t.co/N1lrjch6BR — ことぶきや (@kotobukiya) 2014年7月30日 上記ツイートの投稿者によれば、おじいさんの足の位置に問題があり、カブが抜けないという。 しかし、同記事掲載後、以下のような声が複数件寄せられた。 別アングル http://t.co/AZFlHGoA25 ではおじいさんは踵で踏ん張っており、カブに足を掛けてはいない。観察力不足では?QT「おおきなかぶ」が抜けないのは、おじいさんのせい(略) http://t.co/rjKpfQtGMh @togech_jpさんから — John F Candy (@JohnFCandy1) 2014年8月2日 当に抜けないと思ってるのかな? ちゃんとこの体勢から抜けますよ。 物理的に考えて。 < 【悲報】「おおきなかぶ」が抜けないのは、おじ

    【徹底検証】大きなカブが抜けないのは、本当におじいさんのせいなのか?
    dkfj
    dkfj 2014/08/20
    掘れば良かったのでは?
  • 「第2回Webスクレイピング勉強会@東京」に参加&発表してきました - プログラマでありたい

    前回に引き続き、第2回Webスクレイピング勉強会@東京に参加し、発表もしてきました。今回は、ブログやサイトから文部分をどうやって抽出するのかというテーマです。ブログの文抽出とは、ヘッダーやフッダー、サイドメニューなど情報として不要な部分を排除して、文部分だけを抜き出す手法です。HTMLのタグを解析するルールベースと、自然言語処理を利用して文らしさを抽出するヒューリスティックな方法の2つについて、簡単に説明しています。 発表資料 サイト/ブログから文抽出する方法 from Takuro Sasaki 解説と質疑応答 そもそもブログやサイトの文を抽出する目的としては、2つくらいあるのではと思います。1つは、その記事そのものを読みたい場合。もう1つは、記事を統計解析などの元データとして利用したい場合があると思います。前者の場合は記事全文がないと意味がないし、後者は必ずしも記事全文は必

    「第2回Webスクレイピング勉強会@東京」に参加&発表してきました - プログラマでありたい