タグ

スクレイピングに関するmyfirmのブックマーク (4)

  • Hello Worldの後に何を作るか - razokulover publog

    新しい技術を学びはじめるとHello Worldのその先で何を作るか詰まってしまうことがよくある。 最初から作りたいものがある人はそれ作ったほうがいいし、実務で導入できたりするなら一番手軽で学びが多いのだが中々そうもいかないのが人生というもの。 そういう人にとってはHello Worldからある程度使えるもしくは番投入時に選択肢にできるレベルになるための道筋があると便利だなーと思う。 自分はWeb系の人間なのでフロントエンド/サーバーサイド/モバイルアプリという感じでまとめてるが、インフラ屋やハード他デザイン系の技術はまた違うと思われるのでこれはあくまでも自分の場合はということで。 共通 言語機能を一通り試す(A Tour of Goみたいな感じで) 基的な型/制御構造/IO周り/クラス/文字列操作/正規表現/よく使いそうな標準ライブラリ その言語固有の機能は重点的に(goだったらgo

    Hello Worldの後に何を作るか - razokulover publog
  • Googleアナリティクスで特定キーワードのページビューを調べる方法

    Googleアナリティクスで、特定キーワードのページビューを調べる方法を紹介します。 このエントリーはビギナーの方向けの内容です。 1.概要 皆さんよくご存知のとおり、Googleアナリティクスではサイト全体の情報を確認したり、現在アクセスされているページやアクセス上位のページを確認することができますが、ある検索キーワードでどの位のページビューがあるか、確認したい場合があると思います。 キーワード別のページビューを調べることができれば、たとえばあるキーワードでの訪問が少ない場合、タイトルやmeta要素のdescriptionなどを見直すことができるでしょう(注:どのページがヒットしたかは分かりません)。 ということで以下、当ブログのエントリーの「コンテンツ」の表示を例に、特定のキーワードでのページビューを調べる方法を解説します。 2.特定のキーワードでのページビューを調べる(その1) 1つ

    Googleアナリティクスで特定キーワードのページビューを調べる方法
  • HttpClientクラスでWebページを取得するには?[C#、VB]

    HttpClientクラスでWebページの内容を文字列として取得する端的なコード例(上:C#、下:VB) 端的にはこの1行だけで、Webページの内容を文字列として取得できる。 HttpClientクラスを利用する前に、プロジェクトの参照設定にSystem.Net.Httpアセンブリを追加し、ソースコードの先頭でSystem.Net.Http名前空間をインポートしておく。 HttpClientクラスのGetStringAsyncメソッドは非同期に実行されるメソッドであり、この例のようにawait(C#)/Await(VB)キーワードが必要だ。また、このコードを含むメソッドのシグネチャにはasync/Asyncキーワードを付ける必要がある*1。これまでのWebClientクラスなどを使った実装では、UIをフリーズさせないために非同期処理を書くのは少々面倒だった。非同期対応したことも、HttpC

    HttpClientクラスでWebページを取得するには?[C#、VB]
  • neue cc - C#でスクレイピング:HTMLパース(Linq to Html)のためのSGMLReader利用法

    Linq to XmlがあるならLinq to Htmlもあればいいのに!と思った皆様こんばんは。まあ、DOMでしょ?ツリーでしょ?XHTMLならそのままXDocument.Loadで行けるよね?XDocument.Parseで行けるよね? ええ、ええ、行けますとも。XHTMLなら、ね、ValidなXHTMLならね。世の中のXHTML詐称の99.99%がそのまま解析出来るわけがなく普通に落ちてくれるので、XDocumentにそのまま流しこむことは出来ないわけです(もちろん、うちのサイトも詐称ですよ!ていうかこのサイトのHTMLは酷すぎるのでそのうち何とかしたい……)。 そこでHtmlを整形してXmlに変換するツールの出番なわけですが、まず名前が上がるのがTidy、の.NET移植であるTidy.NETで、これは論外。とにかく面倒くさい上に、パースしきれてなくてXDocumentに流すと平然と

  • 1