2017年8月9日のブックマーク (2件)

  • Python3系のurllibモジュールでHTTP/GET, POSTを行う

    HTTP/GETでWebページを取得する # -*- coding: utf-8 -*- import urllib.request if __name__ == '__main__': page_text = "" # urlopenはurllib.responseオブジェクトを返す # urllib.responseはfileのようなオブジェクトで、infoメソッドとgeturlが追加されたもの with urllib.request.urlopen('http://www.google.co.jp') as page: # WebページのURLを取得する print(page.geturl()) # infoメソッドは取得したページのメタデータを返す print(page.info()) # readlinesでWebページを取得する for line in page.readlin

    akihiro0117
    akihiro0117 2017/08/09
    “urllib.request.urlopen(url=LOGIN_URL, data=encoded_post_data)”
  • テキストからキーワードを抽出する方法(非推奨) | 配電盤

    Streaming APIで大量のつぶやきをリアルタイムに保存する方法(cURL編)で述べたように、Ustreamなどで重要な映像が配信されるときには、Twitterなどでその内容をtsudaってくれる人がいます。そうやって生み出される大量のテキストが、映像のメタ情報としてもっと活用されるとうれしい、という話です。 最初に試したいのはキーワードの抽出です。 テキストファイルからキーワードを取り出そうとするとき、多くの学生はまず「形態素解析」を試みます。自然言語処理についてちゃんと学びたいときは、こういうところからじっくり勉強するといいのでしょうが、単に形態素解析するだけではあまりいい結果は得られません。 実際にやってみましょう。 形態素解析システムの使い方は、『入門 自然言語処理』(オライリー, 2010)などで紹介されていますが、環境によってはもう少し簡単です。たとえば、Ubuntuの場

    テキストからキーワードを抽出する方法(非推奨) | 配電盤
    akihiro0117
    akihiro0117 2017/08/09
    “mecab = MeCab.Tagger()”