ブックマーク / blog.unfindable.net (1)

  • テキストからキーワードを抽出する方法(非推奨) | 配電盤

    Streaming APIで大量のつぶやきをリアルタイムに保存する方法(cURL編)で述べたように、Ustreamなどで重要な映像が配信されるときには、Twitterなどでその内容をtsudaってくれる人がいます。そうやって生み出される大量のテキストが、映像のメタ情報としてもっと活用されるとうれしい、という話です。 最初に試したいのはキーワードの抽出です。 テキストファイルからキーワードを取り出そうとするとき、多くの学生はまず「形態素解析」を試みます。自然言語処理についてちゃんと学びたいときは、こういうところからじっくり勉強するといいのでしょうが、単に形態素解析するだけではあまりいい結果は得られません。 実際にやってみましょう。 形態素解析システムの使い方は、『入門 自然言語処理』(オライリー, 2010)などで紹介されていますが、環境によってはもう少し簡単です。たとえば、Ubuntuの場

    テキストからキーワードを抽出する方法(非推奨) | 配電盤
    akihiro0117
    akihiro0117 2017/08/09
    “mecab = MeCab.Tagger()”
  • 1