[B! python][keyword] ishideoのブックマーク

ishideo id:ishideo

pythonとkeywordに関するishideoのブックマーク (3)

GitHub - takeshi0406/text_to_keywords: Python library to convert Japanese text to words list with はてなキーワード自動リンクAPI
ishideo 2019/03/15
hatena

keyword

api

webapi

github

python
リンク
【Python】はてなキーワードAPIを使って特徴語を抽出する - 歩いたら休め
最近、スクレイピングで記事を集めることにハマっているのですが、その記事の中に含まれるトピックなり特徴語なりを簡単にチェックする方法はないかと悩んでました。例えば、音楽ナタリーから好きなバンドの記事を集めてくる際には、関連リンクのタグを取ってきてアーティスト名を取ってきて、「これは興味のある/ない記事だ」という判別を行っていましたが、この方法はナタリーのサイトでしか使えないし、少しhtmlのタグの名前が変わっちゃうだけで使えなくなります。頭のいい人ならここから「自然言語処理だ！」「機械学習だ！」「トピックモデルだ！」となると思うのですが、彼らは人生の9割と辞書と学習データの整備に費やしている印象があるので、週末きちんと遊びたい私は別の方法がないか探していました。そこで、 APIを使って特徴語を抽出する抽出した特徴語や、そのカテゴリから簡単なルールベースで判別するという方法でうまくい
ishideo 2019/03/15
python

hatena

keyword

webapi

api
リンク
Pythonでのキーワード抽出実装
初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。実行結果サンプルたとえば、こんなページの本文をテキストフ
ishideo 2009/06/01
algorithm

MeCab

python

text

keyword
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx