タグ

pythonとmecabに関するishideoのブックマーク (4)

  • はてなブックマーク3万件にみる技術トレンド2020年まとめ - Qiita

    tl;dr 2020年1年間のはてなブックマークの人気エントリー3万件をもとに技術トレンドを分析。 その結論とPythonでグラフ化した手順を書き記します。 ※ご指摘がありましたが、技術トレンドというよりitニューストレンドと言った方が正しいかもしれません。踏まえてお読みください。 前置き 手元に2020年の1年間ではてなブックマークの技術カテゴリーにおいて人気エントリーに一度でも乗ったことのある記事のタイトルデータが3万件ほどあったため、形態素解析を行い単語の出現頻度順に並べてみました。欠損の割合としては多くても1割程度、つまり少なくとも9割程度のデータは揃っているはずなので精度はかなり高いと思います。 (※はてなブックマークはNewsPicksみたくインターネット上の記事をブックマーク・コメントでき、より多くブックマークされた記事が人気エントリーとしてピックアップされるサービスです。w

    はてなブックマーク3万件にみる技術トレンド2020年まとめ - Qiita
  • 【Python】自然言語処理でラーメン屋を分類してみる - Qiita

    はじめに こんにちは、コピペデータサイエンティストです。 3年ぐらい前に「ラーメンと自然言語処理」というおちゃらけLTをしたのですが、今見ると恥ずかしいぐらいショボいので、Pythonで作りなおしてみました。 長くなったので3行でまとめると Web上に転がっている口コミとか紹介文を Pythonのライブラリを用いて解析することで 好きなラーメン屋に似たラーメン屋を見つける手法を構築した 方法 統計的潜在意味解析という手法を用います。ざっくり言うと、文書がどんなトピックを持っているか、何に関する文書なのか、を推定してくれるものです。 以下の様なイメージで各トピックに割り振られる割合を算出できるため、以下の例ではAとBが近い、ということを計算することが可能です。 ラーメン屋A: [0.75, 0.15, 0.10] ラーメン屋B: [0.60, 0.15, 0.15] ラーメン屋C: [0.0

    【Python】自然言語処理でラーメン屋を分類してみる - Qiita
  • ニュース記事の分類を機械学習で予測する - Qiita

    はじめに Pythonを用いて、ニュース記事の分類分けを教師ありの機械学習にかけて、未知の文章がどのニュース記事にあたるのかを予測する。ということをやってみました。 使うものとしては、 Mecab Gensim scikit-learnのSVM これらを利用しました。 また今回やるにあたり、主にMecabとGensimの利用の辺りを以下のサイトを参考(というよりもはやパクリ)に行ったので、まずはそちらの記事を見ていただいたらと思います。 scikit-learnとgensimでニュース記事を分類する gensimのコーパス操作 環境や各種ツールの説明 環境 OS : windows10 python : 3.6.6 ツール Mecab : 0.996.1 Gensim : 3.5.0 scikit-learn : 0.19.1 Mecabの用意 Mecabは、普段pythonでモジュールの

    ニュース記事の分類を機械学習で予測する - Qiita
  • Pythonでのキーワード抽出実装

    初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。 分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。 アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。 実行結果サンプル たとえば、こんなページの文をテキストフ

  • 1