タグ

自然言語とpythonに関するastk_fのブックマーク (5)

  • Pythonのライブラリで小説全文をテキストマイニングしよう

    テキストマイニングとは? テキストマイニングとは、テキストをプログラムに分析してもらい、文章の特徴を図や色などで表現することを指します。 SNSで注目されている単語やGoogle検索トレンドなども瞬時で分析でき、データサイエンティストやマーケターなども活用できます。 今回行うテキストマイニングで特に重要な処理が「形態素解析」と呼ばれるもので、繋がっている文章の中から単語を抜き出して意味を割り出す分析方法です。 例えば、私たち人間が「このサイトは非プログラマーが日常業務で使えるシンプルなPythonを紹介するメディアです。」 をという文章を読む時には 「この/サイト/は/非/プログラマー/が/日常/業務/で/使える/シンプル/な/Python/を/紹介/す/る/メディア/です。/」 と区切ることができます。しかし(英語は単語ごとにスペースを開けるのでプログラムで処理をしなくても問題はありませ

    Pythonのライブラリで小説全文をテキストマイニングしよう
  • 【自然言語処理】Python初心者でも文章要約タスクが実装できた

    はじめに わたくし、Python歴1年の初心者ですが、このたび、苦労に苦労を重ねて、自然言語処理タスクの文章要約を実装できました。 自然言語処理に興味のあるPython初心者のお役に立てればと、記事に残したいと思います。 実装にあたっては、ネットの記事も手あたり次第調べましたが、最終的には、以下のが大変参考になりました。 ただし、バージョンの変更により、このの通りに実装しても、2022年8月時点ではエラーになる箇所があります。出版社経由で著者の方にお聞きして一部コードを修正したほか、自分なりに工夫をして実装しました。 モデルについて Huggingface社が提供している深層学習フレームワークのTransformersを使います。 transformersにはBERTをはじめとするさまざまな言語モデルが実装されていますが、今回のタスクでは、T5というモデルをファインチューニングして使い

    【自然言語処理】Python初心者でも文章要約タスクが実装できた
  • 「赤の他人」の対義語は「白い恋人」 これを自動生成したい物語 - Qiita

    背景 「造語対義語」がちょっと面白いと思ったので、Word2Vecを応用して機械に作らせてみよう!という試み。 やりたいことは、以下のようなギャグ対義語を自動生成すること。 「赤の他人」⇔「白い恋人」 「ウサギは寂しいと死ぬ」⇔「ゴリラは孤独を背負い生き抜く」 「生きろそなたは美しい」⇔ 「死ねブス」 「冷やし中華始めました」⇔ 「おでんはもう辞めました」 「コアラのマーチ」 ⇔ 「ゴリラのレクイエム」 「やせ我慢」 ⇔ 「デブ大暴れ」 「生理的に無理」 ⇔ 「理論上は可能」 「ゲスの極み乙女」 ⇔ 「ほんのりピュア親父」 「週刊少年ジャンプ」⇔「月刊老人スクワット」 「お母さんと一緒」 ⇔ 「お父さんは別居」 「そんなんじゃ社会に出てから通用しないぞ」 ⇔ 「それだけの力があれば幼稚園では無敵だろう」 果たしてWord2Vecを活用して、このようなユーモアを生み出せるのか!? 投稿の内

    「赤の他人」の対義語は「白い恋人」 これを自動生成したい物語 - Qiita
  • ゼロからはじめるデータサイエンス

    TOPICS Data Science , Database , Python 発行年月日 2017年01月 PRINT LENGTH 400 ISBN 978-4-87311-786-7 原書 Data Science from Scratch FORMAT PDF 書は、データサイエンスも、プログラミングも最初から学んでみたい、という要望に応える、幅広いトピックをカバーしたデータサイエンスの入門書です。架空のソーシャルネットワーク運営企業、データサイエンス・スター社のデータサイエンティストとして、さまざまな課題を解決しながら、必要な知識とスキルを着実に積み上げていきます。Pythonプログラミングの基礎から線形代数、統計確率の基礎、回帰、機械学習、ナイーブベイズ、決定木、ニューラルネットワーク、自然言語処理、グラフ解析、リコメンドシステム、データベースとSQLMapReduceまで

    ゼロからはじめるデータサイエンス
  • 【Python】自然言語処理でラーメン屋を分類してみる - Qiita

    はじめに こんにちは、コピペデータサイエンティストです。 3年ぐらい前に「ラーメンと自然言語処理」というおちゃらけLTをしたのですが、今見ると恥ずかしいぐらいショボいので、Pythonで作りなおしてみました。 長くなったので3行でまとめると Web上に転がっている口コミとか紹介文を Pythonのライブラリを用いて解析することで 好きなラーメン屋に似たラーメン屋を見つける手法を構築した 方法 統計的潜在意味解析という手法を用います。ざっくり言うと、文書がどんなトピックを持っているか、何に関する文書なのか、を推定してくれるものです。 以下の様なイメージで各トピックに割り振られる割合を算出できるため、以下の例ではAとBが近い、ということを計算することが可能です。 ラーメン屋A: [0.75, 0.15, 0.10] ラーメン屋B: [0.60, 0.15, 0.15] ラーメン屋C: [0.0

    【Python】自然言語処理でラーメン屋を分類してみる - Qiita
  • 1