前回はグラフベースのキーフレーズ抽出手法と pke での実験結果を紹介しました。今回は、spaCy, scattertext, ... 等々の OSS を用い各種のテキストマイニング手法についてコード例とサンプルプロットを交えながら説明したいと思います。 1. はじめに 本記事ではテキストマイニングの概要と代表的な手法について、コード例とサンプルプロットを交えて説明します。分析対象には、この連載で何度か用いている livedoor ニュースコーパスを用い、Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います。 2. テキストマイニングとは テキストマイニングとは、ざっくり言うと「自然言語の文書データを対象に使用される単語の出現傾向等を分析して何らかの有益な情報を取り出すこと」
国際比較に使える唯一の指標「超過死亡」で明らかになる実態 - 新型コロナウイルス情報室 - Quora この記事にて、日本の新型コロナによる超過死の推定にインフルエンザ関連死亡迅速把握システムの値を参考にしていますが、止めた方がよいと思われます。あくまで参考値にとどめ、今後出てくる詳細な値を待ってから議論する方が良いです。 上記記事では、4月27日時点の東京の数値を使っていますが、理由が分かりませんが、今年の9週以降の数字は何度も見直されています。もしかすると、今年の把握が難しいからかもしれません(新型コロナの影響かもしれませんが、わかりません)。このサイトの注意事項を見れば分かるとおり、サンプル調査に係数をかけた物であること、また後から過去の値に修正が入ることがあることは言われていますので、なるべく最新の閲覧の値がより正しいと考えてよいとは思うのですが。(念のため、大前提として、各都市の
「精度99%の検査で陽性だった人が実際に病気である確率は数%程度」とかいう話、聞いたことがある人もいるかと思います。 「1000人に一人がかかる病気があり、あなたはこの病気かどうかを精度99%で判定できる検査を受けたところ、なんと陽性であった。あなたが実際にこの病気にかかっている確率はいくらか」というやつのことです。 「陽」という字にポジティブな響き※があるので、いい意味だったか悪い意味だったかちょっと迷ってしまうかもしれませんが、「陽性である」というのは「検査したら反応が出る」というくらいの意味です。※響きも何も、「ポジティブ」なんですけどね… ウイルス感染症のPCR検査のケースで言うならば、陽性であるとは「検体(採取した粘膜や痰などのこと)から基準を超えた量のウイルスの遺伝子が検出される」ということになるでしょうか。 で、あなたは陽性だったわけです。初めてこの話を聞いた人ならいやそりゃ
コロナ騒ぎになってからスーパーでスパゲッティの乾麺が売り切れている。 外出自粛でゴミ男やクソガキが家で過ごすようになったので 主婦にとって大量に、しかも手軽に調理できて保存も効く乾麺は需要が高いのは間違いない。 だけど、その割にうどんやそばの乾麺は残っている。 どうしてスパゲッティの乾麺だけこんなに人気なのだろうか? 推測1・料理のレパートリー 一口にスパゲティといっても ナポリタンやクリームスパゲティ、ペペロンチーノなど ソースや具によってさまざまなバリエーションがある。 数日ほどスパゲティが続いてもバリエーションを変えれば 飽きずに食べ続けることができるだろう。 しかしうどんやそばは基本的にだしつゆで、 具を変えてもあまり変わり映えがしない。 推測2・フォークで食べられる アルデンテのスパゲティはフォークで食べられる。 まだ箸の使い方を習得していない幼児、あるいは外国人家庭は うどんや
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く