ビックデータ分析技術は情報処理技術を学ぶ上で重要となっている。本講義では、データ分析・データマイニングの基礎について学ぶとともに演習を通して実際にデータを分析するプロセスを学ぶ。特に、前期課程の「データマイニング入門」講義のさらに発展的な内容を学習することで、後期課程や大学院におけるデータサイエンス、人工知能、機械学習、自然言語処理などの関連講義の基礎となる知識を習得することを目標とする。
![データマイニング入門](https://cdn-ak-scissors.b.st-hatena.com/image/square/ec58209c049b0fa8600a66e01c1729eed2548fff/height=288;version=1;width=512/https%3A%2F%2Focwx.ocw.u-tokyo.ac.jp%2F%2Fcourse_images%2F11414%2F200px.jpg%3F1540430796)
先日、勤務先で教員向けに N-gramを用いたコンピュータ処理による古典研究法の講習をし、例として三経義疏の分析をやってみました。文系のパソコンおたく仲間である漢字文献情報処理研究会のメンバーたちで開発したこのNGSM(N-Gram based System for Multiple document comparison and analysis)という比較分析法に関しては、2002年に東京大学東洋文化研究所の『明日の東洋学』No.8 に簡単な概説(こちら)を載せ、その威力を強調してあります。それ以来、宣伝し続けてきたのですが、文系の研究者には処理が複雑すぎたため、まったく広まりませんでした。 ところが、一昨年の暮に、上記の主要な開発メンバーであった師茂樹さんが、私の要望に応えてきわめて簡単で高速な形に改善してくれました。その結果、大学院の私の演習に出ている院生たちは、1回講習したらほと
Amazon Web Services ブログ 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の
SPSSで簡単テキストマイニング View more presentations from SPSSはPythonと連携することが出来ます。SPSSは大変多機能ですが、業務で実際扱うデータは一筋縄にはいきません。様々な前処理が必要です。SPSSに落とし込めるよう、データの整備やクリーニングをPythonで簡単にやってしまいましょう。今回はテキストをSVMにかけるための下準備をPythonで行います。形態素解析にはMeCab-野良ビルドを用います。まずは頻度カウントしてみます #coding:utf-8 import sys import MeCab #MeCabを呼んで使えるようにする tagger = MeCab.Tagger("-Owakati") #分かち書きをする指定 read_file = sys.argv[1] #コマンドラインから読み込むデータファイルを指定する all_te
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog サービス統括部のS・Kと申します。 前回お送りしました「日本語形態素解析APIとマッシュアップ」に続きまして、Yahoo! JAPANが提供するWeb APIの中でも難解であろう「日本語係り受け解析API」を前回と同様、皆様のマッシュアップにお役立ていただけるようなじみの薄い自然言語処理用語の解説と共に分かりやすくお伝えできればと思います。 まずは、前回のおさらいです。 形態素解析は日本語の文を言語として意味を成す最小単位の「形態素」に分ける解析処理でした。そして、日本語形態素解析APIは「形態素」に分け、合わせて「品詞」情報が取得できましたね。 係り受け解析は、その形態素解析処理を元にさらに一歩踏み込んだ情報の解析をします。 そ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く