Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
こちらで、Spark StreamingからRDBへのデータ書き出しの作業の流れ(Spark Streaming / JDBC連携)を確認した上で、Spark StreamingによるTwitter構文解析※データを、PostgreSQLに格納した手順をまとめます。 実行環境は次の通りです。 ・CentOS 7.5 ・PostgreSQL 9.2.23 ・Apache Spark 2.3.1 ・Scala 2.12.6 ・kuromoji 0.7.7 ・Spark Streaming Twitter 2.10 rev 1.1.0 ・Twitter4J 3.0.3 #PostgreSQL : 格納用テーブルの作成 目的)60秒毎に「iPhone6」が含まれるTweet中に出現する単語とその頻度をカウントし、先頭10件の単語情報を格納対象とする psql -d mydb -U postgres
こちらを参考に、Apache SparkのSpark Streamingを使用した、リアルタイムのTwitter構文解析処理を試した手順を纏めます。実行環境は次の通りです。 ・CentOS 7.5 ・Apache Spark 2.3.1 ・Scala 2.12.6 ・kuromoji 0.7.7 ・Spark Streaming Twitter 2.10 rev 1.1.0 ・Twitter4J 3.0.3 Twitter解析 実行結果 「iPhone6」が含まれるTweet中に出現する単語と、その頻度をカウント Apache Spark、Scala、sbtのインストールは、こちらの手順で実施しました。 kuromojiのインストール SPARK_HOMEへのkuromoji(日本語形態素解析エンジン)のダウンロードと展開 # cd /usr/local/lib/spark # wget
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く