tl;dr 2020年1年間のはてなブックマークの人気エントリー3万件をもとに技術トレンドを分析。 その結論とPythonでグラフ化した手順を書き記します。 ※ご指摘がありましたが、技術トレンドというよりitニューストレンドと言った方が正しいかもしれません。踏まえてお読みください。 前置き 手元に2020年の1年間ではてなブックマークの技術カテゴリーにおいて人気エントリーに一度でも乗ったことのある記事のタイトルデータが3万件ほどあったため、形態素解析を行い単語の出現頻度順に並べてみました。欠損の割合としては多くても1割程度、つまり少なくとも9割程度のデータは揃っているはずなので精度はかなり高いと思います。 (※はてなブックマークはNewsPicksみたくインターネット上の記事をブックマーク・コメントでき、より多くブックマークされた記事が人気エントリーとしてピックアップされるサービスです。w
はじめに 一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。 やったこと 歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化 ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。 歌詞データ 今回用いる歌詞データについて説明します。 クローリングで取得 先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。 実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea
- はじめに - 近年、IT業界のダジャレは熾烈の一途を辿っている(ITだけに) 。 類義語を巧みに取り入れたダジャレ、難読化されたダジャレなどが増加し、一体どれで「初笑い」すれば良いのか悩む若者も少なくない。 そのような背景があり、ダジャレを判定するアルゴリズムの開発も盛んである。 ルールベースによる判定では、@kurehajimeが提案、開発したdajarep *1 や、@fujit33によるShareka *2が存在する。特にSharekaは、ルールベースのロジックにも関わらず、反復型とされる種類のダジャレに対して高い精度での判定を可能にしている。また、機械学習モデルを用いた判定手法として、谷津(@tuu_yaa)らが開発したDajaRecognizer *3がある。DajaRecognizerは、多くのルールベースによって子音音韻類似度をPMIとして定義、Bag-of-Words、
またまた昨日の記事の続き。昨日は夏目漱石の「ぼっちゃん」をメカブを使って形態素解析をしてWord Cloudに読み込ませてみたが、今日は頻出名詞をカウントしてグラフにしてみるテスト。 Pythonでグラフを描くのはseabornというライブラリが有名みたいで、これを使ってみる。一緒に文字数をカウントするためにコンテナデータ型とか言う標準ライブラリのcollectionsも使う。 サンプルコードは以下の通り。昨日はstop_wordsで要らない単語を使わない様にしたけど、今回はcollectionsに入ってるのでそれをdelで削除。most_commonというメソッドで頻出上位30位までの単語をグラフ描画に使う。 あっという間にタイトル画像の様なナイスなグラフが完成。めちゃくちゃ簡単。Python素敵。seabornは他にも色んなグラフが描けるみたいで、ちょっといじってみたいなー。仕事でも使
JanomeはPythonの形態素解析エンジン。日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き(単語に分割)したりすることができる。pipでインストール可能。 mocobeta/janome: Japanese morphological analysis engine written in pure Python Welcome to janome's documentation! (Japanese) — Janome v0.4 documentation (ja) janome package — Janome API reference v0.4 ここでは以下の内容について説明する。 Janomeのインストール JanomeとMeCab 解析結果の精度 形態素解析の速度 Janomeで形態素解析 基本的な使い方 Tokenオブジェクトの属性 Janomeで分かち書
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く