エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
日本語文書の文字・単語出現頻度解析ツールとデータ
さて、この方法で、単語単位での解析結果から前述のような「板同士の類似度」を計算してみたところ、今... さて、この方法で、単語単位での解析結果から前述のような「板同士の類似度」を計算してみたところ、今度は感覚的に「精度が低い」結果が出ました。機械的に漢字のみを数え上げたものよりも高精度が出せると思っていたところだったのですが、内容の関連性のあまり見えない板が、「『総合』スレッドが多い」などといった関係で浮かび上がってくるのです。さらに、独特の用語や新しい固有名詞の使われているサンプルには、KAKASIの辞書をそのまま使うのは不適切であったという部分もあります。しかし、文字のみよりも形態素単位のほうが、解釈としては「本質的」に文章の「内容」に近づくという考え方は捨てきれません。何らかの補正をかけて、高精度を出すことは可能かもしれません。 個人レベルで利用できるツール ここまでは、自作ツールを用い、「2ちゃんねる」をサンプルとした解析結果 を紹介しましたが、次は、個人レベルで利用できる解析ツール
2006/03/22 リンク