エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Tweet2VecでQiitaの投稿を形態素解析せずに分類する - Qiita
目次 やりたかったこと Qiita投稿を取得する Tweet2Vecを使う GPUインスタンスを使う タグ予測結果 類似... 目次 やりたかったこと Qiita投稿を取得する Tweet2Vecを使う GPUインスタンスを使う タグ予測結果 類似投稿を出してみる 考察と課題 やりたかったこと 短い日本語文書(ツイートなど)を分類したい ニューラルネットワーク使いたい 形態素解析せずにやりたい SNSの投稿などを処理する場合、誤字、脱字、スラング、新語、絵文字、顔文字、外国語、専門用語、表記ゆれなどが多く含まれるため、形態素解析器を用いたアプローチは不利に思われる。近年のNLP論文を読んでいると単語レベルではなく文字レベルで学習させる方向にいっているようなので、その流れに乗ってみる。日本語は一文字あたりの情報量が大きいので英語より有利だと思う。 文書が長すぎず、形態素解析しにくそうで、ある程度トピックにまとまりがある題材として、Qiitaの投稿をタイトルのみで分類してみることにした。Qiitaの本文はmarkdow
2016/06/26 リンク