エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
fasttextでwebサイト分類したかった - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
fasttextでwebサイト分類したかった - Qiita
Wano株式会社のfushimiです。 先日、弊社の2020年の開発合宿(一泊二日)でやったネタを投稿します。 合宿... Wano株式会社のfushimiです。 先日、弊社の2020年の開発合宿(一泊二日)でやったネタを投稿します。 合宿日記も兼ねてるので完全にとりとめのない時系列順の出来事の羅列になりますが、ご容赦ください。 未知のwebサイトの自動カテゴリ分けをしよう 自然言語処理や機械学習は全然わからん勢なのですが、せっかくの合宿なのでwebサイトのコンテンツ解析をして遊んでみました。 作るものとしては表題通り、webサイトのカテゴリ分類器 です。 あらかじめ決めたカテゴリ分類に応じて、入力された未知のWebサイトが適切にカテゴライズされることを目的とします。 アプローチ 学習 カテゴリごとのメディア記事をクロールして大量に集める 記事をきれいにする 記事を形態素解析する fasttextで学習済みモデルを作る テスト 入力されたwebサイトのコンテンツをいくつか集める コンテンツをきれいにする コンテ