はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマークって?
  • アプリ・拡張の紹介
  • ユーザー登録
  • ログイン
  • Hatena

はてなブックマーク

トップへ戻る

  • 総合
    • 人気
    • 新着
    • IT
    • 最新ガジェット
    • 自然科学
    • 経済・金融
    • おもしろ
    • マンガ
    • ゲーム
    • はてなブログ(総合)
  • 一般
    • 人気
    • 新着
    • 社会ニュース
    • 地域
    • 国際
    • 天気
    • グルメ
    • 映画・音楽
    • スポーツ
    • はてな匿名ダイアリー
    • はてなブログ(一般)
  • 世の中
    • 人気
    • 新着
    • 新型コロナウイルス
    • 働き方
    • 生き方
    • 地域
    • 医療・ヘルス
    • 教育
    • はてな匿名ダイアリー
    • はてなブログ(世の中)
  • 政治と経済
    • 人気
    • 新着
    • 政治
    • 経済・金融
    • 企業
    • 仕事・就職
    • マーケット
    • 国際
    • はてなブログ(政治と経済)
  • 暮らし
    • 人気
    • 新着
    • カルチャー・ライフスタイル
    • ファッション
    • 運動・エクササイズ
    • 結婚・子育て
    • 住まい
    • グルメ
    • 相続
    • はてなブログ(暮らし)
    • 掃除・整理整頓
    • 雑貨
    • 買ってよかったもの
    • 旅行
    • アウトドア
    • 趣味
  • 学び
    • 人気
    • 新着
    • 人文科学
    • 社会科学
    • 自然科学
    • 語学
    • ビジネス・経営学
    • デザイン
    • 法律
    • 本・書評
    • 将棋・囲碁
    • はてなブログ(学び)
  • テクノロジー
    • 人気
    • 新着
    • IT
    • セキュリティ技術
    • はてなブログ(テクノロジー)
    • AI・機械学習
    • プログラミング
    • エンジニア
  • おもしろ
    • 人気
    • 新着
    • まとめ
    • ネタ
    • おもしろ
    • これはすごい
    • かわいい
    • 雑学
    • 癒やし
    • はてなブログ(おもしろ)
  • エンタメ
    • 人気
    • 新着
    • スポーツ
    • 映画
    • 音楽
    • アイドル
    • 芸能
    • お笑い
    • サッカー
    • 話題の動画
    • はてなブログ(エンタメ)
  • アニメとゲーム
    • 人気
    • 新着
    • マンガ
    • Webマンガ
    • ゲーム
    • 任天堂
    • PlayStation
    • アニメ
    • バーチャルYouTuber
    • オタクカルチャー
    • はてなブログ(アニメとゲーム)
    • はてなブログ(ゲーム)
  • おすすめ

    WWDC25

『qiita.com』

  • 人気
  • 新着
  • すべて
  • 猫でも作れる感情分析 - Qiita

    4 users

    qiita.com/sugiyamath2

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    • テクノロジー
    • 2022/10/23 00:05
    • Qiita記事の良し悪しを判定するモデルを作ろう - Qiita

      5 users

      qiita.com

      記事の良し悪しを判定するのは、文書分類の典型的なタスクです。イイネが記事の良し悪しを意味しないなら、アノテーション基準を制定する方法でモデルを構築すればそれなりのものができそうなので、試してみましょう。 TLDR いいね数を使うな。contribute数を使うな。リツイート数を使うな。サボるな、アノテーション作業をしろ。 パイプライン 良い記事と悪い記事の基準を考える。 その基準を元に、良い記事URLと悪い記事URLを手動で収集。 URLから本文テキストのみを抽出。 本文テキストだけを用いてモデリング。 モデルを他の記事へ適用。 注意: スクレイピングでQiitaに負荷をかけないように気をつけましょう。 モジュール化 上記パイプラインを誰でも簡単に実行できる形式にしたので、以下のgithubプロジェクトで公開しておきます。 https://github.com/sugiyamath/poe

      • テクノロジー
      • 2018/11/19 22:17
      • 記事のスクレイピングを機械学習で自動化 - Qiita

        283 users

        qiita.com

        Help us understand the problem. What is going on with this article?

        • テクノロジー
        • 2018/10/21 09:00
        • 機械学習
        • あとで読む
        • スクレイピング
        • scraping
        • python
        • MachineLearning
        • URL
        • programming
        • 学習
        • コンテンツ抽出のdom-basedモデル - Qiita

          9 users

          qiita.com

          コンテンツ抽出のdom-basedモデルとは、domの構造を特徴量として利用するコンテンツ抽出の手法です。今回は、web2textというツールで使われている特徴量を、RandomForestで実行します。 特徴量一覧 上記特徴量のうち、いくつかを利用します。 データの準備 記事urlの一覧から取得したhtmlファイルから、以下を取り出します。 テキスト要素を持つノードのテキスト テキスト要素を持つノードのxpath そのテキスト要素が抽出したいコンテンツか否か 以下がcsvの例です。(ただし、このcsvは以前の記事のPascal VOCデータから生成しているため、抽出したくないコンテンツも若干含まれています。) #text,label,xpath "We use cookies to ensure that we give you the best experience on our we

          • テクノロジー
          • 2018/10/13 09:00
          • python
          • *program
          • analytics
          • あまり教えたくないCLIツール: Twitter Scraper - Qiita

            7 users

            qiita.com

            Help us understand the problem. What is going on with this article?

            • テクノロジー
            • 2018/08/23 21:34
            • twitterscraper
            • scraping
            • qiita
            • python
            • Twitter
            • TF-IDFとword2vecを結合する - Qiita

              3 users

              qiita.com

              fnc-1の優勝モデルでは、TF-IDFやword2vecをはじめ、5種類の特徴量が結合されています(さらに、deep learningとのアンサンブルモデルを構築している)。これを参考に、TF-IDFとword2vecを結合したら文書分類の精度が上がるのかを検証します。(ただし、ここではword2vecというより、nnlm-ja-dim128を使います) 事前準備 データはスクレイピングによって取得しましたが、著作権などもあるので、ここでは公開しません。しかし、手順だけ示しておきます: 二値分類モデルとして定義し、カテゴリー1とカテゴリー2を定義する。 カテゴリー1を提供しているニュースサイト数種から記事数千に対するタイトルと本文を抽出。 カテゴリー2を提供しているニュースサイト数種から記事数千に対するタイトルと本文を抽出。 Jupyter notebookで実行 データのロード。 In

              • テクノロジー
              • 2018/08/17 14:37
              • 仕事
              • Word Embeddingだけで文書分類する - Qiita

                4 users

                qiita.com

                データが膨大にあるわけでもなく、自然言語処理のガチ勢でもない、という人が訓練済みWord Embedding(word2vecやglove)を用いるだけで文書分類ができるそうなので、試してみた。 ○○新聞データを取得 まず、スクレイピングしやすそうな新聞社のデータなど取ってきてください。取ってきたら、記事ごとにポジティブかネガティブかを500記事ほどアノテーションしてください。 このあたりは本題ではないので省略します。 Embeddingだけを使ってどうするのか Embeddingでドキュメントのベクトルを取得。 ポジティブとネガティブのカテゴリーを表す語を複数用意し、Embeddingでカテゴリーベクトルを取得。 ドキュメントと各カテゴリーベクトルのコサイン類似度を求める。 ポジティブ側のコサイン類似度が大きければTrue,そうでなければFalseを返すようにする。 アノテーションと比較

                • テクノロジー
                • 2018/07/19 20:20
                • 分析
                • データ
                • Learning to rank (LTR) とは何か - Qiita

                  4 users

                  qiita.com

                  ElasticsearchやSolrで検索システムを構築する際に、ドキュメント-クエリペアの特徴量とクリックデータ等のラベルを用いて機械学習を適用し、Top-kに対して再ランクすることを「LTR」または「順序学習」と呼ばれています。ここでは、LTRについての全体像を説明します。 検索のフロー まず、ユーザがクエリを投げ、通常の情報検索を行います。「通常の」とは、例えば形態素解析やngramによる検索のことです。 次に、上位k件に対してLTRの機械学習モデルでスコアリングをします。特徴量は、「クエリ」と「ドキュメント」のペアから抽出できるものです。例えば、クエリとドキュメントのタイトルのベクトル表現のコサイン類似度とか、ページランク、TF, IDF, あるクエリで出てきた各々のドキュメントのクリック回数、など様々です。 最後に、re-rankされた結果が取得されます。 LTRの特徴量設計 M

                  • テクノロジー
                  • 2018/06/05 19:53
                  • elasticsearchでユーザベクトルを用いて検索する - Qiita

                    4 users

                    qiita.com

                    ユーザベクトルとは、ユーザの最近の興味を表す数値からなるベクトルのことです。このベクトルを用いて検索できれば、検索結果にユーザの興味が反映されます。ここでは、ユーザベクトルによる検索をelasticsearchを用いて行う方法を書きます。 ユーザベクトルについて ドキュメントをベクトル化する方法があると仮定します。例えば、tensorflow-hubのnnlmエンベディングを用いれば、ドキュメントをベクトル化することが可能です。 ユーザが検索をして、検索結果のある特定のリンクをクリックします。すると、クリックされたリンクのドキュメントベクトルはユーザベクトルの一部として保存されます。例えば、保存できるベクトルの件数を最新100件などとしておきます。 そして、検索をする際に「ユーザベクトルの平均ベクトル」と「ドキュメントベクトル」の類似度を使うようにすれば、ユーザの興味に類似した記事が検索可

                    • テクノロジー
                    • 2018/05/14 14:33
                    • techfeed
                    • Python
                    • あとで読む
                    • Webコンテンツ抽出ツールdragnetを訓練する - Qiita

                      8 users

                      qiita.com

                      Help us understand the problem. What is going on with this article?

                      • テクノロジー
                      • 2018/04/06 08:08
                      • scraping
                      • python
                      • qiita
                      • あとで読む
                      • 形態素解析ツールの比較 (NLP2018) - Qiita

                        383 users

                        qiita.com

                        NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。 間違っている部分、追加したい内容があればコメントでお願いします。 追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから 趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。 さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま

                        • テクノロジー
                        • 2018/03/18 00:05
                        • 形態素解析
                        • nlp
                        • 自然言語処理
                        • あとで読む
                        • mecab
                        • morphological analysis
                        • 機械学習
                        • tool
                        • API
                        • 比較
                        • 教師なし学習で画像分類をする - Qiita

                          3 users

                          qiita.com

                          %matplotlib inline from sklearn.datasets import fetch_lfw_people import matplotlib.pyplot as plt people = fetch_lfw_people(min_faces_per_person=20, resize=0.7) image_shape = people.images[0].shape fix, axis = plt.subplots(2, 5, figsize=(15, 8), subplot_kw={'xticks':(), 'yticks':()}) for target, image, ax in zip(people.target, people.images, axis.ravel()): ax.imshow(image) ax.set_title(people.targe

                          • テクノロジー
                          • 2018/01/12 20:09
                          • image
                          • 学習
                          • 画像
                          • Dialogflowでダイアログシステムを簡単作成 - Qiita

                            5 users

                            qiita.com

                            ダイアログシステムとは、ユーザの質問に対して回答を行うようなシステムの総称です。ここでは、Dialogflow( https://dialogflow.com/ )という無料のサービスを用いて、リクエスト曲のYoutubeリンクをレスポンスとして返すものを作ります。 登録 まず、dialogflowにAgentを追加します。Agentとは機能の単位のことです。ここでは、歌や音楽のYoutubeリンクを返してくれる日本語Agentを作成します。 エンティティの作成 次にエンティティを作成します。エンティティとは、質問や回答に含まれる主に名詞句のことです。artistsエンティティを作成することにより、アーティスト名を利用して回答できるようにします。 当然、このようなエンティティ作成は手間がかかるため、csvをアップロードして登録することもできます。 intentsの作成 それでは、inten

                            • テクノロジー
                            • 2017/11/13 22:34
                            • ArchBangでfcitx-mozcを使って日本語入力をする - Qiita

                              3 users

                              qiita.com

                              Help us understand the problem. What is going on with this article?

                              • テクノロジー
                              • 2017/10/19 23:47
                              • Arch Linux
                              • 日本語
                              • マイナビの求人から求人テキストを取得し給与に対する予測を行う - Qiita

                                4 users

                                qiita.com

                                Help us understand the problem. What is going on with this article?

                                • 政治と経済
                                • 2017/09/19 23:27

                                このページはまだ
                                ブックマークされていません

                                このページを最初にブックマークしてみませんか?

                                『qiita.com』の新着エントリーを見る

                                キーボードショートカット一覧

                                j次のブックマーク

                                k前のブックマーク

                                lあとで読む

                                eコメント一覧を開く

                                oページを開く

                                はてなブックマーク

                                • 総合
                                • 一般
                                • 世の中
                                • 政治と経済
                                • 暮らし
                                • 学び
                                • テクノロジー
                                • エンタメ
                                • アニメとゲーム
                                • おもしろ
                                • アプリ・拡張機能
                                • 開発ブログ
                                • ヘルプ
                                • お問い合わせ
                                • ガイドライン
                                • 利用規約
                                • プライバシーポリシー
                                • 利用者情報の外部送信について
                                • ガイドライン
                                • 利用規約
                                • プライバシーポリシー
                                • 利用者情報の外部送信について

                                公式Twitter

                                • 公式アカウント
                                • ホットエントリー

                                はてなのサービス

                                • はてなブログ
                                • はてなブログPro
                                • 人力検索はてな
                                • はてなブログ タグ
                                • はてなニュース
                                • ソレドコ
                                • App Storeからダウンロード
                                • Google Playで手に入れよう
                                Copyright © 2005-2025 Hatena. All Rights Reserved.
                                設定を変更しましたx