qiita.com[B!]新着記事・評価 - はてなブックマーク

『qiita.com』

猫でも作れる感情分析 - Qiita
4 users
qiita.com/sugiyamath2

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
- テクノロジー
- 2022/10/23 00:05

Qiita記事の良し悪しを判定するモデルを作ろう - Qiita
5 users
qiita.com

記事の良し悪しを判定するのは、文書分類の典型的なタスクです。イイネが記事の良し悪しを意味しないなら、アノテーション基準を制定する方法でモデルを構築すればそれなりのものができそうなので、試してみましょう。 TLDR いいね数を使うな。contribute数を使うな。リツイート数を使うな。サボるな、アノテーション作業をしろ。パイプライン良い記事と悪い記事の基準を考える。その基準を元に、良い記事URLと悪い記事URLを手動で収集。 URLから本文テキストのみを抽出。本文テキストだけを用いてモデリング。モデルを他の記事へ適用。注意: スクレイピングでQiitaに負荷をかけないように気をつけましょう。モジュール化上記パイプラインを誰でも簡単に実行できる形式にしたので、以下のgithubプロジェクトで公開しておきます。 https://github.com/sugiyamath/poe
- テクノロジー
- 2018/11/19 22:17
記事のスクレイピングを機械学習で自動化 - Qiita
283 users
qiita.com

Help us understand the problem. What is going on with this article?
- テクノロジー
- 2018/10/21 09:00
コンテンツ抽出のdom-basedモデル - Qiita
9 users
qiita.com

コンテンツ抽出のdom-basedモデルとは、domの構造を特徴量として利用するコンテンツ抽出の手法です。今回は、web2textというツールで使われている特徴量を、RandomForestで実行します。特徴量一覧上記特徴量のうち、いくつかを利用します。データの準備記事urlの一覧から取得したhtmlファイルから、以下を取り出します。テキスト要素を持つノードのテキストテキスト要素を持つノードのxpath そのテキスト要素が抽出したいコンテンツか否か以下がcsvの例です。（ただし、このcsvは以前の記事のPascal VOCデータから生成しているため、抽出したくないコンテンツも若干含まれています。) #text,label,xpath "We use cookies to ensure that we give you the best experience on our we
- テクノロジー
- 2018/10/13 09:00
あまり教えたくないCLIツール: Twitter Scraper - Qiita
7 users
qiita.com

Help us understand the problem. What is going on with this article?
- テクノロジー
- 2018/08/23 21:34
- twitterscraper
- scraping
- qiita
- python
- Twitter
TF-IDFとword2vecを結合する - Qiita
3 users
qiita.com

fnc-1の優勝モデルでは、TF-IDFやword2vecをはじめ、5種類の特徴量が結合されています（さらに、deep learningとのアンサンブルモデルを構築している)。これを参考に、TF-IDFとword2vecを結合したら文書分類の精度が上がるのかを検証します。(ただし、ここではword2vecというより、nnlm-ja-dim128を使います) 事前準備データはスクレイピングによって取得しましたが、著作権などもあるので、ここでは公開しません。しかし、手順だけ示しておきます: 二値分類モデルとして定義し、カテゴリー1とカテゴリー2を定義する。カテゴリー1を提供しているニュースサイト数種から記事数千に対するタイトルと本文を抽出。カテゴリー2を提供しているニュースサイト数種から記事数千に対するタイトルと本文を抽出。 Jupyter notebookで実行データのロード。 In
- テクノロジー
- 2018/08/17 14:37
- 仕事
Word Embeddingだけで文書分類する - Qiita
4 users
qiita.com

データが膨大にあるわけでもなく、自然言語処理のガチ勢でもない、という人が訓練済みWord Embedding(word2vecやglove)を用いるだけで文書分類ができるそうなので、試してみた。 ○○新聞データを取得まず、スクレイピングしやすそうな新聞社のデータなど取ってきてください。取ってきたら、記事ごとにポジティブかネガティブかを500記事ほどアノテーションしてください。このあたりは本題ではないので省略します。 Embeddingだけを使ってどうするのか Embeddingでドキュメントのベクトルを取得。ポジティブとネガティブのカテゴリーを表す語を複数用意し、Embeddingでカテゴリーベクトルを取得。ドキュメントと各カテゴリーベクトルのコサイン類似度を求める。ポジティブ側のコサイン類似度が大きければTrue,そうでなければFalseを返すようにする。アノテーションと比較
- テクノロジー
- 2018/07/19 20:20
- 分析
- データ
Learning to rank (LTR) とは何か - Qiita
4 users
qiita.com

ElasticsearchやSolrで検索システムを構築する際に、ドキュメント-クエリペアの特徴量とクリックデータ等のラベルを用いて機械学習を適用し、Top-kに対して再ランクすることを「LTR」または「順序学習」と呼ばれています。ここでは、LTRについての全体像を説明します。検索のフローまず、ユーザがクエリを投げ、通常の情報検索を行います。「通常の」とは、例えば形態素解析やngramによる検索のことです。次に、上位k件に対してLTRの機械学習モデルでスコアリングをします。特徴量は、「クエリ」と「ドキュメント」のペアから抽出できるものです。例えば、クエリとドキュメントのタイトルのベクトル表現のコサイン類似度とか、ページランク、TF, IDF, あるクエリで出てきた各々のドキュメントのクリック回数、など様々です。最後に、re-rankされた結果が取得されます。 LTRの特徴量設計 M
- テクノロジー
- 2018/06/05 19:53
elasticsearchでユーザベクトルを用いて検索する - Qiita
4 users
qiita.com

ユーザベクトルとは、ユーザの最近の興味を表す数値からなるベクトルのことです。このベクトルを用いて検索できれば、検索結果にユーザの興味が反映されます。ここでは、ユーザベクトルによる検索をelasticsearchを用いて行う方法を書きます。ユーザベクトルについてドキュメントをベクトル化する方法があると仮定します。例えば、tensorflow-hubのnnlmエンベディングを用いれば、ドキュメントをベクトル化することが可能です。ユーザが検索をして、検索結果のある特定のリンクをクリックします。すると、クリックされたリンクのドキュメントベクトルはユーザベクトルの一部として保存されます。例えば、保存できるベクトルの件数を最新100件などとしておきます。そして、検索をする際に「ユーザベクトルの平均ベクトル」と「ドキュメントベクトル」の類似度を使うようにすれば、ユーザの興味に類似した記事が検索可
- テクノロジー
- 2018/05/14 14:33
Webコンテンツ抽出ツールdragnetを訓練する - Qiita
8 users
qiita.com

Help us understand the problem. What is going on with this article?
- テクノロジー
- 2018/04/06 08:08
- scraping
- python
- qiita
- あとで読む
形態素解析ツールの比較 (NLP2018) - Qiita
383 users
qiita.com

NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。間違っている部分、追加したい内容があればコメントでお願いします。追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま
- テクノロジー
- 2018/03/18 00:05
教師なし学習で画像分類をする - Qiita
3 users
qiita.com

%matplotlib inline from sklearn.datasets import fetch_lfw_people import matplotlib.pyplot as plt people = fetch_lfw_people(min_faces_per_person=20, resize=0.7) image_shape = people.images[0].shape fix, axis = plt.subplots(2, 5, figsize=(15, 8), subplot_kw={'xticks':(), 'yticks':()}) for target, image, ax in zip(people.target, people.images, axis.ravel()): ax.imshow(image) ax.set_title(people.targe
- テクノロジー
- 2018/01/12 20:09
- image
- 学習
- 画像
Dialogflowでダイアログシステムを簡単作成 - Qiita
5 users
qiita.com

ダイアログシステムとは、ユーザの質問に対して回答を行うようなシステムの総称です。ここでは、Dialogflow( https://dialogflow.com/ )という無料のサービスを用いて、リクエスト曲のYoutubeリンクをレスポンスとして返すものを作ります。登録まず、dialogflowにAgentを追加します。Agentとは機能の単位のことです。ここでは、歌や音楽のYoutubeリンクを返してくれる日本語Agentを作成します。エンティティの作成次にエンティティを作成します。エンティティとは、質問や回答に含まれる主に名詞句のことです。artistsエンティティを作成することにより、アーティスト名を利用して回答できるようにします。当然、このようなエンティティ作成は手間がかかるため、csvをアップロードして登録することもできます。 intentsの作成それでは、inten
- テクノロジー
- 2017/11/13 22:34
ArchBangでfcitx-mozcを使って日本語入力をする - Qiita
3 users
qiita.com

Help us understand the problem. What is going on with this article?
- テクノロジー
- 2017/10/19 23:47
- Arch Linux
- 日本語
マイナビの求人から求人テキストを取得し給与に対する予測を行う - Qiita
4 users
qiita.com

Help us understand the problem. What is going on with this article?
- 政治と経済
- 2017/09/19 23:27

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx