Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
pandasを使っていて、ある関数の挙動を確認するのに、ちょろっとお試しのデータセットがあれば良いなぁ、と思うことがある。 俺も以前の記事で、pandasの使い方を説明するときに、自作のデータセットを使って書いていた。 [pandas]特定の条件を満たす行を削除する - 子供の落書き帳 Renaissance これくらい簡単なものならばまだ良いけど、いちいちデータセットを自分で作るより、すぐに読み込んで使えれば楽である。 ありがちなのはiris(アヤメ)のデータだけど、その手のサンプルのデータセットを簡単に読み込む方法はあるのだろうか? pandas自体にサンプルデータセットの機能は無い pandas:urlを指定してread_csv seaborn scikit-learn statsmodels経由でR datasets まとめ pandas自体にサンプルデータセットの機能は無い pa
この辺の続きです。 white-azalea.hatenablog.jp 4月の勉強会の開催状況と、事前申し込みの状況を眺めてみたが正解。 勉強会情報を拾ってくる 前回の流れですが、2サイト以上でやるので、少しだけ汎用化を考えてみた。 調べてみたら、ATND と COMPASS のAPI仕様がほぼ同一だった。 まずは共通の定義を用意して import requests import sys class ClassRoom: def __init__(self, title, limit, accepted, waiting): def or_zero(v): if isinstance(v, int): return v return 0 self.title = title self.limit = or_zero(limit) self.joins = or_zero(accepted
概要 Django REST Frameworkに再挑戦 その1 参考サイト www.django-rest-framework.org www.codingforentrepreneurs.com Getting Started & Installations 以下の動画を参考にセットアップする。 Coding for Entrepreneurs API Module & ListAPIView posts/api ディレクトリを作成する。ついで、posts/api/init.pyを作成する。 posts/api/views.pyを作成する。 Generic views - Django REST framework # class based viewで作成する。 from rest_framework.generics import ListAPIView from posts.mo
エンジニアの島袋です。 DjangoのパッケージであるDjango REST frameworkを使用したWeb APIの開発について、何回かに分けて書いていきたいと思います。 日本語での資料が少なかったので公式ドキュメントとソースコードを見ながら、なんとかかんとか確率させたノウハウっぽいことを紹介していきます。 今回の導入編はほぼほぼ公式チュートリアルの簡略だけど、きっと需要はある...はず。 ちなみに爆速なのは開発スピードであって、APIのレスポンスタイムではないです。 環境構築 さらっと環境を構築します。それぞれの詳しい説明が欲しい人は検索しましょう。 Mac前提で書いてはありますが、WindowsでPytonの環境を入れている人であれば問題ないはずです。 Mac OS X El Capotan 10.11.6 Python 3.5.1 Django 1.10.2 Django RE
Automated vs. Manual Testing The good news is, you’ve probably already created a test without realizing it. Remember when you ran your application and used it for the first time? Did you check the features and experiment using them? That’s known as exploratory testing and is a form of manual testing. Exploratory testing is a form of testing that is done without a plan. In an exploratory test, you’
めちゃくちゃ苦労したので共有しようと思います。 使用したもの ー Django, Nuxt, Swift Macのlocalhostで動かしています。実機とMacは同じWi-Fiの元にあることが条件です。 IPアドレスの確認 「システム環境設定」>「ネットワーク」>「Wi-Fi」 するとIPアドレス(192.168.------)が書かれてます。 Django側の設定 settings.pyを開いて、 ALLOWED_HOSTS = ['調べたIPアドレス'] Nuxt側の設定 nuxt.config.jsでlocalhostや127.0.0.1と書いているところを調べたIPアドレスに直す。 例えば、axiosの設定とかだと axios: { host: '調べたIPアドレス', port: 8000 }, 次にpackage.jsonを編集していきます。 "config": { "nux
この記事について Nuxt と Django を Docker Compose で用意したときのメモ 開発環境 構成 インフラ Docker + Docker Compose アーキテクチャ Nuxt (フロント) + Django ( API ) + MySQL (データベース) Nuxt の準備 1: mkdir nuxt_django 2: cd nuxt_django 3: mkdir frontend 4: cd frontend 5: mkdir frontend 6: docker run --rm -it -v "$(pwd):/usr/src" node:8.11.1 bash 7: cd /usr/src/front 8: npm init 入力はすべて空 ( Enter 連打 ) 9: npm install --save nuxt インストール成功したら Thank
タダです。 機械学習技術や Python に興味があり、色々と勉強中で技術を手を動かして学びたいと思っていました。 そんな折、からあげさん( id:karaage )の機械学習コンテンツを購入し、テキストマイニングのチュートリアルに取り組んだのでその内容をまとめていきます。 note.mu チュートリアル概要 Google Colaboratory について 関連記事 Google Colaboratory のメリット チュートリアルで学べること CSV ファイルの読み込み/抽出 データの前処理 単語ごとに分かち書きを行う Word Cloud でツイートの可視化 参考情報 ツイートから頻出単語の抽出 作成したコード まとめ 関連記事 チュートリアル概要 上記のチュートリアルでは「Google Colaboratory」を使って Twitter の自分のツイートでテキストマイニングを行いま
前回の記事、gensimによるニュース記事のトピック分類 〜前編〜では、livedoorのニュースコーパスをトピック分類するための前処理とgensimのLDAモデルで扱えるようにするための辞書とコーパス作成の手順について、クラス内の関数という形で説明してきました。 今回の後編では、実際にそのクラスを使ってlivedoorのニュースコーパスに適切な処理を施し、gensimのLDAモデルを使ってトピック分類を行ってみようと思います。 辞書とコーパスの作成 前回説明したユーザー辞書は、/usr/local/lib/mecab/dic内にuserdicというディレクトリを作り、その下にignores.dicとして保存しています。 tt = TextTransform(texts, ignores_path='./data/ignores.txt', userdic='/usr/local/lib/
はじめに こんにちは、コピペデータサイエンティストです。 3年ぐらい前に「ラーメンと自然言語処理」というおちゃらけLTをしたのですが、今見ると恥ずかしいぐらいショボいので、Pythonで作りなおしてみました。 長くなったので3行でまとめると Web上に転がっている口コミとか紹介文を Pythonのライブラリを用いて解析することで 好きなラーメン屋に似たラーメン屋を見つける手法を構築した 方法 統計的潜在意味解析という手法を用います。ざっくり言うと、文書がどんなトピックを持っているか、何に関する文書なのか、を推定してくれるものです。 以下の様なイメージで各トピックに割り振られる割合を算出できるため、以下の例ではAとBが近い、ということを計算することが可能です。 ラーメン屋A: [0.75, 0.15, 0.10] ラーメン屋B: [0.60, 0.15, 0.15] ラーメン屋C: [0.0
はじめに LivesenseAdventCalendar 2016 の20日目を担当する @naotaka1128 です。 現在、転職会議という転職クチコミサービスのデータアナリストを担当しております。 転職会議は会社のクチコミが数百万件集まっている日本最大級の転職クチコミサービスです。現状はクチコミや評点を表示しているだけなのですが、今後はクチコミを自然言語処理などで分析して今までは手に入らなかったような有益な情報を世の中に提供していきたいと思っております。 今回はその取っ掛かりとして word2vec および doc2vec という自然言語処理の技術を用いてクチコミを分析し、会社の分類などを行ってみようと思います。 使用する自然言語処理技術 word2vec 昨今、word2vecという自然言語処理の技術が話題です。ご存じの方も多いかと思いますが、大量の文章をもちいて単語をベクトル表現
はじめに Pythonを用いて、ニュース記事の分類分けを教師ありの機械学習にかけて、未知の文章がどのニュース記事にあたるのかを予測する。ということをやってみました。 使うものとしては、 Mecab Gensim scikit-learnのSVM これらを利用しました。 また今回やるにあたり、主にMecabとGensimの利用の辺りを以下のサイトを参考(というよりもはやパクリ)に行ったので、まずはそちらの記事を見ていただいたらと思います。 scikit-learnとgensimでニュース記事を分類する gensimのコーパス操作 環境や各種ツールの説明 環境 OS : windows10 python : 3.6.6 ツール Mecab : 0.996.1 Gensim : 3.5.0 scikit-learn : 0.19.1 Mecabの用意 Mecabは、普段pythonでモジュールの
環境 Python 3.6.4 jupyter notebook 4.4.0 windows 10 スクレイピング 東洋経済ONLINEのサイトでAmazonのビジネス書売り上げランキングが 毎週1位~200位まで発表されているので 今回はそれをスクレイピングで自動収集していきます toyokeizai.net 本のタイトルの取得と同時に順位に応じてポイントをつけていきます データについて import pandas as pd import urllib.request from bs4 import BeautifulSoup import json import time import numpy as np #スクレイピングしてタイトルとポイントをjson形式で出力 #リンク一覧ページからランキングサイトのリンクを取得 link_list=[] for i in range(1,1
の続きです やりたいこと 自然言語処理をつかってブログをうつ病と正常の2クラスに自動で分類したい おおまかな手順 ブログ村メンタルヘルスランキング に掲載されているブログからスクレイピング 取得したhtmlからブログ毎に名詞のみ抽出 (BoW) TfIdfなどで前処理してモデルにつっこむ 結果の解釈 2,3,4からです 名詞の抽出~前処理 文書分類というタスクを解く際に用いられる特徴量にもいろいろあると思いますが、今回はもっとも素直な方法であるBoWを行いました。 BoWとはBag of Words の略で、文章の構造を無視して単語だけに注目して文書の特徴量をつくる方法です。単語をバッグにポイポイ入れてくイメージですね(適当) 具体的には、以下の3ステップで特徴ベクトルをつくります. 文書に登場する単語を拾っていき、単語の辞書を作成する 作成した辞書と文書の単語を照らしあわして、文書毎のB
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く