タグ

ブックマーク / qiita.com/nezuq (17)

  • Webスクレイピングの法律周りの話をしよう! - Qiita

    [2020/09/09追記] 記事の内容は著作権法改正より前に記載されたものです。 最新の情報をご確認下さい。 * 著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁 * 令和2年通常国会 著作権法改正について | 文化庁 上記に関連して、次の記事を記載致しました。 * 【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita 4日目になるまでに残り1時間なので、急ぎで書きます。 後、私は法律の専門家ではないので記事の正確性は保証できません。自己責任でお願いします。 はじめに Webスクレイピング技術的な情報は多いのですが、法律に関する情報は数少ないです。 その為、技術的にできる事でも遠慮してしまい、インターネット上のデータを利用する事を避けてしまう人もいます。 特にLibraHack事件以降、その傾向が強いです。 これは「モノのインターネット(

    Webスクレイピングの法律周りの話をしよう! - Qiita
    kasumani
    kasumani 2014/12/04
    Webスクレイピングの法律周りの話をしよう! 4日目になるまでに残り1時間なので、急ぎで書きます。 後、私は法律の専門家ではないので記事の正確性は保証できません。自己責任でお願いします。 Tags: from Pocket December 04, 201
  • CaboChaで始める係り受け解析 - Qiita

    注意 著者は自然言語処理(NLP)初心者です。 記載内容に間違いがある場合は、コメントを頂けると助かります。 MeCabの後には、何で遊ぼう? CaboCha(南瓜) CaboCha(南瓜)とは? CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer CaboCha は, SVM(Support Vector Machines) に基づく日語係り受け解析器です。 引用元:cabocha - Yet Another Japanese Dependency Structure Analyzer - Google Project Hosting 係り受け解析とは? 文節間の「修飾する(係る)」「修飾される(受ける)」の関係を調べる事です。 ex.綺麗な海 ・「綺麗な」→「海」 #「綺麗な」が「海」を修飾する。 何が嬉しいの

    CaboChaで始める係り受け解析 - Qiita
    kasumani
    kasumani 2014/09/28
    CaboChaで始める係り受け解析 著者は自然言語処理(NLP)初心者です。 記載内容に間違いがある場合は、コメントを頂けると助かります。 ・形態素解析のみ  - 部屋  - 蒸し  - 風呂  - 暑い   -> 部屋が暑いか特定できな
  • Webスクレイピングの注意事項一覧 - Qiita

    [2020/09/09追記] 記事の内容は著作権法改正より前に記載されたものです。 最新の情報をご確認下さい。 * 著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁 * 令和2年通常国会 著作権法改正について | 文化庁 上記に関連して、次の記事を記載致しました。 * 【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita はじめに Webスクレイピングで誰も嫌な思いをしなくて済むように、注意事項一覧を作りました。 ただ、法律の専門家による解釈ではないので責任は取れません。 この記事は、クリエイティブ・コモンズのCC-BYで公開致しますので、ご自由にご改修下さい。 データをダウンロードする時 目的は下記のものに限る。 * 個人や家族間で使用する * Web検索サービスを提供する * 情報解析をする ※参考:著作権法第30条・著作権法第47条(6

    Webスクレイピングの注意事項一覧 - Qiita
    kasumani
    kasumani 2014/07/28
    Webスクレイピングの注意事項一覧 Webスクレイピングで誰も嫌な思いをしなくて済むように、注意事項一覧を作りました。 ただ、法律の専門家による解釈ではないので責任は取れません。 この記事は、クリエイティブ・コモ
  • 不正論文を減らす仕組みがここにある。iPython Notebookで作るデータ資料。 - Qiita

    不正論文を減らす仕組みが必要。 最近、不正論文問題がマスメディアで騒がれました。 アカデミアの世界に限らず、 入力データ -> 統計処理 -> 出力結果の一貫性を確保した資料を作る事は大切です。 しかし、人間である以上は間違える事もあります。 ただ、その間違いを減らす仕組みがあります。それこそが、iPython Notebookです。 iPython Notebookは、コード実行結果付き文書を作るツール。 データサイエンス分野で主流のプログラミング言語「Python」には、 「iPython Notebook」というツールがあります。 iPython Notebookは、ブラウザ向けの文書をMarkdown記法で書くツールです。 ただし、他とは違い、書いた文書の中にPythonコード(又はRコード)とその結果を埋め込む事ができます。 実際にiPython Notebookで作られた文書を

    不正論文を減らす仕組みがここにある。iPython Notebookで作るデータ資料。 - Qiita
    kasumani
    kasumani 2014/06/01
    不正論文を減らす仕組みがここにある。iPython Notebookで作るデータ資料。 最近、不正論文問題がマスメディアで騒がれました。 アカデミックの世界に限らず、 入力データ -> 統計処理 -> 出力結果の一貫性を確保した資料
  • RでTwitter分析。指定キーワードの時間帯別ツイート数を可視化する。 - Qiita

    出力イメージ 概要 指定キーワードの時間帯別ツイート数をRで可視化する。 Twitterでは、キーワードごとにツイートされやすい時間帯がある。 例えば、「おはよう」は朝にツイートされやすい。 この可視化により、そのキーワードを話題にしてもらいやすい時間帯が分かる。 作業 「Rでネットワーク分析。指定Twitterユーザーのフォロー関係を可視化する。」の作業を行う。 ただし、コードの「#【処理】」以降は下記のものに変更する。 #【処理】 #Twitter検索キーワード keyword.tgt <- '"島風くん"' #Twitter検索対象日付 date.tgt <- "2014-05-17" #Twitterで検索 date.next <- format(as.POSIXct(date.tgt) - 1, "%Y-%m-%d") twt.raw <- searchTwitter(key

    RでTwitter分析。指定キーワードの時間帯別ツイート数を可視化する。 - Qiita
    kasumani
    kasumani 2014/05/18
    RでTwitter分析。指定キーワードの時間帯別ツイート数を可視化する。 5 ストック 0 コメント この投稿をストックする 出力イメージ 概要 指定キーワードの時間帯別ツイート数をRで可視化する。 Twitterでは、キーワードごとに
  • Rでネットワーク分析。指定Twitterユーザーのフォロー関係を可視化する。 - Qiita

    出力結果 概要 RでTwitterユーザー間のフォロー/フォロワー関係を調べる。 手始めに、指定ユーザーのフォローリストを取得しグラフ化する。 作業 下記ページの作業を行った。 -> Mining Twitter with R - Tutorial 1: Building a corpus from Twitter data - YouTube ※英語注意。台詞は聞き取れなくてもOK。映像だけ見れば、何をやればいいかは分かる。 コード library(ROAuth) library(twitteR) library(igraph) #【認証処理】 # 設定情報を取得 twit.consumerKey <- "<あなたのTwitter-API key>" twit.consumerSecret <- "<あなたのTwitter-API secret>" # 証明書を取得 setwd(temp

    Rでネットワーク分析。指定Twitterユーザーのフォロー関係を可視化する。 - Qiita
    kasumani
    kasumani 2014/05/10
    Rでネットワーク分析。指定Twitterユーザーのフォロー関係を可視化する。 RでTwitterユーザー間のフォロー/フォロワー関係を調べる。 手始めに、指定ユーザーのフォローリストを取得しグラフ化する。 Tags: ifttt, kasumaniのスト
  • Pythonで前処理。ニコニコ動画のタグ検索結果をCSV形式に変換する - Qiita

    概要 ニコニコ動画のタグ検索結果(XML)をCSV形式へ変換する。 加えて、作品別のタグ情報を1タグ1カラムにして、各行へ追記する。 具体的には、下記のような形式にする。 video_id,user_id,...,タグ1,タグ2,... sm00000001,111111111,...,1,1,... sm00000002,222222222,...,0,0,... sm00000003,333333333,...,0,1,... データ -> ニコニコ動画のタグ検索結果をXML形式で取得する。(ログイン不要) コード #!/usr/bin/env python # -*- coding: utf-8 -*- # ncxml2csv.py # Copyright (c) 2014 nezuq # This software is released under the MIT License

    Pythonで前処理。ニコニコ動画のタグ検索結果をCSV形式に変換する - Qiita
    kasumani
    kasumani 2014/05/02
    Pythonで前処理。ニコニコ動画のタグ検索結果をCSV形式に変換する ニコニコ動画のタグ検索結果(XML)をCSV形式へ変換する。 加えて、作品別のタグ情報を1タグ1カラムにして、各行へ追記する。 Tags: ifttt, kasumaniのストックした
  • Pixiv小説検索APIの結果を元に小説本文を取得する - Qiita

    概要 Pixiv小説検索APIの結果をCSV形式で取得し、 そのCSVファイルを元に小説文をテキスト形式で取得する。 処理 01.Pixiv小説検索APIの結果をCSV形式で取得 -> Pixiv検索結果をCSVダウンロードするHTMLファイルを用意した ※CSVファイルの名前はINPUT.csvに変える。 02.取得CSVファイルの同階層に、下記Rubyコードを配置 # encoding: utf-8 require 'csv' require 'uri' require 'net/http' require 'fileutils' #入力ファイル名 INPUT_CSV = ARGV[0] || 'INPUT.csv' path = Time.now.strftime("%y%m%d%H%M%S") FileUtils.mkdir_p(path) CSV.foreach(INPUT_C

    Pixiv小説検索APIの結果を元に小説本文を取得する - Qiita
    kasumani
    kasumani 2014/04/20
    Pixiv小説検索APIの結果を元に小説本文を取得する -&gt; Pixiv検索結果をCSVダウンロードするHTMLファイルを用意した  ※CSVファイルの名前はINPUT.csvに変える。 Tags: ifttt, kasumaniのストックした投稿 - qiita from Pocket April 20, 2014 at 07:4
  • WordVBAで分かち書き - Qiita

    Option Explicit Sub 分かち書き文章作成() Dim doc As Document Set doc = Documents.Add Dim wrd As Variant For Each wrd In ThisDocument.Words doc.Content.InsertAfter wrd & " " Next End Sub 出力イメージ WordVBA で 分かち書き を 試して みる 。 分かち書き と は 、 文書 を 単語 ごと に スペース で 区切る 事 だ 。 その 結果 が これ だ 。 。 注意点 と して 、 区切る 方法 が 複数 ある 場合 に は 複数 の 結果 が 返される 。 感想 調べた中で最も簡単な分かち書き方法だった。 Register as a new user and use Qiita more conveniently

    WordVBAで分かち書き - Qiita
    kasumani
    kasumani 2014/04/17
    WordVBAで分かち書き 3 ストック 0 コメント この投稿をストックする 概要 現在開いているWord文書を分かち書きした別文書を開く。 コード 分かち書き文書作成.bas Option Explicit Sub 分かち書き文章作成() Dim doc As Document Set doc = Docu
  • Pixivイラスト検索APIの取得結果のデータ構造を調べる - Qiita

    CREATE TABLE illust(illust_id INTEGER PRIMARY KEY, user_id INTEGER, extension TEXT, title TEXT, server_no INTEGER, user_name TEXT, illust_128_url TEXT, x1 TEXT, x2 TEXT, illust_480mw_url TEXT, x3 TEXT, x4 TEXT, illust_entry_dt TEXT, tags TEXT, tool_name TEXT, evaluate_cnt INTEGER, evaluate_sum INTEGER, view_cnt INTEGER, caption TEXT, page_cnt INTEGER, x5 TEXT, x6 TEXT, x7 TEXT, x8 TEXT, user_disp_

    Pixivイラスト検索APIの取得結果のデータ構造を調べる - Qiita
    kasumani
    kasumani 2014/04/17
    Pixivイラスト検索APIの取得結果のデータ構造を調べる ※あくまでも著者の推測です。かなり大雑把な把握です。 Pixiv検索結果をCSVダウンロードするHTMLファイルを用意した Tags: ifttt, kasumaniのストックした投稿 - qiita from Pocket A
  • 検索対象列自由なVLOOKUP関数を実装する - Qiita

    Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

    検索対象列自由なVLOOKUP関数を実装する - Qiita
    kasumani
    kasumani 2014/04/07
    検索対象列自由なVLOOKUP関数を実装する 3 ストック 0 コメント この投稿をストックする =INDEX(A:A,MATCH(9999,B:B,0)) nezuq 58 Contribution フォローする fuelphp のお仕事を ご紹介、内定までフォローします! by fuelphpの求人例 大手企業から
  • VBScriptで分かち書きを実行(MS標準機能のみで実装) - Qiita

    概要 VBScriptによるInternetExplorerクローラー化サンプルに関連して、 Webサイトのテキストを分かち書き(単語ごとにスペースで区切る形)で出力できたら面白そう。 簡単なテキストマイニングができる。 指定の1文を分かち書きで表示するVBScriptコードを書いた。 Windows・MSOfficeの標準機能のみでの実装で、職場でも安心実行! 前提 ・MeCab? 知らない子ですね。 ・MSWordなら知っています。 コード Option Explicit Dim doc Set doc = CreateObject("Word.Application").Documents.Add() Dim rng Set rng = doc.Paragraphs(1).Range rng.Text = "サンプルの文章です。半角スペースで区切られます。" Dim wrd Dim

    VBScriptで分かち書きを実行(MS標準機能のみで実装) - Qiita
    kasumani
    kasumani 2014/04/07
    VBAやVBScriptで形態素解析を行う方法 このドキュメントではVBAやVBScriptを使用して形態素解析を行う方法について説明します。 VBScriptで分かち書きを実行(MS標準機能のみで実装) Tags: ifttt, kasumaniのストックした投稿 - qiita from
  • Rubyで前処理。Pixivのタグ検索結果からクロス集計データを作る - Qiita

    概要 Pixivタグ間の共起関係を見てみる事にした。 その為に、Pixivタグ検索結果(A)からクロス集計データ(B)を出力するRubyコードを書いた。 (A) X Y Z X Y Z (B) ,X,Y,Z X,3,1,1 Y,1,3,2 Z,1,2,3 # coding: UTF-8 =begin pxcsv2tagsummap.rb Copyright (c) 2014 nezuq This software is released under the MIT License. http://opensource.org/licenses/mit-license.php =end require 'csv' #Rで読み込む形式にするフラグ IS_FORRLANG = ARGV[0] || '0' #コマンドライン第1引数で1が指定された場合、Rで読み込む形式になる #入力ファイル名 I

    Rubyで前処理。Pixivのタグ検索結果からクロス集計データを作る - Qiita
    kasumani
    kasumani 2014/03/30
    Rubyで前処理。Pixivのタグ検索結果からクロス集計データを作る ,艦隊これくしょん,百合,艦これ,加賀,赤城,赤賀 艦隊これくしょん,98,93,79,13,12,12 百合,93,94,76,13,12,12 艦これ,79,76,81,12,11,11 加賀,13,13,12,13,11,10 赤城,12,12,11,11,12,10 赤
  • Rで可視化。Pixivタグ検索結果からタグの関係マップを出力 - Qiita

    出力イメージ(タグの関係マップ) 概要 タグの関係性を描いた二次元マップを見て、自分も作りたくなった。 対応分析の代表的な可視化手法であるバイプロットという手法を使えば良いらしいので、使った。 処理 01.Pixivの検索結果をCSV形式で取得する。 -> Pixiv検索結果をCSVダウンロードするHTMLファイルを用意した 02.Pixivの検索結果から1タグ1カラムの表データを作る。(Ruby) -> Rubyで前処理。Pixivのタグ検索結果から1タグ1カラムの表データを作る 03.分割表に対し対応分析を実施し、その結果をバイプロットで可視化する。(R)

    Rで可視化。Pixivタグ検索結果からタグの関係マップを出力 - Qiita
    kasumani
    kasumani 2014/03/29
    Rで可視化。Pixivタグ検索結果からタグの関係マップを出力 タグの関係性を描いた二次元マップを見て、自分も作りたくなった。対応分析の代表的な可視化手法であるバイプロットという手法を使えば良いらしいので、使っ
  • Rubyで前処理。Pixivのタグ検索結果から1タグ1カラムの表データを作る - Qiita

    概要 Pixivのタグ検索結果に対して統計解析をする際に、 作品別のタグ情報を1タグ1カラムの表データにする必要があった。 具体的に言えば、(A)から(B)に変換する必要があった。 そのため、Rubyコードを記述した。 (A) X Y Z X Y Z (B) X,Y,Z 1,1,1 1,0,0 0,1,1 # coding: UTF-8 =begin pxcsv2tagtable.rb Copyright (c) 2014 nezuq This software is released under the MIT License. http://opensource.org/licenses/mit-license.php =end require 'csv' #入力ファイル名 INPUT_CSV = 'INPUT.csv' #出力ファイル名 OUTPUT_CSV = 'OUTPUT.cs

    Rubyで前処理。Pixivのタグ検索結果から1タグ1カラムの表データを作る - Qiita
    kasumani
    kasumani 2014/03/29
    Rubyで前処理。Pixivのタグ検索結果から1タグ1カラムの分割表を作る 艦隊これくしょん,百合,艦これ,赤賀,加賀,赤城,艦これ100users入り,漫画,R-18,天龍田,天龍,龍田,大北,北上,艦これ500users入り,大井,艦これ1000users入り,赤城(艦隊こ
  • Pixiv検索結果をCSVダウンロードするHTMLファイルを用意した - Qiita

    概要 Pixivのタグ分析をするに辺り、 検索結果を機械可読性の高いCSV形式で取得する必要がある。 逐一API用のURLを用意し、CSVファイルをダウンロードするのは面倒なので、 インターフェース用のHTMLファイルを用意した。 ※GoogleChrome使用を前提にしているが、 他のブラウザでも動作すると思われる。 複数ポップアップや複数ファイルダウンロードがブロックされたら、 アドレスバーやタスクバーで解除する必要がある。 ※NO SECURE. PHPSESSIDはクリエ文字列やクッキーで暗号化せずに通信される。 ただし、R-18のイラスト小説の取得はPHPSESSIDが必須になる。 デモ コード <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>PxCSVPixiv検索結果をCSV形式で〜</title>

    Pixiv検索結果をCSVダウンロードするHTMLファイルを用意した - Qiita
    kasumani
    kasumani 2014/03/23
    Pixiv検索結果をCSVダウンロードするHTMLファイルを用意した 1 ストック 0 コメント この投稿をストックする 概要 Pixivのタグ分析をするに辺り、 検索結果を機械可読性の高いCSV形式で取得する必要がある。 逐一API用のURLを用
  • ExcelVBAによるIE自動操作サンプル - Qiita

    概要 InternetExplorerをExcel-VBA経由で操作するサンプルを記述する。 Google検索を自動で行い、検索数を取得してみる。 Excel単体テスト仕様書との連携が待たれない。 コード 参照設定: Microsoft HTML Object Library Microsoft Internet Controls Attribute VB_Name = "Module1" Option Explicit Private Const URL_TARGET As String = "http://google.co.jp/" Private Const TIME_MINIMUMWAIT As Integer = 1 Private Const TIME_MAXWAIT As Integer = 3 Public Sub Main() Dim ie As InternetExp

    ExcelVBAによるIE自動操作サンプル - Qiita
    kasumani
    kasumani 2014/03/16
    ExcelVBAによるIE自動操作サンプル InternetExplorerをExcel-VBA経由で操作するサンプルを記述する。 Google検索を自動で行い、検索数を取得してみる。 Excel単体テスト仕様書との連携が待たれない。 Tags: ifttt, kasumaniのストックした投
  • 1