タグ

ブックマーク / qiita.com/nezuq (6)

  • Webスクレイピングの法律周りの話をしよう! - Qiita

    [2020/09/09追記] 記事の内容は著作権法改正より前に記載されたものです。 最新の情報をご確認下さい。 * 著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁 * 令和2年通常国会 著作権法改正について | 文化庁 上記に関連して、次の記事を記載致しました。 * 【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita 4日目になるまでに残り1時間なので、急ぎで書きます。 後、私は法律の専門家ではないので記事の正確性は保証できません。自己責任でお願いします。 はじめに Webスクレイピング技術的な情報は多いのですが、法律に関する情報は数少ないです。 その為、技術的にできる事でも遠慮してしまい、インターネット上のデータを利用する事を避けてしまう人もいます。 特にLibraHack事件以降、その傾向が強いです。 これは「モノのインターネット(

    Webスクレイピングの法律周りの話をしよう! - Qiita
  • ニコニコ大百科データからMeCab辞書を生成する - Qiita

    概要 国立情報学研究所Webサイトにある「ニコニコ大百科データ」(by 有限会社未来検索ブラジル)から、 MeCabの辞書を生成・適用する。 研究目的でテキストマイニングをするならこの方法もありかもしれない。 ※実行環境はLinuxMint13(Ubuntu12.04 LTS)です。 方法 01.ニコニコ大百科データを取得する。 http://www.nii.ac.jp/cscenter/idr/nico/nicopedia-apply.html ※head.zipをダウンロード・解凍する。 02.解凍後のheadフォルダと同じ階層に下記Pythonコードを配置する。 # -*- encoding: utf-8 -*- import os import csv import re def main(): #入力フォルダ名 pth = 'head' #出力ファイル名 wtnme = 'ncn

    ニコニコ大百科データからMeCab辞書を生成する - Qiita
  • CaboChaで始める係り受け解析 - Qiita

    注意 著者は自然言語処理(NLP)初心者です。 記載内容に間違いがある場合は、コメントを頂けると助かります。 MeCabの後には、何で遊ぼう? CaboCha(南瓜) CaboCha(南瓜)とは? CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer CaboCha は, SVM(Support Vector Machines) に基づく日語係り受け解析器です。 引用元:cabocha - Yet Another Japanese Dependency Structure Analyzer - Google Project Hosting 係り受け解析とは? 文節間の「修飾する(係る)」「修飾される(受ける)」の関係を調べる事です。 ex.綺麗な海 ・「綺麗な」→「海」 #「綺麗な」が「海」を修飾する。 何が嬉しいの

    CaboChaで始める係り受け解析 - Qiita
  • Webスクレイピングの注意事項一覧 - Qiita

    [2020/09/09追記] 記事の内容は著作権法改正より前に記載されたものです。 最新の情報をご確認下さい。 * 著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁 * 令和2年通常国会 著作権法改正について | 文化庁 上記に関連して、次の記事を記載致しました。 * 【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita はじめに Webスクレイピングで誰も嫌な思いをしなくて済むように、注意事項一覧を作りました。 ただ、法律の専門家による解釈ではないので責任は取れません。 この記事は、クリエイティブ・コモンズのCC-BYで公開致しますので、ご自由にご改修下さい。 データをダウンロードする時 目的は下記のものに限る。 * 個人や家族間で使用する * Web検索サービスを提供する * 情報解析をする ※参考:著作権法第30条・著作権法第47条(6

    Webスクレイピングの注意事項一覧 - Qiita
  • 徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiita

    紹介 オープンデータは、 政府データを、全ての人が自由に加工し、自由に再配布し、自由に商用利用できるようにしていこうとする政治活動です。 現在、政治の透明性や経済の活性化の観点から注目されており、 日政府も実際にデータを出し始めています。 -> 参考サイト:Open DATA METI | 経済産業省のオープンデータカタログサイト ただし、日のオープンデータの問題として、 ☆1のオープンデータが出てくるケースが多い事が挙げられます。 オープンデータは、そのオープン性により5つ星で評価されます。 ☆1のオープンデータ、つまりPDFは、 構造化データではない為に最もクローズドとされています。 しかし、技術に疎い公務員の方に機械可読性の重要性を説くことは難しく、 それを理解して貰えたとしても機械可読性の為の予算を割り振って貰えるかは微妙です。 現実問題として、PDFに対峙する必要があるのです

    徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiita
  • Rでクローリング。FirefoxをR経由で自動操作する。 - Qiita

    概要 WebのUIテストフレームワーク「Selenium」は、 InternetExplorerやFirefox、GoogleChromeなどのブラウザを自動操作できるようにする。 いわばブラウザマクロツールだ。 また、このツールはHTMLソースの取得やエレメントからの値取得もできるため、 ログイン処理やJavascript制御があるサイトでのクローリングにも転用できる。 正直、前回のニコニコ静画用コードの方が断然役に立つと思うが、 諸事情によりRを通して実行するコードを作ったので公開する。 機能 小説投稿サイト「小説家になろう」でキーワード検索する。 ヒットした作品の一覧をファイルに出力する。 ※Firefoxが自動で開き、操作される。処理後、Firefoxは閉じられる。 事前準備 下記ソフトをインストールする。 ・Java ・Firefox rJavaパッケージのインストール(下記コー

    Rでクローリング。FirefoxをR経由で自動操作する。 - Qiita
  • 1