2013/04/29 · ... groonga-normalizer-mysqlに新たに追加したノーマライザーです。 これを使うと濁音、半濁音を区別することができるようになるので、照合順序として ...
GNOMEに標準搭載のエディター、geditはそのままだと日本語が文字化けして全く使えない… それを修正するとともに、正規表現も使えるようにカスタマイズする。 文字化け対策 geditは標準設定だとUTF-8で利用していると問題ないのだが、 その他の文字コード、SHIFT_JISなどのテキストを読み込むと文字化けしてしまう。 これはConfiguration Editorで文字コードを追加することで対策を行う。 まず、Configuration Editorを起動する。 Applications > System Tools > Configuration Editor ※ インストールされていない場合は以下手順でインストール。 コンソールからrootで以下コマンド # yum install gconf-editor Configuration Editorが起動したら、以下の手順で文字
Ubuntu でテキストエディタは何がいいんですかね?おすすめって何かあるんでしょうか。 とりあえず、普段はwindowsでサクラエディタを使っているので サクラエディタのUbuntu版がないかなと調べたところ、wineを使ってサクラエディタを動かすというのが出てきました。 これでもいいんですが、せっかくUbuntu使っているのでGeditをしばらく使ってみようということになりました。 行番号表示とか、スペース表示・改行コード表示はググると出てくるんですが、「文字コードはどうやって表示するの?」となりました。 調べていると有効なWikiNameではありません - DebugIto'sが出てきたんですが、古くてgeditの3.10には使えず。 更に調べるとありました。 Encoding in statusbar (gedit plugin) - Display document encodi
2014/08/01 · 「gedit」では、ドキュメントの読み込み時と保存時に、ドキュメントのエンコーディング(文字コード)を指定することができます。 デフォルトの ...
docs.ruby-lang.org › ... › open-uriライブラリ › OpenURI::Metaモジュール 対象となるリソースの文字コードを文字列で返します。Content-Type ヘッダの文字コード情報が使われます。文字列は小文字へと変換されています。
あまり頭を使わずに,文字コードを直したいときは,標準添付ライブラリの「kconv」を使っています. 詳しくは,この辺にかいてあるのですが, Rubyist Magazine – 標準添付ライブラリ紹介 【第 3 回】 Kconv/NKF/Iconv とっても便利です. 特に,エクセルで加工したファイルなどの場合は,「Shift_JIS」となっていて,ruby上では「UTF-8」の方が使い勝手が良かったりするので,kconvを多用しています. # _*_ coding: utf-8 _*_ require 'kconv' str_sjis = "文字列".tosjis str_utf8 = "文字列".toutf8 puts "#{str_sjis.encoding} => #{str_sjis}" puts "#{str_utf8.encoding} => #{str_utf8}" 出力と
charset -> String | nil[permalink][rdoc][edit] charset { ... } -> String 対象となるリソースの文字コードを文字列で返します。Content-Type ヘッダの文字コード情報が使われます。文字列は小文字へと変換されています。 Content-Type ヘッダがない場合は、nil を返します。ただし、ブロックが与えられている場合は、その結果を返します。また対象となる URI のスキームが HTTP であり、自身のタイプが text である場合は、 [RFC2616] 3.7.1 で定められているとおり、文字列 "iso-8859-1" を返します。 例 require 'open-uri' URI.open("http://www.ruby-lang.org/en") {|f| p f.content_type # =>
encode(encoding, **options) -> String[permalink][rdoc][edit] encode(encoding, from_encoding, **options) -> String encode(**options) -> String self を指定したエンコーディングに変換した文字列を作成して返します。引数を2つ与えた場合、第二引数は変換元のエンコーディングを意味します。さもなくば self のエンコーディングが使われます。無引数の場合は、Encoding.default_internal が nil でなければそれが変換先のエンコーディングになり、かつ :invalid => :replace と :undef => :replace が指定されたと見なされ、nil ならば変換は行われません。 [PARAM] encoding: 変換先
文字エンコーディング(文字符号化方式)のクラスです。Rubyの多言語対応(M17N)機能において利用されます。
2018-11-08 sunspiderベンチマーク ログ 2018-02-15 log/2018-02-15 2018-01-17 document/python tips document 2017-09-14 log/2017-09-14 2017-09-12 document/mac tips 2017-07-10 log/2017-07-10 2017-06-21 log/2017-06-22 log/2017-06-21 2017-06-07 log/2017-06-07 2017-04-26 log/2017-04-24 2017-04-19 document/excel エクセル tips document/Vi Vim tips 2017-03-21 中国人 ビザ関係 2016-11-25 log/2016-09-19 log/2016-11-01 2016-10-12
JavaScriptで波形生成して音を出している人がいて,かっこよかったので,音が出るのを作ってみた. http://hitode909.appspot.com/wav/ リアルタイムに,audioタグで音を出して,canvasで波形が表示してる.死ぬほど重い. 加速度センサーを使えるときはノートパソコンを傾けるか,マウスを動かしたりすると,音程と音色が変わる. Firefox3.6でMacBookだと,ノートパソコンを傾けて遊べて,音もちゃんと出る.Safariだと音が変な感じになる.Google Chromeだと音が出なかった.デスクトップのときはマウスで音程とか変えられるようになってる. 参考 JavaScriptで波をつくろう。リアルタイム波形生成&再生 - Yanagi Entertainment この記事がすごく参考になった,というか,ソースコードはけっこうコピーしてきたりした
Hpricotなら文字化けしないのが,Nokogiriだと文字化けすることがあって,よくわからない. irb(main):029:0> NKF.nkf('--utf8', Hpricot(open('http://tokuna.blog40.fc2.com/blog-entry-2076.html').read).at('title').inner_text) => " Amazonで安く売られている商品だけを探せるサイト「Amazon-Sale」*二十歳街道まっしぐら" irb(main):030:0> NKF.nkf('--utf8', Nokogiri(open('http://tokuna.blog40.fc2.com/blog-entry-2076.html').read).at('title').text) => " Amazon、テーテつ、ツッテ、ツ、テゥツ、テャツ、テ、ツ、
■ [ruby] open-uriでUTF-8でないページを取得するときの注意 Ruby標準添付のopen-uriライブラリを使うと、HTMLを簡単に取得することができる。 irb> require 'open-uri' irb> url = "http://blade.nagaokaut.ac.jp/cgi-bin/scat.rb/ruby/ruby-dev/43008" irb> html = open(url).read このとき、文字コードがUTF-8でないことが分かっているなら、第二引数でエンコーディング名を指定しておいた方が良いだろう。(あ、ここからはRuby 1.9の話です。) irb> html = open(url, "r:euc-jp").read 読んだあとは、String#encodeでUTF-8に変換することができる。 irb> html = open(url,
Nokogiriでゴリゴリやってます。やっと使い方分かってきました。 Nokogiriだとデフォルトでも割と文字化けしないなと思ったんですがさすがに色んなサイトを対象にしようとすると化けました。ので何とかします。 他にいい方法があったら是非教えて下さい。 (注意:下に追記があります。binaryで読み込んでkconvのtoutf8、charsetにutf-8を指定でほぼ起きなくなりました。) require 'open-uri' require 'nokogiri' uri = "http://www…" page = URI.parse(uri).read charset = page.charset if charset == "iso-8859-1" charset = page.scan(/charset="?([^\s"]*)/i).first.join end document
2014/08/14 · 追記. 文字化けの原因はcharsetが未指定だったからではなく、parseしたURIオブジェクトをNokogiriに読み込ませていたからの様です。
NodeとNodeSetとElement NodeとNodeSetの違いについて理解する必要がある。 Nodeset Nodeを格納したリスト型は配列 Node NodeSetに格納されているもの (例) require 'nokogiri' require 'open-uri' html = open("http://XXXXXXX") doc = Nokogiri::HTML.parse(html, nil, "UTF-8") nodesets = doc.xpath('//title') puts nodesets.text puts nodesets.inner_text puts nodesets.first_inner_text nodesets.each do |nodeset| puts nodeset.text puts nodeset.inner_text end do
MeCab 用の各種スクリプト言語 (perl, ruby, python, Java) のバインディングがあったので、ためしに python-mecab をインストールしてみた。 事前準備 Python モジュールをビルドするので python-dev パッケージが必要。 sudo aptitude install python-dev ダウンロード wget http://mecab.googlecode.com/files/mecab-python-0.993.tar.gz インストール まずは MeCab をインストール。 MeCabのインストール方法 - tatsuyaoiw.hatenablog.com mecab-python のインストール $ tar zxvf mecab-python-0.993.tar.gz $ cd mecab-python-0.993 $ pyth
Elasticsearchの検索結果をcsvで取得できると良いのに、と思っていたところ、jqってコマンドがあるんですね。 Linux系のコマンドラインで利用できるコマンドで、jsonをsedとかawkとかgrepみたいにできるやつらしいです。 公式サイトはこちら。 jq こちらのサイトでは、マニュアルを日本語訳してくれています。 軽量JSONパーサー『jq』のドキュメント:『jq Manual』をざっくり日本語訳してみました | Developers.IO まず、インストール方法は以下です。モジュールをダウンロードしてくるだけですね。 # wget https://github.com/stedolan/jq/releases/download/jq-1.5/jq-linux64 -O /usr/local/bin/jq # chmod +x /usr/local/bin/jq # jq
四季報の文章をネガポジ分析で評価して、株価のパフォーマンスを調べてみたいなあと、その手順についてまとめておきます。 WEBスクレイピングで取得してきた四季報のデータを、「MeCab」で形態素解析して、「単語感情極性対応表」という辞書で文章内の単語のネガポジ判定をしようと思います。Pythonで処理書きます。 とりあえず、今回はmecabに関する部分をまとめておきます。 環境はCentOS7.2.1511です。 mecabのサイトに記載ある通り進めていきます。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer 事前に、サイトからmecab本体とIPA辞書をダウンロードしておきます。 mecab本体のインストールは以下の通り。ダウンロードしておいたtarを解凍してmakeしてます。 # tar zxfv ./mecab-0
MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは 入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、 それを満たすように解析する機能です。 たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。 制約付き解析 (部分解析)より 形態素境界の制約をつける 文の一部の形態素境界がわかってるときに、その部分を一つの形態素として扱って解析するよ
ちゃお... Python Advent Calendar 2015 18日目の記事です... Pythonといったらデータサイエンスに強いし、データサイエンスといったら形態素解析が必要になることがあるし、形態素解析といったらMeCabだし――ということで、今回はPythonでのMeCabの処理を少しでも速くする豆知識を共有したいと思います! parseToNodeを捨てよ parseを使おう MeCabの解析結果を得るにはparseとparseToNodeの2つのメソッドがあります。 わたしはもっぱらparseToNode使ってたのですが、なんか遅いなーって思って、本当に遅いのか確かめるために処理時間測ってみました。現実的な設定でやった方が実用的だと思ったので、今回は夢野久作のドグラマグラから名詞を抽出することにします。 コード import MeCab tagger = MeCab.T
木戸です。 前回ご紹介した「AWS Lambda で MeCab を動かす」のエントリーですが、通りすがりの shogo82148 さんに素敵なプルリクエストをいただきましたので、今回はそのご紹介です。 改善点 改善点は以下の2点です。 「外部プロセス起動をやめて高速化」 MeCabは非常に高速なのですが、外部プロセス起動をやめることでさらに高速化しています。 「OSコマンドインジェクションの危険性の改善」 Amazon API Gateway などで外部に公開した場合のOSコマンドインジェクションの危険性を改善しています。 ソースの解説 前回ご紹介したサンプルコードでは、LD_LIBRARY_PATH を使って、import MeCab 時に libmecab.so ライブラリを見つけられるようにするため、外部プロセスとして起動していました。(そもそも、Lambda handler 起動
俺もビッグデータの分析とかやってみたいなー →Twitterとか身近なビッグデータっぽくて扱いやすそう →よし、アイドル(坂道シリーズ)に関するツイート集めて分析してみよう という軽いノリでFluentd + ElasticSearch + Kibanaというよくある構成で分析基盤(?)を作ってみました。 今回は基盤作るまでのインストール&設定地獄の備忘録。(自力でやんなくてもDockerやChefで一発で構築できるモノが出回ってそうですが…) 全体構成 Fluentdのfluent-plugin-twitterを使ってStreamingAPI経由で乃木坂、欅坂に関するデータを取得 →データをElasticSearchにぶん投げる。kuromojiのanalyzerで日本語の形態素解析 →Kibanaでビジュアライゼーション という構成 KibanaやElasticSearch自身にも認証
Fluentd+ElasticSearch+Kibanaでアイドルデータ分析基盤を作ってみたの回で、FluentdとTwitter Streaming APIを使ってS3にツイートデータを保存したので、このデータをHadoopを使って解析してみます。 今回はMeCabを使って形態素解析してワードカウントを取るような教科書的なMapReduceを試してみました。Hadoop Streamingを使ってPythonでMapper、Reducerを書いていきます。 環境 OS: Mac OS X(El Capitan) Python: 2.7.11 Hadoop: 2.7.1 Hadoopのインストール&設定 以下のURLを参考にインストール&設定すればOK。 分散処理に入門してみた(Hadoop + Spark) Macでhadoopをちょっとだけ動かしてみる – Qiita Mac OS X
Elasticsearch、APIにバルクインサートが用意されているようです。 Elasticsearch + Pythonでどうやるのか調べてみました。 登録用データ 郵便番号データを使用します。 こちらから、全国一括のデータをダウンロードしました。 郵便番号データダウンロード ここを参考に、zipファイルのまま読み込んで登録しています。 Pythonでzipファイルを解凍せずに中身のテキストファイルを読み込む # -*- coding:utf-8 -*-import zipfileimport cStringIOfrom elasticsearch import Elasticsearchdef read_all(): """ 郵便番号辞書の読み込み """ with zipfile.ZipFile('ken_all.zip', 'r') as post:
概要 elasticsearch のインストールから運用のだいぶ手前までのお試しをまとめたメモです.クライアントはpythonクライアントを使います.これがあれば,データの追加や検索をpythonを利用して行えるため,データの加工なども楽になる・・・と思うのですよ. 環境設定 Elasticsearchのインストール 環境が debian だったので,debのパッケージを持ってきてでインストール. % wget https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.3.1.deb % sudo dpkg -i elasticsearch-1.3.1.deb # The first existing directory is used for JAVA_HOME (if JAVA_HOME
本記事ではPythonとElasticsearchを使って、日本のレストランに関するデータを使って記事を検索エンジンにbulk APIを使って登録し、検索するまでを紹介する。 目次 Elasticsearchのインストール Install Elasticsearch from archive on Linux or MacOSに従って以下のようにインストールする。 $wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.2-darwin-x86_64.tar.gz $wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.2-darwin-x86_64.tar.gz.sha512 $shasum -
2020/07/28 · 方法は簡単で、引数にrequest_timeout=秒数(浮動小数点)を渡すだけです。 あえて短い秒数を指定して、タイムアウトさせるサンプルを用意しました。
少しずつ、書いていきます 1. UNIX の wget コマンド ( リンク ) Qiita記事 「首相官邸トップページから4階層先のリンク先 全ディレクトリに自動アクセスして、jpg / png / gif 形式のファイルだけを全量ダウンロード実行」 ( リンク )Qiita記事 「日本銀行の「調査・研究」タブトップページから、4階層先のリンク先までの全ディレクトリに自動アクセスして、pdf / csv / xls 形式のファイルだけを全量ダウンロード実行」 ( リンク )Qiita記事 「Webデータ収集(その1)~ UNIX wget コマンドで、対象ウェブページ自身を含めて リンク先 指定階層分 先の全ディレクトリのなかから、画像ファイルだけを全量ダウンロード」 ( リンク )Qiita記事 「Webデータ収集(その2)~ UNIX wget コマンドで、対象ウェブページ自身を含め
Python で html をスクレイピングするためのライブラリは lxml や PyQuery、Scrapy 、BeautifulSoup などいくつかありますが、私は BeautifulSoup を使っています。 バージョンが 3 系と 4 系がありますのでインストール時に注意が必要です。 beautifulsoup4 が 4 系で、 BeautifulSoup が 3 系となります。それさえ間違わないようにすればあとは pip でサクッとインストールするだけですので簡単ですね。 ドキュメントの日本語訳を公開してくださっている方がありますのでこちらを読めばだいたい大丈夫そうです。 kondou.com - Beautiful Soup 4.2.0 Doc. 日本語訳 (2013-11-19最終更新) 今回ちょっとしたスクリプトを書いていて使った部分を書いてみます。 たとえば以下の様な
scrapyを使っていたけど なーかなかなかなか、これが難しいのなんの。 そして、フレームワークなのに ドキュメントが全部英語!!!(;ω;) ※英語読めない、隊長が悪いけど どうしても処理の中で、scrapyが取得したURLリンクを使って 別ページを同時処理にてクロールしたかったんだけど うまくいかなくて、もう途中で別途クロールすればいいんじゃね?と思いました。 そこでであったのがこの「BeatifulSoup」 サードパーティらしいけど、結構使いやすそうなので使ってみた。 サイトからとってきます $ curl 'http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/BeautifulSoup-3.2.1.tar.gz' >BeautifulSoup.tar.gz $ tar zxvf BeautifulSoup.t
前回 BeautifulSoup4 を単独で使ってスクレイピングする方法について記事を書いた。 Web スクレイピングは主にクローリングとスクレイピングの二つのパートに分かれていて、BeautifulSoup4 は後者に特化したパッケージだった。 今回は、Scrapy というフレームワークを使って、前者のクローリングも含めてやってみよう。 まずは今回使用する Scrapy と BeautifulSoup4 をインストールする。 ちなみに Scrapy は現時点で Python 3 対応が完了していないので、ここからの作業は全て Python 2.x 系の環境が必要になる。 また、今回の内容には不要だけど、いちいち出る警告を消したいので service_identity も一緒にインストールしておく。 $ pip install scrapy beautifulsoup4 service_i
Scrapy プロジェクトを Digdag でスケジューリングしてみたので導入の備忘録を残しておきます。 環境は MacBook Air (13-inch, Mid 2013), OSX 10.11.6 です。 Scrapy は Web Crawling / Scraping Framework で, mechanize や Beautiful Soup といった特定の機能を提供するライブラリと比べると多機能。 基本的な機能に加えて robots.txtポリシー, クロール間隔設定, リトライ処理, 並行処理, scrapydによるデーモン化 などもサポートしている。 Installation guide 通りで入ると思うが, 自分の環境 (OSX) では pip で上手くインストールできなかった。[1] 依存ライブラリやバージョンの不一致などの理由から conda でインストールを行う。
scrapy を使おうと思って色々戸惑いました^^; 英語のドキュメントを見るのも面倒だったので、日本語で書かれたブログ記事などを見ながら、他の人の作ったサンプルを見てやろうとしてもイマイチ、分からない。「scrapy crawl ●●」を実行するとあったけど、ターミナルで実行しても動かないし、python上で実行しても動かないし、「scrapy.cfg」のファイルがあるところで実行すると記載されてたものもあったけど、最初は全く意味が分からなかった・・・。初めて、scrapyを使用する方の参考になればと思います。 基本的に英語のドキュメントにかかれているので、それを見てけばわかるんだけど、その英語のドキュメント通りにやっても動かない箇所あったので、自分なりに変更してみました。 ①インストール sudo apt-get install python-scrapy にてインストール。pip i
概要 ファイナンス情報の解析がしたいので、材料集めにスクレイピングをしてみる。 Python書いたことないけど、データ解析には向いてると聞いたので、勉強だと思ってやってみた。 スクレイピングにはscrapyというライブラリを使用してみた。 Scrapyとは何ぞやという話は、参考にしたこちらで詳しく解説されているので割愛。 環境 OS:Ubuntu13 Python:2.7.5 (pyenvでインストール) scrapyのインストール ※ scrapyはPython3系だと動かないので注意 1 2 sudo apt-get install libxml2-dev libxslt-dev pip install scrapy scrapyプロジェクト作成 以下のコマンドでプロジェクト作成 1 scrapy startproject yahooFinance yahooFinanceというディレ
はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLやPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPython用スクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast
2016-12-09追記 「Pythonクローリング&スクレイピング」という本を書きました! Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見る 2015年6月21日 追記: この記事のクローラーは動かなくなっているので、Scrapy 1.0について書いた新しい記事を参照してください。 2014年1月5日 16:10更新: デメリットを修正しました。 以下の記事が話題になっていたので、乗っかってPythonの話を書いてみたいと思います。 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマにな
Spiderの作成 次にコンポーネントの一つであるSpiderを作成します。 Spiderにはクロールの処理を開始するためのURLのエンドポイントと、 URLの抽出するための処理を記述します。 # -*- coding: utf-8 -*- import scrapy class QiitaSpider(scrapy.Spider): name = 'qiita_spider' # エンドポイント(クローリングを開始するURLを記載する) start_urls = ['http://qiita.com/advent-calendar/2015/categories/programming_languages'] custom_settings = { "DOWNLOAD_DELAY": 1, } # URLの抽出処理を記載 def parse(self, response): for hr
背景 Python製のスクレイピングフレームワークであるScrapyの存在を最近知ったのですが、ちょっと触ってみた感じ最強でした。 具体的な良い所としては以下が挙げられます。 いくつかの設定+簡潔な記述だけでスクレイピング処理が書ける プログラムベースなのでいざとなれば複雑な処理も書ける Scrapy Cloud というクラウドサービスと連携しているため、作成したクローラをコマンド一つでデプロイ&実行できる クラウドサービスを使えばスケールも簡単、スケジューリング機能、統計情報や監視もついている 概要と導入には以下の記事が大変参考になります。 Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ 手間をかけずに実務で使えるクローラーの作り方 - ITANDI BLOG この記事の目的 概要と導入に関しては上記の記
急遽クローラーが必要なことに 何でする!何でする!とキャッキャッヾ(*´∀`*)ノ ウフフしていたところ 久々にPythonを打ちたくなったので、Pythonを選定。 んで、便利なライブラリないかなーって探索していたら 「scrapy」という、フレームワークに出会った。 フレームワークかよ。と思いきや、結構便利そう。 せっかくなんで試してみることに! 環境は mac os x 10.9.3 python 2.7 インストール $ sudo pip install scrapy おし!入った。 ちな、easy_installでも入れられるっぽい $ easy_install Scrapy では、次にどれどれ・・・ あれ・・・? プロジェクトを作成しなきゃいけないっぽい。Djangoみたいだ。。。 ちなみに、ドキュメントはこちら Scrapy 0.22 documentation 全くではない
最新の類似投稿としてシェルスクリプトのコーディングルール2014も併せてどうぞ。 2014/10/09追記 ぼくがシェルスクリプトを書くときに気にしていること、過去の失敗で書き留めたことを忘れないために。 1. グローバル変数は大文字 PATH や HOME など、環境変数が大文字なので、エクスポートする変数を大文字で書くという習慣は一般的であるような気がしますが、エクスポートする変数を抱えるシェルスクリプトを作成する機会が稀なので。 グローバル変数は大文字 ローカル変数は小文字 エクスポートする変数も大文字 関数内からグローバル変数にアクセスする場合がありますが、やはり区別していると、可読性が増すような気がするのでお勧めです。 2. awk を知る Unix 上にて文書処理をするときに、数多くのフィルタコマンド(grep、cut、tr、head、sort、uniq、sed、awk、wc、
昔に書いたものなので余り参考になさらずに 僕はターミナルに引きこもっています。たまに外出しても最寄りのブラウザ程度です。そんな僕は Mac を使っています。綺麗な UNIX だからです。ターミナルアプリとしてターミナル.app を使っています。iTerm2 含めいろいろ試しましたがコレがさいつよでした。そして、僕は 2 年半かけてさいつよ環境を築き上げました。 tl;dr 最強のターミナル開発環境の構築する 最強の開発環境を目指して タイトルで豪語しすぎた感はありますが、本気で構築中です。僕がターミナル環境の整備に目覚めたのは学生の時でした。特に何かのプロジェクトに携わるといったこともなく、たまに講義の課題を解いたり趣味のアプリを作成したりといった程度での開発だったので、環境構築や整備に割く時間がありました。 まずは現状 普段のターミナル環境は次のとおりです。 ターミナル.app(全画面)
更新日: 2020年9月25日公開日: 2016年4月15日非エンジニアも知っておくべき!ーGitとGithubの違いとは プログラミングをやっていて、「あ、元に戻したい、、、」と思うときはありませんか? バージョン管理システムはそんな悩みを解決するために、変更履歴の保存ができるツールです。 Gitはさらに、ソースコードを好きなタイミングに戻すことや、編集した箇所の差分を簡単に比較できます。 また、GitHubはGitで管理しているソースコードを、インターネット上で誰でもダウンロードしたり編集したりが可能です。 今回は、最も人気なバージョン管理ツールであるGitと、Git管理されているソースコードをweb上で管理できるGitHubについて解説していきます。 バージョン管理システムとは バージョン管理システムとは、テキストファイルの変更履歴を保存できるツールであり、Gitもそのうちの1つです
本記事はプログラミングやWebデザインなど、100種類以上の教材を制作・提供する「侍テラコヤ」、4万5,000名以上の累計指導実績を持つプログラミングスクール「侍エンジニア」を運営する株式会社SAMURAIが制作しています。 また、当メディア「侍エンジニアブログ」を運営する株式会社SAMURAIは「DX認定取得事業者」に選定されており、プログラミングを中心としたITに関する正確な情報提供に努めております。 記事制作の詳しい流れは「SAMURAI ENGINEER Blogのコンテンツ制作フロー」をご確認ください。 GitHubとは? GitHubとは、世界中の人々が自分の作品などの成果物(プログラムやデザインなど)を保存、公開できるWebサービスのことです。GitHub社によって運営されており、個人・企業を問わず無料でも利用できます。 GitHubを使えば、自分の成果物を世に広めることも、
エンジニアなら一度は名前を聞いたことがあるサービス、GitHub。今やOSS開発に限らず、企業内でのチーム開発には欠かせないものになりました。 SELECKにも数々の事例がありますが、「そもそもGitHubって何なの?」「活用方法が分からない」という方のために、連載形式で解説していきます。ネタの続く限り、予定では10回くらいになる予定です(でしたが、第1回を書き終わってみると10回も書けない気がしてきました)。 第1回は、次の内容でお送りします。 GitHubのベースにある技術、バージョン管理システムGitとは? GitHubを使うメリットとは? GitHubへの登録とリポジトリの作成 Gitの使い方「クローン/clone」「コミット/commit」「プッシュ/push」 ▼このシリーズの記事一覧 チーム開発を変える「GitHub」とは?導入方法・使い方を徹底解説!【第1回】【導入編】 チ
リポジトリ管理サービスGitHubの入門記事、連載第3回目です!前回はGitHubの主要機能「Pull Request」について解説しましたが、今回はもう一つの主要機能Issues(イシュー)について、次の流れで解説します。 課題管理機能Issues(イシュー)とは Issuesを使ってみる 担当者を明確にするAssignee(アサイニー)機能 スケジュールを管理するMilestone(マイルストン)機能 増えたIssueを整理するLabel(ラベル)機能 OSSでのIssues活用事例 ▼このシリーズの記事一覧 チーム開発を変える「GitHub」とは?導入方法・使い方を徹底解説!【第1回】【導入編】 チーム開発を変える「GitHub」とは?〜Pull Requestの使い方〜【連載第2回】 チーム開発を変える「GitHub」とは?〜Issuesの使い方〜【連載第3回】 チーム開発を変える
待望のカンバンが標準搭載された GitHub のカンファレンス「Universe 2016」にて、待望のカンバン機能が追加されることが発表されました!「Project」という機能名で、すべての GitHub リポジトリで利用できるようになっています。 A whole new GitHub Universe: announcing new tools, forums, and features 機能の概要は次の通りです。 Code, Issue, PullRequest をリストできる ワークフローに合わせたカラムを設定し、ソートすることができる カードはドラッグアンドドロップで自由に移動できる Waffle.io と ZenHub がパートナーとなって開発している GitHub のリポジトリベースのタスク管理といえば Waffle.io や ZenHub が有名ですが、これらのサービスの開
今まで使ったことがない初心者向けに「GitHubの使い方」を解説した記事です。Gitを使う上で知っておきたい、ローカルリポジトリとリモートリポジトリ、コミットとプッシュなども細かく紹介。最後は、よく使うGitのコマンド12もあり。 テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査 開発者にとってなくてはならないサービスとしてGitHubがあります。 エンジニアにとっては当たり前のサービスですが、これからプログラミングの勉強を始める初心者にとっ
README がキチッと書かれているプロジェクトって、どんなに小さくても立派に見えますよネ。 GitHub の場合、大抵はマークダウン記法で書かれた README.md とか README.markdown とかいう名前のファイルが、HTML に変換 (マークアップ) されて表示されていることはご存知でしょう。 マークダウン記法自体はとても簡単なのですが、GitHub では GitHub Flavored Markdown (略して GFM) という GitHub 用にアレンジされたマークダウン・エンジンが採用されていて、一般のマークダウン・エディタでチェックしてからコミットしても、意図通りの見た目にならないことが多々あります。私 (もちろん GitHub 初心者です!) の場合、README ファイルだけで10回以上もコミットしてしまいました。「マークアップ (レンダリング) を気にして
巷には README 駆動開発(Readme Driven Development; RDD)なるものがあるようで、とても合理的でかつ便利であったので紹介します。 README 駆動開発(以下、RDD)とはその名の通り、README ありきの開発スタイルのことで、簡単に言うと「コード書く前に README 書く」ってことです。 開発に入る前にドキュメンテーション、というまあ当たり前であるようでちょっとしたツールでは蔑ろにしがちなことですよね。 わかりやすいREADME.mdを書く - SOTA Readme駆動開発を和訳してみた - Qiita Readme駆動開発を和訳してみた - 生涯未熟 実践的なREADME駆動について - GH Issue Note RDD のメリット モチベーションが高いときに書ける 正直、README 含めドキュメンテーションってめんどくさいです。しかし、コー
Posted 1月 21st, 2012 by codechord. 9 Comments Tweet Tweet つい先日から、ようやくgithubを使い始めました。 gitのことはあまり勉強してないので右も左もわからず、とりあえず、公開されてるレポジトリのクローンを作りまくってニヤニヤ閲覧しています。 で、そろそろ自分もリポジトリを作りたいなと思って、作り方を調べてたんですが、 「README.md」ファイルというものの存在を知りました。 拡張子「.md」?何の事かさっぱりわからず、ドットモジュールって勝手に思ってたんですけど、全然違いました。「マークダウン」の略でした/// マークダウンとは マークダウンファイルとは何ぞや。調べました。 普通のテキストファイルを、ちょっとした法則にならって書くだけで、HTMLマークアップせずに、自動的にHTMLコードとして変換して出力してくれるという
GitHubなどに自分のツールやライブラリを公開するとき,README.mdは重要な役割を担っている.レポジトリを訪れたユーザが自分のツールを使ってくれるか否かの第一歩はREADME.mdにかかっている,と言っても過言ではない.実際自分が使う側になったときも,まずREADME.mdを読んで判断していると思う. 成功しているプロジェクトを参考にしつつ,自分が実践していることをまとめておく.ここに書いていることはあくまで(自分の中で)最低限的なものである.プロジェクトが成長していくにつれてREADMEはあるべき姿に成長していくべきだと思う. READMEの役割 README.mdには大きく2つの役割がある. プロジェクト,ツールの使い方,インストール方法 プロジェクト,ツールの宣伝 元々READMEは前者の役割しかなかったが,GitHubの仕組み上,後者の役割も徐々に重要になっている. さらに
Unityで音をつけるってどういうこと? 随分前にSoundManagerのスライドを上げたのですが・・・ 少し凝った事をしたい時用でして、実はもっと手軽に音が鳴るんじゃないかと そこで、Unityのゲームに音をつける話をしようかと思います。 用語 スクリプト・・・ プログラムのこと。C#言語で書く。 Unity・・・ ゲームが作れる環境。無料で始められる。 効果音・・・ 音のこと。 ゲームの音のほとんどは効果音でできています。 そして重要な音はほとんどプレーヤーキャラクターの動作音になります。 ゲームジャム 短時間でゲームをつくるイベント。 なぜ音をつける? 音をつけるだけですごく楽しくなる ゲームジャムとかの経験上、音がついたら途端に面白くなります。 ゲーム作りのモチベーションも上がるとおもいます。 全体の流れ 音作り 音のUnityへの登録 スクリプトを作り、ゲームオブジェクトに貼る
UnityのOnAudioFilterReadを使う事で音をならす事ができます。 ということで、サイン波とかノコギリ波とか使って音を操りたい!って 欲求が出てきたので少し勉強をはじめました。 ※こちらの記事が勉強になります。 Procedural audio with Unity http://www.develop-online.net/tools-and-tech/procedural-audio-with-unity/0117433 音響合成、Pdでシンセサイザーをつくる http://yoppa.org/ssaw13/4567.html?fb_source=pubv1 さて、以下のスクリプトをカメラにつければ音が鳴らせます! 周波数の値をいじれば音は変化します。 以下のスクリプトの簡単な説明として 周波数は、1秒間に波が440個あるということで サイン関数にラジアンを渡すことで波を
morimorihogeです。残暑やばい。 ※元々は2014年に書いた記事ですが、2020年になっていろいろと事情も変わっているので2020年revise版として更新しました。 弊社ではバージョン管理システムにGitを使っています。 数ヶ月以上一緒にやっているある程度ツーカーなメンバーだけのプロジェクトなら問題無いのですが、案件によっては協力会社の方が一時的にJOINしたり、新規参入メンバーの参加などで、これまでGitを使ったことがない、または本格的なチーム開発でGitを使ったことがない人が参加することもあります。 ※2020年現在では流石に全くGitを使ったことのない開発者というのはほぼ見なくなりましたが、チーム開発できちんと運用に乗せて使ったことがない、という所は今でもそこそこあるようです。 Gitは自由度の高いシステムですが、その分概念を覚えることが必要なため、導入の敷居が高い方だと
有料アプリケーションの要件 · GitHub Appsは最低100件のインストールが必要です。 · OAuth appsは最低200ユーザが必要です。 · すべての有料アプリケーションは、新規購入 ...
ファイルサーバやSubversionで大量のドキュメントを管理していると、「昔見たあのファイルどこにあったっけ?」「探している資料がすぐ見つからない・・・」ということが起きがちです。 気の利いた解決法はないか探す中でAlfrescoというものを知りました。 使いだすと超便利で、普通のファイルサーバには戻れなくなります。 Alfrescoとは? ファイル内全文検索 タグ/コメント プレビュー 履歴管理 ワークフロー機能等のあるファイル共有サーバ 正確には、エンタープライズのコンテンツ管理プラットフォームとのこと 内部的には、Tomcat + Apache Solr + LibreOffice + DB(PostgreSQL/MySQL)+αという感じ 英国のAlfresco社が開発していて、OSSのCommunity版(LGPL v3)と商用のEnterprise版がある 機能の概要は、公式
AlfrescoにはRESTのAPIが用意されていて、外部アプリケーション連携・管理作業の自動化が可能です。 例えば、ドキュメントの属性変更、ユーザーの登録・更新、タグやカテゴリーの登録がREST APIで実現できます。 http://docs.alfresco.com/community/pra/1/topics/pra-welcome-aara.html http://docs.alfresco.com/community/pra/1/concepts/pra-resources.html 対象環境 Alfresco Community Edition 5.0d REST API利用例 非常にシンプルな例として「タグの一括登録」をREST API経由で自動化するケースを題材に、外部アプリケーションの代わりにRubyスクリプトからAPIを利用してみます。 リファレンスを読むと説明がありま
Jira Softwareを導入検討されているお客様に商品説明をしていると、「他システム連携はできますか?」と良く聞かれます。 バッチ処理を定期的に実行して、レポートをConfluence のページに出力するなど連携が可能です。 今回は、Jira Server版をご利用の方向けに、Rest Remote APIを使ってConfluenceにページを作成する方法をご紹介します。 Confluence(サーバー版)のアトラシアンドキュメント Confleunce (サーバー版)の REST API の詳細については、下記のAtlassian の下記ドキュメントを参照して下さい。 Confluence REST API : https://docs.atlassian.com/atlassian-confluence/REST/latest/ サンプル:https://developer.at
ブラウザが立ち上がり、Jupyterが立ち上がる. 実行したディレクトリの情報が表示される. おすすめの使い方として、~/notebookというディレクトリを作って、githubで管理するのがいいという話も. 現代のエンジニアのための強力なメモ帳 Jupyter notebookのすゝめ 実行したディレクトリには、.ipynbというファイルが作成される. ノートブックの実行は、右のメニューからPython3を実行する. 直感的にわかるように、Cellという単位ごとにプログラムを実行できる. また、Cellのタイプをマークダウンにすれば、間にメモを記入できる. そのほか、ノートの操作にはショートカットも用意されている. matplotlibの表示matplotlibは、グラフを作成してくれるpythonのライブラリ. jupyterで、matplotlibのグラフを表示するには、先頭に %m
Documentation that tells you what this is all about can be found in the doc directory. You can build the docs yourself using Sphinx or browse the docs for the ...
第41回のAlfresco勉強会の、Alfresco Share UI Widgetカスタマイズ方法のご紹介資料です。 Alfresco ShareのUIカスタマイズはAlfrescoのカスタマイズのご要望の中でも多い内容です。 今回はWidget編としてShare Headerの検索フィールドで日本語変換時のEnter入力が検索トリガーとして働いてしまう不具合(?)を修正するカスタマイズについて発表しています。 第39回 Alfresco勉強会で発表した「Share UIカスタマイズの第一歩」(https://www.slideshare.net/MoritakaSoma/share-ui)の続編的な内容になっていますので、Alfrescoを使っていてUI上のWidgetのカスタマイズを行おうと考えている方、Widgetカスタマイズのやり方が判らず悩んでいる方の参考になるかと思います。
Verified details These details have been verified by PyPI Maintainers acdha daniellindsley jacobian jkocherhans Unverified details These details have not been verified by PyPI Project links Homepage GitHub Statistics pysolr is a lightweight Python client for Apache Solr. It provides an interface that queries the server and returns results based on the query. Status Changelog Features Basic operati
SolrのScriptUpdateProcessorを利用し、Pythonでインデックスの前処理をするPythonSolrmanifoldcfScriptUpdateProcessor 参考:http://www.rondhuit.com/scriptupdateprocessor.html 記事はjavascriptの場合についてですが、 ここはjythonを使用しPythonによるフィールド登録のやり方をご紹介します。 ちなみに、環境はCentOS7でSolr6とManifoldCF2.4のバージョンを使用しています。 1.solrconfig.xmlにupdateRequestProcessorChainを追加 ... <updateRequestProcessorChain name="script"> <processor class="solr.StatelessScriptU
最近よくApache Solrを使うので、簡単なアクセス方法をメモメモ solrpyを使ってもいいのですが、今回は基本的なやり方だけで繋げています。 #!/usr/bin/env python # -*- coding:utf-8 -*- import json, urllib2 def search(keyword): query = 'http://solrサーバーのホスト名/solr/select?q=' + urllib2.quote(keyword)+ '&wt=json' # solrへのアクセス用クエリ(検索キーワードはurlエンコードしてから使用) r = urllib2.urlopen(query) # クエリ発行 json_data = json.loads(r.read()) # 結果の読み取り return json_data result = search('ho
DebianにTomcat 7 + Apache Solr 3.5.0の環境を構築し、日本語検索が行えるように設定しました。 DebianにOpenJDK + Tomcat 7 + Solr 3.5.0 の環境を構築する Debian に Tomcat 7 + Apache Solr 3.5.0 + 日本語検索対応環境を構築(lucene-gosen使用) schema.xmlは、このようにid(long)、title(text_ja)、body(text_ja)の 3つのフィールドを持つように指定しています。 <?xml version="1.0" encoding="UTF-8" ?><schema name="example" version="1.4"> <types> <!-- The StrField type is not analyzed, but indexed/s
2014/08/14 · Nokogiriでゴリゴリやってます。やっと使い方分かってきました。Nokogiriだとデフォルトでも割と文字化けしないなと思ったんですがさすがに色んな ...
スクレイピングというのはあれです。 Webのページから必要な情報を抜き出すっていう。アレです。 最近は情報を提供するようなサービスはWeb APIが実装されていることが多いのでJSONでもらってこれることも増えましたが 表示されているHTMLから必要な情報をもらってこざるを得ない場合が存在します。 そんな時はちょっとしたコードで効率よく情報収集したいものですね。 環境 ここではPython3.5を使います。今やWindowsでもMacでもAnacondaなんていう素敵な環境が存在しますので比較的導入が簡単ではないかと思います。 urllibの利用 from urllib.request import urlopen html = urlopen("http://www.skyarch.net/") たったこれだけでhttp://www.skyarch.net/の内容が変数htmlに取得でき
次のコードでhtmlを取得しましたが、 import urllib2 fp = urllib2.urlopen('http://2689.web.fc2.com/1989/GS/GS1.html') html = fp.read() fp.close() 次のように文字化けしてしまいます。 出力結果(一部) <div class='score'> <p class='data-ce'><span>4??8???@1???@?????h?[???@56,000?l</span></p> <div class='float-clear'></div> <table border='1' cellspacing='2' class='board1'> どのようにしたら、文字化けを直せるでしょうか?教えてください、お願いします。
Shift_JISで書かれたHTML、例えば下記のような文書をスクレイピングする場合。 <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS"> <title>title</title> </head> <body> <div id="contents"> <div>1.ほげ</div> <div>2.ふが</div> <div>3.ぴよ</div> </div> </body> </html> Content-Typeは下記のように返されるとする。 Content-Type: text/html; charset=Shift_JIS スクレイピング用のライブラリたちは優れているのでUTF-8じゃなくても内部でうまいこと変換してくれたりするのであ
Ruby の HTML パーサに Nokogiri があります。基本的な使い方は Nokogiri-GitHub Nokogiri を使った Rubyスクレイピング [初心者向けチュートリアル] RubyのNokogiriでギコギコスクレイピングだ Nokogiriでスクレイピング とかを参考にしてもらえばいいんですが、パースした要素の特定の属性を置き換えたいとか追加で属性を追加したい時のメモです。 使い方は require 'nokogiri' doc = Nokogiri::HTML(html_text) # 外部リンクに rel="external nofollow" と title 属性を付ける doc.search('a[href^="http://"]', 'a[href^="https://"]').each do |link| link['rel'] = "#{link['
2014/08/14 · Nokogiriでゴリゴリやってます。やっと使い方分かってきました。Nokogiriだとデフォルトでも割と文字化けしないなと思ったんですがさすがに色んな ...
今回は、ruby, pythonを利用した情報収集について、書いていきます。(初めての技術的な解説なのでドキドキ、ワクワク) 背景 例えば、今在籍している500では、「明日までにアメリカ全国の大学の情報2万件集めといて!」(number_of_students, student_to_faculty_ratio, public_or_private, location, etc..)みたいなお題が、優雅にオフィスの隅っこでご飯をつついている時に、突然降ってきます。逐一サイト見つけてコピペしてたらもちろん終わりません。そもそも、ヘタレにはそんな根性はありません。そんな時、僕の心強い味方がスクレイピングです。 スクレイピングとは何か スクレイピングとは、WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形し直すことです。Webスクレイピングを行うことで、Webページ
はじめに こんにちは、Python界の炭酸x2倍のジョルトコーラです。なんか適当に書いたコードが予想外にはてブ付いたので「みんな好きモノなんだなー」と思いました。同期なコードだとURL増えたときに詰まっちゃうので、非同期なやつもちょろっと紹介しますよ。 あ、くれぐれも闇雲なスクレイピングはしないでくださいよ。DoS攻撃と変わらないですから。捕まっても僕は責任とりませんよ。 リンク 5分でWebスクレイピングをする - YAMAGUCHI::weblog 前回のエントリ。これは直列なコードなのでURLが増えれば増えるほど線形に遅くなる。 やってみよう おさらい 前回は指定した複数のURLのページにあるHTMLからaタグを全部抜き出す、というようなことをしたのでした。で、今回はそれを非同期化しましょうという話。 非同期にしたいところ 前のコードでforとかになってるところは基本的に同期じゃなく
はじめに こんにちは、Python界の情弱です。なんか「WEB屋が知っておくべき」ってエントリが出てたんですが、まあ自分はエンジニアの端くれなのでこのへんは読んでますよ、ってのをメモっておきます。僕は情弱なので、もっと素敵なサイトがあったら教えて下さい。 「英語だから…」なんて拒否っちゃ駄目なWEB屋が知っておくべき厳選ブログ、WEBマガジン色々 | バンクーバーのうぇぶ屋 僕は主にPython系の記事を読んでますが、他のテーマ(言語、OS、仮想化、DBなどなど)はきっと著名な方々がテーマに沿って書いてくれてたりするんじゃなかろうか、と思っています。 こんなのを読んでいる 公式サイト 公式サイト なにはともあれ公式サイトとかを見ておくのはマナー。例としてPythonの公式。更新に関するRSSがあればそれを登録すると便利です。 パッケージ管理レポジトリ 今日日のプログラミング言語だとパッケー
はじめに こんにちは、Python界の情弱です。今日はChrome+HTML5 Conferenceのお手伝いに来てます。いままで全く触れてこなかった世界ですが、結構HTML5はXMLのようにセマンティクスに重点を置いてるんですね。CSS3も動的なエフェクトを簡単にかけられるようになってるし、とてもいいですね。 さて、YouTube Live Streamのお手伝いしながらRSS見てたら、ちょうど今日のテーマに沿ったエントリがdiggで紹介されてたので、翻訳しました。 10 Excellent HTML5 coding Tools Many Users Don’t Know About 10 Excellent HTML5 coding Tools Many Users Don’t Know About (オリジナル) HTML5はウェブサイトの作成方法を根本から変えることになるでしょう。
はじめに こんにちは、動画配信界の情弱です。年始からStackOverflow眺めてたら超絶便利な質問に神回答がされてたので忘れないうちにメモっておく。2012年どっかで役に立てばいいですね。 参考 オリジナルはこちら。ここではコメントにパラパラと載ってたので、まずは直近1ページ目だけにあったものを1個のリストにまとめてみた。ほぼGeorge Stocker氏による回答を載せただけだけど。あとちょっとだけ自分で和訳とか加えたので、知っているものがあればコメントに載せて下さい。追加します。まだDとかFactorとか載ってないし、Pythonも全然足りないし。 API Only - Stack Exchange もしかするとバージョンが古かったりするものもあるかも知れませんが、それもコメントで教えてもらえるとその旨追記します。 他にも過去に挙がったもののリンク ReadWriteWebのプログ
本書はオブジェクト指向プログラミングに慣れ親しんだ読者を対象に、関数プログラミングの手法や考え方の一端を紹介する書籍です。Javaによるサンプルコードを例に、関数プログラミングの実用的で実践しやすい内容を紹介します。Javaプログラマだけでなく、他のオブジェクト指向プログラミング言語のユーザーにも参考になる内容でしょう。なお本書はEbook版のみの販売となります。 本書のサンプル(序文〜1章、ePUB形式、363KB) 序文 「Java開発者のための関数プログラミング」へようこそ 本書で使用されている表記規則 本書に関するお問い合わせ 謝辞 1章 なぜ関数プログラミングなのか 並列プログラミングが得意でなければいけない たいていのプログラムは単なるデータ管理問題 関数プログラミングはよりモジュール的 より迅速に開発しなければいけない 関数プログラミングは簡潔さへの回帰 2章 関数プログラミ
はじめに あけましておめでとうございます。今年もPython界の江古田ちゃんとして頑張っていく所存です。さて id:nishiohirokazu が5分でPythonは便利だと思える記事を元旦から書いていました。 「ほえー、さすが西尾さんや」って思ってたら、西尾さんが「おい山口、5分でPython便利だなーって思える記事書けや」っていう無言の圧力をかけてきたので*1 *2なんとなく書きました。 「5分で」っていうのが読者が読む時間なのか、筆者が書く時間なのかがわからなかったので前者ということにしました。5分で記事とコード両方書くとか無理や。 こんなことないですか 「Webでスクレイピングしたいよー、てへへ。だけど文字コードとかがページごとにバラバラでマジしんどいっす。しかもタグ抜き出すのとかめちゃめんどいっす><」ってことはあったりしませんか? リンクのタイトルとかも綺麗に抜き出したいなー
スクレイピングをするときに必須というわけではないのだが、UAは設定した方がいい。サイトの運営者であれば、ボットからのアクセスと人間からのアクセスはすぐにわかる。なるべく人間に似せるように設定してあげるのがポイントだと思う。UAを設定すること自体は簡単なのだけれども、どのUAを設定するかを調べるのが面倒臭い。 そこで、fake-useragentが使える!!! >>> from fake_useragent import UserAgent >>> UA = UserAgent() >>> UA.ie u'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)' >>> UA.opera u'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14' >>> U
はじめに BeautifulSoupを使ってAmazonのサイトをウェブスクレイピング Amazonの書籍ランキングのURL サンプルコード 実行結果 ウェブスクレイピングはクソ面白いw はじめに AmazonのProduct Advertising APIではランキング情報を取得出来ないので、Amazonのサイトからランキングを取得しようと考えました。楽天ウェブサービスのAPIでは、商品のランキングが取れるのにね。。。 BeautifulSoupを使ってAmazonのサイトをウェブスクレイピング Amazonの書籍ランキングのURL Amazon.co.jp 売れ筋ランキング: 本 の中で最も人気のある商品です サンプルコード # coding: utf-8 import requests import time from BeautifulSoup import BeautifulSo
横浜F・マリノスユース同期6人による新たな挑戦「ROOTS.」。新時代に適応するアスリートに必要な素質とは。
Mac大流行なのでCygwinに需要ないかもしれないけど。一年間のCygwin体験をまとめてみた。今年1年で一番使ったツールで感謝してる。 CygwinはWindows環境にそのままLinuxのCUIツールを導入できる。もう「コマンドプロンプト」に拘る必要は薄くなりました。 僕は今年1年の一番の収穫はCygwinを使ったこと。 Cygwinを使うことでターミナルを使いこなせるようになった。そしてMacに移行してもターミナルさえあるから困らないと思えるようになりました。 コマンドプロンプトを捨てるべき理由 ・SSHコマンドでリモートサーバにアクセスしても文字化けする。 ・色・フォントがダサくて使い物にならない。 ・コマンドが少ない。grep したい。findしたい cmd.exeをすててMinttyを使おう。 Cygwinを使うと、minttyというPuttyベースの素晴らしい。ターミナルが
この記事は [クローラー/Webスクレイピング Advent Calendar 2015] の一つとして書きました。 公開遅いけど。ごめんね この記事の目標 curl コマンドの使い方を覚えつつ、スクレイピングをやっていきます。 この記事で紹介すること curl curl + grep curl -s curl + md5sum curl + md5sum + mail curl + cookie curl + cookie + xpath curl + xpath + xpath シェルスクリプト実行 用意するもの curl xpath libxml grep ruby nokogiri cookie pry 知っておくと便利な知識 css2 css3 xpath jq js への対応 基本方針は「JSに対応しない」 だって、リクエストヘッダ見てたらわかるもん。 curl コマンドでWE
2017/09/29 · 上の例では、ドキュメントのソースディレクトリ内の overview.rst 内に、 README.rst とほぼ同じ内容を記述したい場合です。 同じ内容を overview.rst に ...
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く