kenjiro_nのブックマーク - はてなブックマーク

XPathでWebから欲しい場所だけ抜き取る - Qiita
最近、カレー専門の機械学習エンジンを運用している関係で、Webからコーパスを作成している。具体的にはグルメサイトなどから有益な情報をコピペして貯めこんでいるのだが、手作業で広告などを除去するのが面倒で、そういえばXPathというのがあったっけ、と思いだしてみた。配列を入れ子にして、ひとつのドキュメントから複数の箇所を抜き出せるようにしてあるのが工夫ポイントかな。 <?php $s = ""; $url = "http://www.goo.ne.jp/"; $patterns = [ 'www.goo.ne.jp' => [ '//title', 'id("news-chu-new")' ], ]; foreach( $patterns as $domain => $xpaths ){ if( strstr($url,$domain) ){ @$content = file_get_con
kenjiro_n 2020/06/26
PHP

html

xml

scraping
リンク
Pythonによるガントチャート生成ライブラリ - Qiita
import genGanttChart gchart = GanttChart( (720, 320),(255,255,255) ) gchart.draw_calendar() gchart.draw_campain("2019-10-15","2019-10-18","こんにちは") gchart.draw_campain("2019-10-20","2019-10-23","こんにちは") gchart.draw_campain("2019-10-24","2019-10-30","こんにちは") gchart.draw_campain("2019-10-28","2019-10-30","こんにちは") gchart.draw_campain("2019-10-29","2019-10-30","こんにちは") gchart.show() gchart.save("test.p
kenjiro_n 2020/06/26
python

lib

ganttChart
リンク
PHPで文字を画像にするやつ - Qiita
ちょっと、そういうのが必要になったので。（WEBGLで日本語フォントが通らないとか・・・） im.php?str=こんにちは,世界にアクセスすると、カンマ区切りで改行して、こんな画像を生成します。 <?php if( isset($_GET["str"]) ){ $points = explode(",",$_GET["str"]); }else{ $str = ["Hello","World"]; } $im = imagecreatetruecolor(400,600); imagefilledrectangle($im, 0, 0, 599, 399, 0x101010); $font = '/font/NotoSansCJKjp-Regular.otf'; $y = 30; foreach($points as $point){ imagettftext($im, 20, 0, 0
kenjiro_n 2020/06/26
これはGDモジュールの話だったような。

PHP

text

images

generator
リンク
PowerShellでRSSフィードを取得 - Qiita
新しい言語を覚える際は、自分が他の言語で書いたツールを移植してみることから始めることにしている。そんなわけで、前にPythonで書いたRSSリーダ（マルチコア対応）を書き換えてみた。本当はマルチコアで動かしたかったが、MacOSで動くPowerShellではworkflowが実装されてないので、とりあえずシングルスレッドで動かす。 #!/usr/local/bin/pwsh $regex = Read-Host "keyword" $urls =@( 'https://gizmodo.com/rss', 'https://www.cnet.com/rss/all/', 'https://techcrunch.com/feed/' ) foreach ( $url in $urls ){ $f = [XML](Invoke-WebRequest $url) foreach( $it em i
kenjiro_n 2020/06/26
PowerShell

xml

rss
リンク
1