qiita.com[B!]新着記事・評価 - はてなブックマーク

apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

6 users

概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip

テクノロジー
2021/01/24 19:14

python

判例PDFをパースする際にハマること - Qiita

6 users

qiita.com/shibacow

概要最近は行政データをオープンに公開することで、広く官民に使ってもらおうと言う動きが活発だ。裁判所も過去の判例データを公開している。こちらのサイトで、過去の判例データを検索して、判決文や判決に至る根拠を書いたPDFをダウンロードできる。しかし、そのPDFは人間が読むことを想定しており、PDFの内容を機械が読み取ってデータとして利用することは想定していないように見られる。今回は、判例PDFをダウンロードして、機械的に読み取り、テキスト化する際にどのような不便があるかを共有する。アドベントカレンダーへの参加こちらの記事は、CivicTechテック好き Advent Calendar 2020 12/15に参加しています。使用ツール PDFから機械的にテキストを抜き出すツールは色々あるが、今回は、pdfminer を利用して判例PDFからテキストファイルを抜き出す。pdfminer

テクノロジー
2020/11/30 14:22

jyhtonでpipを使ってライブラリのインストールをする。 - Qiita

3 users

qiita.com/shibacow

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

テクノロジー
2017/11/14 21:05

python

ARM 96コアCPUを使う - Qiita

3 users

qiita.com/shibacow

はじめに CPUのメニーコア化が止まらない。CPUクロックを上げての性能向上が難しくなったので、各CPUメーカは、メニーコア化で性能を上げる方向を模索している。 ARMはそのような競争のフロントランナーを務めている。例えば、64coreのserver用ARMプロセッサーなどが出てきている。そのような中で、Packetという会社が、東京リージョンで、ARM 96コアのクラウドサービスを始めたので、実際メニーコアがどのような性能が出るか試してみた。今までも、東京リージョン以外でARM coreを利用したクラウドサービスはあったが、ヨーロッパなどで、レイテンシが大きくて、使いにくかった。使用マシン今回使用したのは、Packetという会社のARMサーバクラウドサービス。ベアメタルで、96コアのマシンを一時間0.5ドルで利用できる。サーバの性能はこんな感じだ ARMv8 96core 12

テクノロジー
2016/12/30 18:06

Elixirで作るMMOの基礎 - Qiita

9 users

qiita.com/shibacow

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事はElixir Advent Calendar 2015の18日目の記事です。 Elixirで作るMMO Elixirというプログラミング言語が人気だ。関数型言語erlang VM上で動く関数型言語だ。Rubyっぽい書き方ができるといわれている。 Elixir Advent Calendar 2015というカレンダーができるくらい人気だ。この記事では、Elixirで作るMMO-RPGの基礎というタイトルを付けた。なぜならばElixirはMMO1を作るのにとても適していると考えたからだ。今回、elixirでMMOを作ろうと思っ

テクノロジー
2015/12/18 00:03

Elixir

Elixirでプロセス5000万くらい作ってみた - Qiita

54 users

qiita.com/shibacow

Elixirで、表題の通り5000万プロセスぐらい作ってみた。 Elixirで20万プロセスを作ったその後 Elixirはerlang VMをベースとした関数型の言語だ。Rubyっぽい文法も使えて便利である。erlangの特徴である、軽量のプロセスが使えるのが一つの売りである。少し前に、Elixirでプロセス20万位作ってみたという投稿を行った。その時は、デフォルトのprocess_limitのサイズ約26万を超えて、プロセスを指定する方法がわからなかった。親切な方から、26万を超えるprocess_limitの指定方法を教えてもらったので、それならどれくらいまで行けるかと思い、5000万までプロセスを作ってみた。プロセスの単位がインフレしすぎて、実際何の単位なのかわからなくなった。 erlangのプロセスこの場合のプロセスは、erlangで使われる軽量プロセスのことだ。プロセスはe

テクノロジー
2015/11/24 03:30

AWS-GPUとスパコンを比較する方法-スパコン用ベンチマークソフトを動かしてみる - Qiita

3 users

qiita.com/shibacow

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

テクノロジー
2015/11/22 02:33

お手元のマシンとスパコンを比較する方法-スパコン用ベンチマークソフトを動かしてみる - Qiita

3 users

qiita.com/shibacow

#スパコンと自分のマシンを比べてみる最近、スパコン周りの話題が人気だ。またもスパコンにメス　「見合った成果説明できず」京速コンピューターが、予算にあった成果があるかという突っ込みが入ったそうだ。そのニュースをぼーっと見ながら、疑問に思った。自分の手元にあるマシンに比べてどの位、京速コンピュータは速いのだろう？ということで、スーパーコンピューターでよく使われるベンチマークソフト　LINPACKを手元で動かしてみて、どの位違うものなのか比べてみることにする。実際のスパコンは、メモリーやストレージ性能も段違いなので、あまり真に受けないように。 #　ベンチマークソフトを入手スーパーコンピュータの準位比較としてはTOP500というランクが有名だ。そこではLINPACKベンチマークというベンチマークが使われているようだ。LINPACKについてはこちら。書いてあることはよくわからないが、

テクノロジー
2015/11/13 21:04

Elixirでプロセス20万くらい作ってみた - Qiita

34 users

qiita.com/shibacow

Elixirでプロセス20万位作ってみた Elixirの下のErlang VMは軽量プロセスという仕組みを使って、並列プログラミングをサポートしている。ErlangのプロセスはOSのプロセスとは異なり、VM内でプロセスを切り替えている。 erlangやElixirではプロセスの使用を勧められる。実際、どのくらいのプロセスが生成出来るか調べてみた。 process limitの引き上げ 20万プロセスまで生成出来た。それ以上はデフォルトのprocess limit に引っかかって起動出来なかった。erl +P 1000000 でprocess limit をあげられるそうだが、erlang r18からそのオプションは無効化されたそうで、何を指定すれば、process limitの上限をあげられるかわからなかった。追記: erlang r18で+P オプションは無効化されてないそうです。

テクノロジー
2015/11/03 22:08

Elixirを使ってニコニコ動画のレコメンドエンジンを作ってみる - Qiita

5 users

qiita.com/shibacow

{u'comment_counter': 337, u'length': 384, u'movie_type': u'flv', u'mylist_counter': 101, u'size_high': 15860960, u'size_low': 15622973, u'tags': [{u'tag': u'k-pop'}, {u'tag': u'\u2192sm1014'}, {u'lock': 1, u'tag': u'\u30dd\u30f3\u30c1\u30e3\u30c3\u30af'}, {u'lock': 1, u'tag': u'\u674e\u535a\u58eb'}, {u'tag': u'\u771f\u306e\u97d3\u6d41\u30b9\u30bf\u30fc'}, {u'tag': u'\u97d3\u56fd'}], u'thread_id':

テクノロジー
2015/09/28 02:48

Elixirのプロセスをマルチコア環境で試した - Qiita

4 users

qiita.com/shibacow

最近Elixirをちょこちょこ使ってみている。オンラインゲームを作るプラットホームとして優れているのではないかと考えたからだ(ベースとなるerlangが電話交換機を制御するための言語なので得意なのは当たり前だが)。また、CPU単体での性能向上に陰りが見えてきて、メニーコア環境でのプログラミングが増えて来ている。 elixir/erlangが持っているプロセスを使って、簡単にメニーコアを使えて性能が向上するなら、こちらを使って行く方が、メニーコア環境でのコア数増加の恩恵を得られるのではないかと思っている。 CPUが大量にある環境でプロセスを使うことでどの程度コアを並列に使うのか調べてみた。調査環境 EC2のc4.8xlargeを利用して、多数のCPU環境下でelxirがどの程度CPUを使用するか調べてみた。 c4.8xlargeはCPUを36個持っている(手軽に、数ドルで、36cpu環

テクノロジー
2015/09/24 01:05

CPU

flask-babelを使って多言語化サイトを作ってみる - Qiita

12 users

qiita.com/shibacow

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

テクノロジー
2015/07/20 22:52

BigQueryのうるう秒対策 - Qiita

6 users

qiita.com/shibacow

7/1 0時(日本時間の9時)閏秒が挿入される。通常59秒の次は00秒だが、60秒が追加される。http://www3.nhk.or.jp/news/html/20150628/k10010130831000.html BigQueryにうるう秒が差し込また時に、きちんと動くかどうかを確認する。 bigqueryへは通常のロードの他に、td-agent経由でデータを入れることが多いので、td-agent経由でデータをインサートする場合も検証する。結論 td-agent,bigqueryへのデータロード共に、特に対策は必要ないようだ。 BigQueryのうるう秒対策 BigQueryが異常な動作をしないか？うるう秒が入ることで、BigQueryが異常な挙動を示すか？こちらの記事によるとBigQueryは、1秒を20時間にぼかして埋め込むことで、59:60秒を作らないようにしている。

テクノロジー
2015/06/29 18:54

BigQuery

BigQueryのstreaming insertでログが欠損する - Qiita

40 users

qiita.com/shibacow

3千万件送信して、2605件のログが欠落した。今回の調査ではここまでになった。 BigQueryはログを取り入れてからは素晴らしいけど、まずログを取り入れる部分で不安がある。td-agentを使わなければ良いのかもしれないが、そうするとログ収集システムを自前で構築せねばならず非効率である。 googleはfluetdをGCEなどの標準ログコレクターにしたのだから、bigqueryプラグインについても手を加えてくれても良いかも知れない。 TreasureDataへ、並列送信後半は、TreasureDataへも並列で送信を行った。一番最後に一千万件のログを送信した際には、TreasureData,BigQuery両方共ログ欠損はなかった。 TreasureDataの設定は特に何もしなくても、ログ欠損が起こらないのが素晴らしい。ログ欠損とデータ分析今回の調査ではfluent-plugin

テクノロジー
2015/02/09 08:01

さくらインターネットのデータをAWSに引っ越す - Qiita

3 users

qiita.com/shibacow

ストレージのお値段が高いのでAWSに乗り換えられないか検討する私は、いま、ニコランというサービスと、nicoappli というサービスを２つやっている。nicoappliの方はそんなに真面目にはやってないけど。ニコランはニコニコ動画の独自ランキングサイト。nicoappli はitunesランキングを、週単位で、スクレイプしてまとめたものだ。ニコランはさくらVPSのSSD 4Gプラン。nicoappli はさくらVPSの4Gプランを使っている。ニコランは速度が欲しかったのでSSDを使い、nicoappli はデータをスクレイプしたかったので、容量の大きなHHD(400GB)が付いているプランにしている。合計で月7000円程度かかっており、年間8万程度なので若干高く感じている。もう少し安く出来ないかと考えていたが、最近AWSが安くなったので、試算してみた。AWS m1.lar

テクノロジー
2014/12/07 18:51

あとで読む

BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita

38 users

qiita.com/shibacow

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

テクノロジー
2014/11/11 08:47

BigQueryをpythonから利用する。 - Qiita

11 users

qiita.com/shibacow

bigqueryのOauth認証を生成して、p12の鍵を手に入れる。 Googleのデベロッパーコンソールの認証のところから、クライアント鍵を作る。p12という鍵ファイルができるのでそれを利用する。 pythonを利用してのアクセス。こちらのstack over flowを参考にした。同期(sync)と非同期(async)両方をメソッドを試した。試した環境は自分のニコニコ動画データセットの環境で試したのであまり一般性は無い。見たところ、日本語(utf-8)を用いても正常にマッチするようだ。 #!/usr/bin/python # -*- coding:utf-8 -*- import httplib2 import logging import time from apiclient.discovery import build from oauth2client.client imp

テクノロジー
2014/10/08 01:46

ギークの精神と対人コミュニケーションとトレードオフスライダー - Qiita

79 users

qiita.com/shibacow

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? #リーダー論に対する違和感最近、開発のプロジェクトマネージメントをしている。その仕事を通して、リーダー論や開発手法の書物を読むことが多くなった。特に、リーダー論を読むことが多くなった。しかし、リーダー論に関する本を読んでいると、とても違和感を感じることが多かった。その違和感の正体をぼんやり考えていたのだが、アジャイル開発のインセプションデッキに関する話(アジャイルサムライという本に出てくる)で、トレードオフスライダーについて知ったところ、違和感の正体に思い至ったので書いておく。 #トレードオフスライダーとはアジャイル開発の本(アジ

テクノロジー
2014/06/23 02:16

unimidiを使ってrubyプログラムで音を鳴らす - Qiita

7 users

qiita.com/shibacow

windows7のruby環境で音を鳴らす。友人が、rubyで作曲ソフトを作りたいと言っていた。彼はプログラマーではないけれど、音楽が作れる。そのため、rubyを勉強して、作曲ソフトを作ってみたいそうだ。rubyが簡単なのでrubyを使って、音楽が作れると薦めてみた。実際に、rubyを使ってmidiで音を鳴らしてみる。いろいろな作業は、windows7のpowershell上で行う。 windows7でrubyで音を鳴らす準備 rubyで音を鳴らすために次のような準備をする。 gitインストール rubyインストール bundlerのインストールサンプルファイルを落とす unimidiのインストール unimidiのサンプルを落としてくる unimidiのサンプルを見ている。 unimidiのサンプルを鳴らしてみる。 gitのインストール gitのページからwindows用のgitを

テクノロジー
2014/06/01 16:41

Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita

61 users

qiita.com/shibacow

EC2安くなる気がついたら、EC2がだいぶ値下げしていて、我が家のニコニコデータセットの分析環境のHive利用料も安くなっていた。参考【AWS発表】42回目の値下げ！EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも！ http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2-s3-rds-elasticache-and-elastic-mapreduce.html 値段の問題もあり、ニコニコデータセット分析環境は、hadoopのバージョン1系でm1.mediumを3台利用して、分析を行っていた。しかし、Elastic Map Reduceがhadoop2系からimpalaをサポートしたこともあり、hadoopのバージョンを上げて、impalaで分析出来ないか検証する

テクノロジー
2014/05/11 16:58

Treasure Dataでの大容量データベンチマーク - Qiita

34 users

qiita.com/shibacow

あふれるデータ会社で、Treasure Dataを使った分析システムを作っている。ゲーム情報を収集して、ユーザーの体験向上に役立てるためだ。そのため、ユーザーの行動を細かく把握する必要がある。勢いデータ容量は増えてしまう。加えて、オンラインのゲームは、パッケージゲームと違い売って終わりではなく、その後何年にも渡って、サービスを提供する。そのため、ユーザーの行動ログは数億件に達することも珍しくない。 Treasure Dataでのログ分析先に書いたが、大量のログに対応するため、hadoopを利用した問題解決が様々な企業から提供され始めている。タイトルに有るTreasure Dataもその企業の一つだ。こちらからは、ログを送るだけでhadoopやhiveを用いた分析環境を提供してくれる。一方で、こちらが分析機材を用意するわけではないため、どのくらいの速度で分析できるかわからない。特に複雑な

テクノロジー
2013/10/23 17:19

はてなブックマーク

はてなブックマーク

『qiita.com』

EUのデジタル法令作成支援システム LEOSを立ち上げてみた - Qiita

apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

判例PDFをパースする際にハマること - Qiita

jyhtonでpipを使ってライブラリのインストールをする。 - Qiita

ARM 96コアCPUを使う - Qiita

Nianticの求人から推測する『Pokémon GO(ポケモンGO)』のサーバ構成 - Qiita

Nianticの求人から推測する『Pokémon GO(ポケモンGO)』のサーバ構成 - Qiita

Elixirで作るMMOの基礎 - Qiita

Elixirでプロセス5000万くらい作ってみた - Qiita

AWS-GPUとスパコンを比較する方法-スパコン用ベンチマークソフトを動かしてみる - Qiita

お手元のマシンとスパコンを比較する方法-スパコン用ベンチマークソフトを動かしてみる - Qiita

Elixirでプロセス20万くらい作ってみた - Qiita

Elixirを使ってニコニコ動画のレコメンドエンジンを作ってみる - Qiita

Elixirのプロセスをマルチコア環境で試した - Qiita

flask-babelを使って多言語化サイトを作ってみる - Qiita

BigQueryのうるう秒対策 - Qiita

BigQueryのstreaming insertでログが欠損する - Qiita

さくらインターネットのデータをAWSに引っ越す - Qiita

BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita

BigQueryをpythonから利用する。 - Qiita

ギークの精神と対人コミュニケーションとトレードオフスライダー - Qiita

unimidiを使ってrubyプログラムで音を鳴らす - Qiita

Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita

Treasure Dataでの大容量データベンチマーク - Qiita

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『qiita.com』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません