clavierのブックマーク - はてなブックマーク

apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip

clavier 2021/11/06

リンク

Elixirでプロセス20万くらい作ってみた - Qiita

Elixirでプロセス20万位作ってみた Elixirの下のErlang VMは軽量プロセスという仕組みを使って、並列プログラミングをサポートしている。ErlangのプロセスはOSのプロセスとは異なり、VM内でプロセスを切り替えている。 erlangやElixirではプロセスの使用を勧められる。実際、どのくらいのプロセスが生成出来るか調べてみた。 process limitの引き上げ 20万プロセスまで生成出来た。それ以上はデフォルトのprocess limit に引っかかって起動出来なかった。erl +P 1000000 でprocess limit をあげられるそうだが、erlang r18からそのオプションは無効化されたそうで、何を指定すれば、process limitの上限をあげられるかわからなかった。追記: erlang r18で+P オプションは無効化されてないそうです。

clavier 2015/11/04

あとで読む

リンク

Elixirを使ってニコニコ動画のレコメンドエンジンを作ってみる - Qiita

このシルバーウィークは、Elixirを勉強している。 Qiitaでも次のような投稿をした。 Elixirのプロセスをマルチコア環境で試した Elixirを試してみた。HirofumiTamori さんのElixirチュートリアルをやってみる ElixirはerlangVM上で動くRubyっぽい文法の言語だ。このサイトの紹介が詳しい。 Elixir ： Erlang VM 上で動作する Ruby 風味の関数型言語実際どのくらい実用に堪えるのか確認するため、昔作ったニコニコ動画で似た動画を推薦するレコメンドエンジン部分を作ってみた。ソースコードはこちらに公開している。中心になるソースコードは、lib/relation_view.exである。ニコニコ動画データセットを使ったリコメンドエンジン類似動画の集計結果まず最初に今回作成したレコメンドエンジンの集計結果を示す。左の紫色の背景の

clavier 2015/10/14

elixir

リンク

flask-babelを使って多言語化サイトを作ってみる - Qiita

flask-babelを使って他言語化サイトと作ったので、作り方をドキュメント化こちらのサイトを、参考にしたが、５年ほど前に書かれていて、現状と合わなくなっているものもあるので、少し修正した。サンプルのコードはこちらのgithubにあげている。 https://github.com/shibacow/flask_babel_sample (実際これだけでこのブログの意図は達成できているかも)。上のレポジトリをクローンして、FlaskとFlask-Babelを入れれば動くと思う。インストール flask-babelはflaskでi18nを実現するためのライブラリだ。flask-babelのサイトはこちらインストールはpipを使って次のようにする

clavier 2015/07/21

あとで読む

リンク

BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita

最近、bigqueryの評価を行っている。本番向けのデータではよくあることだが、本来データが入る場所にnullが入っていたり、要素が無かったり、逆に要素が多かったりする。 bigqueryはTreasureDataの様にスキーマレスではなくきちんとスキーマを定義しなければならない。 bigqueryでは、スキーマの定義にjsonを使い、データのロードにもjsonを使うため、要素にミスマッチが発生する場合が考えられる。スキーマとjsonで要素のミスマッチがあった場合は、データにnullが入っていた場合のbigqueryの挙動に関してまとめた。最初に結果だけ書き、後半に実際にデータロードで試したサンプルを乗せる。データロード時のBigQueryスキーマと、jsonの対応送信jsonにスキーマがある。送信jsonにスキーマが無い

clavier 2014/11/11

bigquery

リンク

Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita

Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。hadoophiveImpalaElasticMapReduceEMR EC2安くなる気がついたら、EC2がだいぶ値下げしていて、我が家のニコニコデータセットの分析環境のHive利用料も安くなっていた。参考【AWS発表】42回目の値下げ！EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも！ http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2-s3-rds-elasticache-and-elastic-mapreduce.html 値段の問題もあり、ニコニコデータセット分析環境は、hadoopのバージョン1系でm1.mediumを3台利用して、分

clavier 2014/05/12

リンク

はてなブックマーク

タグ

ブックマーク / qiita.com/shibacow (6)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス