タグ

ブックマーク / qiita.com/shibacow (6)

  • apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

    概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。 通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。 今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip

    apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita
  • Elixirでプロセス20万くらい作ってみた - Qiita

    Elixirでプロセス20万位作ってみた Elixirの下のErlang VMは軽量プロセスという仕組みを使って、並列プログラミングをサポートしている。ErlangのプロセスはOSのプロセスとは異なり、VM内でプロセスを切り替えている。 erlangやElixirではプロセスの使用を勧められる。 実際、どのくらいのプロセスが生成出来るか調べてみた。 process limitの引き上げ 20万プロセスまで生成出来た。それ以上はデフォルトのprocess limit に引っかかって起動出来なかった。erl +P 1000000 でprocess limit をあげられるそうだが、erlang r18からそのオプションは無効化されたそうで、何を指定すれば、process limitの上限をあげられるかわからなかった。 追記: erlang r18で+P オプションは無効化されてないそうです。

    Elixirでプロセス20万くらい作ってみた - Qiita
  • Elixirを使ってニコニコ動画のレコメンドエンジンを作ってみる - Qiita

    このシルバーウィークは、Elixirを勉強している。 Qiitaでも次のような投稿をした。 Elixirのプロセスをマルチコア環境で試した Elixirを試してみた。HirofumiTamori さんのElixirチュートリアルをやってみる ElixirはerlangVM上で動くRubyっぽい文法の言語だ。このサイトの紹介が詳しい。 Elixir : Erlang VM 上で動作する Ruby 風味の関数型言語 実際どのくらい実用に堪えるのか確認するため、昔作ったニコニコ動画で似た動画を推薦するレコメンドエンジン部分を作ってみた。 ソースコードはこちらに公開している。 中心になるソースコードは、lib/relation_view.exである。 ニコニコ動画データセットを使ったリコメンドエンジン 類似動画の集計結果 まず最初に今回作成したレコメンドエンジンの集計結果を示す。 左の紫色の背景の

    Elixirを使ってニコニコ動画のレコメンドエンジンを作ってみる - Qiita
  • flask-babelを使って多言語化サイトを作ってみる - Qiita

    flask-babelを使って他言語化サイトと作ったので、作り方をドキュメント化 こちらのサイトを、参考にしたが、5年ほど前に書かれていて、現状と合わなくなっているものもあるので、少し修正した。 サンプルのコードはこちらのgithubにあげている。 https://github.com/shibacow/flask_babel_sample (実際これだけでこのブログの意図は達成できているかも)。 上のレポジトリをクローンして、FlaskとFlask-Babelを入れれば動くと思う。 インストール flask-babelはflaskでi18nを実現するためのライブラリだ。flask-babelのサイトはこちら インストールはpipを使って次のようにする

    flask-babelを使って多言語化サイトを作ってみる - Qiita
  • BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita

    最近、bigqueryの評価を行っている。番向けのデータではよくあることだが、来データが入る場所にnullが入っていたり、要素が無かったり、逆に要素が多かったりする。 bigqueryはTreasureDataの様にスキーマレスではなくきちんとスキーマを定義しなければならない。 bigqueryでは、スキーマの定義にjsonを使い、データのロードにもjsonを使うため、要素にミスマッチが発生する場合が考えられる。 スキーマとjsonで要素のミスマッチがあった場合は、データにnullが入っていた場合のbigqueryの挙動に関してまとめた。 最初に結果だけ書き、後半に実際にデータロードで試したサンプルを乗せる。 データロード時のBigQueryスキーマと、jsonの対応 送信jsonにスキーマがある。 送信jsonにスキーマが無い

    BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita
  • Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita

    Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。hadoophiveImpalaElasticMapReduceEMR EC2安くなる 気がついたら、EC2がだいぶ値下げしていて、我が家の ニコニコデータセットの分析環境のHive利用料も安くなっていた。 参考 【AWS発表】42回目の値下げ!EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも! http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2-s3-rds-elasticache-and-elastic-mapreduce.html 値段の問題もあり、ニコニコデータセット分析環境は、hadoopのバージョン1系でm1.mediumを3台利用して、分

    Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita
  • 1