機械学習Jubatusを使って1つのプロダクトを作ってる。モックレベルはすぐ完成したので正直に言えばもっと早く完成できるかと思ったけど、実用レベルの精度を達成できなくて、凄く時間が掛かってしまった。というかまだ精度を頑張って上げているところ。 最初はスパッと解ける問題かと思ったら、データがスパース過ぎたのか問題設定が良くなかったのか全然精度が出なかったので、次元圧縮したり、n段で学習するようにしたりと色々やって、それなりの精度が出た。各段ごとに違うタスクを解いていたら、思ったより広範囲の事をやってたみたい。あまりに精度が出ず、各段で考えつく手法を色々試して精度確認もしていたので、思いのほか時間掛かった。そんなこんなである程度の精度は出たんだけど、それでも精度的にまだちょっと足りなくて、特徴量を見直したり、細かい変換を書けたりしている真っ最中だったりする。まあそんなこんなで、結構使ってみて思
Ruby, 機械学習Jubatusの使い方がわかってきて、結構大き目のタスクを解き始めると、それまで動いていたプログラムが突然request timed out errorを吐いて動かなくなる事がある。最初はまったく意味がわからなくて丸一日近く解決に時間を費やしてしまった。1回目のtrainに成功して2回目のtrainでなぜか落ちるみたいな事が起きて、おまけに再現性がよくわからずに本当に困った。このエラーが起きた際は非常に簡単なケースで躓いている可能性が高いので、request timed out errorが生じるわかりやすい例を下に挙げる。 まずは例によってjubaclassifierを起動する。設定ファイルの中身は任意だが、以下で述べるサンプルを動かすならデフォルトで良い。 $ jubaclassifier --configpath ~/workspace/test_timeout.
Ruby, 機械学習機械学習で有名なライブラリとしては libsvm、liblinearがあるが、これらはオフライン学習しかできない。オンライン学習できるライブラリはいくつかあり、例えばsvmsgdなども有名だ。ただしモデルを更新しながら保存できて、楽ちんなライブラリはこれまでまったくなかったんじゃないか。素晴らしいライブラリである。 # 追記:そういやMahoutがあったけど、Jubatusのほうが楽かな。でもちょっと比較はしにくい面もある。 Jubatusはインストールマニュアルも完璧なので、あまり躓くところもなく利用できるのも良い点なのだが、いくつか小さな躓き易いポイントがある。 例えば、将来的に改善される可能性が高い内容ではあるが、ClassifierのアルゴリズムにNHERDが意外と使いにくい。何も考えずに、とある500次元程度の特徴量を持つデータを 20クラス程度に分類する問題
「人口減社会でも成長できる」 引用元:http://hayabusa3.2ch.net/test/read.cgi/news/1373957911/ ソース:http://gendai.ismedia.jp/articles/-/36315?page=4 「人口減社会でも成長できる」 田原:もう1つ、アベノミクスに反対している人たちが言っているのは、「人口減少社会で成長なんてあり得ない」ということだけど、これはどうですか? 竹中:それは、1人当たりの所得は何%増えますか、ということですよ。つまり、生産性が何%増えますか、ということと、でも人口はたしかに減りますから、そこから人口の減少率を引けば、それがマクロの成長率になるわけです。だから、どっちが高いかの問題ですよ。労働生産性の伸び率って2%、3%とかできるでしょう。そこで、人口の減少率が1%弱だったら、それは成長するに決まっているじゃない
昨今のDBMSの分野の進歩はGoogleがパンドラの箱を空けてからずっと凄いスピードで進化し続けているが、中でもVoltDBは飛び抜けたOLTP性能に特化したDBMSだ。しかしそのプロトタイプであるH-Storeからもう何年も経っており、当然その先の何か、というのが見えてくる。 最近久々に技術に立ち戻ってちょっと最新のDBMSに関する論文を読むか、とカラム指向データベースの圧縮手法について学ぼうかとStonebraker教授の前作C-Store(後のHP Vertica)を調べたり、ハイブリッドDBの前段に使われるインメモリDBの構造について勉強しようと思ったりしてたら非常に興味深いシステムを見つけたので紹介したい。それはミュンヘン工科大学のHyPerだ。HyPerはH-Storeのあとを受け、そのOLTP性能の高さを受け継ぎながら、OLAP性能に関してもインメモリDBならではのずば抜けた
Treasure Data’s Plazma: Columnar Cloud Storage Tweet Treasure Data has been developed by Hadoop experts. We get Hadoop, and, in many ways, it’s part of our core. As we have built out the platform, we noticed that the storage layer needs to be multi-tenant, elastic, and easy to manage while keeping the scalability and efficiency. This led us to create Plazma, our own distributed columnar storage sy
会議中に自分が聞けなかった講演、気分が悪くて(二日酔い)まともに聞けなかった講演を動画でみた。 もちろん会議中に自分が聞いた講演は大体オススメなのでそっちの感想はここの方で確認して欲しい。 Viemoの方にはまだちょっとしか上がってないので、それまではyharaさんのまとめからustの動画を見るのがよいでしょう。 List of ustream recordings and slides of RubyKaigi 2013 talks. (Videos will officially uploaded to vimeo) えーっと、以下は単純に観た順です。コメントの興奮度で勝手にランキングしてください。 (ランキング付けして自由を感じなさい(この言葉、好きすぎて困る)) 'Ruby Archaeology'- Keiju Ishitsuka Rubyが生まれる辺りの歴史の話。 今現在、広く
国連の委員会が日本に対して、慰安婦めぐるヘイトスピーチの改善を求めたというニュースが流れ、一部で話題になった。報道に関連したメモを簡単にまとめておきたい。 初出ニュースがどこであるのかがまず気になったのだが、あまり明確にはならなかった。個人的に最初に見かけたのはTBS系のニュースだったように思う。現在ネットから追跡できる日時は22日の16時21分の「「ヘイトスピーチ」国連委が日本政府に改善求める」(参照)である。 過激な言葉で特定の人種や民族などを憎悪する表現「ヘイトスピーチ」が問題となっていますが、国連の委員会が韓国人の元従軍慰安婦に対するヘイトスピーチを防止するよう日本政府に対して求めていることが分かりました。 過激な言葉で、中国人や韓国人の排斥を訴えるデモが各地で行われています。「ヘイトスピーチ」と言われるこうしたデモは竹島や尖閣諸島の問題が再燃した去年夏ごろから特に激しさを増してき
Gluster blog stories provide high-level spotlights on our users all over the world We are very pleased to inform you that GlusterFS 3.4 has now hit GA! This marks an incredible milestone for the Gluster community, and pushes GlusterFS into exciting new directions, including virtual block storage, OpenStack integration and a lot more. -> Download here. Changes Of Note Improvements for Virtual Machi
2013年07月15日22:06 カテゴリIT IT産業より遅れているITユーザー Noah Smithが日本の不況について「DSGEやRBCなどの既存の理論では説明できない」と論じている。私は、普通の教科書に出ていないハイエク的不況だと思う(テクニカル)。 ハイエクは1974年の論文で「失業は部門間の労働の配分の不均衡が残っている状態だ」と論じた。これはのちに部門間シフト(sectoral shift)として理論化されたもので、労働市場が機能していれば、供給過剰の企業から不足している企業に労働移動が起こって生産性は均等化するはずだが、労働組合が人員整理に抵抗すると不均衡が残る。 大恐慌が長期化したのも、1935年にニューディールで労組のストライキ権などを認めたことが原因だ、というのがRBC派の意見だ。しかしRBC的な世界では、このような不均衡が20年も続くことは考えられないが、日本では深
Announcing Amazon Managed Service for Apache Flink Renamed from Amazon Kinesis Data Analytics Today we are announcing the rename of Amazon Kinesis Data Analytics to Amazon Managed Service for Apache Flink, a fully managed and serverless service for you to build and run real-time streaming applications using Apache Flink. We continue to deliver the same experience in your Flink applications without
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く