タグ

ブックマーク / aial.shiroyagi.co.jp (7)

  • カメリオで使われている機械学習 | カメリオ開発者ブログ

    はじめまして。白ヤギコーポレーションでエンジニアをしている谷田です。 カメリオでは、テーマに合ったニュース記事を提供するために、機械学習を応用した新しいアプローチを最近こっそり導入しました。この記事では、カメリオがどのようにニュース記事がテーマに合っていると判断しているのか、そのアルゴリズムの概要を解説してみたいと思います。 カメリオでは新しく入ってきたニュース記事を、何万もあるテーマの中から良く当てはまるものに自動的に振り分けています。これまでカメリオでは、記事があるテーマに振り分けられるためのさまざまな条件を半自動的に導出して、テーマと記事とのマッチングを行っていました。しかしこの従来の方法では、テーマ名の単語が記事中にたくさん出てきたりした場合に、実際にはあまりテーマに関係が無かったり、あるいはユーザの興味を引かないような記事が混ざってしまうことがありました。 新しく導入した機械学習

    カメリオで使われている機械学習 | カメリオ開発者ブログ
  • word2vec の各種実装の速度比較 | カメリオ開発者ブログ

    word2vec_cbow はさすがに GPU を使うだけあって元になった word2vec に比べて3倍以上高速になっています。 chainer は GPU を使うとだいぶマシになりますが、それでもかなり遅いです。ただ、 improve-word2vecランチの実装では、 Chainer 1.5 のものと比べて速度が1.5倍程度に改善されています(ここには示していませんが、条件によっては2倍以上の性能が出ることもありました)。残念ながらまだマージされていませんが、次のバージョンにはぜひ入ってほしいですね。 まとめ この結果を見る限り、速度に関する比較だけで言えば word2vec か gensim のどちらかを使っておけば良さそうです。 word2vec_cbow は速いですが、 GPU が必要なので動かせる環境が限定されてしまいます。逆にどうしても高速化したい場合には良い選択肢だと

    word2vec の各種実装の速度比較 | カメリオ開発者ブログ
  • 正月の酔っ払い物理学者が数学者の皮を被った天使に出会うお話 | カメリオ開発者ブログ

    あけましておめでとうございます。白ヤギの物理担当、シバタアキラ(@punkphysicist)です。 皆様はどんなお正月を過ごされましたか?日の正月といえば、おせち、日酒、おばあちゃん、そしてパズル、ですよね。私の正月はそんな感じでした。お節をたらふくべ、美味しいお酒でほろ酔い気分になっている私の横で、黙々とおばあちゃんがパズルをやっているのに気づいたのです。部屋中をフワフワしている私とは全く対照的に、微動だにせずパズルを続けるおばあちゃん。御年迎えられると辛抱強さが半端ない。 そんなおばあちゃんがやっていたのはかわいいチョコレートのピースとは裏腹にこんな挑発的な文言の書かれたパズルです(この記事はアフィリエイトではありませんが、写真をクリックすると買えます) 何時間たっても答えが出ないおばあちゃん、辛抱強さは人一倍強いですが、私も何とか助けてあげたいと思いトライ。しかし日酒が・・

    正月の酔っ払い物理学者が数学者の皮を被った天使に出会うお話 | カメリオ開発者ブログ
    skozawa
    skozawa 2015/01/07
  • トピックモデルに基づく多様性の定量化 | カメリオ開発者ブログ

    こんにちは、シバタアキラ(@punkphysicist)です。 明日NikkeiBPさんから発売予定の「図解と数字で説得する! データプレゼンテーションの教科書」の�記事のために、自然言語処理を使った分析をさせていただきましたのでご紹介させていただきます。こんなビジュアルのかっこいい分析です。 今回ご協力させていただいたにご興味をお持ちの方は下記からお探し頂けます!下記日経BPさんのご紹介 得られた答えや発見を図解やビジュアルの形で分かりやすく示す「プレゼンテーション」能力も身に付ける必要に迫られて います。そこで、図解を使ってメッセージを分かりやすく伝える方法論から、最先端のデータビジュアライゼーションの現状までを盛り込んだムック「データプレゼンテーションの教科書」の一部を公開します。これこそデータを魅せるワザを習得できるベストプラクティスです。 今回のお題は「多様性」です。今年もいろ

    トピックモデルに基づく多様性の定量化 | カメリオ開発者ブログ
  • ディープラーニングを使ったイメージの切り抜き | カメリオ開発者ブログ

    こんにちは、シバタアキラです。この度PyDataの家であるアメリカのコミュニティーで半年に一度開催されているPyDataカンファレンスに出席するため、NYCに行って来ました。11/22-11/23の二日間の日程で行われ、延べ250人ほどが参加したイベントです。その時の模様は、先日のPyData Tokyo第二回ミートアップでもご説明させていただき、また後日記事化されると思いますので、そちらをぜひご覧いただければと思います。 今回はそのPyData NYCカンファレンスで私が発表してきたミニプロジェクトについてお話します。最近各所で話題に上がるディープラーニングですが、これを使った応用を「カメリオ」のサービス向上のために使えないか、というのがそもそものプロジェクトの着想でした。今回PyData Tokyoオーガナイザーとして、またディープラーニングで色々と面白い実験をしている田中さん(@a

    ディープラーニングを使ったイメージの切り抜き | カメリオ開発者ブログ
  • 自動要約アルゴリズムを公開しました! | カメリオ開発者ブログ

    要点から言うと、この度試験的に自動要約サービスを公開しました。画像をクリックしてGo! こんにちは、白ヤギの自然言語処理見習い、シバタアキラです。忙しい時に余計なことを聞かされると、イラっとクルものです。「いいから要点にまとめてくれない?」とか、夫婦間でいうのはあまりオススメしませんが、職場ではよく聞かれるのではないでしょうか。戦略コンサルティング会社は「3っつで言うと」とよく言うことでも知られているように、要点をまとめてササッと話せる人を大量生産しており、実際に重要なポイントをコンサイスに表現できる人は「よく出来る」ということになるわけです。 アルゴリズムによる自動要約の研究は最近始まったものではなく、既に10年以上の研究がなされており、理論的にも体型だって論じられているようです。自然言語処理学会では、各種の問題に対してアルゴリズムの公募が行われていますが、2007/2008年にはNIS

    自動要約アルゴリズムを公開しました! | カメリオ開発者ブログ
  • 小さなサーバーで大きなサービスをつくる | カメリオ開発者ブログ

    アーキテクトのItoです。動画を撮るのが趣味ですが、最近はこのを買って、カラーグレーディングの勉強をしています。とても良いです。 さて、今回お話するのはバックエンドにあるフロントエンドについて。 以下はほぼ実際にカメリオで運用しているバックエンド構成です。 図中のサーバーというものはいわゆるHTTPベースのサーバーアプリで、ここでは緑をNode.js, グレーをPython, C++で実装しています。小さいサーバーがたくさんあります。主にクライアント〜フロントエンドAPIだけの構成図で、記事クローラーや各種管理画面などは図にはありませんが存在します。 まずフロントエンドにELB(AWSを使用)とNginxを置き、後ろに NodeベースのフロントエンドAPIサーバーを置きます。 ここはNode.jsで作られたアプリをサービスするごく一般的な方法です。 エンドポイント(api.kamel.

    小さなサーバーで大きなサービスをつくる | カメリオ開発者ブログ
  • 1