[B! algorithm] acotieのブックマーク

ベイズ分類をベースにしたSmartNewsのチャンネル判定 | SmartNews開発者ブログ

株式会社ゴクロの中路です。普段は機械学習の手法を用いたアルゴリズム改善など、サーバーサイドの開発を行っています。 SmartNewsでは様々なニュース記事を「エンタメ」「スポーツ」「グルメ」などのチャンネルに分けて表示しています。そのようなことを可能にするためには、ニュース記事がどのチャンネルに属するのかを判断する必要があるわけですが、それを行っているのは人ではありません。機械が、アルゴリズムに基づいて、自動的に行っています。今回のエントリーでは、その「自動的にチャンネルに分類する仕組み」について書こうと思います。 SmartNewsにおける、ニュース記事のチャンネル判定を単純化すると、ベースには「ナイーブベイズ分類器」と呼ばれる、機械学習の初歩的な知見があります。このエントリーではナイーブベイズ分類器をメイントピックとして取り上げます。ナイーブベイズ分類器については、すでに様々なとこ

acotie 2013/07/23

algorithm

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

acotie 2011/06/08

リンク

統計的に正しいランキングを行う方法 - Hello, world! - s21g

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 ポジティブ／ネガティブ投票による正しいランキング方法が以下の記事で紹介されています。 How Not To Sort By Average Rating この計算方法では、投票数が少ない場合には分散が大きく不正確な評価で、投票数が多くなるにつれて分散が小さく正確な評価が得られているという事を考慮しています。以下数式これはScoreの信頼区間を表しています。この信頼区間の下界をランキングのスコアにすれば良い事になります。ここで、は、です。全体に占めるポジティブ投票数の割合ですね。は標準正規分布上の信頼区間の有意確率です。さて、五段階評価によるRatingに同様のテクニックを適用する場合はどうしたらいいでしょうか

acotie 2009/05/26

リンク

人工無能の作り方

書いた人 INA 人工無能とは？人間っぽく話すプログラムのこと。会話を理解しているというよりは、なんかそれっぽいことを話すだけのものが多い。今回は「日本語のようなものを話す人工無能」を作ってみたので、その簡単な仕組みと工夫した点について少し書いてみることにする。動機うちのサークルのメンバーがよく集まってるチャット。とてもマニアックなどうしようもない会話が繰り広げられているわけだが、ちょっと物足りない。そうだ！萌キャラがいないじゃないか！「ないなら作ればいいじゃない？」材料 MeCab 形態素解析エンジン難しいことは知らなくても問題ない。「私は変な人ではない」 ↓ 私名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシは助詞,係助詞,*,*,*,*,は,ハ,ワ変名詞,形容動詞語幹,*,*,*,*,変,ヘン,ヘンな助動詞,*,*,*,特殊・ダ,体言接続,だ,

acotie 2009/02/22

algorithm

リンク

お知らせ » 『機械はどれだけ人間に近づけるのか』～第2回　チームラボアルゴリズムコンテスト～ - チームラボ株式会社

2009/02/05: 『機械はどれだけ人間に近づけるのか』～第2回　チームラボアルゴリズムコンテスト～『機械はどれだけ人間に近づけるのか』～第2回　チームラボアルゴリズムコンテスト～情報があふれてる。人間の手で一つ一つ情報を見て取捨選択することは不可能だ。もし人間の手に代わるロボットがいたら世の中がちょっと変わるかもしれない。人間が持つ見えないルールや思考をプログラムで実現してみたいと思わないだろうか。それはきっと使う者を感動させ、未来をわくわくさせるだろう。我々チームラボも常にそこに挑戦し続けたいと思っている。そこで純粋なこの思いを満たせる場をコンテストという形で提供し、プログラマーの皆さんを応援したいと思う。このアルゴリズムコンテストは、機械はどれだけ人間に近づけるのかというお題を通して、皆さんが日ごろ持っているアイデアを、様々な要素技術（例えば、自然言語処理

acotie 2009/02/22

リンク

ガベージコレクションの実装法と評価

1.はじめにプログラミング言語とはシステム化する対象物を抽象化し、コンピュータで処理可能なコードを記述するために用いる人工言語である。プログラミング言語はコンピュータの機械語と一対一の対応をもったアセンブラから始まり、コンパイラを用いて機械語に翻訳することを前提としたコンパイラ言語、インタプリタと呼ばれるプログラムがソースコードを解釈し実行するスクリプト言語と、記述できる抽象度を高める方向へと進化してきた。プログラミング言語はその存在理由から、より抽象度の高い記述が行えること、すばやい開発を行える事が求められる。抽象度の高い記述とは、プログラムがどういう処理を行うか(HOW)ではなく何の処理を行うか(WHAT)を記述しやすい構文、機能を持っていることを、すばやい開発とは記述性の高さ、コードの密度の高さ、バグの発生しにくい構文、機能を持っていることをさす。この抽象度の高い記述、すばやい

acotie 2009/02/19

c
algorithm

リンク

Webstemmer のしくみ

back [English] 基本的な原理レイアウト分析ツール analyze.py 本文を抽出する extract.py パターンファイルの構造おわりに基本的な原理 Webstemmer では、以下のような仮定をもとにして Web ページを分析しています。すべての記事には共通した (たかだか数種類の) レイアウトが使われている。各ページにはメインとなる文章がひとつ含まれている。 (従って、この原理は日記や掲示板などのサイトには使えません) 記事の文章は毎日変わっても、そのレイアウトは変わらない。バナー広告やナビゲーションの HTML タグは同一レイアウトのページで不変。 Webstemmer はこの仮定をもとに、あるニュースサイトの同一レイアウトをもつページをまとめ、それらのページ中で「変化していない部分」をさがします。バナーやナビゲーション用のリンクなどはレイアウトが

acotie 2009/01/08

リンク

はてなブックマーク全文検索機能の裏側

そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

acotie 2008/12/17

リンク

rep.dvi

Markov Cluster Algorithm Web † † Web Web Kleinberg HITS Web Web HITS Web Markov Cluster Algorithm ( ) Web The Discovery Method of Multiple Web Communities with Markov Cluster Algorithm Kazutami KATO† and Hiroshi MATSUO† A web community is a set of web pages created by individuals or associations with a common interest on a topic. Kleinberg’s HITS algorithm find a web community on a query topic by

acotie 2008/08/20

リンク

著名ソーシャルメディアが使っているアルゴリズムを大公開！ | Moz - SEOとインバウンドマーケティングの実践情報

“アルゴリズム”は、もっとも非人間的なものの代表だともいえる。ソーシャルメディアにとって、そのアルゴリズムが不可欠だというのは、実に皮肉めいている。僕はこの間、グーグルがどうやってユーザーデータを集めているかについて書いた記事を掲載した（前編、後編）。今回は、著名なソーシャルメディアサイトが、ユーザーデータを活用する上でどのようにアルゴリズムを用いているのか、白日の下にさらそう。ソーシャルメディアを成り立たせているのは人間の力だが、ユーザーが入力したデータを利用できる状態にする仕組みは、アルゴリズムによって作られている。現在活動している無数のソーシャルメディアサイトで実証済みのことだが、ユーザーの関与とアルゴリズムによる処理ルールの上手いバランスを見出すことは、とても難しくなりがちだ。これから紹介するアルゴリズムは、悪意のないユーザーと結びついて初めてうまくいくものだ。人気ソーシャル

acotie 2008/08/20

algorithm

リンク

「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

acotie 2008/08/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

algorithmに関するacotieのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス