Identify keywords and tags from millions of text questions
Identify keywords and tags from millions of text questions
数日前、オレンジニュースで「2008年度人工知能学会の発表資料「頻出パターン発見アルゴリズム入門 −アイテム集合からグラフまで−」(PDF)が紹介されてました。データマイニングに興味があったので読んでみると、タイトルどおりのわかりやすい入門記事だったのでコードを書いて遊んでみました。 3000件ちょいのデータを使って頻出集合を求めてみたところ、はじめは5分もかかってげんなりしたけど、入門記事の高速化の方法をいくつか試していくと3分40秒になり、あるところで突然1秒を切り、現在は0.1秒程度にまで速くなりました!これは楽しすぎ!プログラマにとって中毒性ありですw 頻出集合 データマイニングは紙おむつを買った人はビールも一緒に買う人が多いという神話でおなじみのあれ。頻出集合とはデータマイニングの基本で、例えば一人一人の買った物のデータからある回数以上一緒に買われたものの集合のことです。{1,2
宇野毅明と有村博紀による公開プログラム(コード) このページでは、公開しているプログラムのコードがダウンロードできます。主に、列挙アルゴリズムやデータマイニングに関するものです。全て、宇野毅明、あるいは、良く一緒に研究をしてお世話になっている北海道大学の有村博紀先生によって作られたものです。各プログラムに使用言語とコード作成者が書いてありますので、質問、あるいはバグの報告などは、作成者にご連絡ください。宇野毅明は uno@nii.ac.jp、有村博紀先生は arim@ist.hokudai.ac.jp です。 !!! コードの最近のバージョンに、マッキントッシュのフォーマットではエラーが出るというバグがありました。現行バージョンではこのバグは治っています。 LCM (Linear time Closed itemset Miner) ver.2 (C言語、宇野毅明) [文献 1]
The 22nd Annual Conference of the Japanese Society for Artificial Intelligence, 2008 頻出パターン発見アルゴリズム入門 - アイテム集合からグラフまで - An Introduction to Frequent Pattern Mining – Itemsets to Graphs - 宇野 毅明*1 有村 博紀*2 Takeaki Uno Hiroki Arimura *1 国立情報学研究所・総合研究大学院大学 *2 北海道大学大学院情報科学研究科 National Institute of Informatics, Hokkaido University, Graduate School for The Graduate University for Advanced Studies Informati
The document discusses EdgeRank, an algorithm used by Facebook to determine what posts users see in their News Feed. It also discusses how EdgeRank could be applied to Twitter to help determine what tweets users see first. Several ideas are proposed for how EdgeRank might work on Twitter, including giving more weight to retweets, replies, favorites, and interactions with a user's social connection
5月21-22日に開催される情報処理学会第191回自然言語処理研究会報告の発表原稿 PDF。 小町守, 牧本慎平 (Yahoo!), 内海慶 (Yahoo!), 颯々野学 (Yahoo!). ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得. 情報処理学会第191回自然言語処理研究会. Vol.2009-NL-191, No.9, May 2009. 情報処理学会の bookpark から先週木曜日にダウンロードできるようになったようだが、数カ所式に誤りがある(〆切以降一切修正できない模様)ので、参照される方はこちらを参照されたく。実際の発表前にそんな読む人はいないだろうと思ってのんびりしていたのだが、bookpark 公開バージョンをすでに読まれた方もいるみたいで、みなさまにはご迷惑をおかけしている次第であるが……。ちなみに電子化されたせいかどうか分からないが、ページ数が分からない
バズマーケティングは7月9日、企業とブロガーのコラボレーションを促進するサービス「コラブロ」を開始した。コラブロは、ブログの記事内容を分析してブロガーの“履歴書”を作成する機能と、企業からの広告を配信するブログパーツ機能を提供する。 ブログの分析サービスでは、独自の手法を用いて、ブログ内で取り上げられた回数が多いカテゴリなどをグラフ表示することができる。 例えば、映画に関する話題を多く扱っているブログであれば、「映画」というカテゴリがブログ全体に占める割合や登場回数が表示されるなど、過去のエントリー内容に応じたブログの“成分分析”が可能なサービスだ。分析できるカテゴリは83に上る。 また分析結果では、ソーシャルブックマークの登録数や被リンク数、Googleのページランク、PV、UUといった指標から5段階の「ブロガーランク」も割り出される。ブロガーはコラブロのサイトでユーザー登録すると、マイ
Expired:掲載期限切れです この記事は,ロイター・ジャパンとの契約の掲載期限(30日間)を過ぎましたので本サーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。
世界の未来を可視化する 私たちは、創業以来長年にわたり、 データとアルゴリズムによる課題解決をテーマに、 ビッグデータの収集、 データビジュアライゼーション、 AIや統計学を活用した分析機能まで 一連の実装をおこなってきました。 膨大なデータを整理することで、 目まぐるしく変化するグローバルの事象を 可視化し、更にはその先の未来を予測することで、 人々、組織、そして社会の意思決定を 支援することをミッションとしています。 SERVICE サービス Webデータを始めとするビッグデータの収集と正規化、 Tableau等のBIツールを基にしたデータビジュアライゼーション、 テキスト分析支援サービスや画像処理技術、 統計学やAIによるデータ分析ソリューションを提供しています。 ビジネスを加速する Webデータ抽出サービス 競合調査価格調査市場調査 ShtockDataは、Webサイトをクローリン
キーウォーカーは10月18日、ブログに書かれた文章の意味を解析し、ブロガーの属性をグラフなどで表示するブログ解析エンジン「BlogSphere」のアルファ版を公開した。 キーウォーカーは人工知能の技術を応用して自社で開発した「日本語自然文意味検索エンジン」を採用した ブログ検索サイト「KEYWALKERブログ検索」を2006年3月に公開している。 今回発表したBlogSphereは、同社のブログ検索の技術開発をさらに進めたものだ。従来のKEYWALKERブログ検索では、キーワードを入力して検索すると、その検索キーワードを含んだブログ記事が一覧表示されるだけだったが、BlogSphereではそれに加えて、検索キーワードを含むブログを書いたブロガーの属性情報を分析し、グラフなどでビジュアル化して表示する。 BlogSphereアルファ版では、約3000万ページのブログ記事から、ブロガーの男女比
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く