It’s that time of week again, folks. Welcome to Week in Review (WiR), TechCrunch’s regular digest of the past week in tech. New here? Not to worry — sign up here to get WiR in your i
![TechCrunch | Startup and Technology News](https://cdn-ak-scissors.b.st-hatena.com/image/square/92584d6251feb0822f349cf0211361b2833c9939/height=288;version=1;width=512/https%3A%2F%2Ftechcrunch.com%2Fwp-content%2Fuploads%2F2018%2F04%2Ftc-logo-2018-square-reverse2x.png)
2021-09-092015-12-16 ナレッジワークス、自然言語処理と機械学習などを使用したビッグデータ活用プラットフォームをアマゾン ウェブ サービス上に構築 ナレッジワークス株式会社は、同社の検索サービス「SCOPE」で培ってきた自然言語処理のノウハウを、機械学習や深層学習など新技術と組み合わせてサービスを提供する『データサイエンス事業』を、2015年12月16日(水)に開始した。 ナレッジワークスは、「アマゾン ウェブ サービス(以下 AWS)」上に、Amazon Machine Learningをはじめとする、Amazon Kinesis、AWS Lambda、Amazon S3、Amazon Redshiftなど複数のAWSサービスと「オープンソースソフトウェア(以下 OSS)」を組み合わせ、自然言語処理、機械学習、深層学習、グラフ分析などが可能な『ビッグデータ活用プラットフ
毎日50万件のレビュー作業を効率化。 Wikipediaを見ていると、ときどき「この記事には複数の問題があります」「要出典」みたいな注意書きが出てきますよね。あれって人手で記事をチェックしたうえで書かれているのですが、Wikipediaへの加筆修正は毎日約50万件もあるそうなんです。しかもWikipediaへの書き込みはどんな人でも可能なので、先日はWikipediaのあるミュージシャンの記事に加筆してそのミュージシャンの家族になりすます、なんて事案も発生しました。Wikipediaの中の人たちは、そんな完全なウソとか広告目的の記述、政治・宗教などがからんだ編集合戦、事実誤認や誤字脱字、そしてまっとうな事実の追記も含めて、玉石混交の編集行為を日々大量にチェックしていく必要があるんです。 そこで、膨大な作業に優先順位を付けるために人工知能を使った仕組みが新たに導入されました。「Objecti
食事×テクノロジーのFoodTechイベントに参加してきた。 peatix.com その中でRettyさんのやっている画像処理、自然言語処理が興味深かったのでまとめてみる。 Rettyは実名のレストラン口コミサイト。 retty.me 今年に入って10億円もの資金調達をするなど、乗りに乗っているスタートアップだと思う。 jp.techcrunch.com 今回、イベントで話されていたのはキーワード抽出と画像処理についてだった。 機械学習を取り入れるまでは全て人力でやっていたという。 キーワードを抽出について これは下記のような流れで行っているとのこと。 投稿された口コミから形態素解析を行う キーワード候補を抽出する 内部で持っている辞書とマッチング ちなみに形態素解析はMeCabを使用しているとのこと。 MeCabはオープンソースの形態素解析エンジン。使いやすく処理も早いほうだと思う。 M
GREE Advent Calendar 2015の1日目担当のふじもとです、グリー株式会社でCTOをしてます、もう10年目です。 今年もChristmasに向けてみんなで毎日更新していきますので、ぜひぜひよろしくおねがいします。 わりとどうでもよい序 去年、一昨年は25日担当だったんですが、今年は (なんでかは知らないけど) 1日目書くことになったので、ちょっと趣向を変えて技術的な内容にしてみたいと思います。 なおタイトルに、Deep Learningだの自然言語処理 (以下NLP) だの書いてますが、ぼくは機械学習やNLP、はたまたDeep Learningの専門家でもなくって、たしなむ程度に勉強していたくらいです。ので、この記事はアルゴリズムについて詳しくなろうっていうよりは、いろいろ試してみたっていう方向になってます。 Summary わりと単純なCNN + 少ないコーパスでも、タ
日立製作所は9月17日、Hitachi Indiaおよびインド情報技術大学ハイデラバード校と共同で、電子カルテから病態や病気の部位などの指定された情報を高精度で抽出する技術を開発したと発表した。 同技術は2014年1月から5月にかけて実施された情報検索技術の医療情報抽出技術コンペ「CLEF e-Health 2014 Task2」にて、情報抽出精度86.8%で総合1位を獲得。2014年9月15日~18日に英国で開催される「Conference and Labs of the Evaluation Forum 2014」にて詳細が発表される。 将来の病気の発症確率予測などを行うには、血液検査結果などの既定フォーマットに入力された情報に加え、医師が記入した電子カルテを分析して得られた情報の活用が必要となる。しかし、電子カルテは、医師によってさまざまな表現で記入されるため、必要な医療情報を抽出す
Machine Learning Advent Calendarの20日目です。 はじめに Naive Bayes(NB)とその改良版のTransformed Weight-normalized Complement Naive Bayes(TWCNB)、Averaged One-Dependence Estimators(AODE)という手法について解説と実装を書きます。 Naive Bayes NBはベイズの定理と特徴変数間の独立性仮定を用いた分類器です。文書のカテゴリ分類等でよく利用されます。 NBは、事例$X$に対し$P(y|X)$が最大となるクラス$y$を分類結果として返します。$P(y|X)$は、ベイズの定理を用いて、以下のように展開が可能です。 P(y|X) = \frac{P(y, X)}{P(X)} = \frac{P(X|y)*P(y)}{P(X)} \propto P
写真1●ビジネスデータ分析画面(「年収が500万円以上」と推定される人が持つ、その根拠となるデータのうち、影響度の強い要因を可視化した例) アシストは2013年11月12日、個人向けに無償で提供しているBIソフト「QlikView Personal Edition」の分析テンプレートを拡充し、クラウド型の機械学習分析サービス「Bazil」を使って顧客データなどを分析できるようにした「QlikView Connector for Bazil」を開発したと発表した。 データ分析の用途として、(1)ビジネスデータ分析(写真1)と、(2)Twitter分析(写真2)の、二つの機能を提供する。 (1)ビジネスデータ分析では、顧客の離反分析や製品の品質改善など、複数の属性情報データを自動的に解析する。例えば、離反した顧客と取り引きを継続している顧客の属性情報をBazilで自動的にスコアリングする。これ
皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。本記事では、過去の
写真1●専門家が重要文書を分類するパターンをプログラムが学習して、そのパターンを元に他の文書の重要性を判別する 国際訴訟支援サービスを手掛けるUBICは2013年9月6日、犯罪捜査などのために電子データを収集・解析するのに使用するフォレンジックソフトウエアの新版「Lit i View Xaminer(リット・アイ・ビュー・エグザミナー)」を発表した。専門家が重要文書を分類するパターンをプログラムが学習することで、プログラムが重要文書を自動的に判別できるようにした。 従来のフォレンジックソフトは、キーワード検索などで調査対象とする文書を絞り込むもので、文書の重要性そのものは人間が判断していた。Lit i View Xaminerではまず、弁護士などの専門家が重要文書を分類した結果(教師データ)をプログラムが学習する。プログラムは、重要な文書とそうでない文書に含まれる単語に重み付けをし、その重
機械学習を学ばねばなあと思っている、けどあんまり本格的に勉強してない、という状況を脱するために一冊の本を読みました。『言語処理のための機械学習入門』です。なぜならば、デキる友人が「定番の『パターン認識と機械学習』を読む前に『言語処理のための機械学習入門』と『わかりやすいパターン認識』と『統計的機械学習』を読むと読み進めやすくなる」と薦めてくれたからです。『パターン認識と機械学習』については、僕は2年前に初めて読んで挫折し、去年2度目にトライして挫折しています。 僕のバックグラウンドですが、情報系の大学院修士課程2年、コンピュータビジョンと機械学習が少しだけわかる、といった感じです。今年度で卒業なのに『パターン認識と機械学習』すら読めないのはこの界隈の人間としては非常に情けない事態ですので、それを何とかするために読んでいるわけです。上記3冊のうち『わかりやすいパターン認識』については既読です
今回は、CRF の前向き・後ろ向きアルゴリズムについて。 可変次数 CRF のアルゴリズムとの対比のために書いておく。 前向き・後ろ向きアルゴリズムは、1 次の CRF で使われる*1。 高次に応用する方法も考えられないこともないが、計算量が次数に対して指数的に増加するため、あまり現実的ではない。 1 次の CRF で使う素性関数は、文脈に関する特徴と 長さ 1 または 2 のラベル列を組み合わせたもの。長さ 1 のものは状態素性、2 のものは遷移素性と呼ぶこともある。 例として前回と同じものを使う。 文は "time flies like" という三つの単語で、可能なラベルは N, V, A の 3 つ。 素性関数は、次の 5 つ。 文脈にかかわらず、今の位置でラベルが "N" の時に 1 になるもの。重みは 2。 文脈にかかわらず、今の位置でラベルが "V" の時に 1 になるもの。重
今回は、可変次数 CRF の計算方法についての解説。 これはぼくの研究で、2年前に修論にして、国内の言語処理学会にも出したのだが、一人で国際学会に出せるような論文にするまでのモチベーションが湧かず、そのままになっている。 一緒に考えてくれる人を募集中。 まず、可変次数 CRF について。 可変次数 CRF という考え方自体は新しいものではなく、Conditional Random Fields with High-Order Features for Sequence Labeling(Nan Ye et al., 2009) でも紹介されている。 CRF*1 では、一般的な素性関数の形は次のように表せる。 この形では、たとえば「前の前のラベルが A で、今のラベルが B の時に 1 になる」といった、ラベル列をスキップした素性関数なども定義できることになる。 だが、可変次数 CRF では
最大エントロピーモデルの続き。 今回は、CRF(Conditional Random Fields, 条件付き確率場とも) 一般*1について。 前向き・後ろ向きアルゴリズムについては書かない。 また、一般に関連が深いとされる MEMM というものについても、ここでは触れない。 CRF とはどういうものか。 一言でいうと、最大エントロピーモデルの考え方を系列ラベリングに応用したもの。 ここで、系列ラベリングというタスクについて簡単に説明しておく。 たとえば、品詞タグ付けのようなものがある。 英語のように単語が分かれている言語で、それぞれの単語に対して「名詞」「動詞」などの品詞タグをつけるというタスク。 古典的な "time flies like an arrow"*2 を例にとる。 これには複数の解釈があり、その中には 時は矢のように過ぎ去る(光陰矢のごとし) 時バエは矢を好む のようなもの
最大エントロピーモデルについての解説。 既存の資料としては、A Simple Introduction to Maximum Entropy Models for Natural Language Processing や「言語処理のための機械学習入門」(通称高村本)が詳しい。 記事中でもその用語を適宜使ったり、内容を引用したりする。 ここでは、できるだけ直感的に理解できるような説明を目指す。 まず、最大エントロピーモデルとは何か。 最大エントロピーモデルは、分類を行う時に使われる。 たとえば、あるレビューに出てきた単語(good とか bad とか)から、そのレビューがポジティブなのかネガティブなのか分類する、というようなもの。 この分類先のことをクラスと呼ぶ。 最大エントロピーモデルは識別モデルの一種。 識別モデルの他には生成モデルというものもある。 これらの違いは、レビューの例で言う
Tracking dynamics of topic trends using a finite mixture model 概要 タイムスタンプ付きの文書がジャンジャン来る時に文書集合のトレンドを把握する. 課題 リアルタイムなデータに対してトレンドなどを把握したい.その際,次の三つを1つのフレームワークで満たしたい. どのようなトピックがあってどれぐらい重要なのかを知りたい 新しいトピックが現れ,成長する様子を知りたい トピックの特徴を知りたい というわけで正規分布の有限混合モデルで対応するが,提案手法では 過去のデータをガンガン捨てて最近のデータを重視する 時間間隔を考慮する 次元数(=単語数)は時間が経つにつれ増えるので正規化する 提案手法 t におけるパラメータを t - 1 のパラメータを使って更新する t - 1 のみしかパラメータ更新に用いない 時間間隔が更新式に入っている
あまり細かいことは気にせずテキスト分類器のRubyライブラリを1コマンドで自動生成する便利ツールを作りました。 いろいろ迷走している間に。 gem install nekoneko_genでインストールできます。 なにをするものなのか、ちょっと分かりにくいので、例で説明します。 2ちゃんねるの投稿からどのスレッドの投稿か判定するライブラリを生成する 例として、2ちゃんねるに投稿されたデータから、投稿(レス)がどのスレッドのレスか判定するライブラリを生成してみます。 準備 まず gem install nekoneko_genでインストールします。 Ruby 1.8.7でも1.9.2でも動きますが1.9.2のほうが5倍くらい速いので1.9.2以降がおすすめです。 環境は、ここではUbuntuを想定しますが、Windowsでも使えます。(WindowsXP, ruby 1.9.3p0で確認)
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く