NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...Yuya Unno
![全脳アーキテクチャ若手の会20170131](https://cdn-ak-scissors.b.st-hatena.com/image/square/f871516eb0e7a4a1cadde6783afa84d9c497b50b/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2F20170130-170131114222-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...Yuya Unno
言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。 この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会 第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。 「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する
メディアや他の方がいくつか報告を上げているが、土曜日に『ロボットは東大に入れるか』の講演を聞きに行ったので気づいたことなどをメモしておこう。 人工知能にとっては、センター数学よりも東大二次数学の方が解きやすいことや、図形や文の構造を理解することがどうしようもなく難しいことなど、AIと人間の違いに関するいくつかの側面を興味深く受け取った。 「人間のように思考する」といった曖昧で高すぎる目標ではなく到達度を客観的に評価しやすい入試問題をターゲットに選んだのはよい着眼点だと思う。もし2021年までに、東大入試クラスの読解力や問題処理能力を獲得したならば、技術文書を要約したり、国会答弁を自動生成したり、様々な産業応用が可能になるだろう。 模試の結果はもっと惨憺たる有り様になると思っていたが、センター試験では 387/900、2次試験は(今回は数学のみだが)合格者平均を超えるなど、予想していたより結
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
Language-Independent Set Expansion of Named Entities using the Web (R. C. Wang and W. W. Cohen, 2007)を読んだ。例のSEAL(Google SetsとかBayesian Setsに似た奴)のアルゴリズムについて書いた論文だ。ちゃんと固有表現抽出までやってるとしか思えないとか書いてたが、実際には全然違った。固有表現抽出どころか形態素解析すらしてない。 SEALがやってくれることはGoogle Setsなどと同じだ。いくつか単語を与えると、その単語と同じグループに含まれるような単語を返してくれる。この論文ではそのようなグループの例として、メジャーリーグの球団名とか、時計のブランド名とか、そういったものを使って実験している。 アルゴリズムは以下の3ステップによって構成される。 与えられた単語を用い
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く