[B! 自然言語処理] mainyaaのブックマーク

全脳アーキテクチャ若手の会20170131

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...Yuya Unno

mainyaa 2017/02/14

リンク

自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData

言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する

mainyaa 2015/07/24

リンク

Pure Go で辞書同梱な形態素解析器 kagome を公開してみました - Qiita

概要 Kagome(籠目)は Pure Go な日本語形態素解析器のプロトタイプです．辞書をソースにエンコードして同梱しているので，バイナリだけで動作します．辞書データとして，MeCab-IPADICを利用しています．関連: Pure Go な形態素解析器で実行バイナリに辞書埋め込んだヤツを作ってみた (1) Pure Go な形態素解析器で実行バイナリに辞書埋め込んだヤツを作ってみた (2) 未知語処理編 Pure Go な形態素解析器で実行バイナリに辞書埋め込んだヤツを作ってみた(3) 完結編ソースインストール

mainyaa 2014/07/14

リンク

人工知能：東大入試からシンギュラリティまで - Active Galactic : 11次元と自然科学と拷問的日常

メディアや他の方がいくつか報告を上げているが、土曜日に『ロボットは東大に入れるか』の講演を聞きに行ったので気づいたことなどをメモしておこう。人工知能にとっては、センター数学よりも東大二次数学の方が解きやすいことや、図形や文の構造を理解することがどうしようもなく難しいことなど、AIと人間の違いに関するいくつかの側面を興味深く受け取った。「人間のように思考する」といった曖昧で高すぎる目標ではなく到達度を客観的に評価しやすい入試問題をターゲットに選んだのはよい着眼点だと思う。もし2021年までに、東大入試クラスの読解力や問題処理能力を獲得したならば、技術文書を要約したり、国会答弁を自動生成したり、様々な産業応用が可能になるだろう。模試の結果はもっと惨憺たる有り様になると思っていたが、センター試験では 387/900、2次試験は（今回は数学のみだが）合格者平均を超えるなど、予想していたより結

mainyaa 2013/11/27

これは面白い研究だなー

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

mainyaa 2007/11/01

Webから抽出した約200億文（約2550億単語）の日本語データから作成したn-gramデータ(1～7gram)を公開致しました。今回のデータ公開はある大学の先生との雑談をきっかけとして工藤と賀沢が20%ルールを使っておこなった成果です

リンク

生きあたりまったりブログ

休学中の過ごし方…うつ状態で何してた？就活やバイトは？大学休学中おすすめの過ごし方、やめたほうがいいことを経験者が解説。

mainyaa 2007/09/06

メモ。

リンク

Language-Independent Set Expansion of Named Entities using the Web - 射撃しつつ前転改

Language-Independent Set Expansion of Named Entities using the Web (R. C. Wang and W. W. Cohen, 2007)を読んだ。例のSEAL(Google SetsとかBayesian Setsに似た奴)のアルゴリズムについて書いた論文だ。ちゃんと固有表現抽出までやってるとしか思えないとか書いてたが、実際には全然違った。固有表現抽出どころか形態素解析すらしてない。 SEALがやってくれることはGoogle Setsなどと同じだ。いくつか単語を与えると、その単語と同じグループに含まれるような単語を返してくれる。この論文ではそのようなグループの例として、メジャーリーグの球団名とか、時計のブランド名とか、そういったものを使って実験している。アルゴリズムは以下の3ステップによって構成される。与えられた単語を用い

mainyaa 2007/09/06

言語非依存版のGoogle Setsみたいな同じ集合に属する単語を出してくれるサービスSEALのアルゴリズムの論文の解説。固有表現抽出どころか形態素解析すらしておらず、すべてWebから持ってきているらしい。

リンク

辞書不要の形態素解析エンジン「マリモ」とは − ＠IT

2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

mainyaa 2007/08/16

「対象テキストの文を1文字ごと2文字ごと3文字ごとと10文字単位になるまで、すべての組み合わせを解析します。漢字部分以外はすべてローマ字に変換して行うため母音と子音の組み合わせから新語の品詞が推定できます」

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

自然言語処理に関するmainyaaのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス