2. CPS事業部開発部 NLPチーム 2003年入社、12年目 関わってきた技術 形態素解析、かな漢字変換、情報検索、情報抽出、 レコメンド、etc 関わってきた商品 JMAT、ATOK、ConceptBase、BONNE、 Listing Auto-Flight、ピタジョブ、etc 自己紹介 2
「犯人は○○」「△△が勝つ」――ネットサーフィン中に思わぬネタバレに遭遇してしまった経験がある人は少なくないはず。けれども、将来的にはこうしたアクシデントは減少するかもしれません。Googleが米国時間の4月7日、“ネタバレ警告システム”の特許を取得しました。 米国特許商標庁のDBより システム名は「Processing content spoilers」。こちらは、“ユーザーの状況”に応じてネタバレ警告を打ち出すというもので、SNSの投稿やサードパーティ・端末のログ(動画サイトで○話まで視聴した/電子書籍で○巻まで読んだ)などから各ユーザーにとって「ネタバレと思われる内容」を自動的に判断。そして該当する情報を非表示にしたり、「ネタバレを含む可能性があります 見る? 見ない?」などと選択肢を出すことが可能になるそうです。 ネットに蓄積された情報を使用 チャート 現時点ではGoogleがこれ
こんにちは、はてなアプリケーションエンジニアの id:skozawa です。現在は、ブックマークチーム、及び、プラットフォームチームで開発をしています。 先日リリースされたはてなブックマークの新機能「トピック」の裏側について、Hatena Enginner Seminar #4で紹介しました。 Hatena Enginner Seminar #4で紹介した資料に少し加筆・修正を加えたものを公開します。 内容 「トピック」機能は、はてなブックマーク開発ブログにもある通り、これまで何人かのエンジニアが挑戦してきましたが、実現できていませんでした。その主な要因として、 トピック生成の精度が低い トピックタイトル生成が難しい という問題があり、これらを検索技術と自然言語処理技術によって解決することによりベータリリースへとこぎつけました。 トピック生成 これまでキーワードなどを用いて記事をクラスタリ
言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。 この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会 第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。 「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する
本日は大学院入試の2日目で、博士後期課程の試験である。昨日の博士前期課程の入試で疲労困憊し、今日も一日中朝からいろいろあることが分かっていたし、娘は今日が産まれて満3ヶ月で2回目の予防接種に行く日なので、朝の散歩はスキップさせてもらう。(と書くと、スキップで散歩した、というようにも読めるが、当然そんなわけはない) 午前中は10時に研究室に行き、朝のミーティングをする。それぞれ自分で夏休みの過ごし方、研究の方向性などが決まってきて、いい感じ。じっくり考えることも研究には必要なのだが、そもそも最初のうちは「下手の考え休むに似たり」なので、手を動かせば数時間でできるようなことは、深く考えず手を動かした方がよい(繰り返していくうちに手が速くなるし、そもそも繰り返さなくてよいように自動化するプログラムを書いたりするようになる)。 そういうわけでなんだかんだとお仕事をする。口頭試問の10分前になっても
Template type Note also that there are two types of templates. The types are specified with the first character of templates. Unigram template: first character, 'U' This is a template to describe unigram features. When you give a template "U01:%x[0,1]", CRF++ automatically generates a set of feature functions (func1 ... funcN) like: func1 = if (output = B-NP and feature="U01:DT") return 1 else ret
単語感情極性対応表 日本語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日本語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日本語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品
修 士 学 位 論 文 感情語辞書を用いた 日本語テキストからの感情抽出 Affect Extraction from Japanese Text using Emotional Dictionary 菅原 久嗣 東京大学 大学院 情報理工学系研究科 電子情報学専攻 指導教員 石塚 満 教授 目 次 概要 2 1 背景と関連研究 3 1.1 感情抽出手法の研究動向 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.1 コーパスと分類器を用いた手法 . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.2 感情語辞書を用いた手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
国内唯一のTwitter公式パートナーシップにより Twitter全量データをご提供 株式会社NTTデータは、2012年9月27日に米Twitter社とTweetデータ提供に関するFirehose契約を締結致しました。これにより、米Twitter社から全量・全言語のTweetデータをリアルタイムに受領し、Twitter社の公開APIよりも大量・高度・高付加価値なTweetデータをご提供可能なサービスプラットフォームを構築しております。 最上位のTwitter Official Data Partnerとして、このプラットフォームを基軸に、ユーザー企業様のソーシャルメディア情報活用を支援していきます。
Not your computer? Use a private browsing window to sign in. Learn more
MEAD MEAD is the most elaborate publicly available platform for multi-lingual summarization and evaluation.The platform implements multiple summarization algorithms such as position-based, centroid-based, largest common subsequence, and keywords. The methods for evaluating the quality of the summaries are both intrinsic and extrinsic. MEAD implements a battery of summarization algorithms, includin
(THE ASCIINATOR) html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format). Also known as: html to text, htm to txt, htm2txt, ... Try Enter the address of the web page you'd like to convert. URL: Example sites: aaronsw.com, daringfireball.net. Bookmarklet: 2text Buy html2text
Vol. 43 No. SIG 2(TOD 13) 情報処理学会論文誌:データベース Mar. 2002 重要文抽出,自由作成要約に対応した 新聞記事要約システム YELLOW 大 児 竹 玉 清 敬† 充†† 岡 増 本 山 大 吾†† 繁†† 日本語の新聞記事を対象とした新聞記事要約システム YELLOW について報告する.YELLOW は, 重要な情報を洩れなく抽出する」ことに重点をおいて作成した.本システムは,二重修飾に着 「 目した削除を中心とした文内要約と,重要度付与による文選択の 2 つの部分より構成される.文内 要約では,構文解析結果を積極的に利用する.ある名詞に対し,複数の修飾部がある場合,名詞を限 定する働きが弱い修飾部を削除する新たな手法を提案する.また,換言処理,例示の削除など の要 約手法も用いる.重要度付与では,主要語,高頻度の名詞,位置情報,見解文
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く