タグ

NLPに関するscrewboundのブックマーク (39)

  • Google最新技術「BERT」と「東ロボ」との比較から見えてくるAIの課題 « ハーバー・ビジネス・オンライン

    ここ数年のコンピューターを使った自然言語処理の進歩には目を見張るものがあります。 その原動力となっているのが、今のAIブームを支えているディープラーニングという機械学習の手法です。この手法を取り入れたGoogle翻訳が作る翻訳文は、正確かつとても自然で「そのまま使える」レベルに到達しています。ほんの数年前まで、翻訳ソフトはヘンテコな翻訳をするというのが当たり前だったことを思うと隔世の感があります。 そのGoogleAIチームが先日発表した、ディープラーニングを使った自然言語処理の最新モデルがBERT[*1]です。多様なベンチマークで従来の記録を上回る結果を叩き出して、大きな注目を浴びています。 この結果に驚いた人が多いのでしょうか、最近BERTについてよく質問を受けます。BERTそのものについての質問に加えて多いのが、「ロボットは東大に入れるか」というプロジェクトにおいて研究・開発が進め

    Google最新技術「BERT」と「東ロボ」との比較から見えてくるAIの課題 « ハーバー・ビジネス・オンライン
  • 文章の「自動要約ツール」、ユーザーローカルが無償提供

    ユーザーローカルは7月24日、入力した文章から重要部分を取り出して要約する「ユーザーローカル自動要約ツール」を公開した。Webサイト上で無償利用できる。 入力フォームにテキストを貼り付けるか、テキストファイルをアップロードすると、文章構造を分析して特徴語(特徴的な言葉を機械的に抽出した単語)や重要文を自動抽出するツール。重要な文章をマーキングやヒートマップ、モノクロ強調で視覚的に捉えられる強調表示にも対応する。 要約文は「3行ダイジェスト」「5行ダイジェスト」「10行ダイジェスト」といった分量調整もできる。 重要文の抽出には、重要単語を多く含み、他の文に類似度が高い文を抽出するアルゴリズム「LexRank」を活用した。 ツールが公開されているWebページには、ニュース配信各社から引用したニュース文の要約をダイジェストとしてランキング表示している。 同社は「インターネット上には、日々ニュー

    文章の「自動要約ツール」、ユーザーローカルが無償提供
  • 教師なし学習は機械翻訳に魔法をかけるか? - ディープラーニングブログ

    つい先週,機械翻訳で驚くべき進展がありました. 教師なし機械翻訳がヤバい進化を遂げててびっくりした.たった半年でBLEUスコアを15から25に改善したのブレイクスルーでは?https://t.co/SVQlYYu2Pt 教師なし学習でこのクオリティの機械翻訳できるのまじで感動するし,ちょっと語っていい? pic.twitter.com/fBllGtTkgb— Ryobot | りょぼっと (@_Ryobot) 2018年4月23日 要約すると教師なし学習でもひと昔前の教師あり学習の機械翻訳に匹敵する性能を獲得できたというのです.この記事では機械翻訳を知らない初心者にもわかるように魔法のような教師なし機械翻訳の仕組みを説明したいと思います. 教師あり学習の限界 機械翻訳はディープラーニングを適用することで急激に進歩した分野の1つだと思います.Google 翻訳はニューラル機械翻訳を導入するこ

    教師なし学習は機械翻訳に魔法をかけるか? - ディープラーニングブログ
  • 狩野 芳伸 のプロフィール

    外部資金 研究代表者 セコム科学技術振興財団 特定領域研究 情報セキュリティ分野「超スマート社会の「悪」の研究」(2023年度-2025年度) 「SNSにおける欺瞞とその広がりの自動検出・推測と政治学・社会学的分析および予防的介入」 研究代表者(直接経費総額30,000千円) 文部科学省 科学研究費助成事業 基盤研究(B) (2022年度-2026年度予定) 「SNS・新聞記事・議会議事録を用いたAIによる世論形成過程と政治家の応答性の分析」 研究代表者(直接経費総額13,300千円・間接経費総額3,990千円) 文部科学省 科学研究費助成事業 挑戦的研究(開拓) (2021年度-2023年度予定) 「脳科学・認知科学による人間に近いモデルに基づく日語話し言葉解析器の構築と検証」 研究代表者(直接経費総額19,900千円・間接経費総額5,970千円) 吉田秀雄記念事業財団 研究助成 (2

  • 自動要約の研究動向 - 蝉々亭

    あけましておめでとうございます.もう1月も終わりですが,ようやく年を越してしまった課題を終わらせつつあります. 昨年の9月,11月にそれぞれ情報処理学会第213回自然言語処理研究会と人工知能学会第91回人工知能問題研究会にて機会をいただき,自動要約に関する最近の研究動向についてお話してきました.ありがたいことに,資料を公開して欲しい,との声をいくつか頂戴しましたので,内容を整理してここに掲載しておきたいと思います. Automatic summarization from Hitoshi NISHIKAWA 今年の言語処理学会第20回年次大会では,東京工業大学の高村先生が自動要約に関するチュートリアルをしてくださいます.言語処理学会第20回年次大会は絶賛事前参加受付中です.

    自動要約の研究動向 - 蝉々亭
  • 株式会社レトリバ

  • マンションポエム徹底分析!

    マンションポエム。それはマンション広告にちりばめられた詩的キャッチコピー。 折り込みチラシや、駅や電車内の広告などでよく見かけると思う。「洗練の高台に、上質がそびえる」(「プラウドタワー白金台」野村不動産より)といったあの名調子のことだ。 このマンションポエム観察をライフワークにしているぼく。今回はさらに踏み込んだ分析をしてみよう。

    マンションポエム徹底分析!
  • Watson Explorerを使ったテキストマイニング

    IBM Watson Explorer の紹介と、Analytical Componentsを使ったテキストマイニングのデモ、IBMのWatsonビジネスがどのような方向を指しているかについて説明したEXA Value Forum2016セッション資料です。Read less

    Watson Explorerを使ったテキストマイニング
  • 日本語コロケーション辞典 テストページ

    語コロケーション辞典 テストバージョンです。 青空文庫 約12,000作品を対象に、品詞単位で分別し、ほかの品詞との結びつきを一覧で表示できます。 分析対象が50年以上前の作品であるため、用例にも古さを感じます。これを解決するため、今後新しい文章を追加、もしくは入れ替る予定です。 プログラムを用いて生成しているため、不適切なキーワードが含まれる場合があります。 ご了承ください。(これについても精度を上げていきます)

  • プログラミング不要!信じられないほど簡単にFAQボットが作れるマイクロソフト製botサービス「QnA Maker」の魅力

    近年新しく登場した技術の中で、特にホームページ制作者がすぐにでも取り入れられる技術はチャットボットを使ったサービスです。 以前は、チャットボットはプログラミングを行うことも必要でしたが、最近ではプログラミング不要でチャットボットを作成できるサービスも次々と登場しています。 参考: 所要時間たったの15分!プログラミングいらずでLINEやFacebookメッセンジャーのチャットボットを作れる国産ツール「hachidori」の使い方 チャットボットはユーザーが質問をするだけで、あらかじめ用意された回答の中から適切なものを返信するという形が多いようです。 ホームページに埋め込むタイプのチャットボットもあれば、LINEやFacebookメッセンジャーなどユーザーに馴染みのあるプラットフォームを使ってコミュニケーションを取る手段も登場しています。 しかし、中にはわざわざ回答すら用意するのが面倒だった

    プログラミング不要!信じられないほど簡単にFAQボットが作れるマイクロソフト製botサービス「QnA Maker」の魅力
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita

    なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか? この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

    なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita
  • JUMAN++の形態素解析辞書についてのメモ

    黒橋・河原研究室より,新しい日形態素解析システムJUMAN++ ver.1.00がリリースされました(2016.9.23). これは森田一さんらのEMNLP2016の論文の実装です. 配布されているパッケージには,その新しい解析システムだけでなく,新しい形態素解析辞書も含まれています. 以前のJUMAN 7.0に含まれている形態素解析辞書は2012年公開なので,実に4年分の差分が詰まっているわけです. 格フレーム構築の研究の関係で, この形態素解析辞書の動詞まわりの整備を京大在職中に行ったので, どのような変更があるのかを,メモとして少し記します. (なお,このメモにある情報は全て公知の情報に依るものです) JUMAN++の概要 まず,辞書について記す前に,簡単にJUMAN++の概要を述べましょう. JUMAN++という名前から受ける印象は,JUMANを少し改良したものという印象を受け

    JUMAN++の形態素解析辞書についてのメモ
  • 新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

    JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。 これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。 速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。 導入方法 前提 OS X Yosemite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。 推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。 また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr

    新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
  • Budou: 日本語のための自動折り返し制御ツール

    .app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads

    Budou: 日本語のための自動折り返し制御ツール
  • Googleがクラウド自然言語APIを立ち上げる

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    Googleがクラウド自然言語APIを立ち上げる
  • Gyaim

    Gyaim MacOS用の日本語入力システム by Toshiyuki Masui Gyaim.dmg ダウンロード ソース @ GitHub 特徴 GyaimはMacOS用の日本語入力システム(IME)です。 1000行程度のRubyで記述されており、改変が比較的簡単です。 プログラムのソースと辞書データがすべて公開されています。 時刻入力/画像入力/秘密文字列入力 など変な機能があります。 単語登録が簡単です。 Catalinaで動作を確認しています。それ以前のMacOSでは動かないかもしれません インストール Gyaim.dmgをダウンロードして展開し、 Gyaim.appを~/Library/Input Methodsにコピーします。 ターミナルを利用する場合は cp -r /Volumes/Gyaim/Gyaim.app ~/Library/'Input Methods' として

  • ディープラーニングチュートリアル 応用編

    Transcript 1. 大規模データから単語の 意味表現学習-word2vec ボレガラ ダヌシカ 博士(情報理工学) 英国リバープール大学計算機科学科准教授 2. 2 2005 2008~10 学部 修士 博士 助教/講師 東京大学 工学部 東京大学大学院情報理工学系 文書自動要約における 重要文順序学習 同姓同名抽出 別名抽出 属性類似性計測 関係類似性計測 評判分類の分野適応 関係抽出の分野適応 進化計算を用いたWeb 検索結果順序学習 ソーシャルネットワーク の関係予測 対話型協調 Web検索エンジン 潜在関係検索 エンジン 自己紹介 専門分野:自然言語処理, 機械学習,データマイニング 2006~07 2010~13 2010~現在 准教授 リバープール大学 深層学習 3. 今回の講演の背景 •深層学習に関する活動 •2014年9月に深層学習のチュートリアルをCyberAge

    ディープラーニングチュートリアル 応用編
  • 自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData

    言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。 この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会 第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。 「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する

    自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData
  • 放送大学 授業科目案内 自然言語処理('15)

    主任講師 黒橋 禎夫 (京都大学教授) 放送メディア ラジオ 放送時間(平成27年度) 第1学期:(水曜)7時30分~8時15分 講義概要 日語や英語などの自然言語は人間の知的活動の根幹をささえるメディアである。自然言語のコンピュータ処理に関する研究・技術分野を自然言語処理と呼ぶ。近年のコンピュータおよびコンピュータネットワークの進展とともに自然言語処理技術は劇的に進展し、ウェブサーチ、対話システム、機械翻訳などの応用システムが我々の日常に浸透しはじめている。講では、その背後にある自然言語処理の仕組み、難しさ、今後の展開などを解説する。 ※詳しくはシラバスへ 開設年度 平成27年度