タグ

自然言語処理に関するmfhamのブックマーク (19)

  • 大自然言語時代のための、文章要約 - Qiita

    さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフ そこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。 文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま

    大自然言語時代のための、文章要約 - Qiita
  • 言葉を理解する財務分析AI開発の「ゼノデータ・ラボ」、「NewsPicks」上で決算短信を高速で自動分析するレポートサービス「xenoFlash」(ゼノ・フラッシュ)を期間限定配信

    言葉を理解する財務分析AI開発の「ゼノデータ・ラボ」、「NewsPicks」上で決算短信を高速で自動分析するレポートサービス「xenoFlash」(ゼノ・フラッシュ)を期間限定配信~決算発表後、最速1分以内で決算短信の定量情報・定性情報をインフォグラフィックス化、「NewsPicks」の記事としてレポートを配信~ 独自の技術により、自然言語を理解して企業分析を行う人工知能を開発する株式会社xenodata lab.(社:東京都渋谷区、代表取締役:関洋二郎)は、株式会社ニューズピックス(社:東京都渋谷区、代表取締役:稲垣裕介)の提供するソーシャル経済ニュース「NewsPicks」向けに、AI決算分析レポート「xenoFlash」の一部コンテンツを期間限定で配信開始いたしました。 「xenoFlash」は独自のAIによる自然言語解析・PDF解析技術により自動生成されたレポートで、決算発表後

    言葉を理解する財務分析AI開発の「ゼノデータ・ラボ」、「NewsPicks」上で決算短信を高速で自動分析するレポートサービス「xenoFlash」(ゼノ・フラッシュ)を期間限定配信
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • DMM API・MeCab・マルコフ連鎖でAV作品の紹介文を自動生成 - Qiita

    電子書籍人工知能ポルノ」出版 人工知能ポルノ: コンピュータが書いたエロい文章 記事の生成結果を電子書籍にしました。200~400文字程度の文章を100編掲載しています。 ご興味のある方はどうぞ! 自動生成してえ こちらの記事に感銘を受けた。自分も何かやってみたいと思ったが、DeepLearningを用いての自動生成はハードルが高く、まずはマルコフ連鎖を使って自動生成してみようと思った。 【エヴァンゲリオン】アスカっぽいセリフをDeepLearningで自動生成してみる そうだ!AVだ! 自動生成にはデータが必要。自分はアニメがわからんので、エヴァンゲリオンの真似をしてもテンションがあがらない。自分のテンションがあがるものは?...すぐ思いついたのがAVの紹介文だ。 AV紹介文のメリット 120字程度でデータが多そう? タイトルと比べれば生成する文にバリエーションが出そう 人を興奮させ

    DMM API・MeCab・マルコフ連鎖でAV作品の紹介文を自動生成 - Qiita
  • Watson日本語版の正式版、MUFGはLINE向けQA、ソフトバンクは業務支援に応用

    IBMとソフトバンクは2016年2月18日、米IBMの自然言語処理・機械学習システム「Watson」の日語版サービスを正式に始めた(写真1)。これまでβ版で提供していたいくつかの機能を正式版に格上げした。既に10数社とWatson語版の導入で契約したという。 写真1●日IBM 代表取締役社長のポール与那嶺氏(左)、ソフトバンク 代表取締役社長兼CEOの宮内謙氏(中央)、米IBM Watsonビジネス開発担当 シニア・バイスプレジデントのマイク・ローディン氏(右) 三菱東京UFJ銀行は会見で、Watson語版を使い、LINE公式アカウントによるQAサービスを同日に始めたことを明らかにした。「主人の名前で振り込みたいが何を持っていけばいいの?」といった質問に対し、確信度の高い回答を3つ挙げる。将来は、投資相談のサービスにもWatsonを応用するほか、「ロボティクスと組み合わせ、

    Watson日本語版の正式版、MUFGはLINE向けQA、ソフトバンクは業務支援に応用
  • Engadget | Technology News & Reviews

    Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

    Engadget | Technology News & Reviews
  • 都立大 自然言語処理研究室 - 自然言語処理が学べる研究室

    2023年3月をもちましてこちらのページの更新を停止します。ご活用いただき、ありがとうございました。 自然言語処理を学ぶことができる研究室をリストアップします。自然言語処理の研究をしている(= 国内では言語処理学会を主な研究発表の場所としている)教員が2名以上いる大学が対象です(私立大学は早稲田大学と法政大学と豊田工業大学です)。うち、教員が1研究室で3人以上いるのは北大荒木研、東北大乾研、筑波大山研、東工大奥村研、名大外山研、京大黒橋研、NAIST中村研(ただし中村先生定年のため2022年現在募集停止)、NAIST渡辺研、NAIST荒牧研です。教員が1人だけしかいない研究室と、3人以上いる研究室(特に博士後期課程の在学生が多いところと)は質的にも量的にも違うと思いますので、博士後期課程に進学するつもりの人は、少なくとも1カ所はそれらの研究室を見学したほうがよいでしょう。博士前期課程から

  • Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース

    統計処理用のマシンを使って、自然言語処理で遊ぼう! BTOパソコンで有名な「パソコン工房」から「統計処理用のPCを企画しているので、何かできないか」と相談された編集部は、はてなエンジニア相談して「word2vec」を使って遊んでみることに。はてなブログのデータとかっこいいパソコンを使って、最新の自然言語処理で楽しむ様子をお楽しみください! 記事の終わりには2TBの外付けHDDが当たるプレゼントのお知らせも。 (※この記事は株式会社ユニットコムによるPR記事です) ―― BTOパソコンのショップ/サイトで有名な「パソコン工房」さんから、以下のような依頼が来ました。 データサイエンティスト向けに、統計処理用に使えるパソコンをいろいろと考えています。なので、何か面白い処理に使って、PR記事にしてほしいんです! ▽ 【パソコン工房公式サイト】BTOパソコン(PC)の通販 ―― ということで、はて

    Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース
  • 自然言語処理のためのDeep Learning

    【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces This document summarizes a research paper on modeling long-range dependencies in sequence data using structured state space models and deep learning. The proposed S4 model (1) derives recurrent and convolutional representations of state space models, (2) improves long-term memory using HiPPO matrices, and (3) efficiently compu

    自然言語処理のためのDeep Learning
  • Graham Neubig - チュートリアル資料

    学校での講義 Fall 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS11-7

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • ブレインパッド、"文脈を理解する"独自のセマンティック自然言語処理エンジンを開発 |株式会社ブレインパッド

    "文脈を理解する"独自のセマンティック自然言語処理エンジンを開発 〜次世代のテキストデータ解析の試験利用にご協力頂けるユーザーを募集〜 株式会社ブレインパッド(社:東京都品川区、代表取締役社長:草野 隆史、東証マザーズ証券コード:3655、以下ブレインパッド)は、ソーシャルメディアの台頭により注目されている、"消費者の声"であるウェブ上での口コミ情報や発言、書き込みなどのテキストデータを解析し、有用な情報を抽出する「自然言語処理(注1)エンジン」を開発中です。この自然言語処理エンジンは「"文脈を理解する"テキストデータ解析」、すなわち「セマンティック技術(注2)」の実現をコンセプトに開発しており、従来の言語処理サービスにはない独自のものとなります。 ブレインパッドでは、サービスの公開を2012年夏頃に予定しております。 このたび、ブレインパッドではサービスの品質向上を目的として、開発

    ブレインパッド、"文脈を理解する"独自のセマンティック自然言語処理エンジンを開発 |株式会社ブレインパッド
  • IPADIC(IPA辞書)とはなにものか?

    ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

    IPADIC(IPA辞書)とはなにものか?
  • 人工知能研究

    人工知能(AI)とは知能のある機械のことです.しかし,実際のAIの研究ではこのような機械を作る研究は行われていません.AIは,当に知能のある機械である強いAIと,知能があるようにも見える機械,つまり,人間の知的な活動の一部と同じようなことをする弱いAIとがあります.AI研究のほとんどはこの弱いAIで,図のような研究分野があります. 図の左下の方にはAIの基礎的研究を,右上の方には応用的な研究を示しました.AIの基礎の研究は,強いAIに近めの研究です.ここでいう,推論や学習は,まだ人間のそれとにはとても及ばず,そのごくごく一部を実現しているにすぎません.しかし,これらの技術AIの応用分野の基盤となっており,その応用分野の技術はみなさんのまわりで実際に活用されています.これらのAIの各分野についてまとめました. 遺伝アルゴリズム 二つの親の特徴が子に混ざり合って遺伝する原理を利用した問題解

  • 言語処理学会第17回年次大会開催 - mixi engineer blog

    はじめに ミクシィ研究開発グループの木村です. 昨年も同じ時期にお知らせさせていただきましたが,今年も言語処理学会年次大会の開催が間近となりました!今年は豊橋で3月7日から3月11日まで開催されます. 自然言語処理学はウェブにも検索エンジンや,レコメンドなど様々なサービスに応用されている学問です.また,ウェブの開発者コミュニティでも注目が集まってきており,最近ではウェブ系企業のエンジニアでの勉強会も頻繁に開催されるようになりました(私も大変お世話になっております). 言語処理学会年次大会は言語処理学の研究成果を発表する大きなイベントなので,難しそうな印象をうけてしまうかもしれません.しかし,言語処理学を専門としていない方でも何かしらテキスト処理に関する開発をされている方にとっては有益な経験となると思うので,ぜひご興味を持っていただけたらと思います. 特にテーマセッションでは,不自然言語処理

    言語処理学会第17回年次大会開催 - mixi engineer blog
  • 自然言語処理

  • evaluative expressions

    評価値表現辞書 (評価表現辞書) はじめに 近年,blogなどを通して個人がネット上に配信する情報の重要性が広く認知 されるようになり,それにともなって,個人の意見をWeb上のテキストから収集,分析する技術への関心が高まっています. 実際に,ここ数年で意見を扱った多くの研究が発表されています (関連研究についてはこちらをご参照ください). 意見の収集,分析には評価をあらわす表現(以下,評価値表現)が手がかりになると考えられます. 我々は,評価値表現はある程度ドメイン横断的に使用可能だと考え,半自動手法を使用しつつ辞書を作成しました. この辞書が意見情報抽出や分析の研究に携わっていらっしゃる方々の手助けになれば幸いです. 評価値表現辞書とは 評価値表現辞書は,評価を表すために使われる可能性のある表現を集めた辞書です. 我々は評価を以下のように定義しています. 評価の主体が評価対象のクラスに対

  • 1