タグ

自然言語処理に関するsabroのブックマーク (50)

  • みんなの自動翻訳@TexTra®

    便利アプリや当サイトへのお問い合わせは、ログイン後に「質問・要望」からご投稿ください。 メンテナンス等のお知らせは @minhonMTをフォローしてください 〇商用利用に関するお問い合わせは、NICTから自動翻訳エンジンの技術移転を受けている以下の法人様(※)までお願いします。 ・マインドワード株式会社様 https://www.mindword.jp/ ・株式会社川村インターナショナル様 https://www.k-intl.co.jp/ ・株式会社十印様 https://to-in.com/ ・丸星株式会社様 http://www.maruboshi.co.jp/ ・株式会社みらい翻訳様 https://miraitranslate.com/ ・凸版印刷株式会社様 https://solution.toppan.co.jp/newnormal/service/PharmaTra.htm

  • 言語処理学会第26回年次大会(NLP2020) プログラム

    会場の変更について 当初は茨城大学ならびに水戸市で大会・懇親会を開催する予定でしたが,新型コロナウイルス(COVID-19)への対処法の先行きが見通せなかったことから,オンラインでの開催としました.以下は当初予定していた会場の情報です. 会議,チュートリアル 会場: 茨城大学 水戸キャンパス 所在地: 〒310-8512 水戸市文京2-1-1 https://www.ibaraki.ac.jp/generalinfo/campus/mito/ 受付(会議,チュートリアル 共通) 図書館1階ライブラリーホール 託児室 無料の臨時託児室を設置 図書館1階展示室 スポンサー展示 図書館1階ライブラリーホール,講堂 懇親会 会場:ホテルレイクビュー水戸 所在地:〒310-0015 茨城県水戸市宮町1丁目6−1 JR水戸駅南口より徒歩約4分 https://www.hotellakeviewmi

  • 自然言語処理研究の最前線 ー海外でのビジネス事例6選ー | AI専門ニュースメディア AINOW

    最終更新日: 2019年7月31日 「自然言語処理」という言葉を目にしたことがある人も多いでしょう。人間の言葉を機械が扱えるようにする自然言語処理は、チャットボットなどに活用され、研究も盛んに行われています。 今まで人間の言葉を「理解する」ことに主眼が置かれていた自然言語処理の研究ですが、現在の英語圏における自然言語処理の最新記事においては、「予測」や「生成」といった単語がキーワードとなっています。 そこでこの記事では、グローバルな自然言語処理研究のトレンドを紹介し、それを生かしたどんなビジネスが生まれているのか、そして生じてくる課題を詳しく紹介していきます。 世界の自然言語処理研究の最前線 解析から予測、そして生成へ 自然言語処理(英語表記:Natural Language Processingの頭文字をとってNLPと略記されることもある)とは、コンピュータに(英語や日語のような)ヒト

    自然言語処理研究の最前線 ー海外でのビジネス事例6選ー | AI専門ニュースメディア AINOW
  • 【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita

    記事は、Lionbridge AI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。 記事は、日語のデータセットを紹介いたします。日語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日語のテキストデータセットを含みます。 機械学習に使える日語のデータセットポータル DATA GO JP: 日政府のデータカタログサイト。日政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイ

    【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita
  • BERT with SentencePiece で日本語専用の pre-trained モデルを学習し、それを基にタスクを解く - クックパッド開発者ブログ

    研究開発部の菊田(@yohei_kikuta)です。機械学習を活用した新規サービスの研究開発(主として画像分析系)に取り組んでいます。 最近は、社内の業務サポートを目的として、レシピ機械学習モデルで分類して Redshift に書き込む日次バッチを開発・デプロイしたりしてました。 ここ数ヶ月で読んだ論文で面白かったものを3つ挙げろと言われたら以下を挙げます。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Focal Loss for Dense Object Detection Exponential expressivity in deep neural networks through transient chaos 記事では、BERT というモデルをクックパッドのレ

    BERT with SentencePiece で日本語専用の pre-trained モデルを学習し、それを基にタスクを解く - クックパッド開発者ブログ
  • 汎用言語表現モデルBERTを日本語で動かす(PyTorch) - Qiita

    今DL for NLP界で、BERTというモデルが話題です。PyTorchによる実装が公開されていたので、日Wikipediaコーパスに適用してみました。 コードはこちらに公開しております。 2018/11/27 作成したBERTのモデルを使って内部動作の観察とその考察を行いました。単語の潜在表現獲得の部分で感動的な結果を見せてくれました。ご興味あればご覧ください↓ https://qiita.com/Kosuke-Szk/items/d49e2127bf95a1a8e19f この記事ではBERTのポイントの解説と、ポイントごとの実装を紹介します。 尚、記事の執筆にあたってこちらのリポジトリを参考にさせていただきました。 https://github.com/codertimo/BERT-pytorch 記事は以下の4つで構成されています。 ・BERTとは ・BERTのキモ ・BER

    汎用言語表現モデルBERTを日本語で動かす(PyTorch) - Qiita
  • ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE

    テクノロジーが発達することで、専門家でなくてもニューラルネットワークを使って翻訳プログラムを作ることが可能になりました。とは言っても、全く知識がない人にその仕組みを理解するのは難しいもの。そこでライターのSamuel Lynn-Evansさんが自分で情報を調べつつ0から翻訳プログラムを作成し、その時に理解した仕組みを数式を使わずに説明しています。 Found in translation: Building a language translator from scratch with deep learning https://blog.floydhub.com/language-translator/ 言語は非常に複雑で、これまで機械翻訳を行うには何人もの専門家が必要でした。しかし、人工知能(AI)の発達により、もはや専門家でなくても機械翻訳を行うことが可能になりました。これまで専門家

    ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE
  • 自然言語処理の前処理・素性いろいろ - Debug me

    ちゃお・・・† 舞い降り・・・† 先日、前処理大全というを読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

    自然言語処理の前処理・素性いろいろ - Debug me
  • 教師なし学習は機械翻訳に魔法をかけるか? - ディープラーニングブログ

    つい先週,機械翻訳で驚くべき進展がありました. 教師なし機械翻訳がヤバい進化を遂げててびっくりした.たった半年でBLEUスコアを15から25に改善したのブレイクスルーでは?https://t.co/SVQlYYu2Pt 教師なし学習でこのクオリティの機械翻訳できるのまじで感動するし,ちょっと語っていい? pic.twitter.com/fBllGtTkgb— Ryobot | りょぼっと (@_Ryobot) 2018年4月23日 要約すると教師なし学習でもひと昔前の教師あり学習の機械翻訳に匹敵する性能を獲得できたというのです.この記事では機械翻訳を知らない初心者にもわかるように魔法のような教師なし機械翻訳の仕組みを説明したいと思います. 教師あり学習の限界 機械翻訳はディープラーニングを適用することで急激に進歩した分野の1つだと思います.Google 翻訳はニューラル機械翻訳を導入するこ

    教師なし学習は機械翻訳に魔法をかけるか? - ディープラーニングブログ
  • 形態素解析ツールの比較 (NLP2018) - Qiita

    NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。 間違っている部分、追加したい内容があればコメントでお願いします。 追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから 趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。 さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま

    形態素解析ツールの比較 (NLP2018) - Qiita
  • 大自然言語時代のための、文章要約 - Qiita

    さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフ そこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。 文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま

    大自然言語時代のための、文章要約 - Qiita
  • MeCabをブーストさせよう - Qiita

    はじめに MeCabとは日語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。 そもそもなぜ、形態素解析なんかやるの?っていう動機については、http://qiita.com/Hironsan/items/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/items/

    MeCabをブーストさせよう - Qiita
  • Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation

    Neural Machine Translation (NMT) is an end-to-end learning approach for automated translation, with the potential to overcome many of the weaknesses of conventional phrase-based translation systems. Unfortunately, NMT systems are known to be computationally expensive both in training and in translation inference. Also, most NMT systems have difficulty with rare words. These issues have hindered NM

  • 自然言語処理と AI(PDF)

    自然言語処理と AI 東京大学大学院 工学系研究科 鶴岡 慶雅 概要 • 自然言語処理と AIゲーム AI アルゴリズム – Comparison training • コンピュータ将棋、ミニマックス探索、評価関数 – Monte Carlo Tree Search (MCTS) • コンピュータ囲碁、モンテカルロ法、多腕バンディット – CounterFactual Regret Minimization (CFR) • ポーカー、ゲーム理論、ナッシュ均衡 • まとめ 自然言語処理と AI人工知能(Artificial Intelligence, AI) – 知的な情報処理システムを作る – 推論、知識表現、プランニング、学習、自然言語処理、 認識 • ゲーム AIゲームの思考エンジン • オセロ、チェス、将棋、囲碁、ポーカー、StarCraft, etc

  • 言語処理100本ノック - 東北大学 乾研究室 / Inui Lab, Tohoku University

    FrontPage / 言語処理100ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

  • えだ 係り受け解析器 | EDA Parser

    EDA係り受け解析器 EDA(えだ)は単語係り受け解析器です。 ちなみにEDAというのはEasily adaptable Dependency Analyzerの省略です。 特徴 部分的アノテーションコーパスからの学習:通常、学習データを用意する時は文中の全ての単語に係り先を付与しなければなりませんが、EDAの場合は注目単語のみに係り先を付与すればよいです。 交差する係り受けも扱える:右方向の係り受けなら、交差する係り受けを問題なく扱うことができます。 注:日語の書き言葉を対象としているため、文中の全ての単語の係り先が必ずその単語の右側(文末方向)にあるという制約を使っています。日語の話し言葉などに現れる左方向への係り受けが扱えませんのでご注意下さい。 ダウンロード・インストール ダウンロード 最新のバージョン:EDA 0.1.0 最新のソースコード(未リリース):Bitbucketリ

  • 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog

    2011/11/27 "第16回 データマイニング+WEB 勉強会@東京−リアルタイム分散 Web解析・自然言語処理 祭り−"を開催しました。 第16回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 以下、全講師資料、関連資料、ツイートまとめです。 AGENDA: ■Opening Talk: O1.「データマイニング+WEB勉強会@東京 について」(15分) 講師 : id:hamadakoic

    第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
  • テキストマイニングのための機械学習超入門 一夜目 - あんちべ!

    テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい(けれど高度な数学は厳しい…)」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの?じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。 筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう

    テキストマイニングのための機械学習超入門 一夜目 - あんちべ!
  • 形態素解析の過去・現在・未来

    2. ⾃自⼰己紹介 l  海野  裕也  (@unnonouno) l  unno/no/uno l  研究開発部⾨門  リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日アイ・ビー・エム(株)東京 基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3

    形態素解析の過去・現在・未来
  • 機械と協調作業で文章を作る - hitode909の日記

    文章を書くのがしんどいので,機械と協調作業で文章を作れるようにした. 最初に一文くらい書くと,続きを書いてくれる. 機械が書いてる途中に,言い回しが気に入らないのが出てきたときは,割り込んで書いたり消したりできる. しばらく書かないとまた機械が書き始める. 生成の情報源は上のテキストエリアに貼る,n-gramのnはスライドバーで選べる. マルコフ連鎖が出すのを途中で止めて直したりできるのが面白いと思って作ってみた.おもしろい気がする. テキストジェネレーター

    機械と協調作業で文章を作る - hitode909の日記