2021年3月12日のブックマーク (7件)

  • spaCyで虫食い文章を穴埋めする【自然言語処理, Python】 - Yunix Blog

    in > 今日はbbbに行った。 今日は御師匠に行った。 in > 今日はaaaがbbbだった。 今日は情ない事が美学上だった。 in > aaaにbbbした。 おしいつくつくに一大仮定した。 in > なんだかんだbbbが好き。 なんだかんだ注文通りが好き。 in > おいaaa、bbbはやめろ。 おいうまい肴、万事積極的はやめろ。 in > なんかbbbがaaaみたいだ。 なんか未来記が重い事みたいだ。 ↑の出力を見ると、文章として成立してない文もあります。 穴埋めの精度としては低いことがわかります。 「今日はbbbに行った。」という虫い文章は「今日は御師匠に行った。」と言う風に穴埋めされています。 「aaaにbbbした。」という虫い文章は「おしいつくつくに一大仮定した。」という風にです。 文章として成立させるには、依存構造と言葉の選択を考慮する必要がありますが、今回のスクリプトで

    spaCyで虫食い文章を穴埋めする【自然言語処理, Python】 - Yunix Blog
  • なぜ自然言語処理において質の高い言語データが重要なのか?|Flitto(フリット) | 世界173カ国1,400万人が利用するAI翻訳サービス

    データの重要性 人間の言葉を理解できているかのような技術、「自然言語処理(Natural Language Processing)」に近年注目が集まっています。 AIが人の言葉を、理解、話せるようになったという事実は、革命的なことです! Amazon Echo、Google Home、Siriなどの音声アシスタントは、人間と会話レベルで対話することができるようになり、現在も進化を続けています。 常識的なことのように思われるかもしれませんが、質の高いデータがなければ、自然言語処理(NLP)は機能しません。 アレクサは、魔法のようにゼロからすべてを理解するのではなく、与えられた情報を理解するために、長い間訓練しなければなりませんでした。 質の高いデータで訓練にするためには、多くの準備が必要になります。 前処理自然言語処理に前処理は不可欠です。 テキストは文字の羅列であり構造化されていないため、

    なぜ自然言語処理において質の高い言語データが重要なのか?|Flitto(フリット) | 世界173カ国1,400万人が利用するAI翻訳サービス
  • 「コーパス」とは?自然言語を扱うAIのカラクリ

    今では当たり前のように言葉を扱う人工知能AI)ですが、その道程は決して平坦なものではありませんでした。また、クイズで人間に勝ったことで知られるIBMの「Watson(ワトソン)」のように、人間の言葉を理解しているように見えるAIも存在しますが、その実態はどのようなものなのでしょうか。自然言語を操るAIについて、基的なところを解説しましょう。 合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執

    「コーパス」とは?自然言語を扱うAIのカラクリ
  • 7.1:言語モデルを使った文章生成【ゼロつく2のノート(実装)】 - からっぽのしょこ

    はじめに 『ゼロから作るDeep Learning 2――自然言語処理編』の初学者向け【実装】攻略ノートです。『ゼロつく2』学習の補助となるように適宜解説を加えています。と一緒に読んでください。 の内容を1つずつ確認しながらゆっくりと組んでいきます。 この記事は、7.1節「言語モデルを使った文章生成」の内容です。文章生成を目的とした言語モデルをPythonで実装します。 【前節の内容】 www.anarchive-beta.com 【他の節の内容】 www.anarchive-beta.com 【この節の内容】 はじめに 7.1.2 文章生成の実装 ・処理の確認 ・データセットの読み込み ・単語のサンプリング ・文章生成 ・実装 7.1.3 さらに良い文章へ ・実装 ・文章生成 参考文献 おわりに # 7.1節で利用するライブラリ import numpy as np 7.1.2 文章

    7.1:言語モデルを使った文章生成【ゼロつく2のノート(実装)】 - からっぽのしょこ
  • realistic-dummy-text-ja | Figma

    語の物っぽいテキストを挿入するプラグインです。 メールアドレスや住所などの物っぽいテキストをランダムに生成し、指定されたテキストノードに挿入します。 ------------------------------------------------ This plugin inserts a realistic text in Japanese. It generates random text of things like email address or address and inserts it into selected text node.

    realistic-dummy-text-ja | Figma
  • R(quanteda)によるテキスト解析 - Qiita

    この記事は書きっぱなしのまま更新されていません。quantedaとMeCabによる形態素解析の結果を組みあわせて使う方法としては、こちらを参考にしてください。 この記事について quantedaとRcppMeCabを用いたテキストマイニングの例です。 なお、以下のパッケージについては、ここではGitHubからインストールできるものを使っています。 paithiov909/audubon paithiov909/ldccr paithiov909/RcppMeCab こういう使い方ができるというメモのようなもので、やっていることの意味についての説明はしていません。また、quantedaはtokenizersをラップした関数によって日語の文書でも分かち書きできるので、手元の辞書に収録されている表現どおりに分かち書きしたい場合や、品詞情報が欲しい場合でないかぎりは、形態素解析器を使うメリットは

    R(quanteda)によるテキスト解析 - Qiita
  • 日本語が使える、Rust製の全文検索エンジン「Bayard」を試してみた!! - 虎の穴開発室ブログ

    こんにちは、虎の穴ラボの古賀です。 みなさま、全文検索エンジンを使っていますか? クラウドだと「Amazon Elasticsearch Service」や「Azure Cognitive Search」など、さまざまな選択肢があると思います。 今回は、虎の穴ラボの社内のWebツールに導入できそうな、簡易的な全文検索エンジンにどのようなものがあるか調べた際に見つけた、「Bayard」という全文検索エンジンを試してみました。 「Bayard」は、Rust製の高速かつ軽量で日語の全文検索ができる検索エンジンです。導入手順が比較的簡単で、Webツールの検索機能の改善に使えそうです。 Bayardとは? Bayardは、Raft Consensus Algorithm と gRPC を実装する、 Rustで記述された全文検索およびインデックス作成のサーバーです。 Tantivy(Rust製 全文

    日本語が使える、Rust製の全文検索エンジン「Bayard」を試してみた!! - 虎の穴開発室ブログ