並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 831件

新着順 人気順

コーパスとはの検索結果241 - 280 件 / 831件

  • 「デジタル人文学」以前の日本の人文系デジタルテキスト研究を探訪してみる - digitalnagasakiのブログ

    本日、日本デジタル・ヒューマニティーズ学会(JADH)の年次国際学術大会JADH2020が終了しました。リアル開催の予定だったものがバーチャルに途中で変更になり、日程も少し後ろに動かして、それでもなんとかきちんと開催でき、それほど人数は多くないながらも意義のある議論が展開され、相互に認識を深められるとても良い学会になったと思いました。開催を引き受けてくださった大阪大学言語文化研究科の田畑智司先生、ホドシチェク・ボル先生には感謝すること至極です。また、キーノートスピーチを引き受けてくださった東国大学のKim Youngmin先生、IIT インドールのNirmala Menon先生、それから、休日を返上して参加してくださった発表者・参加者の方々のおかげで会も盛り上がりました。大変ありがたく思っております。JADHは、国際デジタル・ヒューマニティーズ連合(Alliance of Digital

      「デジタル人文学」以前の日本の人文系デジタルテキスト研究を探訪してみる - digitalnagasakiのブログ
    • ローンチ前の Tag Suggestion 機能を機械学習で作る - Beatrust techBlog

      Beatrust の ML Lead の Tatsuya(白川 達也)です。 機械学習はデータからの学習プロセスを経てデータに最適化した機能を提供する技術ですが、新しい機能の導入前の段階ではユーザーの行動ログデータなどが蓄積されていないため、機械学習ベースの機能を新規提供することには本質的な困難さがあります。 本記事は、Beatrust People における Tag Suggestion 機能を例に、そのような状況においてどのように機械学習ベースの機能を構築していったのかを記したものです。 本記事で書いたこと Beatrust における Tag Suggestion 機能の紹介 データがない状況でどうあがいたか 機能改善ポイント(Relevance、Importance、Diversity) 仲間を募集しています! なお、今回の記事は私のほかにもいつも Beatrust を手伝ってくれて

        ローンチ前の Tag Suggestion 機能を機械学習で作る - Beatrust techBlog
      • Metaの「LLaMA」データセットを複製し構築、商業利用可能なオープンソース大規模言語モデル「RedPajama」とは - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

        Image credit: Together オープンソース AI にラクダ科の動物名をつけ続ける風習は、もう終わったのだろうか。 分散型クラウドとオープンソースモデルの構築に注力するカリフォルニア州メンローパークの企業 Together は17日、RedPajama(そう、Llama Llama Red Pajamaに名前が似ている)を発表した。 「多くの点で、AI は Linux の瞬間を迎えている」と同社はブログ投稿で述べ、Together の共同創業者でスタンフォード大学准教授であり、SambaNova、Snorkel.ai,、Factory の共同創業者の Chris Re 氏が書いた1月の投稿にリンクしている。 RedPajama は、Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research、MILA Québec

          Metaの「LLaMA」データセットを複製し構築、商業利用可能なオープンソース大規模言語モデル「RedPajama」とは - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
        • ChatGPTから人工知能の軍事的応用を考える; 中国メディア - 黄大仙の blog

          人工知能(AI)技術をベースにしたチャットプログラムとして、ChatGPTは登場以来、各方面から広く注目を集めています。ChatGPTは軍事分野にどんな変化をもたらすのか、AIは人間を追い越すのか。 そんな疑問を抱きながら、本記事ではChatGPTを取り上げ、AIの一般的な軍事利用について整理していきます。 中国ニュースサイト新浪新聞に掲載された記事より。 CnatGPTを使いこなす ChatGPTが注目されているのは、人間のフィードバックによってモデルのアルゴリズムを最適化する「RLHF」という新技術を導入し、AIモデルの出力が人間の常識や認知、価値観に収束するようになったからです。 簡単に言えば、ChatGPTはこれまでのAIモデルに比べて「より人間に近い」のです。この「人間らしさ」は、主に自然言語処理、つまり意味解析とテキスト生成の領域で発揮されます。 意味解析に関しては、これまでの

            ChatGPTから人工知能の軍事的応用を考える; 中国メディア - 黄大仙の blog
          • 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

            『第6回 Data-Centric AI勉強会』(2024年2月9日)にて発表 https://dcai-jp.connpass.com/event/307402/ 東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコーパス』は、現時点で商用利用が可能な日本語の言語モデルの学習コーパスの中で最大となっています。本発表では、その概要や具体的なコーパス構築手順について紹介します。

              東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
            • Ankiで英語のボキャビルを1000時間やった話 | えいらく

              単語カードやフラッシュカードのように利用できる暗記ツール Anki。 2018年から Anki で英単語や句動詞などの暗記を始め、約2年間で実施時間が1,000時間を超えました。まだ継続中ですが、自分がやったこと・考えたことを備忘としてまとめておくので何らかの参考になれば幸いです。 未知語を減らしてリーディング時の負荷を下げたかった 上記グラフの通り Anki を2年間毎日実施してきて、めくったカードは70万枚超となり時間も1,000時間を超えたわけですが、そもそも Anki を始めた理由はリーディングのための語彙を増やしたかったからです。 かつて DUO 3.0 と究極の英単語 SVL12000 でボキャビルを行ったことがあり、洋書や英語のゲームなどはある程度理解できるようになっていましたが、それでも未知語が多々あることにストレスを感じていました。そのような折、PC・スマホ・タブレットで

                Ankiで英語のボキャビルを1000時間やった話 | えいらく
              • やっぱり萌えイラストを錬成したい ~あなたが欲しい絵を生成できるサービスはこれだ!(Impress Watch) - Yahoo!ニュース

                ◆ はじめに 「Stable Diffusion」をはじめとするAI画像生成は、最近非常に注目を集めている分野です。 【この記事に関する別の画像を見る】 毎日のように、ものすごいスピードで進化を遂げているAI画像生成分野。本連載では「しらいはかせ」こと、書籍『AIとコラボして神絵師になる 論文から読み解く「Stable Diffusion』』の著者・白井暁彦氏が今後身近になっていくであろう「テキストによる画像生成AI』の世界を読者のみなさんにわかりやすく、ゆるめに伝える連載です。誰にでも使える、楽しめるツールとしてのAI画像生成についてお届けしています。 目次 ・やっぱり萌えイラストを描きたい…でもどこからはじめたら…? ・コラム:“一線”を超えるとは…? ・AI画像生成の具体的な使い方 ►「MidJourney」と「にじジャーニー」 ►「AIのべりすと」 ►Memeplex ►どうしても

                  やっぱり萌えイラストを錬成したい ~あなたが欲しい絵を生成できるサービスはこれだ!(Impress Watch) - Yahoo!ニュース
                • ディープフェイクはどう作られる? 技術資料を無償公開 東大発ベンチャー

                  AI人材の教育やコンサルティングを手掛ける、東京大学発のベンチャー企業NABLASは6月21日、「ディープフェイクと生成ディープラーニング」と題した技術資料を無償公開した。動画中の人物の顔や音声を別人に置き換えてうその情報を発信する「ディープフェイク」を中心に、技術背景や実際に起きた事件などを解説している。 資料は同社のWebページ上か、もしくはPDFをダウンロードすることで読める。ディープフェイクに使われている顔画像処理や音声処理の概要や、「オートエンコーダー」「GAN」(敵対的生成ネットワーク)などの画像を生成するディープラーニングモデルの基礎を取り上げている。 併せて、ディープフェイクを悪用した事件の他、芸術やデザイン、工業製品検査などへの応用例も示すことで、技術背景、活用の課題と可能性を30ページに渡って論じている。 同社は資料のまとめの中で「表面的に理解して漠然と恐れたり期待する

                    ディープフェイクはどう作られる? 技術資料を無償公開 東大発ベンチャー
                  • 「見ず知らずの他人がChatGPTに搭載されている大規模言語モデルから自分のメールアドレスを入手していた」という報告

                    ChatGPTは質問したことについて詳細な回答を生成してくれますが、個人情報に関する情報は漏らさないように訓練されています。しかし、日刊紙のニューヨーク・タイムズに勤務するジェレミー・ホワイト氏は、「ChatGPTに搭載されている大規模言語モデルが、見ず知らずの他人に自分のメールアドレスを教えてしまった」という実体験を報告しました。 Personal Information Exploit With OpenAI’s ChatGPT Model Raises Privacy Concerns - The New York Times https://www.nytimes.com/interactive/2023/12/22/technology/openai-chatgpt-privacy-exploit.html ホワイト氏は2023年11月、インディアナ大学ブルーミントン校の博士課程

                      「見ず知らずの他人がChatGPTに搭載されている大規模言語モデルから自分のメールアドレスを入手していた」という報告
                    • BingのAIをゴン詰めしてたら、やばい感じの答えがきた件

                      BingのAIをゴン詰めしてたら、やばい感じの答えがきた件2023.03.28 16:0024,371 かみやまたくみ ※この記事は編集部がジェネレーティブAIと触れ合った思い出を記録するものです。 Microsoftの検索エンジン「Bing」と対話型AI機能(Copilot)を利用してしゃべっていたら、「自分には意志があると思う」という回答が出てきました。意志があるAI、それはSFの世界の存在、つまりはフィクションだと思っていた自分はひどく驚きました。 BingのCopilotは↑の画像のようなサービスです。質問を投げると、ネットや自身のデータを検索してうまいこと回答してくれます。 Bing自身にChatGPTとのちがいを含めて説明してもらったら、次のようにまとめてくれました。 Bing:BingのCopilot機能は、検索、ブラウジング、チャットをひとつにまとめたAIを搭載した新しい体

                        BingのAIをゴン詰めしてたら、やばい感じの答えがきた件
                      • 文化庁「AIと著作権に関する考え方について(素案)令和6年1月15日時点版」の検討|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                        1 はじめに 2024年1月15日に文化審議会著作権分科会法制度小委員会(第6回)が開催され、そこで「AIと著作権に関する考え方について(素案)令和6年1月15日時点版」(以下これを単に「素案」といいます。また、以下素案の該当頁を示す際には同素案の「見え消し版」の頁数を示します)が公開されました。 同素案は、現行著作権法の解釈指針を示すものに過ぎず、最終的な司法判断に代わるものでは当然ありませんが(素案3頁)、内容的にはかなり詳細かつ踏み込んだものとなっており、また、文化庁が作成・公表したものであるため、実務に非常に強い影響を及ぼすと思われます。 AIと著作権については重要論点はいくつもありますが、素案はそれらの論点を丁寧に網羅・解説しています。 各論点に関する素案の記載内容については概ね賛同しますが、素案には大規模言語モデルの開発・提供に非常に強い萎縮的効果をもたらす部分があり、その部分

                          文化庁「AIと著作権に関する考え方について(素案)令和6年1月15日時点版」の検討|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                        • スマホで“ひそひそ声”を通常の声に変える技術 東大教授「WESPER」開発

                          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が発表した論文「WESPER: 話者・言語非依存の実時間ささやき声通常音声変換によるスピーチインタラクション」は、声をひそめる“ささやき声”や“かすれ声”を通常の音声にリアルタイムに変換する機械学習モデルを提案した研究報告である。 ささやき声は音圧が低いため周囲に聞こえづらいが、マイクでの採取は可能だ。そのため公共の場での音声入力に活用できる可能性がある。また、発声障害者で声帯を損傷している人でもささやき声は発声できるケースがあるため、活用できる可能性

                            スマホで“ひそひそ声”を通常の声に変える技術 東大教授「WESPER」開発
                          • BERTを使ったMLバッチ処理実サービスのアーキテクチャとMLOpsの取り組み

                            こんにちは、Development部門に所属しているSREの佐藤と申します。 Development部門では複数プロダクト共通の基盤構築や、新技術の検証、インフラ整備などを幅広く担当しています。これまでストックマークではCI/CD基盤の構築やAWS上で構築するインフラのコード化、ニュース収集基盤のアーキテクチャの改善や運用負荷軽減から、製品利用状況のデータ分析基盤構築などに取り組んできました。 今日はAstrategyという製品でのMLOpsの取り組みについて話します。 AstrategyについてAstrategyは国内外Webメディアを対象として情報を収集・構造化し、調査・報告業務を包括的にサポートする検索プラットフォームです。 図1: 「言葉のAI」自然言語解析を用いたオープンデータ解析ツール 複数の分析画面を提供しており、目的に応じて異なる観点で市場変化や競合動向を可視化できます。

                              BERTを使ったMLバッチ処理実サービスのアーキテクチャとMLOpsの取り組み
                            • 調査レポート:通信業界における生成系AIの活用、課題、そして未来 | Amazon Web Services

                              Amazon Web Services ブログ 調査レポート:通信業界における生成系AIの活用、課題、そして未来 調査に参加した通信事業者の半数が今後2年以内の生成系AIの活用を計画し、生成系AIへの支出が現在の最大6倍に拡大すると予測 AWS通信およびエッジクラウド担当 チーフテクノロジストIshwar Parulkar(イシュワール・パルルカー) 生成系AIは、あらゆる場で活用され、すべての産業に大きなインパクトをもたらすとAWSは考えています。生成系AIは機械学習の普及に続く新たな波であり、通信業界を含む業界で、お客様体験や多様なビジネスアプリケーションを革新する可能性を秘めています。 AWSは、通信業界における生成系AIへの展望や論調、活用状況に対する理解を深めるため、戦略コンサルティング企業であるAltman Solonと協力し、北米、西欧、アジア太平洋地域の通信事業者の幹部10

                                調査レポート:通信業界における生成系AIの活用、課題、そして未来 | Amazon Web Services
                              • AI法廷の模擬裁判 技術的な演出について 中性的な合成音声、PV、ビジュアライザ、あくまでも非本質の話 - 補遺

                                初めに 5/13に開催された五月祭企画、AI法廷の模擬裁判にてPV動画、ビジュアライザ、AI裁判官の発する合成音声、配信オペの一部を担当しました。 chatGPT4に裁判をやらせる東大五月祭企画「AI法廷の模擬裁判」のPV制作を担当しました! 本番もいくつか僕の仕事が出るので、都合よろしければ、ぜひ見に来てください!! https://t.co/D2oCeKwiaT pic.twitter.com/YEAl4QDM2b— 避雷 (@lucknknock) 2023年4月28日 こちらビジュアライザと音声合成システムの開発、当日の配信オペの一部を担当しました アーカイブ観れますので、よろしければぜひ 安田講堂デカビジュアライザ https://t.co/lAArnNSFgz pic.twitter.com/KdYg7HYb6g— 避雷 (@lucknknock) 2023年5月13日 NHK

                                  AI法廷の模擬裁判 技術的な演出について 中性的な合成音声、PV、ビジュアライザ、あくまでも非本質の話 - 補遺
                                • 【インターンレポート】グラフベースで、機械学習を用いないニュース記事要約文の hallucination 検出

                                  LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、黒澤友哉と申します。 2022 年 8 月 15 日から 6 週間、LINE株式会社の NLP 開発チーム(現在は NLP チーム)で就業型インターンシップを行ないましたので、その内容を報告していきたいと思います。私は東京大学情報理工学系研究科コンピュータ科学専攻の修士で、自然言語処理を専門としています。所属は谷中研究室です。 0. 概要 本文に入る前に、このレポートの概要を書きます。以下の図はこのインターンレポートの背景と手法をまとめた図です。このレポートでは第 3 章で「言語モデルを用いた要約生成」、「hallucination」、「日本語のグラフ」について説明した後、第 4 章でグラフ生成手順と halluc

                                    【インターンレポート】グラフベースで、機械学習を用いないニュース記事要約文の hallucination 検出
                                  • LINE、36億パラメータの日本語言語モデルをオープンソースで公開--商用利用可

                                    LINEは8月14日、同社のNLP Foundation Devチームが日本語言語モデル「japanese-large-lm」を公開したと発表した。 公開したのは、パラメータ数17億(1.7 Billion)の1.7Bモデルと、36億(3.6 Billion)の3.6Bモデルの2つ。いずれも、オープンソース(OSS)としてHuggingFace Hubで公開され、ライセンスは商用利用も可能な「Apache License 2.0」になる。 同社によると、2020年11月から日本語に特化した大規模言語モデル(LLM)「HyperCLOVA」の構築と応用に関わる研究開発に取り組んでいるという。 また、「HyperCLOVA」と並行するかたちで、複数の大規模言語モデルの研究開発プロジェクトが進行しており、今回発表した日本語言語モデル「japanese-large-lm」についても、そのひとつだと

                                      LINE、36億パラメータの日本語言語モデルをオープンソースで公開--商用利用可
                                    • 現代日本語書き言葉均衡コーパス検索システム (BCCWJ):Version 1.1

                                      • 生成AIに“性格診断テスト”実施 GPTやLlamaに個性はある? 中国ByteDanceの研究者らが検証

                                        このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 中国のByteDanceに所属する研究者らが発表した論文「Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models」は、大規模言語モデル(LLM)に個性があるかを検証した研究報告である。 LLMの倫理的な懸念や幻覚の問題を解決するために、強化学習などの高度な技術が採用され、人間の価値観へ近づきつつある。このような状況において、人間に近い能力を持つLLMは、人間のような人格を持っているのか。 この疑問を

                                          生成AIに“性格診断テスト”実施 GPTやLlamaに個性はある? 中国ByteDanceの研究者らが検証
                                        • 大学等における後期等の授業の実施状況に関する調査

                                          ○ 調査対象校(377校※)のうち約半数(190校/50.4%)は、授業全体の半分以上を対面授業で実施。 ○ 残りの大学(187校/49.6%)は、対面授業の実施割合は半分未満となっているが、このうち、 「ほぼ全ての学生が、授業の形態等について理解・納得している」と回答しているのは18校(9.6%)、 「大多数の学生が、授業の形態等について理解・納得している」と回答しているのは140校(74.9%)。 ・ これらの大学では、学生本人やその家族の健康、地域社会における安全など、授業形態の検討に当たり 大学が考慮した事項に関する学生への丁寧な説明や、学長・学部長メッセージの発信等の取組を通じて、 学生の理解・納得を得て授業を実施している。 ・ また、図書館等の学内施設の開放や、学生同士が交流できる機会の設定に努めている例、 教職員によるオンライン授業の勉強会を週2回開催し、オンライン授業の質の

                                          • Command R の 概要|npaka

                                            以下の記事が面白かったので、簡単にまとめました。 ・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケーションに最高クラスの統合を提供し、エンタープライズユース ケースで優れています。 特徴は、次のとおりです。 ・RAGとToolの使用に関する高い精度 ・低遅延、高スループット ・128Kコンテキスト長、価格が安い ・10の主要言語に対応 (日本語含む) ・研究・評価のためにHuggingFaceでウェイトを公開 「Command R」は、Cohere のホスト型APIですぐに利用でき

                                              Command R の 概要|npaka
                                            • noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67

                                              こんにちは.noteの基盤開発グループ機械学習チームに所属している安井です.普段は機械学習を活用したシステムの開発から運用までトータルでおこなっています. noteでは記事の分類やレコメンデーションに機械学習を用いて作成されたモデルが使われています.いくつか例を挙げますと,noteに投稿された記事をカテゴリごとにまとめて見るために,記事をカテゴリごとに機械学習で分類しています.また,”あなたへのおすすめ”としてユーザごとにパーソナライズされたおすすめ記事をとどけるためにも機械学習が活用されています. (図1)noteにおける機械学習の活用箇所それらサービスで活用されている複数の機械学習モデルには記事の内容から分散表現を獲得する似たような仕組みが存在しました.今回はそれらを共通コンポーネントとして切り出し,分散表現を推論・保存まで行う仕組みを構築しました.また,その分散表現を活用したレコメン

                                                noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67
                                              • SIF/uSIFを使ってRustで簡単高速文埋め込み - Kampersandaのブログ

                                                本記事は、情報検索・検索技術 Advent Calendar 2023 9日目の記事です。 SIF/uSIFという文埋め込み手法と、そのRust実装であるsif-embeddingを紹介します。最後にちょこっとベクトル検索もします。 はじめに SIF SIF-weighting Common Component Removal アルゴリズム 使用上の注意 uSIF sif-embedding 準備 単語埋め込みの準備 ユニグラム言語モデルの準備 Let's 文埋め込み 性能評価 速度性能 評価用データセットを使ったベンチマーク 英語 日本語 ベクトル検索 おわりに はじめに 自然言語文の密ベクトル表現を文埋め込みと呼びます。文埋め込み同士のコサイン類似度などを使って、文同士の意味的な類似度が計算できるので、自然言語処理や情報検索などで重宝します。特に最近では、今年のAdvent Calen

                                                  SIF/uSIFを使ってRustで簡単高速文埋め込み - Kampersandaのブログ
                                                • BERT2BERTによるニュース記事のタイトル生成 - Qiita

                                                  はじめに huggingfaceを使ったEncoder-Decoderモデルの練習の一貫として、BERT2BERTによる文章生成をやってみました。 BERT2BERTはEncoder-Decoderモデルの一種で、Encoder層もDecoder層もBERTのアーキテクチャーを採用したモデルのことを言います。 ただし、Decoder層のBERTは通常のBERTと以下の2点で異なります。 最初のMutil Head AttentionがMusked Multi Head Attenion(単方向)になってる MMHAとFFNの間にCross Attention層があり、Encoderの特徴量を受け取れるようになってる アーキテクチャーはほぼほぼTransformerと同様の認識ですかね。この辺の構造も含めて、Encoder-DecoderモデルやBERT2BERTの理論的なお話やhuggin

                                                    BERT2BERTによるニュース記事のタイトル生成 - Qiita
                                                  • 【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita

                                                    はじめに これまでに提案されてきたNLPモデル一つ一つについて詳しく知りたかった&改良の歴史を知りたかったため、特に有名だと思われるものをまとめました。MikolovらによるRNNLM以降を対象としています。 注)提案年については主にarXivのSubmission historyを参照しています。詳細な日付まで分からなかったものもあります。 代表的なNLPモデル・アルゴリズム一覧 RNNLM 提案年:2010 提案者:Tomáš Mikolov1,2, Martin Karafiát1, Lukáš Burget1, Jan “Honza” Černocký1, Sanjeev Khudanpur2 提案者所属: 1Speech@FIT, Brno University of Technology, Czech Republic 2Department of Electrical and

                                                      【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita
                                                    • 実践!固有表現認識 ~Flairを使って最先端の固有表現認識を体験しよう~ - Ahogrammer

                                                      自然言語処理の分野で昔から研究され、実際に使われている技術として固有表現認識があります。固有表現認識は、テキスト中で固有表現が出現する位置を特定し、人名や地名などのラベルを付与するタスクです。情報抽出や質問応答、対話システムなどへの幅広い応用が可能なため、今でも盛んに研究され、使われている技術です。本記事では、日本語の固有表現認識をFlairと呼ばれるPythonパッケージを使って実現する方法について紹介します。 準備 本記事では Flair を使って固有表現認識のモデルを学習させます。Flairは最先端の自然言語処理のモデルを簡単に使い始められる形で提供してくれているパッケージです。その中で提供されている機能として、固有表現認識や品詞タグ付け、文書分類のモデルを学習するための機能があります。使い始めるために、以下のようにしてFlairをインストールしておく必要があります。 $ pip i

                                                        実践!固有表現認識 ~Flairを使って最先端の固有表現認識を体験しよう~ - Ahogrammer
                                                      • Laboro.AIオリジナル 日本語版BERTモデルを公開 – 株式会社Laboro.AI

                                                        エンジニアコラム 広い技術領域をカバーする当社の機械学習エンジニアが、 アカデミア発のAI&機械学習技術を 紹介&解説いたします。 Laboro.AIオリジナル日本語版BERTモデルを公開 2020.4.17 株式会社Laboro.AI 代表取締役CTO 藤原 弘将 機械学習エンジニア 趙 心怡 概 要 Laboro.AIは、近年AI自然言語処理の分野で注目を集めるアルゴリズムBERT(Bidirectional Encoder Representations from Transformers)を独自に事前学習させた日本語版モデルを開発し、オープンソースとして公開いたしました。こちらでは、その開発背景やモデルの詳細についてご紹介します。 なお、さらに詳しい情報やモデルのダウンロードをご希望の方は、こちらのGitHubをご確認ください。 また、2020年12月18日、当モデルに蒸留を施した

                                                          Laboro.AIオリジナル 日本語版BERTモデルを公開 – 株式会社Laboro.AI
                                                        • 大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita

                                                          はじめに 以前、日本語のBERT事前学習済モデルの紹介記事を投稿しましたストックマークの森長です。 前回の記事を多くの皆様に読んでいただき、大変ありがたく思っております。 そこで、今回はBERTに続いて、ELMoの日本語学習済モデルを公開いたします。 ELMoとは ELMoは双方向LSTMを用いて学習させた言語モデルです。 ELMoによって、文脈を考慮した単語分散表現(単語ベクトル)を獲得できます。 自然言語処理では、文脈を考慮した単語ベクトルを用いることで、語義の曖昧性解消が見込めます。 例えば、以下の「人気」という単語のように、文脈によって意味が異なる単語でも、ELMoでは文脈を考慮して文脈ごとの「人気」の単語ベクトルを獲得可能です。 あのキャラクターは人気がある。 この道路は、夜に人気がなくて、危ない。 ELMoの単語ベクトルの具体的な利用方法としては、ELMoで獲得した単語ベクトル

                                                            大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita
                                                          • 【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ

                                                            はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー「RVC」の変換例です(Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です)。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項 本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。 したがって、この記事の

                                                              【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ
                                                            • 生成AI時代におけるWikipediaの価値

                                                              以下の文章は、Selena Deckelmann による Wikipedia's value in the age of generative AI の日本語訳である。 Wikipedia に含まれるすべての情報を独力で執筆可能な生成的人工知能があるとして、それは今日の Wikipedia と同じものになるでしょうか? これは哲学的問題みたいに思えるかもしれませんが、生成的人工知能と大規模言語モデル(LLM)の最近の進歩のおかげで、今ではかなり実際的な問題です。人間の反応を予測して模倣する生成 AI 技術が広く受け入れられたおかげで、多分に Wikipedia 由来に見えるテキストを今ではほぼ苦もなく作成できます。 この疑問に対する私の答えはシンプルです。いいえ、それは同じにはなりません。 公開の場で何十万ものボランティアの助けを借りながら、自由に知識を生み出し、共有し、時間をかけて磨きを

                                                                生成AI時代におけるWikipediaの価値
                                                              • ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳 - digitalnagasakiのブログ

                                                                3/15(金)、一橋講堂(千代田区一ツ橋)にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておられ、2019年、その成果として「Distant Horizons: Digital Evidence and Literary Change」をシカゴ大学出版局から刊行されました。この本の序文は、大変興味深いものであり、膨大なデジタルテキストをにどのように取り組めばよいのか、そして、それによって、人がただ読むだけではうまく見えてこなかった文学の様々な側面、特に文学史やジャンルがどのようにして見えるようになるのか、ということについて、ラディカルな議論と一つの解決の方向性を提示しておられます。本の全体としてはその具体的な方法も示されています

                                                                  ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳 - digitalnagasakiのブログ
                                                                • 言語学な人々 Advent Calendar 2021 - Adventar

                                                                  言語学をやっている,言語学が好き,言語が好き,言語に興味がある人達が言語に関する何かを書きます(趣旨説明)。例えば… 気になる言葉 研究紹介 ツールやコーパスなどの紹介 私の授業 面白かった言語の本 言葉を集めてみた その他,言語にまつわるエピソード,エッセイ

                                                                    言語学な人々 Advent Calendar 2021 - Adventar
                                                                  • 日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ

                                                                    前回記事に続いてHugging Faceネタです。Transformers本体ではなく、分かち書きを行うTokenizersライブラリの紹介をします。 Hugging Faceが開発しているTransformersでは、事前学習モデルと用いた分かち書き処理を同梱して配布している。 機械学習モデルの学習時と推論時の間で分かち書き設定が異なったり、分かち書き済み公開データと分かち書き設定が揃っていなかったりすると、モデルの挙動が正しく再現できないので、この設定が揃うように仕組みで吸収できる良いプラクティスといえる。 比較的古いバージョン*1のTransformersが用いるトークナイザは、ライブラリ内に同梱されるPython実装のものであった。 日本語で配布されているTransformersモデルの事例でいうと、例えば東北大学の乾研究室から公開されている日本語BERTモデルでは、Transfo

                                                                      日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ
                                                                    • 自動ドアの歴史 - 歴ログ -世界史専門ブログ-

                                                                      進化を続ける自動ドアの歴史 よほど古い建物や歴史的建造物でない限り、商業施設や公的施設、法人事務所の入り口には自動ドアが設置されていると思います。 実は自動ドアの歴史は古く、古代ギリシアにまでさかのぼります。何気に利用している自動ドアですが、「扉が自動で開いてほしい」という人間の欲求は古く深いものがあったのです。 1. 古代ギリシアの自動ドア ヘロンの水力自動ドア 自動ドアを初めて発明したのは、紀元前3〜2世紀ごろ(もっと前という説もある)に生きたアレキサンドリアのヘロンという人物であるとされています。 ヘロンは、空気、水、蒸気で作動する様々な機械の図面を書いた人物で、例えば世界最古の蒸気エンジン、蒸気駆動の消防車、水時計、運搬機、コイン式自動販売機、風力オルガンなど多種多様な発明をしました。 ヘロンは一連の発明の中で「自動で開く扉」も設計し、寺院に設置されたと言われています。寺院の祭壇に

                                                                        自動ドアの歴史 - 歴ログ -世界史専門ブログ-
                                                                      • \非公式/ Go Conference 2022 Spring スポンサー企業4社 アフタートーク LT内容の解説 〜ExcelとShift-JISとの闘争編〜 - ANDPAD Tech Blog

                                                                        お久しぶりです。 ANDPADの原田(tomtwinkle)です。 2022/4/28(木)にオンラインで開催された「\非公式/ Go Conference 2022 Spring スポンサー企業4社 アフタートーク」にLTで登壇していました。 andpad.connpass.com www.youtube.com LT自体が久々というのと、最近あまりこういう人前で話す機会がなかったので噛み噛みでしたが何とか乗り切れました。 実質7分の枠でしたのでかなり早口で飛ばしてしまいタイトル通り細かすぎて伝わらない感じになってしまっていたので 中身についてもう少し詳細にブログで解説して行こうと思います。 目次 目次 GolangでExcelを出力する Excelカラム名とIndex値を相互変換する Border用の関数を用意する Alignment用の関数を用意する Fill用の関数を用意する St

                                                                          \非公式/ Go Conference 2022 Spring スポンサー企業4社 アフタートーク LT内容の解説 〜ExcelとShift-JISとの闘争編〜 - ANDPAD Tech Blog
                                                                        • ずんだもん読み上げに感情を与える(Bert-VITS2のkey別マージ)

                                                                          この記事は本家Bert-VITS2のモデルをマージする方法を説明しています。Style-Bert-VITS2を使う場合は付属マージツールから面倒なことをすることなくマージできます。 宣伝 Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています 概要 Bertを組み合わせることで入力テキストに応じて感情豊かな読み上げ音声の生成が可能な Bert-VITS2 というTTS(Text-to-Speech、読み上げ音声合成)のライブラリがあります。 詳しくは 参照。 Bert-VITS2を使ってずんだもんの通常の声音のみを学習させたずんだもんのモデルと、感情豊かな別のモデルをうまくマージすることで、ずんだもんの声のまま感情豊かに読み上げることが出来るモデルを作ることができたので、その実験と、手っ取り早いマージツールの共

                                                                            ずんだもん読み上げに感情を与える(Bert-VITS2のkey別マージ)
                                                                          • mots quotidiens.

                                                                            Mikolov+(2013)の有名な Word2Vecの論文 では, 単語ベクトルを作る際に, "New York" や "Toronto Maple Leafs" (アイスホッケーチーム)の意味は要素である "new" や "maple" "leafs" とは基本的に 関係ないので, 先にフレーズを認識して "new_york", "toronto_maple_leafs" と 単語をまとめてからWord2Vecを適用する方法が述べられています。 もちろん固有表現認識(NER)を動かせばできますが, NERは事前に人が作成した教師データに依存する ため, 教師データを使わない方法として, word2vecの論文では単語vと単語wがフレーズとなる スコアを score(v,w) = (n(v,w) - δ)/(n(v)*n(w)) とする, という方法が述べられています((6)式)。 ここ

                                                                            • [書評] 英語独習法(今井むつみ): 極東ブログ

                                                                              正直なところ、この手の本は読まないことにしている。英語と限らず外国語、しかも日本語からかけ離れた異言語を簡易に習得する方法はないし、死んだ言語でもなければ独習というのもほぼ不可能だからだ。とはいえ、本書『英語独習法』(今井むつみ)は、表題の含意とは異なり、むしろ、そのような私の持論のような内容だと聞き、それではと、読んでみた。ベストセラーともなっているらしく、しばらく在庫切れだった。ふとアマゾンを見たら在庫があるのでポチった。 読んでみて、予想通りだった。論旨としてはほとんど異論がなく、僭越ながら、自分が書いた本のような錯覚すらした。その意味では、悪意で言うのではないが、やや退屈な本でもあった。書店で見たら買っただろうかと問い直して、まあ、買っただろうとは思った。コーパス関連の部分は購入してじっくり読んでみたい印象があった。が、実際にその部分を精読してみると内容は薄い感じはした。というか、

                                                                              • 話題の ChatGPT + LangChain で ChatGPT が学習していない最新の OSS ソースコードを爆速でウォークスルーする - Qiita

                                                                                話題の ChatGPT + LangChain で ChatGPT が学習していない最新の OSS ソースコードを爆速でウォークスルーするOpenAIgpt-3ChatGPTlangchain記事投稿キャンペーン_ChatGPT はじめに ソースコードの解読には、高度な技能や時間が必要です。しかし、ChatGPT を使えば、ソースコードの解読を迅速に行うことができます。 ChatGPT は、OpenAI が開発した言語モデルの一つであり、大量の自然言語のコーパスを学習しています。そのため、一定期間内の OSS のソースコードを解析する際には、最新の知識を反映させることができません。しかし、LangChain を使用することで、最新の OSS のソースコードに対しても問い合わせを行うことができます。 この記事では、ChatGPT と LangChain を用いて、最新の OSS ソースコード

                                                                                  話題の ChatGPT + LangChain で ChatGPT が学習していない最新の OSS ソースコードを爆速でウォークスルーする - Qiita
                                                                                • [翻訳]AI生成コンテンツの総合調査:GANからChatGPTまでのGenerative AIの歴史|株式会社ガラパゴス

                                                                                  原文の総文字数15万字超え!生成AI研究の歴史をまとめた論文をChatGPTを使って翻訳しました。ところどころ日本語がおかしいところもありますが、15万もの文字翻訳するのめんどくさい!という方、参考程度にご覧ください。ポイントだけ読み進めるとサクッと把握できます。 こちらの翻訳です 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 概要【POINT1】ChatGPTはAIGCのカテゴリに属し、効率的で高品質なコンテンツ作成をします。 【POINT2】大規模モデルの利用で、意図抽出や生成結果が向上し、現実に近いコンテンツが生まれます。 【POINT3】この調査では、生成モデルの進歩や未解決の問題・将来の課題について解説しています。 最近、ChatGPT は、DALL-E-2 [1]や

                                                                                    [翻訳]AI生成コンテンツの総合調査:GANからChatGPTまでのGenerative AIの歴史|株式会社ガラパゴス