本文「コーパスとは」を検索 - はてなブックマーク

481 - 520 件 / 831件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

コーパスとはの検索結果481 - 520 件 / 831件

外来の野ブタが増えすぎて深刻な問題に、米国
- 6 users
- natgeo.nikkeibp.co.jp
- 学び
- 2023/02/08
米国テキサス州コーパスクリスティの池で水を飲む野ブタ。米国にとって外来種であるブタやイノシシは、カリブ海からカナダまで、さまざまな気候の地域に生息している。（PHOTOGRAPH BY ROLF NUSSBAUMER, NATURE PICTURE LIBRARY）米国で野ブタが増えすぎて大きな問題になっている。ブタはイノシシを家畜化した動物で、種としては同じSus scrofaだ。もともと北米には生息していなかったが、16世紀以降、ヨーロッパからの入植者が家畜のブタや狩猟のためのイノシシをたびたび持ち込んだことで定着した。今では、イノシシや野生化したブタ、それらが交雑したものなど（以下、本記事ではまとめて野ブタと呼ぶ）が米国で生息域を広げ、少なくとも35の州に約600万頭が野生下に暮らしているという。野ブタは雑食性で適応力が高く、ほとんどどんな環境でも生きていける。カリブ海の島々や
- 生物
- 動物
- 医療
- あとで読む
Lucene 超入門 with Luke. これは，情報検索・検索エンジンアドベントカレンダーの 13… | by mocobeta | Medium
- 6 users
- medium.com/@mocobeta
- テクノロジー
- 2020/01/26
これは，情報検索・検索エンジンアドベントカレンダー2019 の 13 日目のエントリーです。（12/31 時点でまだ空いていたので，代打で埋めています。元のエントリ予定によると「検索エンジン超入門を書く予定」だったので，たぶん，そんなに外れてはいないかと。）紹介: Luke とは Elasticsearch や Solr で検索サービスを開発しているサーチエンジニアのみなさん，日々使い倒している「インデックス」の中身がどうなっているか気にしたことはあるでしょうか。 Elasticsearch や Solr のコアエンジンとして，Apache Lucene が使われていることは（多分）よく知られていますが， Lucene の古い相棒である Luke については，とくにここ数年で Elasticsearch や Solr に触れ始めた方だと，聞いたことがないという方も多いと思います。 Luk
新型コロナ2万4000本以上の論文データセット、AI2などが公開
- 5 users
- www.technologyreview.jp
- テクノロジー
- 2020/03/18
新型コロナウイルス感染症（COVID-19）と戦う科学者を支援するため、関連する2万4000本以上の論文をまとめたデータセットが公開された。 by Karen Hao2020.03.18 256 55 5 2 複数の組織を横断して協力する研究者たちが、「CORD-19（COVID-19オープン・リサーチ・データセット）」を3月16日、公開した。査読済論文を掲載する学術誌と、バイオアーカイブ（bioRxiv）やメドアーカイブ（medRxiv）といったプレプリント（査読前論文）を投稿できるWebサイトなどを情報源とする、2万4000本以上の論文が含まれたデータセットだ（日本版編注：2万4000本はメタ情報。全文1万3000本以上）。新型コロナウイルス（SARS-CoV-2）や新型コロナウイルス感染症（COVID-19）、コロナウイルス属に関する研究を対象とする。現在進行中のパンデミック（世界的
- *あとで読む
「Transformers」を使って自然言語処理を試したり「やばい」実験をした話。 - CCCMKホールディングス TECH Labの Tech Blog
- 5 users
- techblog.cccmk.co.jp
- テクノロジー
- 2022/02/22
こんにちは、技術開発ユニットの三浦です。「続けること」を増やすことをこの頃意識しています。なるべく毎日続けられる小さな習慣を、少しずつ増やしていきたいなぁと。今は短い英語の文章を、声に出してノートに書き写すことを習慣化しようとしています。さて、前回深層学習のモデル「Transformer」について調べたことをまとめました。 techblog.cccmk.co.jp 今回はこのTransformerを実際に使ってみたい、ということで、Transformerベースの色々なモデルを使うことが出来るライブラリ「Transformers」を調べて使ってみた話をご紹介させていただきます。 Transformers Transformersはhuggingfaceが公開している機械学習、特に自然言語処理を主とした深層学習向けのライブラリです。 huggingface.co 2022年2月現在、バック
- 自然言語処理
- NLP
spaCyのDependencyMatcherでレビュー文から情報を抽出してみる
- 5 users
- www.forcia.com
- テクノロジー
- 2021/12/20
これは、自然言語処理 Advent Calendar 2021の20日目の記事です。新卒2年目のエンジニア、吉成です。普段はフォルシアのDXプラットフォーム部・技術研究所という2つの部署に所属し、web開発と自然言語処理の二足の草鞋を履いています。二兎を追う者は一兎をも得ずという言葉もありますが、今はひーひー言いながらも二兎を追えるエンジニアを目指しています。ところで皆さん、依存構造解析してますか？依存構造解析は自然言語処理の実応用において重要な基礎解析の1つです。文中のどの単語（あるいは句）がどの単語（句）に依存しているか、またそれらの単語（句）間はどんな関係を持っているのか（依存構造）を解析します。一般的に依存構造解析は、文を単語や形態素に分割したり、単語や形態素に品詞のラベルを付与したりする形態素解析と呼ばれる処理の後に行われます。（画像：「部屋から見える夜景が美しかった。
- spacy
- nlp
- ginza
- python
GitHub - hottolink/hottoSNS-bert: hottoSNS-BERT: 大規模SNSコーパスによる文分散表現モデル
- 5 users
- github.com/hottolink
- テクノロジー
- 2019/11/24
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
GPT-1の仕組みを解説！
- 5 users
- developers.agirobots.com
- テクノロジー
- 2023/04/11
皆さんこんにちは。近年、画像生成AIやテキスト生成AIなどの多数の生成AIが注目を浴びています。そんなか、2022年の末から2023年の初めにかけて多くの世間を驚かせたテキスト生成AIであるChatGPTはまだ記憶に新しいでしょう。本記事では、そんなChatGPTの技術の元となっているGPTの元祖、GPT-1について解説していきます。 GPT-1の概要 GPT-1とは、OpenAIが2018年に公開した大規模言語モデル（LLM）です。Googleが2017年に発表したTransformerと呼ばれる機械学習モデルのデコーダ部分をベースにしたモデルで、BookCorpusと呼ばれる大規模なコーパスで事前学習されました。Transformerはエンコーダデコーダの形状をしており、その生成部分に該当するデコーダを事前学習しているため、Generative Pretrained Transform
- 人工知能
- 機械学習
【記事更新】私のブックマーク「第一言語獲得から考える人工知能」 | 人工知能学会 (The Japanese Society for Artificial Intelligence)
- 5 users
- www.ai-gakkai.or.jp
- テクノロジー
- 2023/03/03
折田　奈甫（早稲田大学理工学術院） 1．はじめに　深層学習の発展は素晴らしいが，第一言語獲得を研究する言語学者としては「ちょっと待った！」と言いたくなる瞬間がある．例えば，以下のような発言や記述を研究発表や論文などで見聞きすることが増えた．深層学習のように人間も大量のデータから統計的に学習しているのではないか．刺激の貧困は存在せず，生得的知識など必要ない．子供は白紙の状態から，あるいは最小限の非言語的知識・能力を使って，言葉を大量に聞いて覚えて話せるようになる．脳についてはわかっていないことが多いので，深層学習を使ったリバースエンジニアリング的な認知科学の研究があってもいいのでは．ニューラルネットワークは神経科学的に妥当なモデルである．そのうえ，人間が行うような情報処理タスクにおいて高い汎用性と学習能力を示している．ニューラルネットワークは人間の認知メカニズムとして妥当な仮説なのではない
9月2日　LA旅行　1 - ZigZagDog’s diary
- 5 users
- zigzagdog.hatenablog.com
- 暮らし
- 2024/09/03
ベニスビーチのサンセットもう、帰ってきて2週間が過ぎると言うのに、興奮冷めやりません。なので母達の滞在記はコーパスクリスティを飛ばして、LA旅行から書こうと思います。 LAは楽し過ぎました。どこへ行っても刺激が多過ぎで、家族総出で、お上りさん状態でした。＄8で使えるカートが空港の外にゴロゴロと転がっていました。まずはテキサスとの物価の差に驚きましたけど。。。空港の荷物を運ぶカートはダラスフォートワース空港では今でもタダです。 LAX空港に着いて荷物を受け取り、流石に５人分もあるのでカートに乗せてしまおうと取りに行くと、＄8と表示がされていました。たかが、と言ってはいけないのでしょうが、カートを使うのに＄8ですか？＄8も有れば、テキサスなら2人で普通のアメリカンですけど、コーヒーを飲んで一息つけます。＄8の表示を見た瞬間にカートを使うのを止めました。あれはカートを返すとお
日本語文書分類・固有表現抽出タスクに対するData Augmentationの性能検証 - 農園
- 5 users
- kajyuuen.hatenablog.com
- テクノロジー
- 2022/02/21
概要こんにちは@kajyuuenです。本記事では日本語データセットに対して、Data Augmentation（データ拡張）を行い、モデルの性能が向上するか検証します。今回は文書分類と固有表現抽出の2つのタスクに対して、実験を行いました。その結果、文書分類タスクでは学習に用いた文章数が500文, 2000文, 5000文のどの場合においても性能が向上し、Data Augmentationなしのモデルと比べて、最大2.5ポイントAccuracyが向上しました。固有表現抽出タスクでは50文, 150文, 500文に対してData Augmentationの効果を検証しました。文章数によっては性能が下がった場合もありましたが、Data Augmentationによって最も性能が向上したケースではF1が2.7ポイント向上しました。データ拡張に用いたライブラリdaajaやData Au
- tech
- あとで読む
対話AIの最新動向をスクウェア・エニックスの三宅陽一郎氏らが紹介した，ラウンドテーブル「2020年AI動向総括と会話型AIの最新研究」をレポート
- 5 users
- www.4gamer.net
- テクノロジー
- 2020/12/24
対話AIの最新動向をスクウェア・エニックスの三宅陽一郎氏らが紹介した，ラウンドテーブル「2020年AI動向総括と会話型AIの最新研究」をレポートライター：大陸新秩序 rinnaが開発・提供しているAIチャットボット「りんな」 AIキャラクターの研究開発を行うrinnaは2020年12月22日，「2020年AI動向総括と会話型AIの最新研究」をテーマにしたオンラインラウンドテーブルを開催した。ここでは，スクウェア・エニックス・AI＆アーツ・アルケミー CTO 三宅陽一郎氏と，rinna Chief Rinna Officer 坪井一菜氏が，AIの最新動向に関するセッションを行った。 ※12月25日追記：スライドを正しいものに置き換えました三宅陽一郎氏が語る対話AIの現状と課題，そしてゲームとの関係三宅陽一郎氏三宅氏によると，現在進行中の第3次AIブームには，2005年から2015年に
- AI
- *あとで読む
Tkrzw-Dict: 統合英和辞書プロジェクト
- 5 users
- dbmx.net
- テクノロジー
- 2021/08/25
Tkrzw-Dict: 統合英和辞書プロジェクト概要統合英和辞書プロジェクトは、オープンなデータを使って英和辞書を作り、それを元に様々なアプリケーションを作るプロジェクトです。現在、以下のアプリケーションが利用可能です。オンライン辞書検索システム Chrome拡張の辞書検索機能オンライン連想英単語帳: 初級編3600語、上級編9600語オンライン語彙力年齢診断オンライン発音記号検定 Kindle用電子辞書: 英和辞書、和英辞書、英和例文辞書、英和代替辞書辞書データの元となるオープンなデータとは、WordNet、日本語WordNet、Wiktionary英語版、Wiktionary日本語版、Wikipedia英語版、Wikipedia日本語版、EDict2、田中コーパス、Wikipedia日英京都関連文書対訳コーパス、Japanese-English Subtitle Corp
- 英語
【iMyfone chatArtレビュー】文章も画像もAIにおまかせの新AI時代の到来か - redoブログ
- 5 users
- redo5151.hatenablog.com
- テクノロジー
- 2024/06/11
みなさんはchatGPTなどの生成AIはご存知でしょうか。言い方を変えると文章や画像をAIが作ってくれるとしたらどう思いますでしょうか。生成AI（ジェネレーティブAI）とは、一言でいうと、人工知能を用いて新しいコンテンツ（テキスト、画像、音楽、ビデオなど）を生成する技術のことです。これにはディープラーニングモデルを使用して既存のデータを学習し、そのパターンを基に新しいデータを作り出すプロセスが含まれます。ChatGPTやDALL-Eなどのツールが代表例であり、クリエイティブなコンテンツ作成、デザイン、マーケティング、自動応答など、様々な分野で利用されています。また、ChatGPTとは、OpenAIによって開発された高度な人工知能チャットボットです。GPT（Generative Pre-trained Transformer）シリーズの一部であり、最新のGPT-4を基にしています。この
TensorFlow Recommenders と Vertex AI Matching Engine によるディープリトリーブのスケーリング | Google Cloud 公式ブログ
- 5 users
- cloud.google.com
- テクノロジー
- 2023/05/10
TensorFlow Recommenders と Vertex AI Matching Engine によるディープリトリーブのスケーリング ※この投稿は米国時間 2023 年 4 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。以前のブログ投稿で、Google Cloud でレコメンデーションシステムを実装する方法として、（1）Recommendations AI によるフルマネージドソリューション、（2）BigQuery ML での行列分解、（3）Two-Tower エンコーダと Vertex AI Matching Engine を使用したカスタムのディープリトリーブ手法の 3 つを紹介しました。このブログ投稿では、3 つ目の選択肢について詳しく説明し、プレイリストのレコメンデーションシステムを構築するために Vertex AI でエンド
LLM・プロンプトの評価・テストフレームワークについてまとめてみた
- 5 users
- zenn.dev/pomcho555
- テクノロジー
- 2023/12/15
はじめにご存知の通り大LLM時代なわけで、つよつよな方からアフィリ記事までこぞってどうやってLLMで良い出力を得るかまとめております。そしてそのテクニックがプロンプトエンジニアリングとして体系化されつつあります。ただし、エンプラでLLMを真面目に使おうとすると、プロンプトの管理やLLMごとの管理、レスポンスタイムの計測など様々な評価を継続的にやる必要があります。従来のデータサイエンスでも結局評価や計測が後々重要になったきたことを考えると必然かもしれませんが、そこらへんをまとめた日本語の記事がなかったので、アドベントカレンダーというチャンスを使ってまとめてみます! そんなわけで、この記事ではまだそこまで盛り上がってはないが、確実に重要なLLMの評価の基本的な流れデモも交えて簡単な評価フレームワークの利用例を紹介していこうと思います! ただしまだ黎明期で今後主流になる方法論も変わると思うのと
- あとで読む
tf.data.Dataset apiでテキスト (自然言語処理) の前処理をする方法をまとめる - Qiita
- 5 users
- qiita.com/bee2
- テクノロジー
- 2019/12/12
TensorFlow2.0 Advent Calendar 2019の11日目です。 tf.data.Dataset APIを用いてテキストの前処理を行う方法をまとめたいと思います。本記事では以下の順に説明します。 tf.data.Dataset APIとは何か、また、その有効性は何かを説明実際にテキストの前処理の手続きを説明 performance向上のtipsのまとめ説明が長いので（コードも長いですが。。。）コードだけ見て俯瞰したい場合はこちらから参照できます。 (注意として、本記事の内容は十分な検証ができているとは言えないです。コードは動きますが、パフォーマンスの向上に寄与しているのかいまいち把握しきれていないところがいくつかあります。随時更新していきますが、参考程度に留めておいていただけたらと思います。) 同アドベントカレンダーでは以下の記事が関連します。こちらも参考にされる
19世紀の貴族が持っていた「吸血鬼退治キット」がオークションに出品され予想の6倍以上の200万円超で落札
- 5 users
- gigazine.net
- 暮らし
- 2022/07/11
「吸血鬼」はさまざまな民話や伝説に登場する世界的に有名な怪物であり、実際に吸血鬼が存在すると信じる人々も大勢いました。新たに、イギリスの貴族が持っていた「吸血鬼退治キット」がオークションに出品され、事前予想を6倍以上も上回る1万3000ポンド(約213万円)で落札されたことが話題となっています。 Mysterious vampire-slaying kit - owned by peer of the realm - stuns at auction - Hansons Auctioneers https://hansonsauctioneers.co.uk/mysterious-vampire-slaying-kit-set-for-auction-was-owned-by-peer-of-the-realm/ Mysterious 'vampire-slayer kit' sells
- GIGAZINE
BigQuery RAG による LLM 機能の強化 | Google Cloud 公式ブログ
- 5 users
- cloud.google.com
- テクノロジー
- 2024/06/04
Gemini 1.5 モデルをお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダルモデルです。試す ※この投稿は米国時間 2024 年 5 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。生成 AI の台頭により、興味深い未来の AI 活用法が多く語られていますが、一方で限界もあります。生成 AI の主力である大規模言語モデル（LLM）は、特定のデータやリアルタイムの情報を活用できないことが多いため、特定のシナリオで効果を十分発揮できないことがあります。検索拡張生成（RAG）は、自然言語処理における手法で、2 段階のプロセスによって、より有益で正確なレスポンスを提示します。まず、提示された質問との類似性に基づき、より大規模なデータセットから関連するドキュメントまたはデータポイントを検索します。次に、生
- cloud
- google
- データ
- 検索
- ブログ
AIが「考えない」ことを考える──「生成系AIが変える世界──『作家』は（／今度こそ）どこにいくのか」イベントレポート
- 5 users
- webgenron.com
- テクノロジー
- 2023/07/13
2023年2月10日と3月5日の2回にわたり、ゲンロンカフェにて「生成系AIが変える世界」が開催された。登壇者はプログラマー・実業家の清水亮、物語評論家のさやわか、東浩紀の三氏である。 2022年から2023年にかけて、Midjourney や ChatGPT などの生成系AIが登場し、世間の話題をさらった。清水は2022年9月にAI作画サービス「Memeplex」をいちはやく公開し、自身の note でAI画像のみを用いたマンガ作品を公開するなど、積極的な発信をおこなっている。生成系AIはどのような技術によってつくられ、わたしたちの世界をどう変えていくのか。計15時間にもわたる議論が展開された。清水亮×さやわか×東浩紀「生成系AIが変える世界──『作家』はどこにいくのか」 URL= https://shirasu.io/t/genron/c/genron/p/20230210 清水亮×
コロナ死者急増の米南部、遺体の保管に冷蔵トラック使用へ
- 5 users
- www.afpbb.com
- 世の中
- 2020/07/18
米ニューヨーク・ブルックリンの医療機関の前に止められた冷蔵トラック（2020年4月2日撮影）。(c)Angela Weiss / AFP 【7月18日 AFP】米ニューヨーク市では今年4月ごろ、新型コロナウイルスの感染拡大による圧倒的な数の遺体に対処するため冷蔵トラックの使用を余儀なくされていた。現在、サンベルト（Sun Belt）地帯と呼ばれる米南部では、感染者・死者数ともに急増。テキサス州やアリゾナ州では、遺体安置所が収容可能数にほぼ達しており、負担削減のために同様の措置が取られている。テキサス州では今週、新型コロナウイルスによる1日当たりの死者数としては過去最多の129人を記録。同州ではこれまで、約3700人が死亡している。サンアントニオ（San Antonio）やコーパスクリスティ（Corpus Christi）などの都市では、急増する死者数を監視している当局が、最悪の場合に
- ニュース>へー
- *あとで読む
NTTデータが金融版BERTを作成、金融機関を募りAI自然言語処理の検証を開始 | IT Leaders
- 5 users
- it.impress.co.jp
- テクノロジー
- 2020/07/10
IT Leaders トップ＞テクノロジー一覧＞ AI ＞市場動向＞ NTTデータが金融版BERTを作成、金融機関を募りAI自然言語処理の検証を開始 AI AI記事一覧へ [市場動向] NTTデータが金融版BERTを作成、金融機関を募りAI自然言語処理の検証を開始 2020年7月10日(金)日川佳三（IT Leaders編集部）リスト NTTデータは2020年7月10日、金融版BERTを用いた自然言語処理技術に関して、銀行や証券会社などの金融関連企業を募り、2020年7月以降順次、実証検証を開始すると発表した。自然言語処理により、財務情報からリスクを抽出したり、チャットボットを用いて問い合わせに対応したりできる。2020年度に5件の実証検証を行い、2021年度中にサービス提供を開始する。金融版BERTは、AIを用いた自然言語処理技術のBERT（Bidirectional E
自然言語処理における Active Learning - ELYZA Tech Blog
- 5 users
- elyza-inc.hatenablog.com
- テクノロジー
- 2021/10/02
はじめまして，インターンの中村です。今回は，アノテーションコストを抑えつつも，高性能な機械学習モデルを学習するための手法である能動学習 (Active Learning) について，その自然言語処理における研究例を紹介したいと思います。特に，自然言語処理において，大量のラベルありデータを集めることが難しく，必要最低限のアノテーションで高性能なモデルを効率的に学習したいといった方にぜひ一読をお勧めしたい内容となっています。はじめに深層学習の課題 Active Learningとは Active Learningの概要 1. ラベルなしデータの選択方法 2. ラベルなしデータの抽出基準自然言語処理における Active Learning テキスト分類における Active Learning 事前学習済みモデル以前の Active learning 事前学習済みモデルを使った Active
高品質音声合成エンジンを搭載したお手軽ナレーション作成ツール5人組セット、かんたん！AITalk5が70%オフの4,980円｜DTMステーション
- 5 users
- www.dtmstation.com
- エンタメ
- 2022/03/26
これまでDTMステーションでも何度もとりあげてきた、音声合成専門の上場企業、株式会社エーアイ。同社が開発する最新の音声合成エンジンがAITalk5というもので、従来からのコーパスベース音声合成方式と、最新の深層学習技術を活用したDNN音声合成方式の2つを兼ね備えたハイブリッドな音声合成エンジンとなっています。その新エンジンAITalk5を搭載したことで、より滑らかに、より人間らしく喋る音声合成ソフト、「かんたん！AITalk5 5話者パックダウンロード版」（以下、かんたん！AITalk5）をソースネクストが3月25日より発売開始しました。これは5人の話者をセットとし、キャラクタを切り替えることで、5人の声を切り替えて使うことができるもので、1６，５００円と手ごろな価格を実現したもの。しかも、発売記念としてDTMステーション読者限定で、約70%オフ＝11,520円引きのクーポンコードが提
Encoder-Decoder/Attention/Transformerの調査
- 5 users
- zenn.dev/razokulover
- テクノロジー
- 2023/04/13
この記事は先日自分がGPTの背景にあるEncoder-DecoderやらTransformerやらについて雑に調べていたこのメモを元に不足する情報を補完してもらいながらChatGPT(GPT-4)に記事としてまとめてもらったものです。雑なメモのままで埋もれさせておくよりもある程度体裁の整った文章として残しておいた方が後から見返した際に自分にとっても役に立つだろうという思惑と、単純にChatGPTでどれくらい記事が書けるのか？という実験をする目的で書いています。実験的な意味合いが強いので内容の正確性に問題がある部分もあるかもしれないのでその辺はご容赦ください。また、ChatGPTで中身のない薄っぺらな技術記事を量産しようなどという意図はないのであらかじめご了承ください。自然言語処理の変遷とEncoder-Decoderモデルの登場自然言語処理（NLP）は、コンピュータが人間の言語を理解
AIが紡ぐ物語に目が釘付けなのです! - テイルズ・オブ・シングルマン
- 5 users
- talesofme.hatenablog.com
- テクノロジー
- 2021/11/14
★面白いけどなんだか少し怖いのです。 ●皆さんおはようございます。こんにちは、こんばんはです♪ 面白いサイトを見つけたのでご紹介させて頂きます。その名も「AIのべりすと」、物語の書き出しを入力するだけで続きをAIが書いてくれると言う内容です！日本語最大級の68.7億パラメータ＆約500GBのコーパスからフルスクラッチで訓練した小説生成人工知能(AI)との事です。なるほど!！はい皆さんご一緒に〜♫ 「言葉の意味がわからんが、とにかくすごい自信だ!」／(^o^)＼遊び方は簡単(^-^)v まずは「最初から始める」をタップします♪ 物語の始まりを数行入力した後に「続きの文を書く」をタップするだけの簡単なお仕事です。登場人物も自動的に作成されるので、小説の続きを読む感覚で物語が作れてしまいます! 自分が予期しなかった方向に物語が流れていくので、出だしを自分で書いておきながらもその
計算社会科学入門（丸善出版）サポートページ | 計算社会科学会
- 5 users
- css-japan.com
- テクノロジー
- 2021/02/08
第1章計算社会科学とは（笹原和俊）第2章 Web調査（三浦麻子）第3章デジタル実験（小林哲郎）第4章データ収集・公開データセット（吉田光男，榊剛史）第5章ネットワーク（鳥海不二夫）第6章テキスト分析：データとしてのテキスト（瀧川裕貴）第7章ソーシャルデータ分析のための教師あり機械学習（水野貴之）第8章社会シミュレーション（岡田勇，山本仁志）第9章統計モデリング（高野雅典）第10章社会物理（石井晃）第11章計算社会科学における倫理（常松淳）第12章計算社会科学の今後の展望と課題（上東貴志）詳細は発行元の案内ページをご参照ください CCSS School on Computational Social Scienceでの講演資料本書の執筆陣が各章を紹介した「CCSS School on Computational Social Science『計
- 統計
【2022/07/05更新】読み上げソフト・サービスをまとめてみた【29+2種類】 - アマノケイのまったり技術解説
- 5 users
- amanokei.hatenablog.com
- テクノロジー
- 2020/08/28
注意読み上げソフトはめっちゃ多いので調べてないものもあります、無いものがあったらコメントでこっそり教えて下さい、こっそり追加します。一応、利用についてや規約に関しては細心の注意を払っていますが、間違ってる場合もあるので各サービス利用する場合は規約を自分で読み、各自で判断して下さい。 ※なにかしらトラブルがあったとしても、この記事を根拠にしないで下さい。あと、各サービスのデモとしてウェブに体験版が置かれている場合も多いのですが、サービスによっては出力した音声の二次利用を禁止しているので、規約を読んで各自で判断して下さい。注意 Aquest Talk(ゆっくりボイス,Softalk) VOICEROID(ガイノイドTalk・ギャラ子Talk・音街ウナTalk Ex) CeVIO/CeVIO AI A.I.VOICE Megpoid Talk(FineSpeech) SHABERU 唄詠
機械翻訳はどこから来て、どこにいくのか──近刊『機械翻訳：歴史・技術・産業』訳者あとがき公開｜森北出版
- 5 users
- note.com/morikita
- テクノロジー
- 2020/09/03
2020年9月下旬発行予定、『機械翻訳：歴史・技術・産業』（ティエリー・ポイボー著）の訳者、高橋聡氏による同書の「訳者あとがき」を、発行に先駆けて公開します。＊＊＊『機械翻訳：歴史・技術・産業』訳者あとがき文：高橋聡機械翻訳（MT）、または自動翻訳。これまで数々の小説や漫画・アニメ、映画・ドラマに登場してきた夢の装置もしくはシステムです。本書の第1章に登場する「バベルフィッシュ」もそのひとつですし、『スター・ウォーズ』サーガに出てくるドロイド「C-3PO」は600万の言語を翻訳できることになっています。もっとも、日本人がいちばんよく知っている万能翻訳機といえば、きっと「ほんやくコンニャク」でしょう。しかし、現実の世界でMTといえば、「大意（gist）はつかめることもあるが、たいていは珍妙で愉快な訳を出してくるシステム」という認識が一般的でした。それが、2016年にGoogleも採
- 技術
ナレッジグラフ（知識グラフ）とLLMを掛け合わせる方法のロードマップ | AIDB
- 5 users
- ai-data-base.com
- テクノロジー
- 2024/02/09
LLMはさまざまな能力が高いものの、事実情報を把握・活用するのがまだ苦手と考えられています。そこで注目されているのがナレッジグラフ（知識グラフ）との連携です。研究者らは、「ナレッジグラフを活用したLLM」「LLMを活用したナレッジグラフ」そして「両者の相互連携」についてロードマップを提示しています。参照論文情報タイトル：Unifying Large Language Models and Knowledge Graphs: A Roadmap 著者：Shirui Pan, Linhao Luo, Yufei Wang, Chen Chen, Jiapu Wang, Xindong Wu 所属：Griffith University, Monash University, Nanyang Technological University, Beijing University of T
アマゾン、RAGを実装したAIの性能を比較する新しいベンチマークを提案
- 5 users
- japan.zdnet.com
- テクノロジー
- 2024/07/02
Tiernan Ray （Special to ZDNET.com）翻訳校正：佐藤卓吉武稔夫（ガリレオ） 2024-07-02 09:38 2024年は、企業で生成人工知能（AI）の活用が飛躍的に進む年になると、多くの観測筋が予測している。考えられる可能性の1つが、検索拡張生成（RAG）と呼ばれる手法の採用だ。RAGを利用すると、AIの大規模言語モデル（LLM）を、企業のファイルなど、組織の独自コンテンツが含まれるデータベースに接続できる。ただし、RAGはまだ新しい技術で、落とし穴もある。そのため、AmazonのAWSの研究者たちは新しい論文の中で、RAGが組織の独自コンテンツに関する質問にどれほど正しく回答できるかをテストする一連のベンチマークの策定を提案している。この論文は、ウィーンで現地時間7月21日から27日まで開催されるAIカンファレンス「The Forty-fir
Zoomを使った研究会をYouTube Liveで配信しつつsli.doで質問を受け付けてみた話｜まつーらとしお
- 5 users
- note.com/yearman
- 暮らし
- 2020/05/06
2020年5月1日にオンラインで開催された「Covid-19の影響下にある方言研究ワークショップ」というオンライン研究会に参加しました。このワークショップは下地理則さん(九大)の声かけのもと，現地調査が難しくなった現状で特に卒論生や大学院生に向けてどうやって研究活動を続けていけるのかを実例を出して共有するというもので，当日も約90名の視聴がありました。私は「コーパスの活用例　何が有声促音になるのか? COJADSを用いた分類の試み」と題した発表をし，COJADS(日本語諸方言コーパス)を使った音声・音韻研究の事例を紹介しました。まあ内容はいまいち練り込みが足りないものだったので反省点も多々あるのですが，それはまたいずれ。この研究会を開催するにあたり，Zoomを使うことは決まっていたのですが，参加人数が多くなるとなかなか仕切りに不安があるので，なにかいい方法はないかという相談がありました。
- あとで読む
「させていただく」の語用論　人はなぜ使いたくなるのか　椎名美智著
- 5 users
- www.hituzi.co.jp
- 学び
- 2020/12/28
椎名美智著 A5判上製カバー装　定価3,600円＋税　304頁装丁・装画　小林真理（STARKA） ISBN 978-4-8234-1056-7 ひつじ書房 The Pragmatics of Sasete-itadaku: What Leads People to Use This Benefactive? SHIINA Michi 【内容】「させていただく現象」の謎を解く。「させていただく」を言われて怒れる人がいる一方で、「させていただく」の氾濫はとどまるところを知らない。なぜ人は使いたくなり、何が違和感を生むのか？　この問いに答えるべく、意識調査で許容と違和の境界を探り、コーパス調査で発話行為的観点から他の授受表現との勢力関係変化を探った。それらをゴフマン的枠組みから再解釈することで、授受表現に生じているシフトに対する洞察を得た。 ↓著者・椎名美智先生に自著の紹介をしていただきま
- 言語
- 研究
- Book
RWKV（Receptance Weighted Key Value）をつかってみた - Platinum Data Blog by BrainPad
- 5 users
- blog.brainpad.co.jp
- テクノロジー
- 2023/06/15
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。この記事では、Google Colaboratory を使って、チャットAI「ChatRWKV」の利用方法、ファインチューニング手法を紹介する他、ファインチューニング済みモデルとベースモデルの挙動の比較結果もご紹介します。はじめに ChatRWKVの活用手順 RWKVのファインチューニングファインチューニング済みのモデルの実行終わりに参考文献はじめにこんにちは。ブレインパッドの丸山です。最近、GPTなどのTransformerベースの生成系AIが注目を集
Google DeepMind、ロボットの行動を改善する新VLAモデル「RT-2」発表
- 5 users
- www.itmedia.co.jp
- テクノロジー
- 2023/07/29
米Google傘下のGoogle DeepMindは7月28日（現地時間）、視覚と言語を行動に翻訳する新しいVLA（Vision-Language-Action）モデル「RT-2」を発表した。 RT-2 は、Web上のテキストと画像でトレーニングされたTransformerベースのモデルで、ロボットのアクションを直接出力できる。LLM（大規模言語モデル）をWeb上のテキストデータでトレーニングするのと同様に、RT-2はWeb上のデータから知識を転送してロボットの動作に情報を与える。これにより、従来は例えば「コーラの空き缶をゴミ箱に捨てて」という命令を実行するためには、コーラの缶とはなにか、それが空になっていることはどうやって判断するか、物体を掴むにはどうすればいいのか、ゴミ箱とはなにか、ゴミ箱に捨てるというアクションはどういうものか、など、膨大な定義をロボットに教える必要があったところ、
LLM開発は"1000万円ガチャ"？　３人の専門家が語る日本語モデルの開発秘話と苦労
- 5 users
- logmi.jp
- テクノロジー
- 2024/08/23
ビジネス特化型LLMの重要性南野：けっこう出てきましたけど、近江さん、いかがでしょうか？近江：そうですね。答えることがだんだん少なくなってきたんですけども、ちょっと弊社の観点からお話しさせていただければと思うんですが。弊社は昔から自然言語処理のプロダクト開発をやってきて、けっこうBERTとかが出てきた時から事前学習して、それを使って、みたいなことをやっていたんですけど。その時できたことは、例えば文章を分析するとか、情報を抽出するとかみたいなことだったんですが。昔から我々はそれを超えて、けっこう文章、レポートとかを作るみたいなことをゆくゆくはやりたいなと思って、こういうLLMが出てきて、実際そういうのができるようになって、じゃあ、いざやってみようというところになってきたんですけど。そうなると、やはりLLM自体がただ汎用的な知識だけではなくて、よりビジネスに特化したような知識を持って
大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など
- 5 users
- zenn.dev/matsuolab
- テクノロジー
- 2024/08/31
*チームでの評価. **13Bは推論時のアクティブパラメータ数、47Bは総パラメータ数をあらわす。 (Nejumi leaderboard NEOを使いチーム内で評価｡GPT-4の採点不具合で評価が-1となった項目は採点から除外した｡) 2.2 開発アプローチ Tanukiの開発では、以下のような革新的なアプローチを採用しました：データ合成: これまで主流とされてきたインターネットデータ(Common Crawl)の過度の依存から脱却し、対話や作文に特化した合成データを活用対話・指示データの合成: 人工的に生成した対話および指示データを事前学習に組み込みモデルのアップサイクリング: 8x8Bモデルはゼロから作るのではなく､先に構築した8Bモデルを素材に用いるアップサイクリングと呼ばれるアプローチをとることで、限られた計算リソースから高性能なモデルを得ることに成功効率的な試行錯誤:
(Part 2) tensorflow 2 でhugging faceのtransformers公式のBERT日本語学習済みモデルを文書分類モデルにfine-tuningする - メモ帳
- 5 users
- tksmml.hatenablog.com
- テクノロジー
- 2019/12/23
概要以下の記事の続編になります。こちらの記事では、hugging faceのtransformersというライブラリを使用してBERTのfine-tuningを試しました。 transformersでの公開済みモデルを使用したfine-tuningの流れを紹介しているので、サポートされていない学習済みモデル（自分で学習させたものなど）を使って転移学習やfine-tuningをしたい場合は前回の記事を参照して頂いた方がいいかと思います。 tksmml.hatenablog.com 本記事では、以下を扱います。日本語サポートの拡充についてざっくりまとめる追加された学習済みモデルを使った、前回いまいちだった日本語文書分類モデルの精度の向上 → 飛躍的に精度上がりました！！！ transformersの日本語学習済みモデルのサポート！！！おはようござえます、日本の友達 Hello, Fri
- 機械学習
MNTSQ & UbieでVertical AI Startup Meetupを開催しました
- 5 users
- yag-ays.github.io
- テクノロジー
- 2021/08/11
2021/8/10にリーガルテックのMNTSQさんとヘルステックのUbieの2社で"Vertical AI Startup Meetup"というイベントを開催しました。Ubieからは私が登壇したので、当日のイベントの様子や感想をご紹介します。【MNTSQxUbie】Vertical AI Startup Meetup - connpass Vertical AI Startupとはなにか @YotaroKatayama まずはじめにMNTSQ 堅山さんから、イベントのタイトルにもなっているVertical AI Startupの紹介と開催趣旨の説明がありました。このイベントが企画されるまで私はVertical AI Startupという概念を知らなかったのですが、まさにMNTSQさんやUbieのようなスタートアップを表すのにふさわしい単語だと思います。リーガルテックやヘルステックとい
LLMを使ったかな漢字変換｜朝日新聞社メディア研究開発センター
- 5 users
- note.com/asahi_ictrad
- テクノロジー
- 2024/07/22
こんにちは。メディア研究開発センターの山野です。私は普段は音声処理や自然言語処理やそれらの技術を使ったプロダクト開発などに従事しています。さて今回は朝日新聞記事データを使ったニューラル仮名漢字変換について簡易な実験をしたのでその結果を共有します。はじめに多くの問題を解くことができるLLMですが、ひらがな列Xをかな漢字混じり文Yへ変換する仮名漢字変換については、単語の読み方とその表記の関連性を学習する必要があり、現時点(2024年7月8日)ではLLMでもうまく解くことができません。実はほとんど全てのオープンな日本語LLMはかな漢字変換が全く出来ません。出典: https://zenn.dev/azookey/articles/ea15bacf81521e（ちなみに私はiPhoneのキーボードをazooKeyに変更してしばらく経ちますがとても使い勝手/心地が良いのでオススメです。）そ
言語処理学会第27回年次大会(NLP2021)にポスター発表・ワークショップ登壇で参加しました - Gunosyデータ分析ブログ
- 5 users
- data.gunosy.io
- テクノロジー
- 2021/03/24
こんにちは、株式会社Gunosy新卒一年目の谷口です。3月15日〜3月19日に開催された言語処理学会第27回年次大会(NLP2021)に弊社からも「ポスター発表」・「スポンサーイブニング」・「ワークショップ登壇」という形で参加しました！本記事ではそちらについて述べていきます。今年も一般参加者が集まるのは難しいということで、前年に引き続きオンラインによる開催でした。私自身、オンラインの学会に参加するのは初めてのため少し緊張と不安があったのですが、運営の方々のご尽力のおかげで滞りなく参加することができました。しかし、開会式でがらんとした会場が映し出されたときは何とも複雑な感情がこみ上げてきました。いつか皆さんと画面を通さずにお会いできることを心待ちにしております。ポスター発表「扇情的な記事判定に向けた定義作成とアノテーション」というタイトルで論文を投稿し、ポスター発表で参加しました。ニュ