自然言語処理サービスのAmazon Comprehendで、日本語を含む以下の6言語のテキスト分析ができるようになりました! 日本語 中国語(繁体字) 中国語(簡体字) 韓国語 ヒンディー語 アラビア語 【AWS公式】Amazon Comprehend Adds Six New Languages Amazon Comprehendとは Amazon Comprehend(以下、Comprehend)とは、機械学習を利用した自然言語処理(NLP)サービスです。 指定したテキストを分析し、キーフレーズの検出や感情の判定などを行うことができます。 自然言語処理サービスの Amazon Comprehend についてまとめてみた #reinvent 今回、日本語を含む6言語が新たに追加されました。 以前からテキストの言語そのものの判定(Detect Dominant Language)は日本語も
グーグルは「テキストの説明文から忠実度の高い音楽を生成する」という新しいAIモデル「MusicLM」を公開しています。 説明によると、MusicLMは「数分間一貫性を保つ24 kHzの音楽を生成」し、MusicLMは「音質とテキスト説明の順守の両方において、従来のシステムを凌駕している」という。さらに、MusicLMはテキストとメロディの両方を条件とすることができるとのこと。 以下はMusicLMで生成された音楽の説明文の一例 「アーケードゲームのメインサウンドトラック。テンポが速くアップビートで、キャッチーなエレキギターのリフが特徴。音楽は反復的で覚えやすいが、シンバルのクラッシュやドラムロールなど、意外性のある音も入っている」 「レゲトンとエレクトロニック・ダンス・ミュージックを融合させた、スペイシーで別世界のようなサウンド。宇宙に迷い込んだような体験を誘発し、驚きと畏敬の念を呼び起こ
定義とプロセス DeepFloyd IFは、モジュール化、カスケード化された、ピクセルdiffusion モデルです。ここでは、それぞれの記述子の定義を分解して説明します。 Modular: DeepFloyd IFは、複数のニューラルモジュール(テキストプロンプトからの画像生成やアップスケーリングなど、独立したタスクを解決できるニューラルネットワーク)で構成されており、1つのアーキテクチャでの相互作用により相乗効果が生まれます。 Cascaded: DeepFloyd IFは、異なる解像度で個別にトレーニングされた一連のモデルを使用して、カスケード方式で高解像度データをモデル化しています。このプロセスは、ユニークな低解像度サンプル(「プレーヤー」)を生成するベースモデルから始まり、連続する超解像度モデル(「アンプリファイア」)によってアップサンプリングされて、高解像度画像が生成されます。
オルツテクノロジーズは、会議議事録を自動で文字起こしを行う「AI GIJIROKU(AI議事録)」の提供を開始した。 「AI GIJIROKU」とは、同社のグループ企業であるオルツの研究チームによるAI要素技術を駆使し、録音音声の書き起こしや手書きメモを再度手入力することが基本であった会議の議事録を、リアルタイムにテキストデータ化するサービス。 会議参加者の音声を自動で録音・記録し、音声認識によりリアルタイムで会議内容をテキスト化し、精度の高い話者分離機能を搭載しているため、会議参加者が増えた場合でもはっきりと発言者を判断するという。 会議終了後には、テキストデータを共有することも可能。 また、音声認識にミスがあった場合、その都度入力し直しの手間が発生していたが、「AI GIJIROKU」では、話者の音声データを蓄積し、機械学習の学習素材とすることで、オルツ研究チームの成果である、「パーソ
R&D チームの徳田(@dakuton)です。 過去何回か、Tech Blog記事にてPDFやOCR、自然言語処理に関する手法を紹介してきましたが、今回もそちらに関連する内容です。 過去記事 tech-blog.optim.co.jp tech-blog.optim.co.jp tech-blog.optim.co.jp やりたいこと PDFからテキストを抽出する際に含まれる、中途半端な位置にある改行を除去することが目的です。 シンプルな方法としては、句点(。)の位置をもとに改行する方法ですが、今回はspaCy(とGiNZA)を併用した場合にどうなるかを試してみることにします。 テストデータ 今回は、下記記事のPDFを使用しました。 財務省「ファイナンス」令和3年2月号 の「ポストコロナ時代を形作る、コロナ禍で生まれるDX(デジタルトランスフォーメーション)」 1 メディア掲載情報: 財務
このところNHK関係者から漏れ聞こえてくるのは、各ニュースサイトが廃止に向かって動いているとの情報だ。NHKは2015年に「公共放送から公共メディアへ」をスローガンに掲げ、NEWS WEBに限らず「政治マガジン」「事件記者取材note」などを開設したり、放送したテーマをその後も追って、視聴者からの情報も取り入れてネットで成果を提供するなど次々にニュースサイトを充実させてきた。これらを一気に廃止するのなら、もはや「公共メディア」の目標を取り下げたも同然だ。 「NHKプラス」をめぐる受信料問題 NHKは今は任意業務であるネット業務の必須業務化をめざしている。必須業務化で、現在は放送契約者のみが利用できる番組配信サービス「NHKプラス」を、テレビを持っていない人でもネット単独で契約できるようにしたいらしい。放送だけでは受信料収入を若い世代から取れなくなるのが目に見えているため、少しでも収入を増や
この記事は新野淳一氏のブログ「Publickey」に掲載された「AWS、API経由でジェネレーティブAIを利用する新サービス「Amazon Bedrock」を発表し、ジェネレーティブAIに本格参入。テキスト生成、文章要約、画像生成など」(2023年4月14日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 米Amazon Web Services(AWS)は、ジェネレーティブAIをAPI経由で利用できる新サービス「Amazon Bedrock」を発表し、ChatGPTに代表されるジェネレーティブAI市場に本格参入することを明らかにしました。 合わせて、Amazonの20年にわたる機械学習の経験を基に開発されたとされる、人間と自然言語で対話し質問に回答でき、要求に応じた文章の生成や要約などが可能で、不適切な入力や出力を検出し拒否するように設定された大規模言語モデル「A
お正月なのですがAIは待ってはくれないので毎日「デイリーAIニュース」だけは続けている今日この頃。 中国のテンセントがとんでもないオープンソースをぶっ込んできた。 https://crypto-code.github.io/M2UGen-Demo/ 動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、しかもベースはllama-7Bということで、V100 32GB一つで推論可能(CPUのRAMは49GB以上必要)どころか学習も可能。ホントかよ!! しかもしれっと日本語でも命令できるし。 ほんとにテクノっぽい音楽が流れるなんかこの研究の名前はかなり控えめに「音楽理解できるマルチモーダルモデル」みたいに書いてあるんだけど、とんでもない。実際にはこれは「どんな情報も入力できるマルチモーダルモデル」のプロトタイプである。 MU2GENのモデル構造図音声、画像、動画とい
『Mount & Blade II: Bannerlord』向けに「NPCと自由に会話できる」機能を開発したユーザーが現れた。ChatGPTが用いられているといい、定型文ではなく入力したテキストに対して世界観に沿った返答が生成。NPCとの自然な会話を楽しめる様子だ。国内ではTwitterユーザーのたばたの雑感(メモ)氏などが紹介している。 Image Credit: Bloc on YouTube 『Mount & Blade II: Bannerlord』は、中世を舞台としたアクションRPG『Mount & Blade』の続編。対応プラットフォームはPCおよびPS4/PS5/Xbox One/Xbox Series X|S。プレイヤーはカルラディアと呼ばれる広大な世界で、自由に暮らす。攻城兵器を用いて要塞を攻めたり、権力を求め熾烈な戦いに身を投じたり、さらには犯罪組織を設立したりと、自分
画像生成AI「Stable Diffusion」を開発するStability AIが、テキストや画像から高解像度の動画を生成できる潜在動画拡散モデル「Stable Video Diffusion」を公開しました。 Stable Video Diffusion のご紹介 — Stability AI Japan https://ja.stability.ai/blog/stable-video-diffusion Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets — Stability AI https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-lar
ゲームでキャラクターの名前をつける時やゲーム内チャットなど、ゲームパッドから操作する文字入力方法は、「PCのキーボードよりもコンパクト」というメリットがある一方で、「入力が遅い」という欠点があります。この欠点を克服するため、テキスト入力に最適化されたゲームパッドの入力方式およびキー配置の作成手順をエンジニアのクリス・フリス氏が公開しています。 Touch typing on a gamepad | darkshadow https://darkshadow.io/2020/07/07/touch-typing-on-a-gamepad.html ◆スティック入力の最適化 フリス氏はゲームパッドに適したタイピングシステムの構築にあたり、まずゲームパッドのスティック入力の最適化を行いました。以下の図はゲームパッドの左右それぞれスティックがどう入力されたかを可視化したもので、左側は左スティックを
PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを1つにまとめるプログラムなどがすぐに作れます。 しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日本語や帳票であればもっと難易度が上がります。 この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。 本記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra
使い方pip install -e . でインストール 上記のようなモデルを生成するには、次のノートブックを参照してください。: sample_text_to_3d.ipynb - テキスト プロンプトで条件付けされた 3D モデルのサンプル sample_image_to_3d.ipynb - 合成ビュー画像で調整された 3D モデルをサンプリングします encode_model.ipynb - 3D モデルまたはトリメッシュをロードし、マルチビュー レンダリングとポイント クラウドのバッチを作成し、それらを潜在的にエンコードして、レンダリングし直します。これを機能させるには、Blender バージョン 3.3.1 以降をインストールし、環境変数BLENDER_PATHを Blender 実行可能ファイルのパスに設定します。 テキストから3Dモデルを生成するimport torch fr
こんにちは。最近の猛暑に生存の危機を感じています、コーポレートデザインチームのmewmo(@mewmoppel)です。 突然ですがみなさん、alt属性ってご存知ですか? alt属性とは、HTML文書においてimg要素に付随する属性のひとつで、画像によって伝えたい内容を説明するための代替テキストを提供します。最近ではTwitterやInstagramといったSNSでも代替テキストを用意できるようになり、より私たちの生活にとって身近なものになっているのではないでしょうか。 そんなalt属性について、最近私がやってしまった失敗とその改善から学んだことをこの場で紹介したいと思います。 alt属性はなぜ必要なの? alt属性のここがよくわかっていなかった! 代替テキストを適切に書くためのコツ 1. 画像をなくしてもページの文意が同等レベルで伝わる 2. スクリーンリーダーで読み上げたときに何の画像な
「お手ごろなテキストアドベンチャーゲーム」という戦い方の勝ち筋とは? 『パラノマサイト』石山貴也に『マーダーミステリーパラドクス』塩川洋介が訊く 「テキストアドベンチャーゲームは売れない」とゲーム業界では言われ続けている。 少人数でも作りやすいことから、作家性やテーマ性が色濃く出るジャンルでもあるため好みが分散されやすい。おそらく「テキストアドベンチャーゲームならどんなテーマでも好き」という人は多くはないだろう。 しかしそんななか、近年のテキストアドベンチャーゲーム界に彗星のごとく現れ、ユーザーから圧倒的な支持を得ているゲームがある。それが、スクウェア・エニックスの『パラノマサイト FILE23 本所七不思議』(以下、『パラノマサイト』)だ。 『パラノマサイト FILE23 本所七不思議』オカルトノベルゲームかと思いきや、突然 “呪殺能力バトル” が始まるという尖りに尖った内容で、シナリオ
学生の時、スマホゲームは、本当に「共通の話題」の中心だった。 これは、2023年時点で20代の筆者より上の世代の方には、かなり伝わりづらい感覚かもしれない。だが、私が中学~高校の頃、本当にスマホゲームは話題の中心だった。もちろんマンガも読んでいた。もちろんアニメも見ていた。もちろん3DSやPS4で遊んだりもした。けれど、その中でも「スマホゲーム」の存在感はすごく大きかった。 あくまで「筆者の周囲」でしかないので、全国規模でそうとは言えないかもしれない。だけれど、少なくともそんな状況だった世界が、間違いなくそこにあったのだ。 この記事のタイトルにも書かれている通り、今回の対談は「なぜスマホゲームは、今テキストメディアの最前線にあるのか?」というメインテーマだったりする。確かに、言われてみるまで何も考えていなかった。 なぜ、あの時スマホゲームが話題の中心だったのだろう。 なぜ、あの時スマホゲー
コンバートされた flac ファイルをダウンロード 自分のパソコン等に test.flac をダウンロードしておきます。 GCP の初期設定 Cloud Console で Project を作成 Cloud Speech-to-Text API を有効に(検索窓より、Speech-to-Textで検索) Google Cloud Storage(GCS)に、flac ファイルをアップロード GCS でバケットを作成(フォルダのようなもの。今回は0228-speech というバケットを作成しました。)バケットを作成する際にいくつか聞かれますが、バケットの名前だけいれて、後は、続行 ➡️ 続行 ➡️ 続行 ➡️ 続行 ➡️ 作成で進めてください。 test.flac ファイルをアップロード flac ファイルをテキスト化 Cloud Console から、[Cloud Shell を有効にす
どうも、株式会社ナレッジワークのざわきんといいます。 最近よく mermaid というテキストベースの図作成ツールを使っていて、ChatGPTやGitHub CopilotのようなLLMを活用したツールとめちゃくちゃ親和性が高いなと思い、居ても立っても居られないので記事にしました。 TL;DR LLM(Large Language Model)の普及により、テキストベースの図作成ツール(例:mermaid)はますます普及していくと思うので、ガンガン使っていこうぜ!という記事です。 はじめに 言葉によるコミュニケーションの難しさ 突然ですが、言葉によるコミュニケーションって難しいですよね。 頭の中にある構造を言葉だけで相手に正確に伝えることって、なかなか難しいです。 例えば、インフラ構成を説明する場合 例えば、インフラ構成を他の人に説明する場合を考えてみましょう。 ChatGPT に出力して
テキストや画像、フォルダの比較が可能なMac用diffツール「Kaleidoscope」が2年ぶりにアップデートし、Appleの公証取得やRetinaディスプレイでの不具合を修正したと発表しています。詳細は以下から。 過去にTwitter for MacやMac/iOS用RSSリーダーNetNewsWireを開発していた米シアトルのソフトウェア会社Black Pixelは現地時間2020年02月21日、同社が開発&販売しているMac用diffツール「Kaleidoscope」を約2年ぶりにv2.3へアップデートし、macOS 10.15 Catalinaとの互換性を向上させ、Appleの公証を取得したと発表しています。 Kaleidoscope v2.3 Improved macOS Catalina compatibility Notarized builds for improved
【理科】~尿素の結晶作り 第1実験~モコモコの正体は? 親が失敗 テキストに予想や観察記録を書き込みながら実験 第2実験~材質によって結晶の形が変わる実験 第3の実験~水性ペンと油性ペン、どちらも結晶に色がつく? 総合診断テスト用の新たな実験課題も 【社会】~お年寄りについて学ぶ 【算数】~これまでに勉強したことを実生活に 【自分づくり】は自分の名前を使って自分を紹介! 【国語】~新聞を読み取り事件の謎を解く問題! 考える力・プラス講座はテキストも実験も楽しかった 子どもが受講している進研ゼミ小学講座チャレンジ3年生のオプション講座、<考える力・プラス講座>3月号の実験セットは【結晶作りセット】でした。 いつもは1回で終わる実験なのですが、今回は3回に分けて実験するという、時間がかかるものでした。春休み用なんでしょうね。 科目はいつも通り【国・算・理・社・自分作り(道徳的なもの)】。 【理
ガンホー・オンライン・エンターテイメントの米国法人GungHo Online Entertainment Americaは8月12日、海外Nintendo SwitchおよびSteam向けにリリース予定の『GRANDIA HD Collection』について、日本語テキストを発売後のアップデートにて追加すると発表した。 [Update] GRANDIA HD Collection While Japanese audio will be available, Japanese text will be added in a future update following the August 16th release. We apologize for the delay. pic.twitter.com/kLJqOtCe7l — GungHo Online (@GungHo_Americ
くもん出版は2020年10月28日、渋谷ソラスタコンファレンスにて「くもんが考えるこれからのプログラミング教育~なぜ、いま小学校教育にプログラミングが必要なのか?」をテーマに記者発表会を開催した。 関連画像を見る くもん出版では、2020年5月にプログラミング教育の第一人者である小金井市立前原小学校前校長の松田孝氏著「学校を変えた最強のプログラミング教育」を発刊。松田氏の考えを土台に、未就学児から小学生向けの玩具・教材・書籍をラインアップし、Society 5.0の時代を生きる子どもたちの学びを支援していく。 9月には4歳からプログラミングが学べるSETAM&プログラミング玩具「matatalab(マタタラボ)」シリーズを発売し、10月には子どもパソコン「IchigoJam(イチゴジャム)」を使った、初学者(小学中学年~)向けテキストプログラミングワークブック「くもんのプログラミングワーク
GNUは米国時間2020年8月10日、GNU Emacs 27.1をリリースした。前バージョンのリリースが2019年8月28日のため、約1年ぶりのメジャーバージョンアップ。ソースコードはGNUのメインFTPやミラーFTP、近くのミラーFTPからダウンロードできる。 Linux上で動作するGNU Emacs 27.1 GNU Emacs 27.1では、任意サイズの整数やHarfBuzzを使用したテキストのシェーピング、JSONパースのサポートが加わった。また、フリーの2Dグラフィックスライブラリ「cairo」の描画強化やポータブルダンプ出力の見直し、ImageMagickを使用せずに画像サイズの変更や回転機能も追加した。より詳細な変更点はChangelogを確認してほしい。 GNU Emacsは1976年から開発を続けており、古参テキストエディターの一角を担う。幅広いカスタマイズ性でUNIX
児童発達支援士と発達障害コミュニケーションサポーター、二つの資格を取得したお笑い芸人・俳優の鳥居みゆきさん。久しぶりの勉強が「本当に楽しかった!」と語る鳥居さんに「大人になってから学ぶこと」について感じたことを聞きました。※後編<鳥居みゆきが「発達障害」を勉強して気づいたこと 「子どもに『やってはだめ』と決めつけないようになった」>に続く 資格の取得より「学ぶ」「知る」ことが目的でした 2月に、児童発達支援士、次いで発達障害コミュニケーションサポーターの資格をとりました。いずれも発達障害の子どもたちのサポートと自立へ導くことを目指す民間資格です。 この資格をとろうと決めたのは、今出演している番組「でこぼこポン!」(NHK Eテレ)が大きなきっかけです。パイロット版の時期を含めると、もう4年目になります。 「でこぼこポン!」は、発達に関して気になる部分があるお子さんのサポートを考える番組。た
Googleフォトが写真内のテキストを検索できるようになりました2019.08.27 14:0023,670 Sam Rutherford - Gizmodo US [原文] ( 中川真知子 ) てか、レンズ機能を今知った! Googleフォトに便利なテキスト検索機能があったのをご存知でしたか。私は知らなかったのですが、写真内のテキストを読み取れるだけでなく、コピペ機能もついていて超便利らしいんです。Googleフォト、そこまでデキる子だったなんて…! 使い方は超簡単。テキストが含まれる写真があったら、画面下のレンズマークをタップするだけ。なにやらキラキラと魔法がかかったようなアニメが始まり、あっという間にテキストが読み取られちゃいます。 そして、コピペしたい文章を選択して「コピー」ボタンを押すだけ。これがあれば、複雑なWi-Fiパスワードも一発でコピペできちゃいます。 私が個人的に便利だ
前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transformer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに 本記事では Google の T5(Text-to-Text Transfer Transformer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います
【前書き】・筆者について初めまして。しいなと申します。 普段はTwitchやPeerCast等の動画配信サイトでアスカTAをしています。 先日RTAinJapanWinter2022の裏白蛇TAレースに走者として参加しました。 良い機会なのでアスカ見参のTAについて調べてみたのですが、資料や文献があまり見当たらず、この度自分で書いてみることにしました。 思いついたことを逐次追記していきますので、乱筆乱文ですがご容赦いただければ幸いです。 参考までに筆者の裏白蛇TAの最高記録です。 ・店主バグ有り:1時間13分41秒 ・店主バグ無し:1時間19分42秒 ・オープニングローグライクは知識と経験が非常に大事です。 知識があれば、深層でも1ターン後に何が起きるかをほぼ想定できます。 経験があれば、数十フロア先を見越した取捨選択を考えることができます。 ただ不思議のダンジョンでは、想像以上の理不尽や
マーク・ザッカーバーグは7月5日(米国時間)、Instagramチームが開発した、テキスト共有アプリ「Threads(スレッズ)」の初期バージョンを発表しました。クリエイターでも、気軽に投稿したい人でも、リアルタイムの近況や他の利用者との会話を楽しめる新しい場を提供します。今後、オープンで相互運用可能なソーシャルネットワークがインターネットの未来を形作ると考えており、Threadsもそのような互換性を持つようになる予定です。 Threadsについて: Instagramチームが開発した新しいアプリで、テキストで近況を共有したり、他の利用者との会話に参加したりすることができます Instagramアカウントを使ってログインすることができ、最大500文字で投稿可能。リンク、写真、最長5分の動画も投稿することができます 今後、オープンで相互運用可能なソーシャルネットワークがインターネットの未来を
ユーキャンの「WEBライター講座」は、教材やカリキュラムがわかりやすいと評判だよ。 1ヶ月の短期間で学ぶことができるし、添削指導もあるからより実践的な文章の書き方を学べるんだ。 短時間の映像講義をメインとして進めていくから、スキマ時間に勉強できるのもメリットだよ。 「WEBライター」はWEBサイトやブログ、SNSなどに文章を書く仕事です。 インターネット環境があれば場所を選ばずにどこでもできるので、誰にでも始めることができて、副業としても注目されています。 「通信講座のユーキャン」は誰でも聞いたことがあると思います。 それほど通信講座の中では大手であり、通信講座に興味がある人は必ず一度は目を通す会社です。 ユーキャンにも「WEBライター」の通信講座は存在します。 他の会社の通信講座にもWEBライターの講座は存在しますが、具体的に何が違うのでしょうか? 今回はユーキャンの通信講座・WEBライ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く