Yahoo!デベロッパーネットワークのテキスト解析 Web API の CORS 対応とそのサンプルプログラムたち 2023-11-09-1 [WebAPI][NLP][WebTool][Programming] 2023年の春ごろ、Yahoo!デベロッパーネットワークのテキスト解析 Web API がひっそりと CORS 対応しました。簡単に言うと、ブラウザで開いたウェブページから直接 Web API を叩けるようになった、ということです。 テキスト解析 Web API の CORS 対応の概略は10月に LINEヤフー Tech Blog に書きました。概略というか単なるサンプルプログラム紹介です。Ajax な HTML ページや Chrome 拡張機能などの簡単なサンプルプログラムがあります。 テキスト解析 Web API を JavaScript から直接使う( API が COR
こんにちは。LINEヤフー株式会社で自然言語処理の開発を担当している牧野です。 今回は、Yahoo!デベロッパーネットワークから公開しているテキスト解析 Web API の「日本語形態素解析」で使えるようになった追加機能のユーザ辞書を紹介します。このユーザ辞書を使うと、自分だけのオリジナルの辞書で独自の解析が可能です。 また今回は、ユーザ辞書機能を工夫して使った簡易感情判定についても紹介します。 日本語形態素解析 Web API でできること 最初に、日本語形態素解析 Web API について簡単に紹介します。 日本語形態素解析 Web API 日本語形態素解析 Web API は、日本語文を形態素に分割し、品詞の推定や活用処理、読みを付与することができます。形態素とは、日本語として意味を持つ最小単位のことです。「辞書に載っている単語」程度のイメージで捉えていただけると良いでしょう。 たと
こんにちは。LINEヤフー株式会社でテキストマイニングや自然言語処理などをやっている山下( @yto )です。 Yahoo!デベロッパーネットワークのテキスト解析 Web API が CORS(Cross-Origin Resource Sharing)対応したため、サーバがなくてもブラウザから直接 Web API にアクセスできるようになりました(参考)。 そのテキスト解析 Web API の機能の一つである「校正支援」は日本語文章の品質チェック(校正)を支援するもので、文字の入力ミス、言葉の誤用、わかりにくい表記、不適切な表現などが使われていないかをチェックして、指摘します(内部の辞書データをベースとしているため完全なものではないことをご承知おきください)。 この校正支援機能のサンプルプログラムとして「HTML ファイル1つだけで完結する校正支援ツール」を作ったので紹介します。入力され
こんにちは。LINEヤフー株式会社でテキストマイニングや自然言語処理などをやっている山下( @yto )です。 最近のことですが、Yahoo!デベロッパーネットワークのテキスト解析 Web API の CORS(Cross-Origin Resource Sharing)対応が完了しました。 CORS についてはここでは解説はしませんが、本稿の観点からざっくり説明すると「別ドメインにあるウェブページ内の JavaScript プログラムからテキスト解析 Web API に直接アクセスして利用できるようになった」ということです。 本稿では、サンプルコードでウェブページからテキスト解析 Web API に直接アクセスする方法を説明していきます。応用例として、Google Chrome 拡張機能のサンプルも紹介します。 Client ID(アプリケーションID)について テキスト解析 Web A
こんにちは。Yahoo!広告 ディスプレイ広告エンジニアの川崎です。 ユーザーに最適な広告を配信するプラットフォームの開発をしています。 この記事では、広告配信にTensorFlow Servingを導入して生産性改善した事例をご紹介します。 Yahoo!広告 ディスプレイ広告とは? Yahoo!広告では、Yahoo! JAPANのさまざまなサービスや提携パートナーサイトに広告を掲載できます。Yahoo!広告は、検索広告とディスプレイ広告に大別されます。本記事で扱うディスプレイ広告は、例えば以下の図ようにYahoo! JAPAN トップページなどに掲載される広告です。 広告配信の仕組み 広告配信システムの概略図を以下に示します。 広告配信サーバーは広告リクエストごとに ユーザーの興味関心度合い 広告効果 メディア収益性 を考慮した最適な広告を選びます。具体的には、広告主が設定した入札額と広
眼の酷使や加齢などによる「見え方のわずらわしさ」から解放されるテクノロジーをあなたに。 ViXion01(ヴィクシオンゼロワン)は、見ようとするものをセンサーで測定し、距離に応じてレンズの形状を瞬時に変化させ、眼のピント調節をサポートするまったく新しいアイウェア。 この視覚のイノベーションには、多くの方々からの共感とご協力が必要です。 クラウドファンディング期間内だけの特別な価格をご用意し、皆さまからのご支援をお待ちしております。
Alfred Spector, Peter Norvig, Chris Wiggins, Jeannette M. Wing © 2022 This material is now published by the Cambridge University Press as Data Science in Context: Foundations, Challenges, Opportunities. See http://www.cambridge.org/9781009272209 or major booksellers, such as Amazon or Barnes & Noble. A PDF of the pre-publication, authors’ manuscript, V.M1, is available to download from the Manuscr
TR:TL 最近、日本語のLLMが続々公開されているが、各LLMが何文字まで生成可能なのかを知りたい。 Rakudaのデータで各LLMのトークナイザーの「1トークンあたりの文字数」を調べた。 標準的な日本語特化のLLMでは2.0~2.6文字/トークン程度、一方で、GPT-4/3.50.96文字/トークン程度。 OpenAIのGPT-3.5/4に「入力・生成可能な文字数」で上回る日本語LLMはまだ存在しそう。 背景 最近、日本語でも使えるLLMが続々と公開されています。特に、GPT-3.5-turboやGPT-4は、8192トークンという大きい最大トークン長を誇っています。一方で、LINEのjapanese-large-lmなどの2023年時点で公開されている公開されている日本語LLMの多くは、2048トークンが最大トークン数になっている場合が多いです。額面上、LINEのLLMは、OpenA
The three-day main conference (22-23-24, May) will be accompanied by a total of three days of workshops and tutorials (20-21-25, May) held in the days immediately before and after. Two major international key players in the area of computational linguistics, the ELRA Language Resources Association (ELRA) and the International Committee on Computational Linguistics (ICCL), are joining forces to org
Updated Sun Aug 13 17:17:53 EDT 2023 Available in paperback and e-book formats around October 1, 2023. Preorder at Amazon. Introduction This page is a placeholder for material related to the second edition of The AWK Programming Language. The first edition was written by Al Aho, Brian Kernighan and Peter Weinberger in 1988. Awk has evolved since then, there are multiple implementations, and of cou
Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 本記事のサマリーELYZAが「Llama 2」ベースの商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開 性能は「GPT-3.5 (text-davinci-003)」に匹敵、日本語の公開モデルのなかでは最高水準 Chat形式のデモや評価用データセットも合わせて公開 既に社内では、130億、700億パラメータのモデルの開発も進行中 はじめにこんにちは。ELYZAの研究開発チームの佐々木、中村、平川、堀江です。 この度ELYZAは、Metaの「Llama 2」をベースに、日本語による追加事前学習を行なった日本語言語モデル「ELYZA-japanese-Llama-2-7b」と、そこにELYZA独自の事後学習を施した「
[2023年8月22日追記]:松尾研究室の投稿にあるように、問題のプレスリリースは修正がなされ、「オープンソース」の記述は削除されている。 weblab.t.u-tokyo.ac.jp 東京大学松尾研究室が大規模言語モデル(LLM)を公開というニュースが先週話題となったが、「商用利用不可のオープンソース」という記述に「商業利用できない」のであれば、オープンソースではないという突っ込みがすかさずあがり、佐渡秀治さんも「座視することが難しい」と意見表明している。 ワタシもこれらの意見に賛成である(事実そうした声を受けて、ITmedia などは記事の記述を改めている)。ただ、この話題にすっぽり重なる文章を少し前に見て、居心地が悪い思いをしていたので、それを紹介しておきたい。 www.infoworld.com 「オープンソースのライセンス戦争は終わった」というタイトルだが、どういう文章なのか?
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く