こちらのスライドは「第261回自然言語処理研究発表会」の発表で用いたものです。 Reference:
「IT大手が原発に触手」という毎日新聞ニュースサイトの見出し「触手」は「食指」だろうという意見がSNSであり、いや触手で合っているなどと議論になりました。そもそも「触手」と「食指」はどう違うのかという観点で検証します。 「アマゾンなどIT大手が原発に触手」という毎日新聞ニュースサイトの見出し(契約しているウォール・ストリート・ジャーナル日本版の転載)の「触手」が適切か、SNSでちょっとした議論になりました。 記事の一部を引くと 電力供給源を探し求めているIT(情報技術)各社は、新たなターゲットとして米国内の原子力発電所に狙いを定めている。 IT各社は国内にある原子力発電所を所有する企業の約3分の1と協議を実施中。事情に詳しい関係者らによれば、アマゾン・ウェブ・サービス(AWS)はコンステレーション・エナジーが所有する米東海岸の原発を巡り、直接電力の供給を受けることで合意に近づいているという
みずの@ゆる言語学ラジオ @yuru_mizuno 日本語は非論理的」「英語は論理的」みたいな主張ってよく聞くけど、すごい角度からそれを否定する本を読んだ。 いわく、論理性とか合理性は、実は歴史教育と作文によって作られているらしい。 なので「論理的な思考」や「合理的な判断」は国ごとに違い、↓の4タイプがあるという。おどろきの観点だ。 みずの@ゆる言語学ラジオ @yuru_mizuno 例えばフランスの作文では、ある問いについて考える際、自分が考えた論点と同じくらいの分量で、それを否定する材料について書くそうだ。そして最後に、それらを統合してまとめると。 フランスにおいてはこうした型が「論理的な構成」とされ、社会でも浸透している。 みずの@ゆる言語学ラジオ @yuru_mizuno ……みたいな話が日本、アメリカ、イランも出てきて、作文の型でさえ国によってここまで差があるのかと驚く。 また、
デイリーポータルZのライター、関係者が愛読している本を語ります。 今回はライターの唐沢さん。レコメンドは「日本語大博物館: 悪魔の文字と闘った人々」(ジャストシステム) 聞き手は安藤、佐伯、石川です。 では唐沢さん、お願いします。 なんでローマ字打たなあかんねん 唐沢:パソコンのキーボードで文字を打つ時って、まずローマ字を入力して、それをひらがなにして、さらに漢字に直すじゃないですか。ある日、「なんでローマ字打たなあかんねん」ってめっちゃ腹立ったんですよ。 安藤:はいはい(笑) 唐沢:小さいころにタイピングゲームでかな入力を練習したんです。そしたら親から、「ローマ字入力しか使わへんで」って言われて、あとでローマ字入力を覚え直して。 みんなやってるから覚えましたけど、よくよく考えたら「最初っからかな入力して、漢字に変換するほうが早くない?」と思って。 石川:たしかに。 唐沢:それに腹が立って
週プレNEWS TOPニュース社会パリ在住フランス人研究者が「日本語の起源」を追究する理由。文字なき時代の古(いにしえ)の姿はここまでわかった! 「日本語の祖先は、朝鮮半島から海を渡ってもたらされた説が有力です」と語るペラール氏 日本語は、大昔はどのような姿だったのか? 文献の記録がない時代はどんな発音で、どんな単語があったのか? そんな疑問に答える本が出た。それが『日本語・琉球諸語による歴史比較言語学』だ。 われわれが話す日本語の祖先の姿に迫る画期的な方法をまとめたこの本の著者のひとりは、なんとパリ在住のフランス人、トマ・ペラール氏。異国の言語学者が明らかにした、日本語の古の姿とは? ■日本列島にはいろいろな言語があった ――なんだか難しそうな本ですが、タイトルの「歴史比較言語学」ってなんですか? トマ・ペラール(以下、ペラール) 異なる言語どうしを比較したりすることで、言語がたどった歴
日本に住んで10年以上になるというブロガーのマルコ・ジァンコッティ氏は、そのことを海外の人に話すと、尊敬と困惑が入り交じった顔をされるとのこと。なぜなら、日本語は不可解で、その習得は日本で暮らす上で避けては通れない苦行だと考えられているからです。しかし、そんな日本語こそこの国の最大の魅力だと語るジァンコッティ氏が、「The Beautiful Dissociation of the Japanese Language(日本語の美しい解離)」と題したブログ記事で、多言語話者ならではの目線で日本語のユニークな特性を解説しました。 The Beautiful Dissociation of the Japanese Language - Aether Mug https://aethermug.com/posts/the-beautiful-dissociation-of-the-japanes
ポイント Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。 JSLM2 1.6Bのモデルサイズを16億パラメータという少量にすることによって、利用するために必要なハードウェアを小規模に抑えることが可能であり、より多くの開発者が生成AIのエコシステムに参加できるようにします。 ベースモデルとしてJapanese Stable LM 2 Base 1.6Bと、指示応答学習(Instruction tuning)済みのJapanese Stable LM 2 Instruct 1.6Bを提供します。両モデルともStability AI メンバーシップで商用利用が可能です。また、どちらのモデルもHugging Faceからダウンロードすることができます。 Japanese Stable LM 2 Base 1.6B
2024年6月 基盤LLMを「ELYZA-japanese-Llama-2-70b」から「Llama-3-ELYZA-JP-70B」(Built with Meta Llama 3)に変更しました 「ELYZA LLM for JP」はELYZAが開発する日本語の大規模言語モデル(LLM)シリーズの総称です。今回のデモは2024年6月時点で最高性能のモデル「Llama-3-ELYZA-JP-70B」を基盤としたもので、日本語による対話・タスクの実行においてグローバルプレイヤーが提供する海外製LLMに匹敵する性能(※)を実現しています。ELYZAでは本モデルシリーズを、グローバルモデル以外の新たな選択肢として、主にセキュリティやカスタマイズ性を重視する企業、自社サービスや事業にLLMを組み込みたい企業に向けて、安全なAPIサービスや共同開発プロジェクトなど様々な形態で提供してまいります。
先日、 女性オタクの棲む暗い池について というnoteがバズった。 https://note.com/meisounote/n/nbed9573f66a5 なかなか面白く読ませてもらったあと、元増田を読んだ(元増田がバズってたのは知ってたがタイトルだけで読む価値がないと開いてなかった)ら、なるほど共感することが難しい思想と文章だと感じた。 この、私とはあまりにも違う感性という違和感、気持ち悪さにたいして筆者は増田とは違う女性という性別だから。という仮の答えを与えられると腹に落ちるというか安心、してしまうものだ。実際の元増田の性別などどうでもよいのだが(看破されるにしてもされ易すぎる擬態になっちゃうし正直釣りでひとからげしてる)、こういった解釈や遊びができるのはインターネットの好きなところだし、文章(日記)という神の手から離れた著作物の二次創作なのかな、と感じる。匿名じゃない個人に攻撃的な認
相変わらずジェンダーがどうとかつまらない話が多いので、過去の用例から「奥さん」あるいは配偶者呼称についていろいろ考えたいなあ。と思って書きます。 勿論、女中などに似ようはないと、夢か、うつつか、朦朧と認めた顔のかたちが、どうやらこう、目さきに、やっぱりそのうつ向き加減に、ちらつく。従って、今声を出した、奥さんは誰だか知れるか。 それに、夢中で感覚した意味は、誰か知らず、その女性(にょしょう)が、 「開けて下さい。」 と言ったのに応じて、ただ今、とすぐに答えたのであるが、扉(ひらき)の事だろう? その外廊下に、何の沙汰も聞えないは、待て、そこではなさそう。 「ほかに開ける処と言っては、窓だが、」 さてはまさしく魘(うな)された? この夜更けに、男が一人寝た部屋を、庭から覗き込んで、窓を開けて、と言う婦(おんな)はあるまい。(「沼婦人」泉鏡花、1908(明治41年) 「奥さん」は、自分の配偶者
Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」及び、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開しました(略して「JSLM」)。これらのモデル はベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価において、一般公開されている日本語向けモデルで最高の性能を発揮しています。 汎用言語モデル「Japanese StableLM Base Alpha 7B」「Japanese StableLM Base Alpha 7B」はウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデルです。学習データは主に日本語と英語で、それに加えソースコードが約2%含まれています。学習データに
ライブラリのアプリ化 現代のニュースをくずし字で読んでみませんか?内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。 edomi ニュース その他の事例については、活用事例を参照してください。 構成 古活字とくずし字 そあん(soan)で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写本などの手書きの文字(草書体)も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。 そあん(soan)は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービ
「YAPC(Yet Another Perl Conference)」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか 土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。 (スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。 (スライ
usagimaru ⌘ @usagimaruma 日本人が想像するよりかなり広い範囲で日本語文字が中華フォント化している現象。CJK処理系における日本語の扱いに対する問題としてそろそろ何とかしていかないと、ソフトウェアの中の日本語が死んでいく危機感がある。そもそもなんでChineseに分類されるフォントにフォールバックされるのかって。 2022-09-28 16:03:32 usagimaru ⌘ @usagimaruma 前も調べたけど、言語環境の言語優先度設定で“わざわざ”日本語を優先言語にしておかないと、日本語の文字の多くは簡体中国語の奇妙なフォントで描画される。バグではなく仕様。わざわざ日本語を優先している民族なんて日本人しかいないから、世界のほとんどはきっと中華フォントで日本語を眺めている。 2022-09-28 16:07:52
日経 校閲 @nikkei_kotoba 日本経済新聞の校閲を担当する総合編集センター校閲グループの公式アカウントです。フォロワーのみなさんと日本語の面白さ、美しさ、奥深さを共有することを目指し、ことばにまつわる校閲記者のつぶやき、アンケート、季語と俳句、故事ことわざなどを日々お送りしています。気に入ったものがあればRTお願いします。 nikkei.com 日経 校閲 @nikkei_kotoba 私、僕、我が輩、朕(ちん)、小職、それがし、など日本語には自分を指し示す言葉が多くあります。先日読んだSF小説では、人型の警備ロボットが自らのことを「弊機」と言っていました。人間以外の存在が言葉を操るようになれば、一人称の種類も増えていくのかもしれないですね。(絢) #弊機 2022-09-21 19:00:01
去年、「日本語の原郷」についての論文(Robbeets et al. 2021)が話題になった。増田は専門外の素人ながら疑問を持ったのでツッコミを入れたんだけど(anond:20211121124146)、今年の6月に入って専門家集団から「あの論文は取り下げろ」という反論論文が出ていた(Tian et al. 2022)。といっても、プレプリントサーバのbioRxivに置いてあるだけで、学術誌に掲載されたわけではないんだけど、まあいずれどこかには載るよね多分。 そういうわけで、反論論文の内容を(素人なりに)紹介していくよ! そもそも誰が書いたの?ふええ……知らない人ばっかりだよぉ…… 22人の共同著者による論文だけど、その多くは中国人研究者。ほかは数人のヨーロッパ人。中国人研究者については全然わからない。漢字で書かれれば一人か二人は名前を聞いたことがある人がいるかもしれないけど、ラテン文字
こんにちは。 メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。 本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。 前提知識 文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストする べた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受ける おまけ: ユーザのブラウザにShift_JISでPOSTさせる
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く