並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 53件

新着順 人気順

CogLingの検索結果1 - 40 件 / 53件

CogLingに関するエントリは53件あります。 機械学習NLP自然言語処理 などが関連タグです。 人気エントリには 『GPT-3の衝撃 - ディープラーニングブログ』などがあります。
  • GPT-3の衝撃 - ディープラーニングブログ

    この1週間はGPT-3のユースケースの広さに驚かされる毎日でした. シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので,勢いで書くことにしました. GPT-3はOpenAIが開発した言語生成モデルです.名前の由来であるGenerative Pretrained Transformerの通り,自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています. 先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され,様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています. 特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め,誇大広告気味だと警鐘を鳴らす事態に発展しています. This is mind blowing. With GPT-3, I built

      GPT-3の衝撃 - ディープラーニングブログ
    • 人間の行動を操るために覚えておきたい科学 - KAYAC Engineers' Blog

      この記事はTech KAYAC Advent Calendar 2019の4日目の記事です。 こんにちは。技術部平山です。 この記事では、人の行動を操る、つまり、人の行動を予測したり、望みの行動を取らせるために役立つ科学について 軽く紹介いたします。プログラミングの話はございませんが、 プログラマに読みやすい味付けにはしておきました。 なお、「人を操る」とか言っていますが、実際それで思うように操れるのであれば、 私はもっと裕福だったでしょうし、高い地位を得ていたことでしょう。 理屈と実践は異なるということです。 ただ、これを知って気が楽になる方もいらっしゃるかもしれませんし、 もしかしたら、実際に何かを改善させられるかもしれません。 基本的には与太話ですので、お暇な方のみお付き合いください。 予測に使える理論は、制御にも使えるかもしれない 何かしらの理論によって現象が予測できるのであれば、

        人間の行動を操るために覚えておきたい科学 - KAYAC Engineers' Blog
      • 地名の最後の一文字だけで地図をつくると地形が見える

        先日、こんな地図を作った。 なんのこっちゃと思うが、拡大するとこうなっている。 じつは小さな文字が集まってできている。東京の地名の末尾の一文字だけを並べたものなのだ。 中央やや右でぽつんと「田」となっているのは、千代田の「田」だ。全体をよく見ると「山」「谷」「海」などが散らばっている。それぞれ、代官山だったり渋谷だったり青海だったりするのだが、こうやって末尾の一文字だけにすることでうまい具合にその土地の特徴や地形が浮かび上がるように見える。 どうしてこんなものを作ったか これを作ったきっかけは永太郎さんという方のツイートだ。 永太郎さんは京都で地理を専攻している学生だ。先日も「なんでもない地図を語る会」という記事でお世話になった。なにかの調査の一環だと思うが、地図から地名だけを抜き出してものを作っていた。これがとても面白く、しかもそれ自体ぎりぎり地図と言えないこともない。しかし、残念ながら

          地名の最後の一文字だけで地図をつくると地形が見える
        • 英語の発音について概説する - Amosapientiam

          三行説明 アメリカ英語の発音について説明するよ!発音とかリスニングの役に立てばいいね! アクセント・シュワー・リンキングや個別の母音・子音についての知識が重要だと思っている(ので幅広く説明する)よ! 個人的に大事だと思っているところから順に説明していくし、大事だと思ってるトピックはなるべく網羅するよ! 目次 三行説明 目次 前置き この記事の目的 想定読者 筆者の英語力について 発音 全体的な話 アクセントに関係する現象 アクセントとリズム 日本語のアクセントとリズム 英語のアクセント アクセント周りの発音記号 英語のリズム (アクセントの等時性) アクセントのない母音の中和 シュワー ハイシュワー r音性母音 /i/ /jʊ/ シュワーとハイシュワーの使い分け 助動詞、前置詞、冠詞などの弱形 母音のないところに母音を付け足さない 日本語の母音の無声化 リンキング 開放させない子音 閉鎖は

            英語の発音について概説する - Amosapientiam
          • 心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】|手記千号

            心理学の研究論文は再現性が低いことが指摘されていました。再現性が低くなる原因は、学界全体に「疑わしい研究手法 (QRPs)」が蔓延していたことにあるとみられます。 現在は学界全体をあげての対策が行われているようです。研究の事前登録、データの公開、追試などが重視されるようになっています。 学界は正しい方向に進んでいるようですが、だからこそ、重要な発見だとみなされてきた過去の研究成果が次々に覆されているようです。 少々調べましたが……、いやはやこれは……脱力しました。心理学以外の分野でも援用されている有名な研究たちが、あれもこれも。興味を引かれたものに重点をおきつつ、ざっくりとメモ的にまとめておくことにします。 2021年9月12日追記 追試というのは、1年半以上かかるものも珍しくないようです。かなりの時間・精神力・体力を要するのに対して、見返りが少ないものといいます。この記事では多くの研究の

              心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】|手記千号
            • 小池百合子が「えー」を巧みに操っている - nomolkのブログ

              都知事選ではけっきょく小池百合子氏が圧勝した。 この結果が良かったか悪かったかという話はここではしない。とにかくテレビでニュースを見ていると投票終了の8時の時点でもう当選確実、続投が決まった小池百合子氏へのインタビューが流れていた。夕食を食べながらそれをなんとなく聴いていて、あることに気づいた。 小池百合子見てると「休業要請を、おー、行うかは、あー」みたいな感じで普通の人が「えー」を入れるところを前の音節の母音に合わせて変えてるんだけど、これ同時通訳の人とかにも見られる特徴的なしゃべり方で、キャスター時代に覚えた喋りのプロの技法なのかなと思う— メルセデスベン子 (@nomolk) 2020年7月5日 先に言っておくと、小池百合子氏が言葉によく詰まるとか、「えー」で話を引き延ばしがちだとかいうことは言っていない。(そういうreplyが多数来たが) 上記ツイート中の例文は140字の中で説明す

                小池百合子が「えー」を巧みに操っている - nomolkのブログ
              • 首相の被爆地あいさつが広島・長崎で酷似するのは仕方ないのか約25年分調べた|松本健太郎

                菅義偉官房長官は11日の記者会見で、広島と長崎の平和式典での安倍晋三首相のあいさつが酷似していたことに関し、やむを得ないとの認識を示した。「哀悼の気持ちや唯一の戦争被爆国としての立場を申し上げるのは両式典でどうしても同じような内容になる」と述べた。そんなアホな話あるかい。 と思いつつ、安倍首相に対する心理的嫌悪感だけで拒否反応を示すのは良くないと考えて、過去遡れる分だけ遡って広島・長崎の「被爆地あいさつ」文を比較してみました。 分析手法恣意的に判断するのは良くないと思い、なるべくロジカルに広島・長崎のあいさつ文のdiffを取りました。diff自体はこちらのWEBページで差分を見ています。 例えば2020年あいさつ文は以下のように表示されました。 左側が広島、右側が長崎です。 青いマーカー線は、広島(長崎)あいさつが長崎(広島)あいさつと比べて登場しなかった文章です。なるほど、2020年の安

                  首相の被爆地あいさつが広島・長崎で酷似するのは仕方ないのか約25年分調べた|松本健太郎
                • 言語処理100本ノック 2020 (Rev 2)

                  言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは,実用的でワクワクするような課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です. 詳細 ツイート

                    言語処理100本ノック 2020 (Rev 2)
                  • 「日本語の原郷」についての論文を読んでみた

                    歴史言語学についてはまったくの素人だけど、最近話題になった「日本語の原郷は「中国東北部の農耕民」 国際研究チームが発表 | 毎日新聞」(はてブ)っていう記事の元になったロベーツらの論文(Robbeets et al. 2021)を読んでみたよ! 結論うさんくさい 前提知識共通の祖先を持つことが証明された言語の集団を「語族」という日本語は琉球諸語と共通の祖先を持つことが明らかである(日琉語族;Japonic)しかし日琉語族と他の言語との系統関係は証明されていない内陸アジアのテュルク語族、モンゴル語族、ツングース語族、そして欧州のウラル語族は特徴が似ているかつて、テュルク・モンゴル・ツングース・ウラル・日琉・朝鮮の諸語族が「ウラル・アルタイ語族」に属するという説があったが、結局誰もこれらの諸言語が共通の祖先を持つという証明ができなかった今回の論文は、テュルク・モンゴル・ツングース・日琉・朝鮮諸

                      「日本語の原郷」についての論文を読んでみた
                    • LINEヤフー株式会社

                      「LINEヤフーDesign 公式note」 LINEヤフー株式会社のデザインに関連するさまざまな情報を発信するLINEヤフーDesign 公式noteです。

                        LINEヤフー株式会社
                      • 2019年末版 形態素解析器の比較 - Qiita

                        形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

                          2019年末版 形態素解析器の比較 - Qiita
                        • 「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る

                          ビデオゲームの文化で「クソゲー」という極めて暴力的な単語が一般化してからどれくらいが経っただろうか。みうらじゅん氏が『いっき』に対して使ったなど起源には諸説あるが、ともかくその言葉は死滅せずに現代まで生きながらえてきた。 制作者が心血を注いで創りあげた一個のゲームという作品。それをたった一言で簡単に断罪できてしまうその言葉は、無残なほどにネガティブなパワーを持っており、ゲームメディアでは忌避すべきワードのひとつである。 しかし口をつぐんだところで、いままでプレイヤー間で何年にもわたり続いてきた「クソゲーを語る」という文化が、無かったものになるわけでもない。たった4文字でゲームを語ることができるこの魔法の言葉は、その時代や個々人の認識によって極めて定義が曖昧で、いまも万華鏡のように変化し続けている。 (画像はニコニコ動画「クソゲーオブザイヤー2008」より) そんな歴史の中、その年度で一番の

                            「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る
                          • 「やさしい日本語」についてちょっとだけ - 誰がログ

                            はじめに 下記の「やさしい日本語」に関するまとめが話題になっていて,Twitterでも少し関連することを書いたのですが,やはりこちらでも少し何か書いておくことにします。 togetter.com 東日本大震災の時にもそこそこ話題になったという印象があったのですが,それはやはり私の周囲に日本語学・言語学や日本語教育(日本語を第1言語としない人に日本語を教えること)に携わっている人,なじみのある人が多いからかもしれません。この話題に限ったことではないと思うのですが,機会があるたびに宣伝し続けるのが良いのでしょう。というわけである程度知っている方はいろいろなところで何か書いてみると良いのではないでしょうか。 私個人としては,東日本大震災の時に手話ニュースが叩かれたのを思い出しました。Twitterやはてブのコメントでも言及がありますが,こういう情報が助けになるのは「外国人」だけではないのです。

                              「やさしい日本語」についてちょっとだけ - 誰がログ
                            • 超巨大高性能モデルGPT-3の到達点とその限界. この記事では、超巨大言語モデルGPT-3の技術的な解説、GPT-3達成したことと… | by akira | Jul, 2020 | Medium

                              この記事についてこの記事ではGPT-3[1]の解説をします。内容のサマリは以下の通りです。 GPT-3の前身であるGPT-2では、巨大なデータセット+巨大なネットワークで言語モデルを構築し、各タスクで学習させなくても良い結果が得られた。GPT-3では、さらに巨大なデータセット+さらに巨大なネットワークで言語モデルを構築し、数十のサンプルを見せると凄く良い結果が得られた一方、様々なタスクに言語モデルのスケールアップのみで対応することへの限界が見えてきた。人種、性別、宗教などへの偏見の問題や、悪用に対する課題もある。この記事の流れは以下の通りです。 Transformer, GPT-2の説明GPT-3のコンセプトと技術的な解説GPT-3ので上手くいくタスクGPT-3で上手くいかないタスク偏見や悪用への見解 Transformerまず、GPT-3の前身となったGPT-2に入る前に、その中に使われ

                                超巨大高性能モデルGPT-3の到達点とその限界. この記事では、超巨大言語モデルGPT-3の技術的な解説、GPT-3達成したことと… | by akira | Jul, 2020 | Medium
                              • 今年の英語に「単数形のthey」 性多様化で使用急増:朝日新聞デジタル

                                ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

                                  今年の英語に「単数形のthey」 性多様化で使用急増:朝日新聞デジタル
                                • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

                                  こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

                                    自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
                                  • 大学入試国語、問題文の著者本人が自ら解いて気づいた「読解力」の本質(堀井 憲一郎) @gendai_biz

                                    著者に国語の問題は解けるのか 入学試験の国語の問題は、著者には解けるのか。ということは、ときどき話題にされることがある。 つまり夏目漱石の『明暗』が国語の問題文に出されたとき、夏目漱石本人はその問題を解けるだろうか、「著者の考えを選べ」という問題に漱石は正答できるだろうか、という問いかけである。そういう雑誌の企画をずいぶん昔に読んだことがある(現役の作家が挑戦していた)。 主旨はわかるのだが、何だかいくつかの誤解が積み重なっている風景に見える。 私の文章も何度か入学試験で使われたことがある。 入学試験で文章が使われる場合、事前の通知はない。当然である。 バカ田大学の社会学部から、あなたの文章を入試に使っていいかという許諾を求める連絡が、事前に来ることはない。事前に知ったら、私がまわりに言ってまわるかもしれず、知り合いにだけこっそり教えるかもしれない。国語の問題文が事前にわかったところで、さ

                                      大学入試国語、問題文の著者本人が自ら解いて気づいた「読解力」の本質(堀井 憲一郎) @gendai_biz
                                    • 自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男

                                      こんにちは。たかぱい(@takapy0210)です。 本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar chart N-gram tree Map Histogram of the word count wordcloud co-occurrence networks sunburst chart まとめ nlplotとは? 自然言語の基本的な可視化を手軽にできるようにしたパッケージです。 現在は日本語と英語で動作確認済みです。 基本的な描画はplotlyを用いているため、notebook上からインタラクティブにグラフを操作することができます。 github.com (スター★お待ちしております🙇‍♂️)

                                        自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男
                                      • ツイートを分析して街の感情を色で表す

                                        特定の地域のツイートを集めて、その内容をポジティブかネガティブか感情分析するプログラムを書いた。 これをつかって街の感情を可視化していきたいと思う。 大学中退→ニート→ママチャリ日本一周→webプログラマという経歴で、趣味でブログをやっていたら「おもしろ記事大賞」で賞をいただき、デイリーポータルZで記事を書かせてもらえるようになりました。嫌いな食べ物はプラスチック。(動画インタビュー) 前の記事:仕事25分ごとにドラクエを5分挟むとはかどる > 個人サイト ジャーニーとモアイとめがね 知らない駅を1人で歩いているときに、 「この街ってゆるい空気がするな〜」 「なんか全体的に暗いな……」 と、感じることがある。言葉では説明できない曖昧なものだが、誰しもが街の雰囲気のようなものを感覚で捉えたことがあると思う。 この街の雰囲気というのはそこにいる人たちが形成しているものだ。ということは『その街に

                                          ツイートを分析して街の感情を色で表す
                                        • スティーヴン・ピンカーに対する除名請願運動とその顛末 - shorebird 進化心理学中心の書評など

                                          7月の上旬にアメリカ言語学会(LSA)に対して「ピンカーの言動はLSAの代表にふさわしくなく,LSAの目的からいって受け入れられないものであり,『アカデミックフェロー』や『メディアエキスパート』の地位からの除名を求める」という請願が行われるという騒動が勃発している. このブログではピンカーの著書や講義について紹介してきており,またこのような「キャンセル・カルチャー」について,アメリカのアカデミアの雰囲気についてのルキアノフとハイトの本やミラーの徳シグナリングの本の書評も載せてきたこともあり,私も無関心ではいられない.簡単に紹介しておこう. 請願 docs.google.com 7月1日付で600名弱の署名付き公開書簡がLSA宛てに出されている. これは言語学者のメンバーによる公開書簡であり,スティーヴン・ピンカーをLSAの『アカデミックフェロー』や『メディアエキスパート』の地位からの除名を

                                            スティーヴン・ピンカーに対する除名請願運動とその顛末 - shorebird 進化心理学中心の書評など
                                          • OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ

                                            OpenAIはGPT-3の次の研究を始めています. 世間がGPT-3のデモに湧き上がる中,OpenAIはScaling Lawに関する2本の論文をひっそりと公開しました. Scaling Lawを一言で説明するなら「Transformerの性能はたった3つの変数のべき乗則に支配されている」というものです. Scaling Lawはそれ単体だけなら興味深い話で終わるかもしれません.実際に英語圏でもあまり話題にあがっていません.しかし,この法則の本当の凄さに気づいている研究者もいて,なぜ話題にならないのか困惑しています. I am curious why people are not talking more about the OpenAI scaling law papers. For me, they seem very significant. What I heard so far:

                                              OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ
                                            • 自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                                              第1 はじめに 自然言語処理技術の発展に伴い、自然言語AIを利用したサービスが大変盛り上がっています。 たとえば、検索、要約、翻訳、チャットボット、文章の自動生成、入力補完などのサービスで、近いところで有名なのは、2020年にOpenAIが発表した「GPT-3」ですかね。これは約45TBにおよぶ大規模なテキストデータを学習し、あたかも人間が書いたような文章を自動で生成することが可能な自然言語モデルです。 【参考リンク】 自然言語処理モデル「GPT-3」の紹介 進化が止まらない自然言語処理技術ですが、事業者が自然言語AIを利用したサービス(*ここでは、データの処理がクラウド上で自動的に行われるサービスを前提とします)を提供する際に検討しなければならないことは、大きく分けると、学習済みモデルの構築フェーズの問題と、モデルを利用したサービス提供フェーズに関する問題に分かれます。 このうち、モデル

                                                自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                                              • 教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場!

                                                3つの要点 ✔️相互情報量を最大化する枠組みでニューラルネットを学習する教師なし学習手法IICの提案 ✔️予測値をそのまま出力するニューラルネットを学習可能であるため、クラスタリングが不要 ✔️従来の教師なし学習手法の「クラスタが一つにまとまってしまう問題」および「ノイズに弱いという問題」を解決 Invariant Information Clustering for Unsupervised Image Classification and Segmentation written by Xu Ji et.al (Submitted on 22 Aug 2019) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 近年、様々な場面において、深層学習手法が使用さ

                                                  教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場!
                                                • 自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録

                                                  はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。 自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。 また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransformersによりわずか10行程度でBERTモデルを記述できます。 一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり

                                                    自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録
                                                  • 【動画解説】2020年に読んだAI論文100本全部解説(俺的ベスト3付き) - Qiita

                                                    この記事は私, wataokaが1年間をかけて作り続けた超大作記事です. 総文字数は8万を超えていますので, お好みのところだけでもみていってください. ついにこの時が来ました!!!!! 1年間書き続けたQiita記事です!!!!! ご覧下さい!!!!!https://t.co/eKBwP1zoeB — 綿岡 晃輝 (@Wataoka_Koki) December 31, 2020 俺的ランキング 動画での解説も挑戦してみました! ぜひぜひご覧下さい! 動画のリンク 第3位: Likelihood-Free Overcomplete ICA and Applications in Causal Discovery wataokaの日本語訳「尤度が必要ない過完備ICAと 因果探索における応用」 - 種類: ICA - 学会: NeurIPS2019 - 日付: 20190904 - URL:

                                                      【動画解説】2020年に読んだAI論文100本全部解説(俺的ベスト3付き) - Qiita
                                                    • 今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ

                                                      ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。 「今年読んだ論文、面白かった5つ」というテーマで、自然言語処理(NLP)の論文を紹介します。 主にACL anthologyに公開されている論文から選んでいます。 はじめに 今年のNLP界隈の概観 1. Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems 面白いと思った点 2. Errudite: Scalable, Reproducible, and Testable Error Analysis 面白いと思った点 3. Language Models as Knowledge Bases? 面白いと思った点 余談 4. A Structural Probe for Finding Syntax in Word

                                                        今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ
                                                      • 英語だけで自然言語処理をする問題点と、日本語話者として私たちにできること

                                                          英語だけで自然言語処理をする問題点と、日本語話者として私たちにできること
                                                        • オープニングで考えるアニメーション 「映像研には手を出すな!」の巻(2) | NEWREEL

                                                          細馬宏通さんによる連載「オープニングで考えるアニメーション 」の第2回、前回に引き続き「映像研には手を出すな!」のOPについて。今回は3人「舞い」のノーマル部分について、「コマ打ち」という観点から考え直していきます。 コマ打ちで考える 前回は、「映像研に手を出すな!」OPの前半で登場する3人の「舞い」が何を表しているかを考えました。今回はその同じ「舞い」のノーマル部分について、「コマ打ち」という観点から考え直してみましょう。 「映像研」も含め、多くのTVアニメーションでは1秒を24コマに分割して絵を描いています。ただし、1コマに1枚を「1コマ打ち」で描くとは限りません。2コマに1枚(2コマ打ち)、あるいは3コマに1枚(3コマ打ち)…という風に枚数を減らすことで、描く手間を少なくする場合もあります。ときには一定間隔でnコマ打ちするだけでなく、間隔を不規則にすることで思いがけない動きを出す「乱

                                                            オープニングで考えるアニメーション 「映像研には手を出すな!」の巻(2) | NEWREEL
                                                          • ヒゲダン「Pretender」は辞典に載りそうな歌詞があった ヒットソングを国語辞典編纂者が読み解く - エキサイトニュース

                                                            2020年も後半戦。例年この時期になると上半期のヒットランキングが発表され、今年の音楽シーンがそろそろ見えてくるようになる。 カルチャーやトレンドは時代によって変わるものだが、音楽もその例外ではない。いろんなことがあった2020年、音楽にはどんな変化があったのだろうか? 今回は国語辞書編集者である飯間浩明氏に、音楽配信サイト「mysound」のシングル上半期ランキング2020 TOP100の上位51曲を対象に、2020年上半期のヒットソングの「歌詞」の変化や特徴を解説してもらった(※重複している曲やインストゥメンタルは除く)。 ヒットソングの歌詞は、もはや現代詩 ――2020年上半期のヒットソングの歌詞を読んで、全体としてどんな感想を持ちますか? 飯間浩明(以下、飯間):2020年のヒットソング51曲の歌詞を読んで感じたのは「世界」という言葉が多いということです。 たとえば、Officia

                                                              ヒゲダン「Pretender」は辞典に載りそうな歌詞があった ヒットソングを国語辞典編纂者が読み解く - エキサイトニュース
                                                            • AIと学生に同じ課題でレポートを書かせるとどうなるか--実験結果が公開

                                                              人工知能(AI)はさまざまなことをうまくやってのける。その1つは大学の期末レポートだ。まあまあな出来だが、それでも率直に言ってすごいことだ。 これは、学生と教育者のためのリソースサイトEduRefの実験結果だ。この実験は、深層学習による言語予測モデル「GPT-3」が匿名でレポートを提出し、合格点を獲得できるかどうかを明らかにするというものだ。 EduRefは「われわれは複数の教授にレポートの課題を作ってもらい、その課題を大学を卒業したばかりの人々と学生のグループ、そしてGPT-3に提示してレポートを書かせた。GPT-3のものを含むレポートを匿名で教授に提出して採点させ、レポート提出者についての考察を聞くフォローアップ調査をした」という。その結果、AIは驚くべき自然言語能力を示した。 GPT-3(Generative Pre-trained Transformer 3)というこのAIは、20

                                                                AIと学生に同じ課題でレポートを書かせるとどうなるか--実験結果が公開
                                                              • AI記者、AI小説家、そしてAI作曲家も――創作する人工知能を支える技術

                                                                画像認識や自然言語処理といった技術の進化で、機械は人間と同じように周囲の環境および言葉を認識できるようになってきている。最近では機械が文章を書いたり、絵を描いたりする例も出てきた。今回は、こうしたコンテンツ生成の事例や技術についてまとめた。 AIがスポーツ記事を作成 米国のローカルメディアRichland Sourceが開発した「LedeAI」は、スポーツ記事を作成するAIだ。さまざまなスポーツの試合結果を共有するサイトScoreStreamから高校スポーツに関するデータを取得し、あらかじめ学習させたスポーツニュースの記事構成パターンに当てはめて記事を作る。 2018年に行われた実証実験では、6カ月間で1万8000本以上の記事を書き上げた。作成された記事を人間がチェックしたところ、その内容に誤りはなかったという。ScoreStreamを見ても必要な情報は手に入るが、記事としてまとめたほうが

                                                                  AI記者、AI小説家、そしてAI作曲家も――創作する人工知能を支える技術
                                                                • BERTで英検を解く - Qiita

                                                                  英検の大問1は、短文穴埋め問題になっています。例えば、こういう問題です。 My sister usually plays tennis (   ) Saturdays. 1. by  2. on  3. with  4. at Bob (   ) five friends to his party. 1. made  2. visited  3. invited  4. spoke 文の中の隠された部分に入るものを、選択肢の中から答える問題です。文法的な判断もあれば、文脈から意味の通りが良い単語を選ぶ問題もあります。5級から1級まですべての難易度で出題される形式です。 この問題形式は、BERT (Bidirectional Encoder Representations from Transformers)の学習アルゴリズム(のうちの1つ)とよく似ています。ということは、事前学習済みのBE

                                                                    BERTで英検を解く - Qiita
                                                                  • nlp-survey

                                                                    BERT後の自然言語処理についてのサーベイ

                                                                      nlp-survey
                                                                    • ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita

                                                                      ざっくり理解する分散表現, Attention, Self Attention, Transformer機械学習DeepLearningAttentionbertTransformer はじめに 自己紹介 : Pythonでデータ分析とかNLPしてます。 Attention, Self Attention, Transformerを簡単にまとめます。 間違いがあったらぜひコメントお願いします。 モチベーション BERT(Google翻訳で使われてる言語モデル)を理解したい。 BERT : 双方向Transformerを用いた言語モデル。分散表現を獲得でき、様々なタスクに応用可能。 Transformer : Self Attentionを用いたモデル。CNNとRNNの進化系みたいなもの。 Self Attention : Attentionの一種。 Attention : 複数個の入力の内

                                                                        ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita
                                                                      • 再帰的ニューラルネットワークとは?自然言語処理に強いアルゴリズムの仕組み

                                                                        再帰的ニューラルネットワークとは 再帰的ニューラルネットワーク(Recurrent Neural Network: RNN)」は、回帰型・循環型とも呼ばれるニューラルネットワークです。 このネットワークは単語に含まれる「再帰的」という言葉の意味を理解していると、その本質が理解しやすくなります。ただ、「再帰」という単語はコンピューターや数学に関わっていない人には聞き慣れないかもしれません。再帰というのは、事象の結果が原因になり得る状態を指す言葉で、一種の「ループ」をイメージすると分かりやすいでしょう。 たとえば、「ニワトリは卵から生まれ卵はニワトリから生まれ、そのニワトリは卵から……」とか「ジュースを売ったお金で売ったジュースを買い戻し、そのジュースを売ったお金で……」というのは再帰的な事象と言えます。延々と続きそうな現象ですが、「ニワトリが卵を生む前に死ぬ」「お店が閉店する」といった事象が

                                                                          再帰的ニューラルネットワークとは?自然言語処理に強いアルゴリズムの仕組み
                                                                        • 「教員は学生を育てるクリエイター」~すがやみつる氏に聞く研究者・教育者としての足跡

                                                                          マンガ『ゲームセンターあらし』をはじめ、数々の人気作で知られるマンガ家・小説家のすがやみつる氏。2020年には新刊『ゲームセンターあらしと学ぶプログラミング入門 まんが版こんにちはPython』を上梓し、注目を集めた。またすがや氏は、京都精華大学マンガ学部の教授として、多くの学生を世に送り出してきた人物でもある。2021年3月の退職を機に、研究者・教育者としての足跡について聞いた(写真はすべてすがや氏提供)。 INTERVIEW_小野憲史 / Kenji Ono EDIT_三村ゆにこ / Uniko Mimura(@UNIKO_LITTLE)、海老原朱里 / Akari Ebihara 大学の教員を退職し、再びクリエイター活動へ CGWORLD(以下、CGW):遅ればせながら、京都精華大学を退職おめでとうございます。 すがやみつる氏(以下、すがや):2020年3月に専任教員を定年退職して、

                                                                            「教員は学生を育てるクリエイター」~すがやみつる氏に聞く研究者・教育者としての足跡
                                                                          • 言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita

                                                                            はじめに 自然言語処理の基礎を楽しく学べる問題集として長らく親しまれてた言語処理100本ノック、その2020年版が4/6に公開されました!これは5年振りの改訂です。 2015年版をやったけど興味ある人、15年版のQiita記事が役立たなくなって残念に思ってる人、15年版を途中までやってたけど20年版が出て心が折れそう、という人のために、どこが変わったのかをまとめていきます。もちろん非公式なので変更箇所の見逃し等はあるかもしれません。 改訂の概要 4/7現在、公式の更新履歴によると、次の3点が大きく変わったようです。 深層ニューラルネットワークに関する問題を追加 第8, 9, 10章が全て新規に作成された問題になっている 英語版の公開(39番まで) 40番以降も順次公開予定とのこと(著者Twitter) 旧第6章(英語テキストの処理)が英語版に移動 該当する英語版は未公開。作成中のようだ(G

                                                                              言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita
                                                                            • テーブルデータ向けの自然言語特徴抽出術

                                                                              例としてあげるデータは全て、atmaCup#10のものです。また、この記事の内容はこちらのノートブックで実験を行っています。 データの例。'title'、'description'など自然言語を含むカラムが存在する。 参考: 自然言語処理におけるEmbeddingの方法一覧とサンプルコード Bag of Wordsベースの手法 文書をトークンの集合として扱う手法です。トークンとしてはよく単語が選ばれますが、自分でtokenizerを設定して文章を単語以外のtokenの集合として扱うこともできます。また、日本語などの言語においてはトークン化が自明でないため、MeCabなどを用いてトークン化することがかなり多いです。 コラム MeCabを用いたトークン化

                                                                                テーブルデータ向けの自然言語特徴抽出術
                                                                              • 【プレスリリース】物質から生命への進化を可能にしたカギは寄生体との共進化か | 日本の研究.com

                                                                                当サイトで紹介しているプレスリリースの多くは、単に論文による最新の実験や分析等の成果報告に過ぎませんので、ご注意ください。 詳細 発表者:古林 太郎(フランス国立科学研究センター 博士研究員) 植田 健介(東京大学大学院総合文化研究科附属先進科学研究機構/同研究科 広域科学専攻博士課程 1 年生) 番所 洋輔(大阪大学生命機能研究科 博士課程大学院生(研究当時)) 元岡 大祐(大阪大学微生物病研究所 特任助教) 中村 昇太(大阪大学微生物病研究所 特任准教授) 水内 良(東京大学大学院総合文化研究科附属先進科学研究機構 特任助教/科学技術振興機構 さきがけ研究者) 市橋 伯一(東京大学大学院総合文化研究科附属先進科学研究機構/同研究科 広域科学専攻/普遍性生物学機構 教授) 発表のポイント:原始生命体を模した分子システムを開発し長期進化実験を行ったところ、ウイルスのような寄生体が自然発生し

                                                                                • しけんdeアムリラート(お試し版) - sukerasparo

                                                                                  こちらのコンテンツは、今月末(2022.11.30)を持って公開終了の予定です。 ※元々は2019年に埼玉で行なわれた日本エスペラント大会のコラボ用で制作されたモノでしたが、 初日の台風の直撃などの影響もあり、紆余曲折あってweb公開されました。 アムリラート発売から5年経過&お試し公開から3年の節目ということもあり、 そろそろお役御免とさせていただきます。 ※J-MENT氏の個人的なプロジェクトのため、メンテ等できないあたりも含め……お察しください。 もしまだ触れたことのない方がいらっしゃいましたら、異世界の門が閉じてしまう前に…… どうぞー! 純百合アドベンチャーゲーム『ことのはアムリラート』の作中で登場した言語――“Juliamo(ユリアーモ)”は、実在する言語――“Esperanto(エスペラント)”を基本としています。 今回、期間限定で公開となる『しけんdeアムリラート(お試し版

                                                                                  新着記事