並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 3563件

新着順 人気順

コーパスとはの検索結果1 - 40 件 / 3563件

  • Web上の膨大な画像に基づく自動画像補完技術の威力 - A Successful Failure

    画像内に映り込んだ所望のオブジェクトを排除し、違和感の無い画像を生成するシーン補完技術に関しては近年複数の研究成果が発表されている。しかし中でも2007年のSIGGRAPHにて米カーネギメロン大のJames HaysとAlexei A. Efrosが発表した手法*1はブレークスルーとなりうる画期的なものだ。 論より証拠、早速適用例を見てみよう。本エントリで利用する画像はPresentationからの引用である。元画像の中から邪魔なオブジェクト等の隠蔽すべき領域を指定すると、その領域が補完された画像が自動的に生成される。 アルゴリズム 効果は抜群だがアイデア自体は単純なものだ。Web上には莫大な数量の画像がアップされており、今や対象となる画像の類似画像を一瞬にして大量に検索することができる。そこで、検索された類似画像で隠蔽領域を完全に置き換えてしまうことで違和感の無い補完画像を生成するのだ。

      Web上の膨大な画像に基づく自動画像補完技術の威力 - A Successful Failure
    • 言語処理100本ノック 2015

      言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

      • 最新研究からわかる 学習効率の高め方 - 分裂勘違い君劇場 by ふろむだ

        本書は、Amazon総合1位(無料)となった科学的学習法の本のWeb版です。 12万部のベストセラーとなった前著と同様、図とイラストを使って分かりやすく解説しています。 英語学習者・教師・受験生・小学生~高校生の親御さんに読んでいただきたいです。 全5巻(派生巻も含めると全8巻)構成で、これは第1巻です。 それでは、さっそく、サイエンス誌に掲載された論文を解説します。 (サイエンス誌は、ネイチャー誌と双璧をなす、世界最高峰の学術誌です) この論文からは、学習効率に関する重要ポイントをいくつも学べます。 本書は、基本的には中学生でも読めるように書いてあります。 実際、本書をある中学3年生の女の子に読んでいただいたところ、たいへん好評でした。 実際に期末試験の成績も上がり、志望校にも合格し、ご両親も喜んでおられました。 では、以下、論文の解説をどうぞ。 ■カーピキー2008実験 たとえば、英語

          最新研究からわかる 学習効率の高め方 - 分裂勘違い君劇場 by ふろむだ
        • 【英会話独学】英語学習ロードマップ 第二言語習得研究と行動科学に基づく英語を話す方法 - ポリグロットライフ | 言語まなび∞ラボ

          はじめに 今回は英語を話す方法の完全英語学習ロードマップを丁寧に解説していきます。私の第二言語習得研究の知見と行動科学(私自身の語学学習の経験を観察して得られた実証結果・多言語話者に取材をして気づいた彼らに共通した行動の特徴)に基づく学習マップを始めから丁寧に解説していきます。英会話の完全独学ができますので、今回のブログをしっかり理解して英語を話せるようになりましょう。 「ポリィの英語講義」というYoutubeチャンネルも開設致しましたので、ぜひこちらもチェックしみてください。こちらのチャンネルでは、今後英語学習ロードマップの実践動画をアップしていきたいと思います。 www.youtube.com 英語学習ロードマップ Phase1 学習方略に基づく学習計画(公開済み) Phase2 発音と単語で気づきを促す(公開済み) Phase3 浅い理解を深い理解に転換(公開済み) Phase4 英

            【英会話独学】英語学習ロードマップ 第二言語習得研究と行動科学に基づく英語を話す方法 - ポリグロットライフ | 言語まなび∞ラボ
          • 物書きがネットを使い倒すための7つの検索

            ==ネタ編== まだ書こうとするものがはっきりと見えて来ない段階や、曖昧模糊とした「原初のスープ」にスパイスの一撃を加えたい時など、探してみて見るとよい検索たちです。 ■物語要素事典 古典、民話から小説、映画や漫画に至るまでを対象に、物語のパーツとなる「物語要素」(物語素)を拾い出し、分類、整理したもの。いわば定番的あらすじ/エピソードの集成なので、ストーリーを考えたり、必要な要素を加えたりする際のヒントになる。 (使用例)上の検索ボックスをつかって ・「"犬" site:http://www.aichi-gakuin.ac.jp/~kamiyama/」で犬が活躍する物語を探す。 ・「"雨宿り" site:http://www.aichi-gakuin.ac.jp/~kamiyama/」で雨宿りにまつわるエピソードを探す。 (サイトURL) http://www.aichi-gakuin.

              物書きがネットを使い倒すための7つの検索
            • 無料でここまでできる→日本語を書くのに役立つサイト20選まとめ

              (例文/コーパス) ◯KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言 www.kotonoha.gr.jp/shonagon/search_form 現代の日本語の書き言葉の全体像を把握できるように集められた約1億語収録の『現代日本語書き言葉均衡コーパス』をジャンルを指定したり、前後にくる言葉を指定した上で検索できる。用例を探したいときはまずここを当たる。 ◯コーパス検索ツールNINJAL-LWP for BCCWJ (NLB) nlb.ninjal.ac.jp/ 『現代日本語書き言葉均衡コーパス』を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システム。上の少納言との違いは、名詞や動詞などの内容語の共起関係や文法的振る舞いを網羅的に表示できるところ。 たとえば「タバコ」を検索すると、用例が「タバコ+助詞+動詞」や「動詞+タバコ」+「タバコ+助詞+形容詞

                無料でここまでできる→日本語を書くのに役立つサイト20選まとめ
              • 5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう

                5ch(旧2ch)ではここ数年はTwitterを使用するようになってしまいましたが、ネットのミームの発信地点であって、様々なスラングを生み、様々な文化を作ってきたと思います。 学生時代、2chまとめとか見ていたので、影響を受けてきたネット文化で、感覚値からすると、どうにも流行り廃りがあるようです。 5chの過去ログを過去18年ほどさかのぼって取得する方法と、懐かしいネットスラングのドキュメントに占める出現具合を時系列でカウントすることで、時代の変遷でどのように使用の方法が変化したのか観測することができます。 文末に「orz」って付けたら若い人から「orzってなんですか?」と聞かれて心身共にorzみたいになってる— ばんくし (@vaaaaanquish) October 19, 2018 図1. 今回集計したorzの結果 例えば、今回集計した5chの書き込み500GByte程度のログからで

                  5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう
                • 探しものがはかどる検索エンジンDuckDuckGo、NDC順Bangリスト

                  DuckDuckGo(https://duckduckgo.com)はプライバシーの保護に重きを置いている検索エンジンのひとつである。 特筆すべきは、Bangという機能があって、探しものがとてもはかどる。 たとえば「!a 図書館」(ビックリマーク+アルファベットのa+スペース+検索語)と入力するとAmazonを検索してくれる。 こんな風に「!+何か」 で特定のサイトのみの検索ができる機能がBangである。 検索エンジンが使えなくなった(クズみたいなサイトが上位に来て、欲しい情報が見つからない等)と言われて久しいが、探すべきサイトにダイレクトで検索することで、この問題のかなりの部分が解決する。 よく使いそうなのは ! (キーワード) 最初の検索結果へ直接ジャンプ !i イメージ検索 !m 地図検索 !n ニュース検索 !v 動画検索 !w ウィキペディア検索 !pdf PDFファイルだけを検

                    探しものがはかどる検索エンジンDuckDuckGo、NDC順Bangリスト
                  • 一人で読めて大抵のことは載っている「講座」もの全リスト 読書猿Classic: between / beyond readers

                    「講座」もの、と呼ばれるシリーズ物の出版物がある。 シリーズ名に「○○講座」とか「講座××」と付いているのがそれだ。そう名乗らないものもある。 出版社によって、いくらか違いはあるが、ある時点での当該分野の研究成果を整理して示すことを目指した企画ものと考えてよい。 読み手の立場に立てば次のようになる。 「講座」ものとは、その分野で何が問題であり、何が分かっていて、どんな未解決の課題があるのか、その学問のコンテンツとコンテキストを、第一人者たちがざっくりと、しかし紙面の制限をあまり受けずに、紹介してくれている出版物だ。 はじめての分野に挑むなら、その分野について「講座」ものがないか、チェックすることをお勧めする。 以下の記事で紹介したself-containedな(必要なものはその中に全部書いてある)教科書は日本ではあまり出版されないが、その欠けているところを実質的にカバーしているのが「講座」

                      一人で読めて大抵のことは載っている「講座」もの全リスト 読書猿Classic: between / beyond readers
                    • 無料でここまでできる→外国語を書くのに役立つサイト24選まとめ

                      外国語を書くのに、すべて丸投げしておまかせできるウェブサービスは存在しない。 有料で、向こうにちゃんと翻訳できる人がいる場合でもできるのは、〈外国語で書く〉という問題解決を支援することである。 複数の情報源(ソース)から得られたものを突き合せて信頼性を高めるのが情報に関する問題解決の基本スタンスである。 どのような辞書も事典も専門家も、間違えることは必ずあるから、ひとつの情報源だけに頼ることは避けられる。 突き合わせるだけで問題が解決する訳ではないが、突合せにより浮かび上がる情報源の間の違いが、問題解決の糸口になる。 機械翻訳 英語←→フランス語、日本語←→韓国語などに比べて日本語←→英語その他の外国語の機械翻訳は、現在のところ実用レベルにはほど遠い。 しかし、とても信用できない機械翻訳も、異なる機械翻訳から得られる複数の結果を突合することで、見えてくるものがある。 ◯翻訳比較くんwith

                        無料でここまでできる→外国語を書くのに役立つサイト24選まとめ
                      • 258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料

                          258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料
                        • 日本の英語教育が落っことしがちな英単語最頻出2000語を7クリックで覚える表

                          AWL570についての記事(英語圏大卒社会人のコアボキャブラリーAWL570を7クリックで覚える表 (旧題:570の学術系英単語を5クリックで覚える表) 読書猿Classic: between / beyond readers )を直したので、併せて基本語彙のリストであるGSLについても似たようなものを作ってみた。 GSL (General Service List:汎用性の高い単語リスト)は、フリーの英単語リストをまとめてみた 読書猿Classic: between / beyond readers にも登場したけれど、最も流布した今なお評価の高い頻度順の基本英単語リストである。 語彙限定本(グレイデッド・リーダー)の500語レベル、1000語レベルといった制限語彙を確定するための尺度として用いられた他に、語義をすべて制限語彙内でまかなう学習英語辞書Longman Dictionary

                            日本の英語教育が落っことしがちな英単語最頻出2000語を7クリックで覚える表
                          • すべての学問分野をネットで無料で探すための210個のリソースまとめー新入生におくる探し方その2

                            引き続き、新入生向けを口実にする。 前回はオフラインでの探し方の話をしたので、今回はオンラインでの(ネットをつかった)探しものについて。 ごくごく基礎的な話は、 googleで賢く探すために最低知っておくべき5つのこと 読書猿Classic: between / beyond readers あたりにまかせて、今回は足がかりになりそうなものをつくってみた。 こうしたリンク集は、検索エンジンが今ほど便利でなかった/ソーシャル・ブックマークが存在しなかった時代にはよくつくられたが、ネットではどれだけ有益なサイトでもあっという間に(つまり本屋や古本屋よりもはやく)消えてしまったりするので、大規模なリンク集ほどメンテナンスが大変で、あまり望まれなくなった。 自分でも、なんだか久しぶりにつくってみた気がするが、個人的にはネットの定点観測的な意味合いがある。 つまり、つくってみることで、ネットの情報の

                              すべての学問分野をネットで無料で探すための210個のリソースまとめー新入生におくる探し方その2
                            • フリーの英単語リストをまとめてみた

                              Horn List (100 Most Common Words) 頻度順 http://www.englishcorner.vacau.com/vocabulary/hornlistfreq.html アルファベット順 http://www.englishcorner.vacau.com/vocabulary/hornlistalpha.html [出典]Horn, E. (1926), A basic writing vocabulary, 10,000 words most commonly used in writing, College of Education. Dolch List (220 Basic Sight Words) 頻度順 http://www.englishcorner.vacau.com/vocabulary/dolchfreq.html アルファベット順 

                                フリーの英単語リストをまとめてみた
                              • ネイティブ並みの表現も?ウェブを使って生きた英文を作成する方法 - はてなニュース

                                普段英文を書く機会はほとんどないのに、ある日突然英文メールで文章を書くことに。冷や汗をかきながら何とか書きあげたものの、意図した内容になっているかかなり不安…。こんな経験がある方も少なくないのではないでしょうか。今回は急に英文を書くことになった時に知っておくと便利なサービスや、英文作成テクニックを紹介していきたいと思います。 自動翻訳のサービスもよくなってきたとはいえ、英文を読む時には許容できても、誰かに宛てて文章を書く時には訳文をそのまま使うわけにはいきません。誰かに直してもらいたいけれど「助けてくれる人がまわりにいない」「翻訳会社に頼むほどフォーマルなものではないし、料金も心配」そんな悩みも少なくないと思います。 でも、ウェブの力を借りれば大丈夫。かなりよい英文が書けてしまうのです。今回は、「ネイティブの手を借りて英文を作成できるサービス」「ウェブ上の文章を使って英文を作成するテクニッ

                                  ネイティブ並みの表現も?ウェブを使って生きた英文を作成する方法 - はてなニュース
                                • 最強Web2.0サービス「iKnow」登場、ただし英語勉強したい人だけ!:[mi]みたいもん!

                                  トップ > iKnow,英語学習 > 最強Web2.0サービス「iKnow」登場、ただし英語勉強したい人だけ! いしたにまさきの新刊:HONDA、もうひとつのテクノロジー ~インターナビ×ビッグデータ×IoT×震災~ 01 それはメッカコンパスから始まった|Honda、もうひとつのテクノロジー 02 ~インターナビ×GPS×ラウンドアバウト~ 運転する人をサポートすること|Honda、もうひとつのテクノロジー 03 ~インターナビ×災害情報×グッドデザイン大賞~ 通行実績情報マップがライフラインになった日 2007.11.27 まだ年を越していないのに言うのもなんですが、来年の目標は英語だったりします。それもWriting。 そんなことを思っていると、神様というのはいるもんで、dannychoo.comで、まさにおれが今欲しいサービスが始まっていることが紹介されていました。 サービスの名前

                                  • Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog

                                    この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook この章では機械学習について、Webサービスの開発で必要とされる知識を中心に、とくに自然言語処理にフォーカスしながら解説します。 Webサービス開発と機械学習 実現困難な機能の例 闇雲な実装 もう少しましな実装 機械学習によるパラメータ決定 分類問題のための機械学習手法 パーセプトロン 判別アルゴリズム 学習アルゴリズム 特徴量のとり方 形態素解析 量をともなう特徴 組み合わせ特徴量 モデル 機械学習の種類 教師あり学習 分類 (質的変数の予測) 回帰 (量的変数の予測) 教師あり学習でのデータセット 教師なし学習 クラスタリング 次元削減(次元圧縮) 頻出パターンマイニング 異常値検出 アルゴリズムの評価 訓練データとテストデータ 学

                                      Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog
                                    • DeepLearning研究 2016年のまとめ - Qiita

                                      DeepLearning Advent Calendar 2016の17日目の記事です。 はじめに はじめまして。 Liaroという会社でエンジニアをしている@eve_ykと申します。 今年もあと僅かとなりました。 ここらで、今年のDeepLearningの主要な成果を振り返ってみましょう。 この記事は、2016年に発表されたDeepLearning関係の研究を広く浅くまとめたものです。今年のDeepLearningの研究の進歩を俯瞰するのに役立てば幸いです。 それぞれの内容について、その要点や感想なんかを簡単にまとめられたらと思います。 特に重要だと思った研究には★マークをつけておきます。 非常に長くなってしまったため、興味のある分野だけ読んでいただければと思います。 言い訳とお願い 見つけたものはコードへのリンクも示すので、プログラミングに関係ある記事ということで… 分野的にかなり偏っ

                                        DeepLearning研究 2016年のまとめ - Qiita
                                      • 英語例文検索 EReK

                                        英語で書かれたウェブ上のテキストを巨大な例文集(コーパス)とみなし、それを検索します。Web Service by Yahoo! Developer Network / 連絡先

                                        • 誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

                                          著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。 このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。 概要 Dwango Media Villageの廣芝です。 誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。 声の変換技術には、リアルタイム性と品質のトレードオフがあります。 既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。 品質を優先した声変換

                                            誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
                                          • にわか TOEIC マニア - steps to phantasien

                                            社内で開かれたワークショップ形式の研修に参加したのは一年前、ちょうど今頃のこと。 それはたぶんチームワークのような何かを学ぶ会だったはずだけど、 私の感想は本題と関係なく「いいかげん真面目に英語を勉強しないとあかん」だった。 話が通じないとチームワークどころじゃない。 米国資本勤めの会社員からすると、英語はグローバル云々以前に仕事用 DSL みたいなもの。 英語ができないまま騙し騙し働くのはたぶん、 SQL が書けなからと ORM の上だけでコードを書こうとするのに似ている。できなくはないけど、いろいろしんどい。 幸い私は Web 開発者じゃないから SQL はわからなくていい。でも英語はやらないとダメっぽい。 入社二年半、ようやく現実を直視した。 最初はしゃべる練習をしようかと思ったけれど、そもそもしゃべる以外の英語すらできるといえるのか。怪しい。 むしろまず典型的日本人として英語ができ

                                            • 「実用的でないPythonプログラミング」がよかった - Stimulator

                                              はじめに 2020/8/12に発売されたImpractical Python Projects: Playful Programming Activities to Make You Smarterの日本語訳書である、「実用的でないPythonプログラミング」をひょんな事から献本していただく事になった。(訳者が同僚である) 実用的でないPythonプログラミング: 楽しくコードを書いて賢くなろう! 作者:ヴォーン,リー発売日: 2020/08/12メディア: 単行本 ありがちなプログラミング初学者向けの本から1段上がった中級者向けの良い本だと感じたので、当ブログでたまにやっている筆者、訳者に媚びを売るシリーズの一貫として、感想を記す。 書籍の概要 「実用的でないPythonプログラミング」は、想定する中級レベルのアルゴリズムの問題を例に取り、Pythonでの美しいコードの書き方や、コンピュ

                                                「実用的でないPythonプログラミング」がよかった - Stimulator
                                              • 自然言語処理における前処理の種類とその威力 - Qiita

                                                自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

                                                  自然言語処理における前処理の種類とその威力 - Qiita
                                                • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

                                                  MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

                                                  • 商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース|DTMステーション

                                                    本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ(@hiho_karuta)さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。 これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由

                                                      商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース|DTMステーション
                                                    • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

                                                      (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

                                                        エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
                                                      • 単語はわかるのに英文がわからない人のための頻出英熟語 650選【PHRASE List & PHaVE List】|相川真司(かわんじ) #DiQt

                                                        【要約】 英語力の向上のためには、英熟語を覚えることは重要です。 しかし、英熟語には、単語から意味を推測しにくいものも多く、覚えるのが難しいという課題がありました。 このnoteでは、その課題を解決する『頻出英熟語リスト』を紹介し、その英熟語データを無料で配布いたします。 昨年、『この英単語を覚えるだけで、英文の9割は読めるようになる話』というnoteを書きました。 ありがたいことに、このnoteは多くの方々にご評価いただき、なんと『2020年はてなブックマーク年間ランキング』で第6位にノミネートいただきました。 うれしい!!!! このnoteをきっかけに、DiQtは多くの方々に使っていただけるようになりました。 とりわけ嬉しかったのが、短期的な利用ではなく、現在に至るまでずっと継続してDiQtを使っていただけるユーザーに多く出会えたこと。 そしてユーザーインタビューから、DiQtが実際に

                                                          単語はわかるのに英文がわからない人のための頻出英熟語 650選【PHRASE List & PHaVE List】|相川真司(かわんじ) #DiQt
                                                        • スペル修正プログラムはどう書くか

                                                          Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの

                                                          • 30分で完全理解するTransformerの世界

                                                            はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                                                              30分で完全理解するTransformerの世界
                                                            • AIはどのような仕事ができるようになったのか?ChatGPTで変わる「優秀な人材」

                                                              この図はざっくりと3つの領域に分かれます。まず左下が従来のプログラミングの領域です。これは簡単に言うと「プログラムは間違ってはいけない定形な仕事を奪う」ということです。次にその上の士業が責任を取る領域です。これは「責任」を取る人がいないと成立しない仕事です。ミスが発生した際に罰則を与えるという形で、ミスの発生を防いでいます。最後に右側のホワイトカラーの仕事の領域です。ホワイトカラーの仕事は入出力が不定形であり、作業フローも非定型であったりします。そのため、多少のミスはあっても仕方ないという前提の上で仕事が行われています。 機械学習がビジネスに組み込まれるにつれ、ホワイトカラーの仕事領域はそれらによって少しずつ代替されつつあります。その図がこちらになります。 ホワイトカラーの担っていた領域は、表データの機械学習(重回帰や、Lasso回帰、SVM、RandomForest、LightGBMなど

                                                                AIはどのような仕事ができるようになったのか?ChatGPTで変わる「優秀な人材」
                                                              • プロジェクト杉田玄白/Project Sugita Genpaku

                                                                 *プロジェクト杉田玄白* リンクやコピーは黙ってどうぞ。詳細はこちら。 プロジェクト杉田玄白というのは、いろんな文章を勝手に翻訳して公開しちゃうプロジェクトなのだ。プロジェクトグーテンベルグや、青空文庫の翻訳版だと思って欲しい。日本は翻訳文化だといわれるけれど、それならいろんな翻訳が手軽に入手できるようにすることで、もっともっと文化的な発展ができるようになるだろう。もっとくわしい能書きは、以下にある。 ■□■□ テキストのありかとそれぞれの新着! ■□■□ 各種テキスト むちゃくちゃに間が開きましたが、ラフカディオ・ハーン『怪談』、ドストエフスキー『鰐』、カントール、オーウェル、ウィトゲンシュタイン、ライヘンバッハ、モリス、カンディンスキー、ロース、シェーンベルクを登録。半年以上間が開きまして申し訳ありませんでした。 (2008/3/9, 正式作品) ストールマン『 「知的財産」だって

                                                                • ポケモンの「ゴース」が「ゴースト」に進化し「ゲンガー」に進化することなどを言語学的に考察した論文が興味深くて最高すぎる

                                                                  齊藤 輝(まんちゅう)💪✨英検1級再挑戦(6月2日) @manchuu11355 amazon.co.jp ちなみに川原先生の著作で個人的に一番好きなのはひつじ書房から出てる『「あ」は「い」より大きい』です。これを読むと音象徴のことが頭から離れなくなるのでオススメです。 2021-11-24 19:25:02 リンク Wikipedia 川原繁人 川原 繁人(かわはら しげと、1980年 - )は、日本の言語学者、認知科学者、音声学者、理論音韻論者、実験音韻論者。 専門は主にインターフェイス論(特に、音韻論と音声学、形態論や統語論とのインターフェイス)や音象徴、実験言語学一般。実験やコーパス分析に基づいた言語理論の研究を多く行っている。ジョージア大学、ラトガーズ大学助教授(Assistant professor)を経て、現在慶應義塾大学言語文化研究所准教授。 東京都世田谷区出身。和光幼稚

                                                                    ポケモンの「ゴース」が「ゴースト」に進化し「ゲンガー」に進化することなどを言語学的に考察した論文が興味深くて最高すぎる
                                                                  • Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース

                                                                    統計処理用のマシンを使って、自然言語処理で遊ぼう! BTOパソコンで有名な「パソコン工房」から「統計処理用のPCを企画しているので、何かできないか」と相談された編集部は、はてなエンジニアと相談して「word2vec」を使って遊んでみることに。はてなブログのデータとかっこいいパソコンを使って、最新の自然言語処理で楽しむ様子をお楽しみください! 記事の終わりには2TBの外付けHDDが当たるプレゼントのお知らせも。 (※この記事は株式会社ユニットコムによるPR記事です) ―― BTOパソコンのショップ/サイトで有名な「パソコン工房」さんから、以下のような依頼が来ました。 データサイエンティスト向けに、統計処理用に使えるパソコンをいろいろと考えています。なので、何か面白い処理に使って、PR記事にしてほしいんです! ▽ 【パソコン工房公式サイト】BTOパソコン(PC)の通販 ―― ということで、はて

                                                                      Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース
                                                                    • AIの力で自分の声を好きな声にリアルタイム変換できるボイスチェンジャー「MMVC」が登場

                                                                      自分の声を美少女ボイスやイケメンボイスに変換してくれるボイスチェンジャーは、ライブ配信やムービー投稿の際にありがたい存在です。しかし、ボイスチェンジャーによって変換できる音声は固定されており、自分好みの音声に変換できるボイスチェンジャーを見つけるのは困難です。天王洲アイル氏は、この問題をAIを用いて解決する方法について解説し、さらにAIの力で自分の声を好みの声にリアルタイム変換できるボイスチェンジャー「MMVC」を公開しています。 VRChatなどの登場によって誰でも好きなアバターを使って好きなキャラクターになりきることが可能となりました。また、自分の声を美少女ボイスやイケメンボイスに変換できるボイスチェンジャーも多くの種類が存在しています。しかし、既存のボイスチェンジャーには「理想的な結果を得るためにはボイスチェンジャーに合わせた発声練習が必要」「リアルタイム変換が不可能なため、会話やラ

                                                                        AIの力で自分の声を好きな声にリアルタイム変換できるボイスチェンジャー「MMVC」が登場
                                                                      • 無料で学べる多言語学習のための教材と素材をまとめてみた

                                                                        東京外大言語モジュール http://www.coelang.tufs.ac.jp/modules/ 英語、ドイツ語、フランス語、スペイン語、ポルトガル語、ロシア語、中国語、朝鮮語、モンゴル語、インドネシア語、フィリピノ語、タイ語、ラオス語、ベトナム語、カンボジア語、ビルマ語、ウルドゥー語、ヒンディー語、アラビア語、ペルシア語、トルコ語、日本語の教材を提供。 大阪大学世界言語eラーニング http://el.minoh.osaka-u.ac.jp/lang/ ヒンディー語、ウルドゥー語、トルコ語、ロシア語、ドイツ語、スペイン語、ハンガリー語、スウェーデン語、ポルトガル語、中国語、朝鮮語、ビルマ語、モンゴル語、フィリピノ語の教材を提供。 ゴガクルーみんなで学ぶNHK語学フレーズ http://gogakuru.com 英語、中国語、ハングル、フランス語、イタリア語、ドイツ語、スペイン語、ロシ

                                                                          無料で学べる多言語学習のための教材と素材をまとめてみた
                                                                        • 身の振り方を考えるついでに、日本語について考えた - アスペ日記

                                                                          Google を辞めてから、頭を冷やすためにゆっくり休んで、その間にいろいろ考えた。 辞めた時に勢いで書いた記事には「IME の会社を受けてみたい」と書いたけれど、それでいいのか確信もなかった。 だって、IME の会社というと、某国産 IME *1を作っている*2徳島の会社ってことになるんだけど、はっきり言うと…斜陽の匂いがするっていうか…。 一方で、ネットの日本語表記に対する違和感のようなものが、だんだんと自分の中でふくらんでいた。やたらと漢字が増えててムカツク…。 自分で N-gram かな漢字・漢字かな変換のような実験的なものは書いてみたけど、頑張って IME にしたところで ATOK ほどの使い勝手にならないのはわかってるし…。 頭の中で、こうしたゴチャゴチャした思いが渦巻いていた。こういう時に行動を起こしても、いい結果にならない。Google に行ってしまったのは不幸なミスマッチ

                                                                            身の振り方を考えるついでに、日本語について考えた - アスペ日記
                                                                          • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

                                                                            これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

                                                                              pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
                                                                            • テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜

                                                                              「遊び」をクリエイトするAI デスピサロを相手に、効くはずのないザラキを唱えまくるクリフトを見ながら、AIというのはなんてアホなのだろうと思った。多分、それが、僕が初めてAIに出会った瞬間だったと思うのだけど、時は過ぎ、現代では生成AIを中心とした「かしこいAI」たちが世に溢れていて、…

                                                                                テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜
                                                                              • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                                                                                株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                                                                                  超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                                                                                • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

                                                                                  TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日本語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src