タグ

*algorithmと*historyに関するsh19910711のブックマーク (25)

  • 個人でも何か出来たあの頃のNLP - yag's blog

    自分はNLPのどんな部分が好きだったんだろうと最近ふと思うことがある。こんなことを書くと懐古厨や老人だと思われるかも知れないが、最近のLLMの急速な発展を横目に、before-LLMのあの頃の自分を振り返ることがたまにある。 あの頃は、LLMのような単一のモデルであらゆるタスクが解けることはなくて、翻訳なら翻訳、固有表現抽出なら固有表現抽出のモデル構造があり、それ専用にデータを収集し整備していた。モデル構造の複雑さはあまりなく基的にはデータが全てであり、その元をたどれば機械学習のタスク設計のユニークさとそれを解くだけの専用のデータ量が鍵であった。だから、アカデミックで日々競われる王道のタスクやベンチマークが存在する一方、企業の中で独自に必要とされるタスクや、個人で利用するような用途の限られたモデルも作れる幅があった。機械学習モデルをサクッと作れるパッケージは存在したが、データ収集や前処理

    個人でも何か出来たあの頃のNLP - yag's blog
    sh19910711
    sh19910711 2024/04/19
    "あの頃: データ収集や前処理などある種の専門性が必要な時代 + 専門用語の辞書が作られテキストにもユニークな特性を持ったコーパスが存在し、独立したタスク設計やコミュニティが存在していた" 2023
  • Heapsの法則によるコーパス中の語彙数予測と評価実験 - シリコンの谷のゾンビ

    さて先日あることがきっかけでヒープスの法則 (Heaps' law) のことを思い出した.最初はヒープの法則と記憶していたのだけれど,'がHeapsの後ろにあるので,ヒープスの法則とかヒープス則と呼ぶのが正しいのだろう.ここではHeapsの法則と呼ぶことにする. Heapsの法則とはN語数から成るコーパスにおいて,総語彙数Dは以下の等式で表現できるというもの*1 ここで,kとβはコーパスによって定められた定数とする.英文コーパスではβは大体0.4-0.6になるらしい*2 この法則が示唆することは,コーパスサイズの増加に対して語彙は増え続けるというもの.まぁlogスケールにおいては直線なので,徐々にサチっていくのは確かであるが. Wikipediaでヒープスの法則の出展を調べてみると,どうやら1978年出版のHeaps著"Information Retrieval"[1]内で提案されたものら

    Heapsの法則によるコーパス中の語彙数予測と評価実験 - シリコンの谷のゾンビ
    sh19910711
    sh19910711 2024/04/09
    "情報検索が専門ですとかほざいている人間がHeaps本を読まないわけにはいかない / 自分が生まれる前に書かれた本に,現代の検索エンジンの基礎が書かれていると思うとゾクゾクした" 2012
  • 数学的バックグラウンドが無い人は理論を勉強しようと思っても厳しい - studylog/北の雲

    という事を痛切に悟りました。無理・無茶です。2015に出たLSTMとかCNNの教科書的の段階ならば、自分みたいな人間でも頑張って青読んでも何とか理解できました。でもそのレベルでは特に自然言語処理関係であまり実用的なモノは作れません。LSTMで言語モデル作って文章出力して「知性!(実際はワードサラダ)」とか言ってた牧歌的な時代はもうとうの昔に過ぎ去りました。数学的バックグラウンドが無いと最新論文見ても何がなんだかわかりません。論文を簡単に説明してくれているブログ記事を読んでも理解できなくなってきました。片手間では無理ですね。 理論を理解するのは諦めて、他の人の成果物(論文)を誰かがコード実装してくれてそれを使ってなんかやるっていう方向性に特化しないと全部中途半端になっちゃうでしょう。最低限CNNの畳み込み・フィルタとかDropoutとかそのレベルぐらいまでは理解しないと誰かが書いたコードす

    数学的バックグラウンドが無い人は理論を勉強しようと思っても厳しい - studylog/北の雲
    sh19910711
    sh19910711 2023/03/23
    2016 / "LSTMで言語モデル作って文章出力して「知性!(実際はワードサラダ)」とか言ってた牧歌的な時代 / 2006だが2007ぐらいに作られたweb2.0的なモノってもうほぼ淘汰された + 淘汰されちゃったモノ達は立派に隙間を埋めた"
  • OR(オペレーションズリサーチ)の歴史<経営数学<歴史<木暮仁

    参考文献 Wikipedia「オペレーションズ・リサーチ」 http://ja.wikipedia.org/wiki/オペレーションズ・リサーチ 「日オペレーションズ・リサーチ学会40年のあゆみ」 http://www.orsj.or.jp/~wiki/shiryou/3.html 「日オペレーションズ・リサーチ学会40年のあゆみ」 http://www.orsj.or.jp/~wiki/shiryou/3.html G.B.DantzigLINEAR PROGRAMMING」 http://www2.informs.org/History/dantzig/LinearProgramming_article.pdf ダンチッヒによる線形計画法の回顧 サイトの関連ページ 「OR(オペレーションズ・リサーチ)」OR技法の解説 「情報検索系システム」データマイニングなどの解説 ORの年表

    sh19910711
    sh19910711 2022/11/23
    "1995年に W.H.Inmon がデータウェアハウスに関する3部作を著したことから急速に発展 / リレーショナルデータベースの発案者である E.F.Codd は、データウェアハウスのような分析を主とする処理を OLAP と名付け"
  • RIP Theano - 開発中止のアナウンスを受けて - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Deep Learning Framework の先駆け,"Theano" の開発中止が発表されました. MILA and the future of Theano Dear users and developers, After almost ten years of development, we have the regret to announce that we will put an end to our Theano development after the 1.0 release, which is due in th

    RIP Theano - 開発中止のアナウンスを受けて - Qiita
    sh19910711
    sh19910711 2022/09/26
    2017 / "Deep Learning Framework の先駆け,"Theano" の開発中止が発表 / 単なるDeep Learningのインプリメンテーション手段であっただけでなく,この界隈の研究者が各自のアイディアを交換するツールでもあった"
  • ディープラーニングフレームワーク開発競争に見る、ライブラリ国際競争の本質 - verilog書く人

    数ヶ月前、chainerがガラパゴスである、という文言をインターネットで見たchainer信者である私は衝撃だった。 だってchainerは公式ドキュメント全部英語じゃん! githubで全世界に公開してるじゃん! コードレビューだって英語でやってるじゃん! 英語google group作って質問答えてるじゃん! だが、言わんとするところもわからないわけではない。 例えば、githubのコントリビュータを見るとアクティブな開発者はほとんど日人だ。 Contributors to chainer/chainer · GitHub 雑に言えば日人が開発して、日人が使って、日人が質問して、日人が答えているのである。 chainerを使って研究している海外のグループもあるし、例外はあるが、例えばtensorflowやMXNetPytorchと比べると少ない。(最近は徐々に増えてるけど

    ディープラーニングフレームワーク開発競争に見る、ライブラリ国際競争の本質 - verilog書く人
    sh19910711
    sh19910711 2022/09/21
    2017 / "ライブラリがグローバルになるということは公式ドキュメントが英語になるということだけではないのかも / define by runがなんとかとか + それよりもサポートコミュニティが強固であることが必要"
  • Deep Learning with Python を読んだ

    TL;DR Deep Learning with Python を読んだ よく書かれているで、特に初学者〜中級者が Keras を使ってモデル構築ができるようになるには最適 扱っているトピック自体は他のと比べてそこまで変わっていないが、一つ一つの質は高い 個人的には Keras の実装の話などをもっとして欲しかった Keras 作者の Chollet 氏が書いた deep learning ということで、どんな内容なんだろうと思って読んでみた。 結論から言うととてもよく書けているで、対象読者は Keras を使って deep learning を始めたい(始めてみた)という人かと思う。 どんな経緯で出したかとかそういうのは全然知らないが、deep learning が使えるようになるための getting started となる決定版を書いたぞ、という印象を受けた。 自分としては

    Deep Learning with Python を読んだ
    sh19910711
    sh19910711 2022/09/15
    2018 / "LSTM が1997年考案なのになぜ deep learning が威力を発揮するまで長い時間が掛かったのか、という疑問に関しても、ハードウェアやデータやアルゴリズムという観点から説明がなされている"
  • KDD'16に参加しました - Yasuo Tabeiの日記

    8月13日から17日にサンフランシスコで開催されたKDD'16に参加しました。 よくも悪くもTutorialの日とWorkshopの日が分かれて2日になりました。 Research Trackはオーラル+ポスターとポスターのみの採択に分かれていて、採択数はそれぞれ70と72で採択率18%(=142/784)ととても競争激しい。僕も運良く採択された印象。 今年はResearch Trackのトピックを12に絞ったそうです。セッション内容もデータマイニングの代表的な分野に絞られていました。 ポスターセッションが夜19時から24時の間の5時間になり、どこかの機械学習の国際会議のポスター発表形式に近くなった。 私のポスター発表はおかげさまで盛況でした。いかんせん時間が長く一人で発表していたせいか、何話したか覚えていない。名刺渡したしよしとする。 セッションがResearch TrackとAppli

    KDD'16に参加しました - Yasuo Tabeiの日記
    sh19910711
    sh19910711 2022/09/11
    2016 / "企業に移った研究者が多いせいか、好みの発表が減ってしまった / 昨年のKDDではb-bit MinHashのLiとSmolaが同じセッションで発表 / 初日のkeynote speakerは数学者でいきなり理論の話をするのでみんな引き気味だった"
  • 1960年代初めに開発された物語自動生成システム | スラド サイエンス

    現代ではコンピューターに物語を生成させるさまざまな試みが行われているが、1960年代初めに言語学者Joseph E. Grimes氏が開発したコンピューターによる物語自動生成システムについて、人からの聞き取りも含めた幅広い調査結果の論文を米カリフォルニア大学サンタクルーズ校のJames Ryan氏が発表している(論文、The Register)。 現在、最古の物語自動生成システムとして広く知られているのは1971年に報告された言語学者Sheldon Klein氏によるミステリー小説自動生成システムだが、Grimes氏は1960年または1961年の夏にメキシコ国立自治大学のIBM 650を使用して物語自動生成システムの開発を始めていたそうだ。システムは機械語で書かれていたが、のちに使用したIBM 1401(メキシコ国立自治大学のものと米オクラホマ大学のものを使用)ではFORTRANでプログ

    sh19910711
    sh19910711 2022/09/03
    2017 / "Grimes氏は1960年または1961年の夏にメキシコ国立自治大学のIBM 650を使用して物語自動生成システムの開発を始めていたそうだ / モンテカルロ法により選択した要素を組み合わせて自然言語による文を生成"
  • 三歩ひいてディープラーニングを見つめる

    ディープラーニングと言う言葉を目にした人は少なくないと思う。人工知能に分類される一つの技術だが、ニューラルネットワークと言ういかにも人工知能といった名称の数理モデルを駆使しているところから、人々の興味関心を強く引いているようだ。これ自体は悪い事では無いが、実態以上に評価しようと画策する人々が出てきており、ディープラーニングが注目された翌年から第3次人工知能ブームが始まったかのような言説を見かける*1に、流行を作りたがる業界病を感じざるをえない。当にブームなのか。報道だけ先行しているのではないのか。騙されないように、最低限の知識は入れておいた方が良さそうだ。 1. 計算機に方法を問わず推論をさせる技術 人工知能は誤解されやすい分野で、そもそも人工知能と言う単語自体が映画やアニメなどの創作物の影響で、往々にして誤解されている。確かに、1950年代に人間の思考パターンを真似る方向で人工知能研究

    三歩ひいてディープラーニングを見つめる
    sh19910711
    sh19910711 2022/06/19
    2016 / "機械学習: 学問分野としては1956年のダートマス大学での会議が始まり / 推論を作業に生かす必要があるので、別の工学的な発展が必要 / 業務の一部の代替にとどまって、言われているほど省力化にはならないかも"
  • 1988年

    1988年5月1日,私は PC-VAN の SIG SCIENCE(私が SIGOP をしていたところ) の第1ボード「オムニバス・ボード」(現「科学一般」)に次の書き込みをしました。 #1073/2867 オムニバス・ボード ★タイトル (SCIENCE ) 88/ 5/ 1 15:39 ( 49) LZSS法によるデータ圧縮プログラム/奥村 ★内容 依然ある雑誌にPascalで何かということで書いたのですが、その雑誌が休 刊中なので、TurboCで書き直したものをアップします。 特徴は、圧縮率が非常に良いことと、符号化が非常に遅いことです。2分木など を使えば符号化は1桁速くなりますが、LZSS法そのもののアルゴリズムをはっ きりさせるために、できるだけシンプルに作りました。符号化に時間がかかっても、 アップやダウンの電話代を考えれば、少しでも圧縮率の良いもののほうが良いとい う考え方

    sh19910711
    sh19910711 2022/05/27
    1988 / "PC-VAN のシステムは, 半角と全角を同じ行に混在させると行末部分が失われやすかった / 当時は Borland の Turbo Pascal が人気のコンパイラ / SIG SCIENCE は科学のフォーラムなのに, データ圧縮ばかりで燃えている状態"
  • ありがとう、Chainer。頼むぜPyTorch。 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 2019/12/5、PFNからChainerの開発を停止しPyTorchの開発に貢献するというアナウンスがありました。 Preferred Networks、深層学習の研究開発基盤をPyTorchに移行 オフィシャルな発表が出たことは衝撃的でしたが、心の中で「いつかはこうなるんじゃないか」という思いがあったのも事実です。さびしくはありつつも、決断にはベストな時期だったのではないかと思います。ここ最近は動的グラフをサポートしたTensorFlow 2.0の公開があり、機能的にほぼ差異がなくなった2大フレームワークの決戦がいよいよ始まる・・

    ありがとう、Chainer。頼むぜPyTorch。 - Qiita
    sh19910711
    sh19910711 2022/04/17
    "2019/12/5、PFNからChainerの開発を停止しPyTorchの開発に貢献するというアナウンスがありました / TensorFlow 2.0の公開があり、機能的にほぼ差異がなくなった2大フレームワークの決戦がいよいよ始まるという雰囲気"
  • 「階層型データベース」調べても基本概念以外ほとんど情報が出てこないです。製品名、解説サイト、使用している企業/システム、経験談等具体的な情報を教えてもらえませんか? - Quora

    sh19910711
    sh19910711 2021/09/12
    "IBMのIMSおよびその互換DBの日立AMD,富士通AIM / 全てメインフレームでしか動作しません / 階層構造のレコードを深さ優先検索で辿っていくGet Nextが基本 / 階層型DBと関係型DBでは天動説と地動説ぐらいの違いがあります"
  • 制御理論としての動的計画法 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに:冷戦と動的計画法 動的計画法とは何でしょうか? いきなりですが、日語版Wikipediaを引用します。 動的計画法 - Wikipedia 動的計画法(どうてきけいかくほう、英: Dynamic Programming, DP)は、計算機科学の分野において、アルゴリズムの分類の1つである。対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法を総称してこう呼ぶ。 おそらく、Qiitaを見る人の大半もこのような認識ではないでしょうか。 「あーなんかナップサック問題とか解くんでしょ? 表の数字を端

    制御理論としての動的計画法 - Qiita
    sh19910711
    sh19910711 2020/12/27
    "アメリカとソ連はお互いの国土に核ミサイルをぶち込むため、最適制御理論の開発に心血を注いだ / 西側ではベルマンの手によって「動的計画法」が、東側ではポントリャーギンの手によって「最大原理」が編み出された"
  • テトリミノの偏り補正から見るテトリスの歴史

    レトロゲーム勉強会#04 https://retrog.connpass.com/event/153204/ での発表資料です。資料公開にあたり、ゲームボーイ版テトリスの記述を中心に追記を行っています。Read less

    テトリミノの偏り補正から見るテトリスの歴史
  • Log Structured Merge Tree

    Jan 29, 201739 likes12,271 viewsAI-enhanced description 1. Log structured merge trees store data in multiple levels with different storage speeds and costs, requiring data to periodically merge across levels. 2. This structure allows fast writes by storing new data in faster levels before merging to slower levels, and efficient reads by querying multiple levels and merging results. 3. The merging

    Log Structured Merge Tree
  • 「機械学習の父」とは?

    最近、機械学習の勉強をするために、数多くの論文を読んでいます。それぞれの論文は10ページ前後ですが、必ずそのベースには過去の研究があり、それを理解せずには読みこなせない、という状況がしばしば生じます。そんな時には、その論文から引用されている過去の論文を読む必要がありますが、私のようにこの世界の新参者だと、そこでさらにそこで引用されている論文を読まなければいけなくなることもしばしばあります。 結構手間のかかる作業ですが、一昔前だったら図書館に行かなければ絶対に不可能だった作業が、ネットに接続したパソコンされあれば、どこからでも、かつ、効率良く出来てしまうのですから、文句を言う筋合いの話ではありません。 そうやって歴史を遡りながら勉強をしていると、一連の研究の流れ、のようなものが見えて来ます。 例えば、先週紹介した、「写真をゴッホの作品風にする手法」のベースになった論文「A Neural Al

  • 機械学習の歴史 - AI.doll

    WikipediaのTimeline of machine learningというページに機械学習歴史がまとめられた表があったので、あとから見返しやすいように全て日語にしてみた。 日語訳はガバガバかもしれないので心配な人は元ページを見てね。 ムムッってとこがあったらコメントで教えてほしい 年表 1763 ベイズの定理のベース トマス・ベイズ(Thomas Bayes)の著書, "An Essay towards solving a Problem in Doctorine of Chances"がベイズが死んだ2年後, 彼の友人により修正・編集され出版された. 1805 最小二乗 アドリアン=マリ・ルジャンドル(Adrien-Marie Legendre)が最小二乗(méthode des moindres carrés)について記述. 1812 ベイズの定理 ピエール=シモン・ラプ

    機械学習の歴史 - AI.doll
  • 企業における自然言語処理技術利用の最先端

    Jun 19, 201578 likes15,939 viewsAI-enhanced description 1. This document discusses the history and recent developments in natural language processing and deep learning. It covers seminal NLP papers from the 1990s through 2000s and the rise of neural network approaches for NLP from 2003 onward. 2. Recent years have seen increased research and investment in deep learning, with many large companies e

    企業における自然言語処理技術利用の最先端
  • ニューラルネットと深層学習の歴史

    機械学習の基礎である分類問題を通して、ニューラルネット研究の黎明期から深層学習までの歴史を浅く広く紹介しています。Read less

    ニューラルネットと深層学習の歴史