タグ

*algorithmと*historyに関するsh19910711のブックマーク (26)

  • 単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm

    トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど,詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ. 専門でないので,詳しくは参考文献を読んだほうがいいです. トピック 同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり. 例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい,など. トピックモデルは文書のトピックと,トピックに属する単語を推定する. 単語頻度からトピックモデルまでの流れのイメージ 文書をモデル化しよう→単語の頻度 同義語や多義語を捉えよう≒次元削減をしよう→LSA=SVD→以下がトピックモデル 確率的にしよう→PLSI ベイズ的にしよう=訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ

    単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm
    sh19910711
    sh19910711 2025/11/27
    2012 / "同義語や多義語を捉えよう≒次元削減をしよう→LSA / 確率的にしよう→PLSI / ベイズ的にしよう=訓練データに登場しなかったものにも対応できる→LDA / LDAの元々の論文は推論に変分ベイズが出てきて難しい"
  • 大正期貴族院の数理的分析 - やわらかブログ

    はじめに 大正時代は近代日における議会政治の円熟期であった.明治維新に功ある元老の影響力が減少した一方,政友会・憲政党 (同志会) をはじめとする政党勢力が台頭した.初の格的政党内閣を率いた原敬が活躍したのもこの時代である. 大正期の政治に大きな役割を果たしたのは主に衆議院であったが,一方の貴族院が時流と完全に無関係であったわけではない.貴族院は,時には政党と対抗し,時には政党と妥協しつつ,議会政治に一定の役割を果たしてきた. さて,戦前の議会の特徴として,(乱暴な言い方をすれば) 議員間の結束度が現代より弱かったことがよく挙げられる.特に貴族院には政党・党派が (公式には) 存在せず,議員間のつながりは衆議院以上に曖昧であると言われる. 一方で,貴族院議員が完全に独立して,めいめい好き勝手に動いていたわけでもない.研究会をはじめとする院内会派も存在し,ゆるやかながらも一定の議員コミュ

    大正期貴族院の数理的分析 - やわらかブログ
    sh19910711
    sh19910711 2025/11/24
    2022 / "媒介中心性・次数中心性・PageRank のそれぞれで上位の議員にオーバーラップがほとんどない / 媒介中心性の高い議員と,集団的投票の中心に位置する次数中心性の高い議員は,互いに異なっていたことが分かる"
  • 個人でも何か出来たあの頃のNLP - yag's blog

    自分はNLPのどんな部分が好きだったんだろうと最近ふと思うことがある。こんなことを書くと懐古厨や老人だと思われるかも知れないが、最近のLLMの急速な発展を横目に、before-LLMのあの頃の自分を振り返ることがたまにある。 あの頃は、LLMのような単一のモデルであらゆるタスクが解けることはなくて、翻訳なら翻訳、固有表現抽出なら固有表現抽出のモデル構造があり、それ専用にデータを収集し整備していた。モデル構造の複雑さはあまりなく基的にはデータが全てであり、その元をたどれば機械学習のタスク設計のユニークさとそれを解くだけの専用のデータ量が鍵であった。だから、アカデミックで日々競われる王道のタスクやベンチマークが存在する一方、企業の中で独自に必要とされるタスクや、個人で利用するような用途の限られたモデルも作れる幅があった。機械学習モデルをサクッと作れるパッケージは存在したが、データ収集や前処理

    個人でも何か出来たあの頃のNLP - yag's blog
    sh19910711
    sh19910711 2024/04/19
    "あの頃: データ収集や前処理などある種の専門性が必要な時代 + 専門用語の辞書が作られテキストにもユニークな特性を持ったコーパスが存在し、独立したタスク設計やコミュニティが存在していた" 2023
  • Heapsの法則によるコーパス中の語彙数予測と評価実験 - シリコンの谷のゾンビ

    さて先日あることがきっかけでヒープスの法則 (Heaps' law) のことを思い出した.最初はヒープの法則と記憶していたのだけれど,'がHeapsの後ろにあるので,ヒープスの法則とかヒープス則と呼ぶのが正しいのだろう.ここではHeapsの法則と呼ぶことにする. Heapsの法則とはN語数から成るコーパスにおいて,総語彙数Dは以下の等式で表現できるというもの*1 ここで,kとβはコーパスによって定められた定数とする.英文コーパスではβは大体0.4-0.6になるらしい*2 この法則が示唆することは,コーパスサイズの増加に対して語彙は増え続けるというもの.まぁlogスケールにおいては直線なので,徐々にサチっていくのは確かであるが. Wikipediaでヒープスの法則の出展を調べてみると,どうやら1978年出版のHeaps著"Information Retrieval"[1]内で提案されたものら

    Heapsの法則によるコーパス中の語彙数予測と評価実験 - シリコンの谷のゾンビ
    sh19910711
    sh19910711 2024/04/09
    "情報検索が専門ですとかほざいている人間がHeaps本を読まないわけにはいかない / 自分が生まれる前に書かれた本に,現代の検索エンジンの基礎が書かれていると思うとゾクゾクした" 2012
  • 数学的バックグラウンドが無い人は理論を勉強しようと思っても厳しい - studylog/北の雲

    という事を痛切に悟りました。無理・無茶です。2015に出たLSTMとかCNNの教科書的の段階ならば、自分みたいな人間でも頑張って青読んでも何とか理解できました。でもそのレベルでは特に自然言語処理関係であまり実用的なモノは作れません。LSTMで言語モデル作って文章出力して「知性!(実際はワードサラダ)」とか言ってた牧歌的な時代はもうとうの昔に過ぎ去りました。数学的バックグラウンドが無いと最新論文見ても何がなんだかわかりません。論文を簡単に説明してくれているブログ記事を読んでも理解できなくなってきました。片手間では無理ですね。 理論を理解するのは諦めて、他の人の成果物(論文)を誰かがコード実装してくれてそれを使ってなんかやるっていう方向性に特化しないと全部中途半端になっちゃうでしょう。最低限CNNの畳み込み・フィルタとかDropoutとかそのレベルぐらいまでは理解しないと誰かが書いたコードす

    数学的バックグラウンドが無い人は理論を勉強しようと思っても厳しい - studylog/北の雲
    sh19910711
    sh19910711 2023/03/23
    2016 / "LSTMで言語モデル作って文章出力して「知性!(実際はワードサラダ)」とか言ってた牧歌的な時代 / 2006だが2007ぐらいに作られたweb2.0的なモノってもうほぼ淘汰された + 淘汰されちゃったモノ達は立派に隙間を埋めた"
  • OR(オペレーションズリサーチ)の歴史<経営数学<歴史<木暮仁

    参考文献 Wikipedia「オペレーションズ・リサーチ」 http://ja.wikipedia.org/wiki/オペレーションズ・リサーチ 「日オペレーションズ・リサーチ学会40年のあゆみ」 http://www.orsj.or.jp/~wiki/shiryou/3.html 「日オペレーションズ・リサーチ学会40年のあゆみ」 http://www.orsj.or.jp/~wiki/shiryou/3.html G.B.DantzigLINEAR PROGRAMMING」 http://www2.informs.org/History/dantzig/LinearProgramming_article.pdf ダンチッヒによる線形計画法の回顧 サイトの関連ページ 「OR(オペレーションズ・リサーチ)」OR技法の解説 「情報検索系システム」データマイニングなどの解説 ORの年表

    sh19910711
    sh19910711 2022/11/23
    "1995年に W.H.Inmon がデータウェアハウスに関する3部作を著したことから急速に発展 / リレーショナルデータベースの発案者である E.F.Codd は、データウェアハウスのような分析を主とする処理を OLAP と名付け"
  • RIP Theano - 開発中止のアナウンスを受けて - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Deep Learning Framework の先駆け,"Theano" の開発中止が発表されました. MILA and the future of Theano Dear users and developers, After almost ten years of development, we have the regret to announce that we will put an end to our Theano development after the 1.0 release, which is due in th

    RIP Theano - 開発中止のアナウンスを受けて - Qiita
    sh19910711
    sh19910711 2022/09/26
    2017 / "Deep Learning Framework の先駆け,"Theano" の開発中止が発表 / 単なるDeep Learningのインプリメンテーション手段であっただけでなく,この界隈の研究者が各自のアイディアを交換するツールでもあった"
  • ディープラーニングフレームワーク開発競争に見る、ライブラリ国際競争の本質 - verilog書く人

    数ヶ月前、chainerがガラパゴスである、という文言をインターネットで見たchainer信者である私は衝撃だった。 だってchainerは公式ドキュメント全部英語じゃん! githubで全世界に公開してるじゃん! コードレビューだって英語でやってるじゃん! 英語google group作って質問答えてるじゃん! だが、言わんとするところもわからないわけではない。 例えば、githubのコントリビュータを見るとアクティブな開発者はほとんど日人だ。 Contributors to chainer/chainer · GitHub 雑に言えば日人が開発して、日人が使って、日人が質問して、日人が答えているのである。 chainerを使って研究している海外のグループもあるし、例外はあるが、例えばtensorflowやMXNetPytorchと比べると少ない。(最近は徐々に増えてるけど

    ディープラーニングフレームワーク開発競争に見る、ライブラリ国際競争の本質 - verilog書く人
    sh19910711
    sh19910711 2022/09/21
    2017 / "ライブラリがグローバルになるということは公式ドキュメントが英語になるということだけではないのかも / define by runがなんとかとか + それよりもサポートコミュニティが強固であることが必要"
  • Deep Learning with Python を読んだ

    TL;DR Deep Learning with Python を読んだ よく書かれているで、特に初学者〜中級者が Keras を使ってモデル構築ができるようになるには最適 扱っているトピック自体は他のと比べてそこまで変わっていないが、一つ一つの質は高い 個人的には Keras の実装の話などをもっとして欲しかった Keras 作者の Chollet 氏が書いた deep learning ということで、どんな内容なんだろうと思って読んでみた。 結論から言うととてもよく書けているで、対象読者は Keras を使って deep learning を始めたい(始めてみた)という人かと思う。 どんな経緯で出したかとかそういうのは全然知らないが、deep learning が使えるようになるための getting started となる決定版を書いたぞ、という印象を受けた。 自分としては

    Deep Learning with Python を読んだ
    sh19910711
    sh19910711 2022/09/15
    2018 / "LSTM が1997年考案なのになぜ deep learning が威力を発揮するまで長い時間が掛かったのか、という疑問に関しても、ハードウェアやデータやアルゴリズムという観点から説明がなされている"
  • 1960年代初めに開発された物語自動生成システム | スラド サイエンス

    現代ではコンピューターに物語を生成させるさまざまな試みが行われているが、1960年代初めに言語学者Joseph E. Grimes氏が開発したコンピューターによる物語自動生成システムについて、人からの聞き取りも含めた幅広い調査結果の論文を米カリフォルニア大学サンタクルーズ校のJames Ryan氏が発表している(論文、The Register)。 現在、最古の物語自動生成システムとして広く知られているのは1971年に報告された言語学者Sheldon Klein氏によるミステリー小説自動生成システムだが、Grimes氏は1960年または1961年の夏にメキシコ国立自治大学のIBM 650を使用して物語自動生成システムの開発を始めていたそうだ。システムは機械語で書かれていたが、のちに使用したIBM 1401(メキシコ国立自治大学のものと米オクラホマ大学のものを使用)ではFORTRANでプログ

    sh19910711
    sh19910711 2022/09/03
    2017 / "Grimes氏は1960年または1961年の夏にメキシコ国立自治大学のIBM 650を使用して物語自動生成システムの開発を始めていたそうだ / モンテカルロ法により選択した要素を組み合わせて自然言語による文を生成"
  • 三歩ひいてディープラーニングを見つめる

    COVID-19 (39) MMT (12) ゲーム (7) ジェンダー (192) ソフトウェア (136) デザイン (17) 医療 (132) 英語 (23) 科学 (165) 確率・統計 (155) 環境問題 (136) 企業 (73) 記事整理 (5) 技術 (256) 金融 (263) 軍事 (97) 携帯電話 (94) 芸術 (11) 言葉 (17) 広告 (34) 航空 (112) 災害 (19) 財政問題 (71) 資源 (72) 事故 (34) 写真 (16) 社会 (585) 書評 (221) 冗談 (40) 数学 (45) 政治 (445) 中国 (34) 朝鮮半島 (60) 動画 (135) 犯罪 (79) 批評 (974) 表現規制 (98) 歴史 (94) 労働問題 (95) ディープラーニングと言う言葉を目にした人は少なくないと思う。人工知能に分類される一つ

    三歩ひいてディープラーニングを見つめる
    sh19910711
    sh19910711 2022/06/19
    2016 / "機械学習: 学問分野としては1956年のダートマス大学での会議が始まり / 推論を作業に生かす必要があるので、別の工学的な発展が必要 / 業務の一部の代替にとどまって、言われているほど省力化にはならないかも"
  • 1988年

    1988年5月1日,私は PC-VAN の SIG SCIENCE(私が SIGOP をしていたところ) の第1ボード「オムニバス・ボード」(現「科学一般」)に次の書き込みをしました。 #1073/2867 オムニバス・ボード ★タイトル (SCIENCE ) 88/ 5/ 1 15:39 ( 49) LZSS法によるデータ圧縮プログラム/奥村 ★内容 依然ある雑誌にPascalで何かということで書いたのですが、その雑誌が休 刊中なので、TurboCで書き直したものをアップします。 特徴は、圧縮率が非常に良いことと、符号化が非常に遅いことです。2分木など を使えば符号化は1桁速くなりますが、LZSS法そのもののアルゴリズムをはっ きりさせるために、できるだけシンプルに作りました。符号化に時間がかかっても、 アップやダウンの電話代を考えれば、少しでも圧縮率の良いもののほうが良いとい う考え方

    sh19910711
    sh19910711 2022/05/27
    1988 / "PC-VAN のシステムは, 半角と全角を同じ行に混在させると行末部分が失われやすかった / 当時は Borland の Turbo Pascal が人気のコンパイラ / SIG SCIENCE は科学のフォーラムなのに, データ圧縮ばかりで燃えている状態"
  • ありがとう、Chainer。頼むぜPyTorch。 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 2019/12/5、PFNからChainerの開発を停止しPyTorchの開発に貢献するというアナウンスがありました。 Preferred Networks、深層学習の研究開発基盤をPyTorchに移行 オフィシャルな発表が出たことは衝撃的でしたが、心の中で「いつかはこうなるんじゃないか」という思いがあったのも事実です。さびしくはありつつも、決断にはベストな時期だったのではないかと思います。ここ最近は動的グラフをサポートしたTensorFlow 2.0の公開があり、機能的にほぼ差異がなくなった2大フレームワークの決戦がいよいよ始まる・・

    ありがとう、Chainer。頼むぜPyTorch。 - Qiita
    sh19910711
    sh19910711 2022/04/17
    "2019/12/5、PFNからChainerの開発を停止しPyTorchの開発に貢献するというアナウンスがありました / TensorFlow 2.0の公開があり、機能的にほぼ差異がなくなった2大フレームワークの決戦がいよいよ始まるという雰囲気"
  • 「階層型データベース」調べても基本概念以外ほとんど情報が出てこないです。製品名、解説サイト、使用している企業/システム、経験談等具体的な情報を教えてもらえませんか? - Quora

    sh19910711
    sh19910711 2021/09/12
    "IBMのIMSおよびその互換DBの日立AMD,富士通AIM / 全てメインフレームでしか動作しません / 階層構造のレコードを深さ優先検索で辿っていくGet Nextが基本 / 階層型DBと関係型DBでは天動説と地動説ぐらいの違いがあります"
  • 制御理論としての動的計画法 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに:冷戦と動的計画法 動的計画法とは何でしょうか? いきなりですが、日語版Wikipediaを引用します。 動的計画法 - Wikipedia 動的計画法(どうてきけいかくほう、英: Dynamic Programming, DP)は、計算機科学の分野において、アルゴリズムの分類の1つである。対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法を総称してこう呼ぶ。 おそらく、Qiitaを見る人の大半もこのような認識ではないでしょうか。 「あーなんかナップサック問題とか解くんでしょ? 表の数字を端

    制御理論としての動的計画法 - Qiita
    sh19910711
    sh19910711 2020/12/27
    "アメリカとソ連はお互いの国土に核ミサイルをぶち込むため、最適制御理論の開発に心血を注いだ / 西側ではベルマンの手によって「動的計画法」が、東側ではポントリャーギンの手によって「最大原理」が編み出された"
  • テトリミノの偏り補正から見るテトリスの歴史

    レトロゲーム勉強会#04 https://retrog.connpass.com/event/153204/ での発表資料です。資料公開にあたり、ゲームボーイ版テトリスの記述を中心に追記を行っています。

    テトリミノの偏り補正から見るテトリスの歴史
  • Log Structured Merge Tree

    1. Log structured merge trees store data in multiple levels with different storage speeds and costs, requiring data to periodically merge across levels. 2. This structure allows fast writes by storing new data in faster levels before merging to slower levels, and efficient reads by querying multiple levels and merging results. 3. The merging process involves loading, sorting, and rewriting levels

    Log Structured Merge Tree
  • 「機械学習の父」とは?

    最近、機械学習の勉強をするために、数多くの論文を読んでいます。それぞれの論文は10ページ前後ですが、必ずそのベースには過去の研究があり、それを理解せずには読みこなせない、という状況がしばしば生じます。そんな時には、その論文から引用されている過去の論文を読む必要がありますが、私のようにこの世界の新参者だと、そこでさらにそこで引用されている論文を読まなければいけなくなることもしばしばあります。 結構手間のかかる作業ですが、一昔前だったら図書館に行かなければ絶対に不可能だった作業が、ネットに接続したパソコンされあれば、どこからでも、かつ、効率良く出来てしまうのですから、文句を言う筋合いの話ではありません。 そうやって歴史を遡りながら勉強をしていると、一連の研究の流れ、のようなものが見えて来ます。 例えば、先週紹介した、「写真をゴッホの作品風にする手法」のベースになった論文「A Neural Al

  • 機械学習の歴史 - AI.doll

    WikipediaのTimeline of machine learningというページに機械学習歴史がまとめられた表があったので、あとから見返しやすいように全て日語にしてみた。 日語訳はガバガバかもしれないので心配な人は元ページを見てね。 ムムッってとこがあったらコメントで教えてほしい 年表 1763 ベイズの定理のベース トマス・ベイズ(Thomas Bayes)の著書, "An Essay towards solving a Problem in Doctorine of Chances"がベイズが死んだ2年後, 彼の友人により修正・編集され出版された. 1805 最小二乗 アドリアン=マリ・ルジャンドル(Adrien-Marie Legendre)が最小二乗(méthode des moindres carrés)について記述. 1812 ベイズの定理 ピエール=シモン・ラプ

    機械学習の歴史 - AI.doll
  • 企業における自然言語処理技術利用の最先端

    1. This document discusses the history and recent developments in natural language processing and deep learning. It covers seminal NLP papers from the 1990s through 2000s and the rise of neural network approaches for NLP from 2003 onward. 2. Recent years have seen increased research and investment in deep learning, with many large companies establishing AI labs in 2012-2014 to focus on neural netw

    企業における自然言語処理技術利用の最先端