タグ

2024年3月2日のブックマーク (11件)

  • 焼きなまし法で単語分割 - Negative/Positive Thinking

    はじめに オライリーの「入門自然言語処理」に、焼きなまし法を使った教師なし単語分割について書かれていたので、これを試す。 アプローチ 「出現単語数」+「のべ出現単語数」+「入力文の文字数(固定)」=目的関数を最小化 単語の区切り位置を温度によって変化させる(近傍探索) 温度をどんどん冷やしていき、それに伴い、変化させる区切り位置の数を減らす コード #include <iostream> #include <vector> #include <set> #include <cmath> //xorshift // 注意: longではなくint(32bit)にすべき unsigned long xor128(){ static unsigned long x=123456789, y=362436069, z=521288629, w=88675123; unsigned long t;

    焼きなまし法で単語分割 - Negative/Positive Thinking
    sh19910711
    sh19910711 2024/03/02
    "オライリーの「入門自然言語処理」 / 「出現単語数」+「のべ出現単語数」+「入力文の文字数(固定)」=目的関数を最小化 / 単語の区切り位置を温度によって変化させる / 変化させる区切り位置の数を減らす" 2012
  • 機械学習における実践ログTips - The jonki

    機械学習(深層学習)の開発では,一般的なプログラミングでの開発とは異なり,実行から結果の確認までのフィードバックまでの時間がとても長いです.機械学習初心者の私はその違いをあまり深く認識しておらず,当初はその特性の違いで困っていました.失敗をしていく上で,このやり方でログをまとめると便利だなと思うTipsが溜まったので共有したいと思います.師匠や長年機械学習をやってきたわけではないので,何を当たり前な..みたいなことを思う方もいらっしゃるかもしれませんが,あしからず.機械学習系のブログは理論解説が多く,実践的な開発ノウハウが少ない気がするので,これを機にこういうエントリが増えたらと思います.こういうやり方も便利だよ,というのがありましたら是非コメント欄にてフィードバック頂けると幸いです. なお今回の話は,ポッドキャストのrebuild.fmでのhigeponさんの回に深く同意する内容になって

    機械学習における実践ログTips - The jonki
    sh19910711
    sh19910711 2024/03/02
    "機械学習: 結果の確認までのフィードバックまでの時間がとても長い / 記憶は適当: 数分前の自分がやったことも理解できなかったり / 実行時引数(指定しなかった場合はデフォルトの引数も)をログに残しておく" 2018
  • あの日食べたプリッツの名前を僕はまだ知らない - 百三十五年丸ノ内線

    幼心に「プリッツはポッキーになれなかったかわいそうなお菓子である」と思っていた。 幼少期の子どもは皆そうであると私は信じているのだが、子どもはみんなチョコレートが大好きである。 チョコレート中毒患者、またはチョコレート欠乏症、チョコレートジャンキー、チョコレート禁断症状。 子どもはみんなチョコが好き。 私はそう信じている。 だから、「持つところ」だけのプリッツはお菓子としては2流品、3流品だと思っていた。 ポッキーは偉大である。 なにせ、チョコレートのお菓子である。 駄菓子屋で普段私が手に取る10円や20円の菓子と違って箱に入っている。 しかも価格は100円を越えている。 高級菓子である。 地域の子供会の夏祭りなどでもらえるお菓子セットにも入っていない、滅多にお目にかかれない。 親を訪ねてきた知らない大人達の手から偶然手に入る、珍味のようなものだった。 1ずつ大切にべてもよし。 豪勢に

    あの日食べたプリッツの名前を僕はまだ知らない - 百三十五年丸ノ内線
    sh19910711
    sh19910711 2024/03/02
    "「持つところ」だけのプリッツはお菓子としては2流品、3流品だと思っていた / スーパーマーケットや駄菓子屋でポッキーと肩を並べて売場に存在しているプリッツを、なぜか許せなかった" 2018
  • 本当に気持ちの良い動きとは? アニメーションにおける大切な基礎|SONICJAM

    こんにちは。SONICJAMデザイナー森田です。 みなさま、いかがお過ごしでしょうか。日は"動き"について、アニメーションの基礎をお話ししていこうと思います。 昨年、オープンソースライブラリ『Bodymovin』の登場でWebアニメーション表現の自由度が増したこともあり、AfterEffectsに手をつけ始めたデザイナーの方も多いはず。 実際に弊社でも、Bodymovinを使った案件事例が増えてきています。 アニメーションは、デザイナーであっても避けては通れない領域になりつつあります。 しかし、なんとなくAfterEffectsの操作を覚えても、なかなか自然な動きをつけることが難しいと感じる人も多いのではないでしょうか? そこで今回は『脱!カクカクアニメーション』 自然な動きをつけることにおいての重要な基礎をご紹介します。 MENU Step1.ものが動くときには、必ず伸縮運動が起きる!

    本当に気持ちの良い動きとは? アニメーションにおける大切な基礎|SONICJAM
    sh19910711
    sh19910711 2024/03/02
    "アニメーションは逆算: どのように帰結させるのか、動きによって世界がどのように変わったかを考えるのはとても重要 / 優れたアニメーターは動きの止め方やブレーキのかけ方がとても上手い" 2018
  • MMOの経済はレア本位制 - どうせポエムですよっと

    FF11のアカバン祭り。いやはや、すごいですねぇ。俺は、昔、突然運営会社が夜逃げして終了という、かなり稀有な体験をしましたがwwwwww あれ以来、まともにMMOにハマれなくなりましたよっと その関連で、MMORPGの経済についての議論がいくつかあった。 ベーシックインカムでネットゲームを変える - プログラマーの脳みそ ゲーム内通貨は仮想通貨じゃないのかjk - 消毒しましょ! http://d.hatena.ne.jp/godnee/20090124/1232813979 なぜMMORPGの設計で経済を考えるのか - プログラマーの脳みそ どれもに共通するのだけど、「通貨」の話が微妙にずれていないか?いや、俺は別に経済学が専門でもなんでもないのだが、通貨に関するいくつかの話をそれぞれに混同しているような気がする。 大きく分けて、二つあると思う。 価値の尺度、交換財としての「貨幣」(ミク

    MMOの経済はレア本位制 - どうせポエムですよっと
    sh19910711
    sh19910711 2024/03/02
    "ゲーム内通貨は「通貨」としての機能はしない / レアアイテムがリアルマネーに変わる + ゲーム内通貨にはほとんど興味は払わない / レアの流通量が適正である限り、MMORPG上の経済はそれほど狂っていないのでは" 2009
  • SEのための「どこでもやれる力」のつけ方 : 賢者の図書館 (Under Construction) : livedoor Blog(ブログ)

    著者が示しているフリーなエンジニアというのは、必ずしも会社を辞めてフリーランスになることのみを示しているわけではない。ここでは、「自由」という意味で自由なSE、つまり自分の進む道を自分で選択するSEのなり方が全編に渡って、著者の13年の会社員時代と独立経験から示されている。 書の構成は、新人SE時代(目安経験は2年目まで)、中堅SE時代(2年目から10年目)、ベテランSE時代(10年以上)の3部構成で示されている。そして、それぞれの期間に身につけるべきものが、4原則、3スキル、3基準として示されている。以下簡単に示しておく。 新人SE時代の目標は「社内でできるやつ」と思われるようになるで、その代表的な悩みは「仕事が面白くない!」となる。その解決策として以下の4原則が示されている。自分のために仕事する 顧客の悩みを考える 武器を持つ 与えられたことに全力で取り組む自分は6年目に突入している

    sh19910711
    sh19910711 2024/03/02
    "右手にハードウェア、データベース、ネットワークなどの基礎的な技術 / 左手の武器としては新しい技術がよいとあった。例としては検索技術 / 不満に感じているもので、それを解決できる技術が次の有望な技術" 2011
  • BigQuery における、ベクトル検索とベクトルインデックス機能

    はじめに こんにちは。クラウドエース データソリューション部所属の 髙根 です。 クラウドエースの データソリューション部 では、IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門としています。 データソリューション部の活動の一環として、Google Cloud が提供しているデータ領域のプロダクトについて、新規リリースをキャッチアップするための調査報告会を毎週実施しています。 新規リリースの中で、特に重要と考えるリリースをページ含め記事として公開しています。 今回ご紹介する内容は、2024年 1 月 31 日 にプレビュー段階となった BigQuery における ベクトル検索 と ベクトルインデックス の機能追加についてです。 BigQuery の概要 BigQuery は、Google Cloud

    BigQuery における、ベクトル検索とベクトルインデックス機能
    sh19910711
    sh19910711 2024/03/02
    patents-public-dataに埋め込みが入ってるのか / "CREATE VECTOR INDEX: インデックスが作成されたカラムのみが処理バイト数に含まれます / fraction_lists_to_search: 再現率と検索速度の間のトレードオフを制御"
  • 博士号と修士号の違いって、知への「謙虚さ」=「呪い」をかけられてるかどうか、にあると思うわけ。|高広伯彦(Ph.D. of Management Science)

    私、個人的に思ってるのが、修士号と博士号の違いって、どれだけ”知”や”先人の業績”にリスペクトできるかにあると思っていて、修士号よりも博士号のほうが、なんていうか「謙虚さ」が増すように思う。 博士号レベルで研究をするということは、自分の研究領域やその関連領域の”海”の広さへの自覚を持たされるということであって、そこでは自分の知らないこと・わかってないことがとんでもなくあるという認識を持つことになる。結果として、自分自身がいわゆる”巨人の方の上に立つ”ことしかせいぜいできないのだ、という謙虚さにつながる。 また、その研究の過程で行われる議論というものは、非常に哲学的なもの含めて、修士レベルより上位な・抽象的な議論が必要とされる場合がある。そりゃそうだ。言ってみれば、一般的な修士論文数分になることもあるわけで、つまり論文A, 論文B, 論文Cより概念的に上位のことを論じることができなければ、

    博士号と修士号の違いって、知への「謙虚さ」=「呪い」をかけられてるかどうか、にあると思うわけ。|高広伯彦(Ph.D. of Management Science)
    sh19910711
    sh19910711 2024/03/02
    "いわゆる”巨人の方の上に立つ”ことしかせいぜいできないのだ、という謙虚さ / 自分の研究領域に自信を持っていたとしても、同時に知らないことが多数あるという不安にも襲われる" 2023
  • CNNの精度向上手法のモデルサイズによる効果の違いを調べてみた - 終末 A.I.

    画像認識タスクはDeep Learningにより大幅に精度が向上してきた分野です。 1クラス500枚・100クラスの分類を行う必要がある、比較的難易度が高めのCIFAR-100ベンチマークでも、最新の手法であるGPipeやEfficientNetでは、テストセットにて90%を超えるAccuracyを達成しています。 paperswithcode.com しかし、これらの最高精度を叩き出すような手法はパラメーター数が600Mや、60Mと大量のパラメーターが必要になります。 このように、パラメーター数が多いモデルは、精度を向上させやすい分、推論や学習にパラメーター数に応じた時間が必要な問題があります。 一方で、多くのモデル構造では、パラメーター数が数Mにいくかいかないかの、より小さいモデルを構築することができます。 このようなモデルは、深いモデルに比べ精度面では劣るものの、処理速度は圧倒的に高

    CNNの精度向上手法のモデルサイズによる効果の違いを調べてみた - 終末 A.I.
    sh19910711
    sh19910711 2024/03/02
    "CIFAR-100: 1クラス500枚・100クラスの分類 + GPipeやEfficientNetでは、テストセットにて90%を超えるAccuracy / Squeeze and Excitation: 各Residual層の出力に、チャネル単位でAttentionのような働きをする重みを計算" 2019
  • PyTorch 2.0の新しいコンパイラで機械学習を速くする – Rest Term

    12/02にPyTorch 2.0のアナウンスがありました。まだnightly版(α版)で正式リリースされるのは2023年3月頃のようですが、機能自体は試すことができるので早速使ってみました。 12/05現在、絶賛検証中なので結論のようなものは書けませんが、全体の傾向としては概ね公称通りに高速化の効果が認められました。 精度が低下することはない 小さなモデルに対して、学習は速くならず、コンパイルオーバヘッドのためepochsが少ない場合は全体として遅くなる、GPU使用率はAMPだと僅かに低くなる傾向 大きなモデルに対して、学習は速くなり(約5 ~ 30%高速化)、デフォルト設定ではVRAM使用率は少し低くなる(5 ~ 10%弱程度) GPUだけでなくCPUも効率良く使えるケースだと特に高い効果が期待できる コンパイルオプションはいくつかあるけどデフォルトで使うのが一番良さそう あくまで後述

    PyTorch 2.0の新しいコンパイラで機械学習を速くする – Rest Term
    sh19910711
    sh19910711 2024/03/02
    "torch.compile: 公式ドキュメントはものすごく重厚長大で同じ事を何度も書いていましたが使い方はシンプル + GPUだけでなくCPUも効率良く使えるケースだと特に高い効果が期待できる" 2022
  • ディープラーニング ResNet のヒミツ - Bridge over troubled Techs.

    先日、当社と共同研究をしている庄野研のゼミに参加させてもらった。その日は論文の輪講の日だった。そこでM2のSさんがレクチャーしてくれた Deep Residual Learning の話が面白かったので、以下メモとして記してみる。 #なお、このメモはDLについての基的な仕組みは知っている人を前提に書いている。 ResNetとは? もの凄い勢いで活発に研究されている Deep Learning 系機械学習であるが、昨年 ILSVRC'2015 という学会のコンペで、一般物体認識で最高性能を叩き出した ResNet (Deep Residual Net)という学習・識別器がある。当時 Microsoft Research にいた Kaiming He 氏が開発した、152層!のニューラルネットである。その論文はこちら。 多層ネットワークの勾配消失/発散問題 昨今のDL研究で分かってきたDLの

    ディープラーニング ResNet のヒミツ - Bridge over troubled Techs.
    sh19910711
    sh19910711 2024/03/02
    "勾配消失: 層から層への伝播は掛け算の性質 + 学習が収束に近づくと入力から出力への変換精度がどんどん上がっていくため、入力と出力の差は極めて小さくなり、勾配を取りにくくなる" 2016