2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを(Research Preview版ではあるが)無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転…
maintained by Jun Wang Generally, collaborative filtering (CF) is any algorithm that filters information for a user based on a collection of user profiles. Users having similar profiles may share similar interests. For a user, information can be filtered in/out regarding to the behaviors of his or her similar users. Users profiles can be collected either explicitly or implicitly. One can explicitl
すべての評価関数に適用できる効率のよいアルゴリズムは存在しない。 “すべての評価関数”というのは上の例で言えば“すべての”ということである。 この定理を証明する前に、まずよく知られた探索アルゴリズム[5]を挙げて、探索とはそもそもどのようなものなのかを説明しよう。 探索アルゴリズム “探索”というのは問題の解の候補の中からよいものを探し出すことである(同語反復という感じだが)。ここでは次のように、評価関数が定義された問題を解く過程のことを探索と呼ぶことにする。 解の候補の有限集合を、その要素のひとつをとする。 評価関数はから有限集合への写像である(の要素のひとつをで表す)。 の最大値を与えるようなが問題の解で、それを見つけたいのである。 このような探索問題を解くためのアルゴリズムには大きく分けて次の2つがある。 アルゴリズムのように知識を用いて解を構成するもの(適切なヒューリスティックスが
人工知能という分野を築いたといっても過言ではんはない人Marvin Minskyがいま日本に来ていて、その講演を聞くどころか直接話す機会(ついでにノートにサインもしてもらった)まであったので、今頭に残ってる話をできるだけ書いておこうと思う。自分の英語力と理解力のフィルターを通っているので多少の間違いがあるかもしれない。 とりあえず会った印象を書いておく。ミンスキーさんは80を超えてるとは思えないほど背筋が伸びていて話し方もしっかりしていた。普通の話題をしていれば気さくで面白い人だけれど、議論をしたらぜんぜん勝てない・・・。パーセプトロン限界説で人工知能研究が下火になったってのもうなずけるような力をもった人だった。 長い間生きているだけあっていろいろと現状に不満も抱えているようだった。例としては次の三つ。 今の学校制度で、子供が難しい問題を長い時間考えるということがなくなったこと。 今の研究
逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
かなり面白い研究。ブログの記事間のリンクのうち、正しく情報伝搬を反映しているものを選別するタスク。そこで、記事と記事の間の類似度を測るのだが、そのとき、普通に単語ベクトルの類似度を使うのではなくて、LDAでトピック分布を推定してトピック分布の類似度を使用した方がよくなるんじゃないですか、という話。 確率分布間の近さを測るのには普通KLダイバージェンスを使うが、よく知られているようにKLダイバージェンスは非対称なので、これだと、コサイン類似度のような普通の類似度の意味では使えない。そこで、JSダイバージェンスというのを使う。KLダイバージェンスをと置くと、JSダイバージェンスは、で表わされる。JSダイバージェンスという言葉を初めて知った。勉強になりました。
NHKの新番組、追跡AtoZを見た。バンキシャのNHK版のような構成だが、NHKだから取材力が段違い。 今日のテーマは振り込み詐欺(オレオレ詐欺)。振り込め詐欺を行うためには、金を引き出せる他人名義の銀行口座がいる。この銀行口座がどのように供給されているのかに踏み込んでいる。結論から言えば、派遣切りやフリーターなどを中心とする生活困窮者が、犯罪組織に売り渡してしまう。その価格の安いこと安いこと。4口座が2万とか、5口座で6万とか。 さらに、銀行口座は子供でも作れるので、親が生活に困り、子供名義で銀行口座を作って売ってしまうということもよくあるらしい。口座を売ったのがばれると私文書偽造になり、前科が付く上、その口座の名義人は一生、銀行口座を作れなくなる。親が自分名義で口座を売ってしまったために、一生口座を作れなくなる可能性が高い子供が増加しているとか。 で、銀行側も手をこまねいているわけでは
【終了しました】第46回SWO研究会 発表募集 ■日時:2018年11月25日(日) 14:00-18:00 ■会場:淡路夢舞台国際会議場(地図) ■参加費:無料 ■発表申込しめきり:2018年10月22日(月) ■原稿提出しめきり:2018年11月19日(月) ■発表・参加募集:http://www.sigswo.org/papers/46cfp ■プログラム:http://www.sigswo.org/papers/46program
This webpage contains the code and other supporting material for the textbook "Machine Learning: An Algorithmic Perspective" by Stephen Marsland, published by CRC Press, part of the Taylor and Francis group. The first edition was published in 2009, and a revised and updated second edition is due out towards the end of 2014. The book is aimed at computer science and engineering undergraduates studi
Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。 そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。 というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。 ポイン
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く