yukikaze_insideのブックマーク (121)

  • アスキーエキスパート

    アスキーエキスパート 国内の”知の最前線”から、変革の先の起こり得る未来を伝えるアスキーエキスパート。一般の企業や自治体など日のイノベーションの担い手となるメンバーを「ASCII EXPERT」として発掘していきます。 文●

    アスキーエキスパート
  • 第13羽 ひと目で尋常でないもふもふだと見抜いたよ - 人工言語処理入門

    この記事は ごちうさ住民 Advent Calendar 2014 - Adventar 2期1羽(つまり13羽)です. タイトル通り ひと目で(コンピュータに任せて)尋常じゃないもふもふ(ごちうさ住民が移住可能な動画)だと見抜こう と思います 唐突ですが,こちらが作ったサービスになります ごちうさ難民はどこへいったのか http://pyon.hi-king.me どんなサービス? 動画IDを入れるとその動画の難民救済力を数値化します. やっていることは,コメントの類似度をとっているのですが、技術詳細はまた別記事に書こうと思います. 2014夏アニメではどこが受け入れ先になってたっぽいのか さて,ごちうさ難民の受け入れ先を見つけるという問題だったので,ごちうさ一期が終わった直後の2014夏アニメの中から一番親和性の高いものを発表します. 映えある受け入れ先認定アニメは http://py

    第13羽 ひと目で尋常でないもふもふだと見抜いたよ - 人工言語処理入門
  • 49%の職業が消えゆく人工知能時代に知っておきたい「天職」3つの観点 | doda X キャリアコンパス

    doda X(旧:iX転職)は、パーソルキャリアが運営するハイクラス転職サービス。今すぐ転職しない方にも登録いただいています。 今の自分の市場価値を確かめてみましょう。 2015年12月に、野村総合研究所がプレスリリースした「10~20年後に国内労働人口の49%にあたる職業について、人工知能やロボットで代替される可能性が高いという推計」の試算結果は、多くのビジネスパーソンに衝撃を与え、大きな反響を巻き起こしました。 そこで『“未来を変える” プロジェクト』では、この試算に携わった野村総合研究所(以下、NRI)の寺田氏を情報提供者としてお招きし、この仮説をベースとして、「職業が代替される未来に置いて、これからの変化にどう挑むべきか」、20〜40代のビジネスパーソン約50人で議論しました。 導かれた結論と示唆は、「自分の職業が消えるか生き残るか」という観点ではなく、「そもそも自分の天職とは何か

    49%の職業が消えゆく人工知能時代に知っておきたい「天職」3つの観点 | doda X キャリアコンパス
  • Pythonコードを使用して、Pythonコードを書く方法を人工知能に学習させる | POSTD

    ここでは少しの間、自律走行車のことは忘れてください。物事は深刻になってきています。この記事では、独自のコードを書くマシンを作ることに的を絞って話を進めていきたいと思います。 GlaDoS Skynet Spynetを使用します。 具体的に言うと、Pythonのソースコードを入力することで、自分でコードを書くように、文字レベルでのLong Short Term Memoryニューラルネットワークを訓練していきます。この学習は、TheanoとLasagneを使って、EC2のGPUインスタンス上で起動させます。説明が曖昧かもしれませんが、分かりやすく説明できるように頑張ってみます。 この試みは、 こちらの素晴らしいブログ記事 に触発され行うに至りました。皆さんもぜひ読んでみてください。 私はディープラーニングのエキスパートではありませんし、TheanoやGPUコンピューティングを扱うのも初めてで

    Pythonコードを使用して、Pythonコードを書く方法を人工知能に学習させる | POSTD
  • pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

    scikit-learn(sklearn)の日語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て

    pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm
  • 「HOME'S」の物件・画像データセットを研究者に提供開始します! - LIFULL Creators Blog

    こんにちは、リッテルラボラトリーの清田です。 このたび、国立情報学研究所(NII)のご協力を得て、HOME'Sに掲載されている日全国の賃貸物件データ(約533万件)と、それに紐付く物件画像データ(約8300万件)を研究資源として無償提供することになりました。あわせて、画像処理分野などで注目を集めているdeep learningなどの機械学習アルゴリズムや、テキストマイニング処理などを簡単に試していただけるツールキット群も年内に公開予定です。 2015年11月24日より、NII情報学研究データリポジトリを通じてHOME'Sデータセットとして提供開始しました。ぜひ多くの研究者の方にデータセットを研究利用していただき、住まい探しを変革するようなイノベーションにつなげていただけると嬉しいです! 詳しい内容については、以下のイベントでお話しさせていただきました。 スライドファイルを公開しております

    「HOME'S」の物件・画像データセットを研究者に提供開始します! - LIFULL Creators Blog
  • Vol.31.No.2(2016/3)計算論的認知科学 | 人工知能学会 (The Japanese Society for Artificial Intelligence)

    ブックマークでは、近年のベイズ派の成果を中心に、人工知能の研究に役立ちそうな、計算論的認知科学の情報へのポインタを提供したい。 計算論的認知科学は認知の在り方を、計算方法やリソース制約を考慮したモデリング、シミュレーション、そして実験によって明らかにしようとする。この分野ではベイズ派を中心に、 Marr の三レベル(計算論、アルゴリズム、実装)で言う計算論的モデリング、すなわち「何を計算するか/すべきか」の研究に主なフォーカスがあり、これは計算論的神経科学や認知神経科学において「いかに計算されるか」を扱うアルゴリズムレベルの研究が盛んであるのと相補的であると言える。 知能の研究が認知や脳の研究に学ぶ必要性については議論の余地がある。人工の鳥よりも飛行機を作る方が有用な側面はかなり多く、知的システムが人間の認知や脳の制約を持つ必要はない。しかし他方で、たとえばディープラーニングの始祖である

  • Vol.29.No.4 (2014/07) Deep Learning | 人工知能学会 (The Japanese Society for Artificial Intelligence)

    中山浩太郎(東京大学 知の構造化センター) はじめに「Deep Learningに関するブックマークの記事を書いてほしい」 原稿依頼を受けたときはあまり深く考えず引き受けたのだが、いざ執筆する段階になって、学会誌という永続性の高い紙媒体でWebブックマークのような不確実性の高い(永続性が保証されない)情報を残す場合、どのようなスタイルで提供すれば読者に役に立つ情報になるのか考させられた。そもそもブックマークは往々にして単なるリンクの羅列であり、結局どのリンクが重要なのか、読者が判断するという形式だ。これではリンクを開いてがっかりする読者が多くなってしまうのではないかと危惧した。そのため、個人的に重要度の高いと思うものを絞り込んで、説明文とともに少し長めの紹介していくという形式を取りたい。これは、重要なものはリンクとしては消えにくいだろうという仮説と、重要かどうかの判断材料になればという期待

  • Vol.27 No.4 (2012/07) 確率密度比に基づく機械学習 (Machine Learning based on Density Ratio) – 人工知能学会 (The Japanese Society for Artificial Intelligence)

    Home » リソース » 私のブックマーク » Vol.27 No.4 (2012/07) 確率密度比に基づく機械学習 (Machine Learning based on Density Ratio) 私のブックマーク 確率密度比に基づく機械学習 (Machine Learning based on Density Ratio) 東京工業大学 大学院情報理工学研究科 計算工学専攻 山田 誠 (Makoto Yamada) URL: http://sugiyama-www.cs.titech.ac.jp/~yamada 1.はじめに パターン認識、ドメイン適応、外れ値検出、変化点検出、次元削減、因果推論等の様々な機械学習の問題が確率密度比(確率密度関数の比)の問題として定式化できることから、近年、確率密度比に基づいた機械学習の研究が機械学習およびデータマイニングの分野において大変注目され

  • NVIDIAのディープラーニングフォーラム2015から見えた国内企業の開発状況(4) 学習済みのネットワークを部品として流通させる取り組みを進めるベンチャー

    クロスコンパスのディープラーニング クロスコンパスは東京工業大学(東工大)発のベンチャーで、東工大の人工知能研究を商業化するために2011年10月に設立された会社である。しかし、2012年のILSVRCでのSupervisionの圧勝をみて、ディープラーニングの調査を始め2013年からは独自の実装を開始した。そして2014年になると、あちこちからディープラーニングのパイロットプロジェクトや研究開発の依頼が舞い込むようになり、ディープラーニングの仕事が増えてきたので、2015年4月10日にクロスコンパス・インテリジェンスを立ちあげたという。 今回のNVIDIAディープラーニングフォーラムにおいて、佐藤聡 CTOが同社の状況と技術について講演を行った。 同社は色々な開発を行っているのであるが、依頼元との契約で公表できないものが多く、今回の発表では、公開データを用いた物体認識と動作認識の実験結果

    NVIDIAのディープラーニングフォーラム2015から見えた国内企業の開発状況(4) 学習済みのネットワークを部品として流通させる取り組みを進めるベンチャー
  • プロセスを身につけないと、いつまでたっても書けない

    「書くスキル」とはそもそも何でしょうか。書くスキルの構成要素には3つあると考えています。 表現をストックしておく 1つは「表現のストック」です。自分の考えていることをどう表現するのかということです。それはボキャブラリーだったり、レトリック、効果的な表現だったりします。これらはストックするしかありません。 筆者の場合、を読んで「いいな」と思った文章は、小さなノートに抜き書きしてしばらく持ち歩いて、何度も読み返していました。すると、その表現が自分の中に染み込んでいきます。 類語辞典も活用しています。類語辞典を持っている人は多くないかもしれませんが、非常に便利です。類語辞典のスマホアプリもあります。そうしたアプリでは、自分の使おうとしている言葉を入力して検索すると、似たような言葉がざっと出てきます。筆者は『角川類語辞典』のアプリを使っています。 たとえば、「管理」というワードを検索すると、「支

  • Jupyter (iPython) Notebookを使って技術ノート環境を構築する方法 - MyEnigma

    PythonユーザのためのJupyter[実践]入門posted with カエレバ池内 孝啓,片柳 薫子,岩尾 エマ はるか,@driller 技術評論社 2017-09-09 Amazonで最安値を探す楽天市場で最安値を探すYahooショッピングで最安値を探す 目次 目次 はじめに Jupyter Notebook (iPython Notebook)とは? インストール Notebookデータのバックアップ&マルチアカウントアクセスする設定 Jupyter Notebookのショートカット コマンドモードのショートカット Editモードのショートカット セルを上から全部実行する Markdownで文章を入力する 数式を入力する 数式の計算をする 画像をドロップアンドドラッグで挿入できるようにする 目次を見出し情報から自動生成する レポートタイトルを入力する方法 PDFに出力する Ma

    Jupyter (iPython) Notebookを使って技術ノート環境を構築する方法 - MyEnigma
  • パッケージユーザーのための機械学習(12):Xgboost (eXtreme Gradient Boosting) - 六本木で働くデータサイエンティストのブログ

    今やKaggleやKDD cup以下名だたる機械学習コンペで絶大な人気を誇る分類器、Xgboost (eXtreme Gradient Boosting)。特にKaggleのHiggs Boson Machine Learning Challengeの優勝チームが駆使したことで有名になった感があるようで。 その実装ですが、C++ベースで高速化したものにRとPythonのラッパーをつけたものが既にGitHubで公開されています。 Rパッケージである{xgboost}のインストールについての注意事項は前回の記事に書いていますので、インストールの際はご参考にしていただければと。 さて。これだけ大人気の分類器となると国内外問わず色々な解説記事に溢れておりまして、例えば日語ブログでもこれだけの記事が既に出てます。 勾配ブースティングについてざっくりと説明する - About connecting

    パッケージユーザーのための機械学習(12):Xgboost (eXtreme Gradient Boosting) - 六本木で働くデータサイエンティストのブログ
  • Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと調べてみたらタイトルの件について言及してる記事があまり多くなかったので、ざっくり書いてみます。なお、この記事はid:shakezoさんの 実務でRandomForestを使ったときに聞かれたこと へのオマージュです。というか、実は僕もこの記事を読んでから「多分Rなら専用の関数なんかもあるだろうし簡単にできるはず」と思って以前よりも積極的にやるようになったのでした(笑)。 総論:何で機械学習するのにチューニングが必要なの? どんな機械学習でも、何かしらのチューニングパラメータを持っています。例えばソフトマージンSVMならマージンパラメータCがありますし、非線形ガウシアンカーネルSVMならさらにカーネルパラメータのσとかが入ります。SMO(逐次最大最適化)アルゴリズムを利用するのであれば、さらにさらにtoleranceとかも入ってきます。 しかも、ちょっといじってみればすぐ分かると思う

    Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に - 渋谷駅前で働くデータサイエンティストのブログ
  • Spark Streamingの概要と検証シナリオ

    はじめに ビッグデータ向けの処理基盤として「Apache Spark」(以降、Spark)が注目を集めています。Sparkは世界中で利用が進んでおり、アメリカのUberやAirbnb、イギリスのSpotifyといった企業から、CIAなどの政府機関まで広く利用されています。 Sparkにはストリームデータを処理する「Spark Streaming」というコンポーネントがあります。連載では、Spark Streamingとその他のOSSを組み合わせたストリームデータ処理システムを構築し、その性能検証結果を紹介していきます。 Sparkは複数のコンポーネントで構成されており、Spark Streamingはその1つです。Spark Streamingについて説明する前に、まずSparkおよびSparkと関連の深いHadoopについて説明します。 Hadoopとは 情報システムでは、日々多くの各

    Spark Streamingの概要と検証シナリオ
  • アナリティクスの難所“データの理解”とは

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます はじめに 前回、アナリティクスにおける「データ収集」について解説し、必要な情報を柔軟に収集するソフトウエアがOSSにより整備されつつあることを紹介した。第3回では、収集後のステップである「データ整理・加工」を中心に解説し、「関係性探索」まで言及したい。 アナリティクスのプロセスの中で、最も時間と労力を費やす作業が、「データ整理・加工」と「関係性探索」であり、一番の難所である。データ量と種類が増えれば、さらに作業量が増えてしまうステップである。難所と言われている所以は、以下の通りである。 ・利用するデータを全て確認・理解する必要がある データをシステムに取り込むということは、データ型を何かしら定義する必要があり、意図した型でない場合、デー

    アナリティクスの難所“データの理解”とは
  • moco(beta)'s backup: Apache Zeppelin で言語処理100本ノック第4章を可視化する

    言語処理100ノック 2015 を Scala で解く (第4章) の続き、というより大幅脱線エントリ。 gnuplot で描画してるところを、Zeppelin に置き換えて感触を試してみたメモです。 一応前置き 蛇足ですが Zeppelin とは何ぞという紹介を。 Apache Zeppelin は Apache Spark の Web ベースのインタラクティブ UI で、現在は Apache Incubator ステータスで開発が進められています。コンセプトは IPython Notebook (Jupyter) にインスパイアされていて、というよりそのまんまで、 クライアント(ブラウザ)からインタラクティブに Spark SQL や Streaming のコマンドを Spark クラスタに投げつつ、返ってきた実行結果を表に整形したり、グラフをプロットしたりします。またコマンドの実行

  • どうすればPythonをJuliaと同じくらい速く動かせるのか? : 様々なやり方で計算の高速化を図る | POSTD

    どうすればPythonJuliaと同じくらい速く動かせるのか? : 様々なやり方で計算の高速化を図る JuliaPython 科学技術計算には、Pythonなどの言語よりもJuliaを使った方がいいのでしょうか? http://julialang.org/ に載っているベンチマークを見ると、どうしてもそんな風に思ってしまいます。というのも、Pythonなどの高水準言語は、スピード面で大幅に劣っているのです。けれども、これは私が最初に感じた疑問ではありません。私が気になったのは、「Juliaのチームが書いたPythonのベンチマークは、Pythonに最適なものだったのか?」ということです。 こういった多言語の比較について、私の考えを述べましょう。まずベンチマークというのは、実行するタスクによって定義されるものです。よって、そのタスクを実行するための最適なコードを、各言語に精通した人々が最

    どうすればPythonをJuliaと同じくらい速く動かせるのか? : 様々なやり方で計算の高速化を図る | POSTD
  • Anaconda を利用した Python のインストール (Windows)

    Last update: 2016-09-20 サイトでは、Anaconda を利用してPythonのインストールを行う手順を説明します。 Anaconda (アナコンダ) とは Anaconda は、Continuum Analytics 社によって提供されている、Python 体に加え、科学技術数学エンジニアリング、データ分析など、よく利用される Python パッケージ(2016 年 2 月時点で 400 以上)を一括でインストール可能にしたパッケージです。面倒なセットアップ作業が効率よく行えるため、Python 開発者の間で広く利用されています。なお、Anaconda は商用目的にも利用可能です。 Python のバージョン 2016 年 2 月現在、Pythonには、2.x 系のバージョンと 3.x 系のバージョン(現時点では、Python 3.5)が存在します。Pyth

  • マイクロソフト、「Text Analytics API」を複数言語で利用可能に

    マイクロソフト、「Text Analytics API」を複数言語で利用可能に:非構造化データから構造化データへの変換を支援、日語にも対応 マイクロソフトは、非構造化データを分析して構造化データ抽出するAPIText Analytics API(プレビュー版)」を複数の言語で利用できるようアップデート。日語にも対応した。 米マイクロソフトは2016年6月21日(米国時間)、構造化データ抽出APIText Analytics API(プレビュー版)」を複数の言語で利用できるようアップデートしたと発表した。 Text Analytics APIは、アプリケーションに組み込むために視覚、音声、言語、知識といった知的情報の構造化を支援する「Cognitive Services」に含まれる、言語識別のためのAPI人工知能アルゴリズムを用いた自然言語処理を行い、一般的な文章(非構造化データ)

    マイクロソフト、「Text Analytics API」を複数言語で利用可能に