ハッカーズチャンプルー2014でお話してきた内容です。「データサイエンティスト(カナ)はオワコン」 http://hackers-champloo.org/program.htmlRead less
This document discusses Hadoop and its ecosystem. It covers Hadoop distributions like Cloudera and Amazon's Elastic MapReduce service. It also discusses running SQL-like queries using MapReduce and moving data between MySQL and Hadoop. Key algorithms like map and reduce functions are explained through examples. Different Hadoop deployment options on EC2 like standalone, Cloudera, and EMR are also
1. Word2vecの並列実行時の 学習速度の改善 岡崎 直観1,2 乾 健太郎1,3 1 東北大学大学院情報科学研究科 2 JST戦略的創造研究推進事業「さきがけ」 3 JST戦略的創造研究推進事業「CREST」 2014-07-04 Word2vecの並列実行時の学習速度の改善 1 3. ACL2014でもword2vec祭り • J. Andreas and D. Klein: How much do word embeddings encode about syntax? • M. Bansal, K. Gimpel, and K. Livescu: Tailoring Continuous Word Representations for Dependency Parsing • M. Baroni, G Dinu, and G Kruszewski: Don’t count,
15. ニューステキストに対する言語判定 (後述する langdetect による評価) 15 言語 データ件数 正解数(率) 内訳 af アフリカーンス語 200 199 (99.50%) en=1, af=199 ar アラビア語 200 200 (100.00%) ar=200 bg ブルガリア語 200 200 (100.00%) bg=200 bn ベンガル語 200 200 (100.00%) bn=200 cs チェコ語 200 200 (100.00%) cs=200 da デンマーク語 200 179 (89.50%) da=179, no=14, en=7 de ドイツ語 200 200 (100.00%) de=200 el ギリシア語 200 200 (100.00%) el=200 en 英語 200 200 (100.00%) en=200 es スペイン語 2
1. TypeScript 1.0 オーバービュー 井上 章 (いのうえ あきら) http://aka.ms/chack 日本マイクロソフト株式会社 デベロッパー エクスペリエンス & エバンジェリズム統括本部 エバンジェリスト 2. JavaScript と Web 技術のこれまでを振り返る TypeScript 登場の背景を知る TypeScript 1.0 の言語仕様と利用方法を学ぶ セッションのゴール Session Takeaways 8. HTML5 & CSS3 & JavaScript (function ($) { var offsetX = 20, offsetY = 20; $.widget('qs.infobox', { options: { dataUrl: '', maxItems: 10 }, _create: function () { var
2. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習 参考文献 Conditional Random Fields(CVPR2011 Tutorial) http://www.nowozin.net/sebastian/cvpr2011tutorial/slides/talk-crf.pdf Understanding Belief Propagation and Its Generalizations http://www.merl.com/papers/docs/TR2001-22.pdf
PPLサマースクール2016「商用Java処理系の研究開発」のパート2です. http://ppl.jssst.or.jp/index.php?ss2016 Java言語処理系の実装について詳説する.まずJava仮想マシンの概要について述べ,その主要な構成要素として,クラス管理とインタープリタ,ヒープ管理とガベージコレクション,スレッド管理と同期機構,JITコンパイラとの連携,などについて説明する.性能改善のために行った各種手法についても触れる. 他のパート 1 Javaの登場と発展 http://www.slideshare.net/Tamiya_Onodera/java-66081108 2 Java仮想マシンの実装技術 http://www.slideshare.net/KiyokuniKawachiya/java-66003903 3 Java Just-In-Timeコンパイラの
2014年3月の発表資料 2014年7月の資料 => http://www.slideshare.net/hiroosak/ca-36830962Read less
11. 通信システム リアルタイム通信が不要であればHTTP 送受信(POST)するデータ形式は? XML, JSON, MessagePack, Google Protocol Buffers, 独自シリアライズ 通信の頻度とデータ量、デシリアライズ処理の重 さ、開発&デバッグのやりやすさなどから検討(慣 れないうちはJSONオススメ) 11 12. 想定負荷 例)DAU(Daily Active Users) 10万 10万 x 20 Login/日= 200万 Login/日 = 23 Login/秒 3倍して 23 x 3 ≒ 70 Login/秒 これが日々のピーク Webサーバ1台で12程度さばけると仮定すると、Webサーバ6台 となる。(この時点はざっくり) 基本的にログインが最も重い(多くのデータを読み込み、送信 する必要がある)ので、まずはログインの負荷を目安に考える。
1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio
9. なぜ B-Tree の方が良いか? 大事な前提(若干雑) 1. ディスクの読み込み時間 >> 計算時間 2. ディスクである箇所を読み込むと周辺も含 めてそこそこ大きく読まれる 前提より • ディスクを読み込む回数だけを考える – 普段の議論:「O(ほげ) 時間」 – 今回の議論:「ディスクI/O 𝑂(ほげ) 回」 • 一度に読み込まれるサイズを 𝐵 とおく Cache-Oblivious データ構造入門 (@iwiwi) 10 10. データの探索にかかる I/O 回数 二分探索木 • 𝑂 log 𝑛 回 一回の I/O で 2 分岐 B-Tree • 𝑂 log 𝐵 𝑛 回 一回の I/O で Θ(𝐵) 分岐! ↑ノードのサイズをブロックサイズ 𝐵に合わせる B-Tree のほうが log 𝐵 倍ぐらい早い これは平気で 10 倍とかになるので大違い! Cac
1. いまさら聞けない “モデル” の話 DSIRNLP #5 (ゆるふわ枠) 2014/01/11 @スマートニュース株式会社 Koji Matsuda a.k.a @condiAonal ※発表スライドは後ほどslideshareに公開します 1 2. 自己紹介タイム • 学生でも教員でも無いですが,大学にお世話になっています • すずかけ論文読み会という勉強会で月イチくらいで発表して ます – 多摩川以西(?)の機械学習屋さん(ファン)で小規模に – 現在のところクローズド.発表資料の多くは参加者により公開されて います. • 求職中です!!!! 2 3. ことの始まり 2013年初夏:研究室(自然言語処理メイン)の メンバーと草津温泉に行きました.その車中にて. 学生 さん 先生から「モデルを考えよう」というアドバイスを頂くのです が,具体的に何をしたらいいのでしょう?
8. スパムフィルタ • 「スパムっぽい単語」があると スパム確率up • フィルタは言語ごとに必要 無料 バイアグラ オオアリクイ : free mastercard account : 日本語用フィルタ 英語用フィルタ ※ベイジアンフィルタなどを利用したモデルの場合。 他にルールベース(ホワイト&ブラックリスト)のアプローチなどもあります 12 9. 言語判定とは • 入力テキストの記述言語を推定 – Time fries like arrow → 英語 – Buona sera! → イタリア語 • 多くの言語処理での前提タスク – 言語モデルは言語ごとに構築 – 検索、分類、抽出、翻訳、…… • 言語判定を間違えると、後も全部こける! 13 10. ニューステキストに対する言語判定 (後述する langdetect による評価) af ar bg bn cs da de el en
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く