タグ

ブックマーク / d.hatena.ne.jp/nokuno (11)

  • x86/x64最適化勉強会3に参加・発表してきました #x86opti - nokunoの日記

    というわけでバイナリアンに混じって発表してきました.x86/x64最適化勉強会3 : ATND nokuno C++でMicro Thread / Fiber / Coroutineを実装してみた 〜 espを強引に入れ替える〜久しぶりにゲーム開発の話をしました.楽しかった!Implementing MicroThread / Coroutine via esp-swap for Danmaku Shooting Games View more presentations from Yoh Okuno takehiro_t 分岐予測時代のswitch-caseif文は頻度の低いものから検査するほうが速い場合がある? 青木和麻呂 暗号実装最適化 − 暗号実装屋の不毛な戦いCamellia暗号の開発者 @NTTno title LEA命令を使った最適化 GCD(最大公約数)の最適化 herum

    fcicq
    fcicq 2012/04/01
    have read 1,2,6. 分岐予測時代のswitch-case: http://www.initialt.org/takehiro-switch-case.PDF the difference of probability is the key.
  • 簡潔データ構造祭りの「ALSIP 2011」招待講演が素晴らしい件について - nokunoの日記

    香川県高松市にて大規模データ処理,特に今年は 簡潔データ構造に重きが置かれた国際会議ALSIP2011(Second Workshop on Algorithms for Large-Scale Information Processing in Knowledge Discovery)が開催されました.ALSIP 2011 私は参加していませんが,招待講演についてはスライドが公開されており,大変興味深い資料となっているので是非一読をお勧めします.定兼 邦彦 - 簡潔データ構造講義資料 - ReaD & Researchmap 文書解析のための簡潔データ構造 : Preferred Research id:echizen_tmさんがブログに参加報告を書かれていて非常に羨ましいです.でも私が行っても事前知識がなさすぎてついていけなかった可能性が高いので,精進します.ALSIP2011に参加し

    fcicq
    fcicq 2011/12/06
    have read all 3 presentations.
  • 全文検索エンジンgroongaを囲む夕べ2 #groonga - nokunoの日記

    groongaのイベントでVOYAGE GROUPさんに行って来ました!全文検索エンジンgroongaを囲む夕べ 2 #groonga : ATND「検索エンジンはなぜ見つけるのか」と著者の森大二郎さんのサインいただきました!Amazon.co.jp: 検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識: 森大二郎: groonga村 須藤さん 最新版リリースされました 今日の内容 もう使っていいのか知りたい 最新情報を知りたい アルゴリズムを知りたい 困っていることがある 安定してるの? してます! 実績あり groongaのほうがよいこと 即時更新 データをDBMSで一元管理できる 普通のSQLで使える 他との違い あとでベンチマーク結果を紹介 使い方の違い 質問タイムは懇親会で groonga 全文検索エンジンライブラリ 連携相手:MySQLなど libgr

    fcicq
    fcicq 2011/11/30
    hmm... interesting
  • 第1回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記

    @overlastさん主催のDSIRNLP(データ構造と情報検索と言語処理)勉強会に参加してきました.会場のミクシィさんには原宿時代に何度か足を運びましたが,渋谷に移ってからは初めて来て,会議室も広いし堂?も綺麗でいいなあ,と思いました.第1回 データ構造と情報検索と言語処理勉強会 #DSIRNLP : ATND TRIEにトライ!〜今日からはじめるTRIE入門〜 by @echizen_tm さんタイトルはあらため「これからのトライの話をしよ☆」Try for Trie 自己紹介 TRIEとは TRIEを作ってみた tsubomi - a Full-Text Search library using Compressed Suffix Array. - Google Project Hosting 海風に揺れる一輪のTRIEライブラリ erikaを作ってみたよ - EchizenBlo

    fcicq
    fcicq 2011/11/12
    reviewed. unfortunately, one is missing :(
  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

    fcicq
    fcicq 2011/10/27
    use SRILM to trim n-grams to 20% original.
  • 第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

    というわけで参加してきました。会場は数理システムさんです。第3回 さくさくテキストマイニング勉強会 : ATND 入門セッション(AntiBayesian)第三回さくさくテキストマイニング勉強会 入門セッション View more presentations from AntiBayesian 単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch ) TF*IDFの話 えっ私のテキストマイニング力低すぎ!? 例:大量のアンケートの自由回答文から重要な単語を抜き出す 例:エビオス嬢についての文章 TF*IDFとは TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数)) 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している なんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数

    fcicq
    fcicq 2011/06/04
    the tutorial is so handy :)
  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • 言語処理学会2日目 #nlp2011 - nokunoの日記

    F2-1 用言の新しい意味類型ー作用性用言と形状性用言ー (pp.560-563) ○中山匠, 山和英 (長岡技科大) 背景・目的 用言を意味的に分類したい 形状性用言、作用性用言 形態的な制約は考えない 表現長は考えない 関連研究 評判分析のために辞書を作成した研究 意味類型を定義:動作、変化、感覚・感情、形容 まとめ 用言を意味的に分類するため、形状性用言、作用性用言を定義した 意味的に分類祭の問題を解決するため、意味類型を定義した 意味類型をIPA評価体系日語辞書の動詞に付与した 付与した結果、動詞全体のうち14%が形状生用言になることが分かった もともと評判分析を行ないたかったが、辞書に問題があることに気づいた F2-2 混成型別サンプリングを用いた名詞句分割 (pp.564-567) ○村脇有吾, 黒橋禎夫 (京大) 例 フェルミエネルギー→フェルミ・エネルギー 抗甲状腺剤→

  • 言語処理学会3日目 #nlp2011 - nokunoの日記

    というわけで(自分にとっての)最終日。 D3-1 階層的モデルを用いた機械翻訳のためのフレーズアライメント (pp.794-797) ○Neubig, Graham (京大/NICT), 渡辺太郎, 隅田英一郎 (NICT), 森信介, 河原達也 (京大) 複数の粒度でフレーズアライメントを行う教師なしモデルを提案 ITG(Inversion Transduction Grammar)のみではフレーズの粒度が最小フレーズのみ ノンパラメトリック階層ベイズモデルで再帰的にフレーズテーブルを構築ヒューリスティックなフレーズ抽出が不要 精度は同程度 D3-2 直訳調の訳を生成する機械翻訳 (pp.798-801) ○後藤功雄, 隅田英一郎 (NICT) 格構造を使って直訳調の約を生成する手法を提案 特許文書で中程度の長さの文を対象とした日英翻訳で階層フレーズベースSMTと同程度の精度 D3-3

  • 言語処理学会1日目 #nlp2011 - nokunoの日記

    朝5時に起きて豊橋へ。新幹線の中で緊張のため?眠れず、午後からかなりしんどかっったので、飲み会には参加せずホテルへ(チェックインもしてなかったし)。 C1-1 シソーラスを利用した文書クラスタリングにおける次元圧縮アルゴリズムの性能評価 ○酒井将太, 新美礼彦 (未来大) 背景・目的 ベクトルう区間モデル シソーラスやオントロジーの利用 シソーラスを用いた文書クラスタリング 手法・理論 シソーラスを利用した特徴ベクトル 日語WordNet 特徴ベクトル構築 形態素解析を行い、前単語列を日語WordNetで検索 3種類のsynsetを特徴ベクトルとする 次元圧縮アルゴリズムの適用 LSI、主成分分析(PCA)、属性選択 実験 提案手法:日語WordNetを利用 既存手法:単語の出現頻度を利用 実験A:楽天でデータ公開されている商品データ 前処理:数字の正規化など 実験結果:シソーラスを

  • Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

    というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Barr) Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

  • 1