タグ

2014年2月22日のブックマーク (13件)

  • Mroonga/GroongaのMeCabトークナイザの全文検索性能について - Createfield

    はじめに この記事はGroonga Advent Calendar 2013の21日目の記事です。 Mroonga/Groongaでは、トークナイザにより文章が分割されて、分割されたトークン(語句)で転置インデックスが作成されます。 Mroonga/Groongaでは、様々な環境に柔軟に対応できるよう、多数のトークナイザが用意されています。 トークナイザの種別に応じて、分割ルールが異なり、転置インデックスの語句のサイズや、種別数および出現回数が異なります。 Ngramのサイズに応じたMroonga/Groongaの全文検索性能についてでは、NgramのNのサイズが大きいほど、良好な検索性能が得られることが判りました。特にTokenUnigramでは、顕著に検索性能が劣化しました。 MeCabトークナイザでは、形態素解析用辞書に応じて、様々なサイズで文章が分かち書きされます。たとえば、「今日

    Mroonga/GroongaのMeCabトークナイザの全文検索性能について - Createfield
  • Ngramのサイズに応じたMroonga/Groongaの全文検索性能について - Createfield

    はじめに この記事はGroonga Advent Calendar 2013の7日目の記事です。 Mroonga/Groongaでは、トークナイザにより文章が分かち書きされて、分割されたトークン(語句)で転置インデックスが作成されます。 Mroonga/Groongaでは、様々な環境に柔軟に対応できるよう、多数のトークナイザが用意されています。 Ngramトークナイザは、文章の意味合いを考慮せず文字列的に漏れの少ない検索を行うことができます。 Mecabトークナイザは、文章の意味合いを考慮して意味的なノイズの少ない検索を行うことができます。 トークナイザの種別に応じて、分かち書きルールが異なり、転置インデックスの語句のサイズや、種別数および出現回数が異なってきます。 Ngramトークナイザでは、Nのサイズが大きくなればなるほど、転置インデックスの語句のユニーク性が増し、転置インデックスの語

    Ngramのサイズに応じたMroonga/Groongaの全文検索性能について - Createfield
  • groonga/mroongaのトークナイザー(tokenizer)の挙動を追ってみる - Y-Ken Studio

    トークナイズ機能は、全文検索機能に無くてはならない機能です。 欧米圏であれば、最低限スペース区切りに対応していれば実用的に使えます。 しかし、中国語、日語、韓国語への対応をする場合には、CJK対応言われる実装が必要です。 汎用的な分かち書き(トークナイズ)方法としては、n-gram方式があり、uni-gramやbi-gram、tri-gramが有名です。 n-gramは汎用ではありますが、機械的に分解するが故に精度があまり高くなく、語彙の部分一致検索でしかありません。 そこで、品詞毎にトークナイズの出来る、MeCabやJumanといった形態素解析エンジンの出番となります。 mroongaでは、groonga-tokenizer-mecabというパッケージを追加することで、形態素解析エンジンのMeCabに対応します。 その他、Bigramの独自拡張にも対応しているようなので、それぞれどのよ

    groonga/mroongaのトークナイザー(tokenizer)の挙動を追ってみる - Y-Ken Studio
  • 放射線耐性 Quine (1 文字消しても動く Quine) - まめめも

    ref: https://github.com/mame/radiation-hardened-quine 放射線はメモリエラーを引き起こすらしいです。そんな放射線が飛び交う過酷な環境でも、できることなら Quine したい。 ということで、プログラム内の 1 文字をランダムに消しても元のプログラムを出力する、なんともロバストな Quine を書きました。*1 何を言っているかわからないと思いますが、こんなふうに動くものです。 # ランダムに 1 文字消すスクリプト $ cat mutate.rb src = $<.read src[rand(src.size), 1] = "" print src # rrquine.rb からランダムに 1 文字消したプログラムを生成する $ ruby mutate.rb rrquine.rb > broken.rb # 壊れたプログラムを実行する (

    放射線耐性 Quine (1 文字消しても動く Quine) - まめめも
    emonkak
    emonkak 2014/02/22
  • 2014-01-pre-Issaquah mailingの簡易レビュー Part 1

    今回は、論文の数が多いのと、ドワンゴに雇われているので、気でじっくりと論文を読んで解説しているし、ライブラリの論文も読み飛ばさずに読んでいるので、いつもより時間がかかる。そのため、いくつかのパートに分けて公開することにした。 今回はドラフトの更新はなし。 今回の新機能の提案の論文には、SG10のためのマクロ名の提案が目立つ。SG10というのは、Cプリプロセッサーによる機能テストのマクロ名を標準化しようという提案のStudy Groupだ。醜悪で将来廃止されるべきCプリプロセッサーに依存する機能をこれ以上増やさないで欲しいのだが。 N3824: make_array std::array<T>を返すmake_arrayの提案。以下のように使う。 // make_arrayの利用例 std::array<int, 3> a = std::make_array( 1, 2, 3 ) ; st

    emonkak
    emonkak 2014/02/22
  • でかい企業のOSSがApache License 2.0だと嬉しい理由 - 西尾泰和のはてなダイアリー

    「無期限で世界規模で非独占的で使用料無料で取り消し不能な特許ライセンスを付与します」という条項があるので使わせてもらう側が「わーい、便利なライブラリだー」と思って使っていたら後から「特許料払え!」と言われるという悲劇が起こらないことだって。 3. 特許ライセンスの付与 ライセンスの条項に従って、各コントリビューターはあなたに対し、成果物を作成したり、使用したり、販売したり、販売用に提供したり、インポートしたり、その他の方法で移転したりする、無期限で世界規模で非独占的で使用料無料で取り消し不能な(この項で明記したものは除く)特許ライセンスを付与します。ただし、このようなライセンスは、コントリビューターによってライセンス可能な特許申請のうち、当該コントリビューターのコントリビューションを単独または該当する成果物と組み合わせて用いることで必然的に侵害されるものにのみ適用されます。あなたが誰かに

    でかい企業のOSSがApache License 2.0だと嬉しい理由 - 西尾泰和のはてなダイアリー
  • 【内田真礼】まあやお姉さんのエロ?ネタ集【2013】

  • 論破プロジェクト

    さわやか韓国ースター慰安婦ついに国会デビュー+ヒラマサ橋崩壊・・ 今回もまた、韓国の現状を最新ニュースにてお送りいたします 今回のテーマは7つ。呆れて物も言えない、最初は但馬オサム氏の東スポの記事の慰安婦国会デビューへの Read More

    論破プロジェクト
  • 森元総理の発言報道に激怒して発言全文を読むと、ありゃりゃ???|More Access! More Fun

    よく、マスコミって言葉の端っこだけをつまんで炎上させるように流すと言われます。橋下さんなんてつまめる部分が非常に多いので、すぐに簡単に炎上させられるわけですが・・・ホリエモンとかも同類だな。 一昨日の報道・・・ 浅田選手は「大事なとき転ぶ」=森元首相 東京五輪・パラリンピック組織委員会の会長を務める森喜朗元首相は20日、福岡市内で講演し、ソチ冬季五輪のフィギュアスケート女子の浅田真央選手がショートプログラムで16位と出遅れたことについて「見事にひっくり返ってしまった。あの子、大事なときは必ず転ぶ」と述べた。配慮を欠く発言として批判も出そうだ。森氏は、浅田選手が団体戦に出場したことに関しても「負けると分かっている団体戦に出して恥をかかせることはなかった」と語った。 これだけ読むと森のクソジジイ、頑張ってる真央ちゃんになにを言うんだとなります。わたしもなりました。地方の政治家やらせていた馬鹿息

    森元総理の発言報道に激怒して発言全文を読むと、ありゃりゃ???|More Access! More Fun
  • Amazon.co.jp: 図解・内臓の進化 (ブルーバックス 1853): 岩堀修明: 本

    Amazon.co.jp: 図解・内臓の進化 (ブルーバックス 1853): 岩堀修明: 本
    emonkak
    emonkak 2014/02/22
  • インターネット白書ARCHIVES

    TIMEMAPとは TIMEMAPは、時間軸に着目した新方式の検索エンジンです。情報の新しい探し方や見方を提供します。 アーカイブ内の記事が時系列に整理された年表が作成でき、また連想検索による関連記事の閲覧も可能です。 詳しくはこちら→

    インターネット白書ARCHIVES
    emonkak
    emonkak 2014/02/22
  • マイクロソフト、クラウドのシステム構成図に使えるアイコン集を公開。Windows Azure以外にも一般的なシステム構成図で使えそう

    マイクロソフト、クラウドのシステム構成図に使えるアイコン集を公開。Windows Azure以外にも一般的なシステム構成図で使えそう マイクロソフトは、Windows Azure関連のシステム構成図を描くために使えるアイコン集「Windows Azure Symbol/Icon Set」を公開しました。こうしたアイコン集はすでにAmazonクラウドがすでに公開しており、多くの利用者に使われてます。 Windows Azure用に作られてはいますが、一般的なシステム構成図のためのアイコンも多く含んでいるため、さまざまな場面で利用できそうです。公開された多数のアイコンの中から、よく使われそうなアイコンを集めてみました。 データはPowerPoint形式、Visio形式、PNG形式で提供されています。GitHubやBitBucket、DropBoxなどのアイコンもあるので、デプロイ関連の図を描く

    マイクロソフト、クラウドのシステム構成図に使えるアイコン集を公開。Windows Azure以外にも一般的なシステム構成図で使えそう
  • 日立用語 拝承!!

    学歴IT エンジニア兼管理職です。ずっとリモートワーク中。 駆け出しはブラック企業で低年収でしたが、転職を繰り返して年収は 5 倍以上になりました。 年収はこれ以上増えても幸せ指数は増えませんので、趣味の時間を増やすため早期の半リタイアを考えています。 最高の配偶者、可愛い娘、ハンサムな息子と幸せな日々を送っています。 息子の将来の夢はゲーム実況者らしい。がんばれー^^。 毎々お世話になります 毎々お世話になっております 「~を頂きたく」「~致したく」「~をお願いしたく」「~を使用したく」で文章が終わる。 首記の件、~ について ~ たく 拝承 (「了解した旨」を伝える場合は「拝承」と書くだけで良い)。 拝復 (「返事ありがとよ」という意味)。 拝受 (「おk、添付ファイルは頂いたぞこのやろう」という意味)。 多謝 (「せんきゅー」程度の意)。 冶具 (なんでもかんでも「ぢぐ」にして