ttsurumiのブックマーク / 2017年11月6日

コスト効率の悪いLambdaアプリケーションの性質に関する考察 - ゆううきブログ

概要 Lambdaは100msの実行時間単位でオンデマンドに課金されるため、立ち上げっぱなしのEC2インスタンスよりも、料金が安くなる可能性があることが一般に知られている。しかし、以下の性質を満たすアプリケーションでは、EC2インスタンス上に構築したケースと比較して、Lambda上に構築したほうがコスト効率が悪くなるのではないかと考察してみた。 Lambda functionの実行時間のうち、ネットワークI/O時間が支配的である Lambda functionの実行終了を同期的に待たなければならない複数のレコードをLambda functionの引数に渡すことができない Lambdaの基本コスト構造まず、Lambdaのコスト構造を把握する。 Lambdaの料金表[1]によると、「functionに対する合計リクエスト数」と「functionの合計実行時間」に応じて料金が発生する。後

ttsurumi 2017/11/06

リンク

GitHub - recruit-tech/summpy

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

ttsurumi 2017/11/06

リンク

自動要約アルゴリズムLexRankを用いたECサイトの商品価値の要約 - Qiita

はじめに人工知能の研究・開発が近年ブームとなってきており，様々な分野で色々な成果が出ています．文書の自動要約技術も大きな枠組みではAIの分野で，専門的には自然言語処理という分野になります．文書要約は，新幹線の電光掲示板やWebニュースの見出しに用いられたりしますが，使い方はニュースのようなきっちりした文書に限らないと思います．本記事では，文書要約アルゴリズムLexRankを用いて，ECサイト(楽天)の商品レビューを要約することで素早く購入者の典型的なレビューを可視化することをやってみたいと思います． LexRankはErkanらがPageRankの概念を元に提案した文書要約のアルゴリズムになります．元論文: LexRank: Graph-based Lexical Centrality as Salience in Text Summarization 細かいところは省略しますが

ttsurumi 2017/11/06

リンク

確率的情報検索 Okapi BM25 についてまとめた - sonickun.log

ひょんなことで情報検索の知識が必要になったので，勉強したことを簡単にまとめておきます．情報検索とは，コンピュータを用いて大量のデータ群から目的に合致した物を取り出すことです． Okapi BM25は情報検索における文章中の単語の重み付けの手法の一つであり，他にもTF-IDFと言ったアルゴリズムがあります． Okapi BM25 - Wikipedia, the free encyclopedia 一般的にはTF-IDFよりも良い結果が得られると言われ，比較手法としてのベースラインになっています． Term Frequency (TF) 文書中において出現頻度の高い単語は重要であるという考え方です．ある単語Tiの文書Dj中における重みを考えると TF(i,j) = (文書Djにおける単語Tiの出現回数) / (文書Djのの総単語数) となります． Inverse Document Fre

ttsurumi 2017/11/06

リンク

gensim の tfidf で正規化（normalize）に苦しんだ話 - 俵言

最近先輩に勧められて python の gensim というライブラリを使い始めたのですが、試しに tfidf やってみたらどうやって正規化してるのかわからなかったから調べたって話です。かなり細かいことなのですが、同じことに苦しむ人がもしかしたらいるかもってことで記事にすることにしました。 gensim とは？ radimrehurek.com gensim は python で提供されている自然言語処理のライブラリで、tfidf や、LSI や LDA みたいなトピックモデル、はたまた word2vec なんかも手軽に計算できる便利なツールです。これ2008年からあるらしいんですけど知らなかった...これの存在知ってたら僕の卒論の実装もっと楽になった気がする(--;) まあ過去の話はさておき、このライブラリを試してみるべくまずはtfidfの計算をしようとしたわけです。 gensim を

ttsurumi 2017/11/06

リンク

pixivコミック作品のタグが自動生成されるまでの軌跡 - pixiv inside

「pixivコミック・ノベル」チームのエンジニアの pawa です。 pixivコミックはWebやアプリで漫画を試し読みできるサービスです。私が一番好きな pixivコミック作品は「温泉卓球☆コンパニオンズ！」です。 2017年7月4日、pixivコミック（Web版）の作品ページにタグ機能が追加されました。これらのタグは、作品説明文から自動的に抽出されたもので、コンピュータに計算させた「作品のキーワードとして妥当な順番」に並んでいます。今回は、このタグ機能が生まれるまでの物語をご紹介します。問題提起 pixivコミックに携わる者として、以前から、次の2点を問題だと感じていました。特定のジャンル（たとえばスポーツ）の漫画を探すのが難しい「あわせて読みたい」作品がなぜ「あわせて読みたい」のか分かりにくい私は、社会人になってから、大好きなスポーツが共通する人とスポーツをすることの果て

ttsurumi 2017/11/06

リンク

知らなくても困らない Javaクラスのバイトコードの読み方 - A Memorandum

クラスファイルの中身クラスファイルの構造 javap コマンド javap 出力の概要型とメソッドの読み方オペランドスタックコンストラクタの実行加算メソッド invoke 系命令条件判断 for ループまとめ普段使いでは困ることはないですが、昨今はバイトコードマニピュレーションによる黒魔術が謳歌しているため、知っていると役に立つ場合もあるバイトコードの最低限の読み方を説明します。クラスファイルの中身以下のような簡単なソースコードを考えましょう。 public class Class1 { public int add(int x, int y) { return x + y; } } このソースコードをコンパイルして作成された Class1.class の中身のダンプを見てみます。 $ hexdump -C Class1.class 00000000 ca fe ba

ttsurumi 2017/11/06

リンク

はてなブックマーク

タグ

2017年11月6日のブックマーク (7件)

コスト効率の悪いLambdaアプリケーションの性質に関する考察 - ゆううきブログ

GitHub - recruit-tech/summpy

自動要約アルゴリズムLexRankを用いたECサイトの商品価値の要約 - Qiita

確率的情報検索 Okapi BM25 についてまとめた - sonickun.log

gensim の tfidf で正規化（normalize）に苦しんだ話 - 俵言

pixivコミック作品のタグが自動生成されるまでの軌跡 - pixiv inside

知らなくても困らない Javaクラスのバイトコードの読み方 - A Memorandum

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス