[B! 前処理] yukinoiのブックマーク

yukinoi id:yukinoi

前処理に関するyukinoiのブックマーク (2)

類似文字列検索ライブラリResemblaを公開しました - LINE ENGINEERING
LINEでClovaの開発をしている上村です。これはLINE Advent Calendar 2017の13日目の記事です。今日は文字列の話をします。はじめに与えられた文字列によく似たものを大きな文字列集合から探すということは、古典的でありふれていながら奥が深く難しい問題です。文字列の類似度を正確に見積もるには複雑な計算が必要ですが、膨大な量のコーパスが与えられたときも可能な限り高速に応答を返す必要があります。検索する文字列の性質をよく把握することも、品質のよい類似文字列検索を行うためには極めて大切です。ここで、今回考える問題の例を見てみます。この例では、1文字ずつ違いを見つけ出したり、単語単位で見たり、文全体が疑問文や否定文であるかどうかを調べ、それらを総合的に見ることで最終的な判断を下しています。文字だけを見た場合、1文字の違いによって全く違う単語になることは見つけられませんし
yukinoi 2017/12/29
前処理

類似度

NLP
リンク
前処理にディープラーニングを使う - にほんごのれんしゅう
前処理にディープラーニングを使う目的スクレイパーなどで集めた画像には、ターゲットとする画像以外必要ないケースが度々あるデータセットづくりと呼ばれる画像からノイズ画像を取り除くスクリーニングの作業の簡略化の必要性画像のスクリーニングを機械学習でやってしまおうという試みです前処理そのものにディープラーニングを投入する画像処理において、学習したい画像かどうかをスクリーニングすることは膨大なコストがかかるので、この作業自体を自動化したい今回はスクレイパーでいい加減にあつめたグラビア女優の画像7万枚超えを、手動でスクリーニングするのは極めて困難なので、VGG16を転移学習させてフィルタを作っていきます一枚10円で500枚のペア（positiveとnegative）のデータセットを知り合いのニートに作ってもらうニートの作成したデータセットをもとに、転移学習させてフィルタを構築システ
yukinoi 2017/04/22
deeplearning

前処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx