2019年3月5日のブックマーク (11件)

  • https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

  • 絵で理解するWord2vecの仕組み - Qiita

    皆さん、Word2vec の仕組みはご存知ですか? Word2vec は gensim や TensorFlow で簡単に試せるので使ったことのある方は多いと思います。しかし、仕組みまで理解している方はそう多くないのではないでしょうか。そもそも家の論文でも内部の詳細については詳しく解説しておらず、解説論文が書かれているくらいです。 記事では Word2vec のモデルの一つである Skip-Gram について絵を用いて説明し、概要を理解することを目指します。まずは Skip-Gram がどのようなモデルなのかについて説明します。 ※ 対象読者はニューラルネットワークの基礎を理解しているものとします。 どのようなモデルなのか? Skip-Gram はニューラルネットワークのモデルの一つです。Skip-Gram は2層のニューラルネットワークであり隠れ層は一つだけです。隣接する層のユニット

    絵で理解するWord2vecの仕組み - Qiita
  • 自動要約アルゴリズムLexRankを用いたECサイトの商品価値の要約 - Qiita

    はじめに 人工知能の研究・開発が近年ブームとなってきており,様々な分野で色々な成果が出ています. 文書の自動要約技術も大きな枠組みではAIの分野で,専門的には自然言語処理という分野になります. 文書要約は,新幹線の電光掲示板やWebニュースの見出しに用いられたりしますが,使い方はニュースのようなきっちりした文書に限らないと思います. 記事では,文書要約アルゴリズムLexRankを用いて,ECサイト(楽天)の商品レビューを要約することで素早く購入者の典型的なレビューを可視化することをやってみたいと思います. LexRankはErkanらがPageRankの概念を元に提案した文書要約のアルゴリズムになります. 元論文: LexRank: Graph-based Lexical Centrality as Salience in Text Summarization 細かいところは省略しますが

    自動要約アルゴリズムLexRankを用いたECサイトの商品価値の要約 - Qiita
  • 大自然言語時代のための、文章要約 - Qiita

    さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフ そこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。 文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま

    大自然言語時代のための、文章要約 - Qiita
    kaoh_siung
    kaoh_siung 2019/03/05
    “Multi-document summarization”
  • Seq2Seq+Attentionのその先へ - Qiita

    自然言語処理においてSequence-to-Sequenceモデル、そしてAttentionは大きな影響を与えてきました。 いまやSequence-to-Sequence + Attentionモデルは自然言語処理とディープラーニングを語る上では欠かせない存在となりつつあります。 近年の自然言語処理ではこのSequence-to-SequenceとAttentionをベースにしたモデルが多く提案されています。 この記事ではSequence-to-Sequenceをベースとしたモデルがどういった進化を遂げているかを歴史を追いながらまとめていこうと思います。 Sequence-to-Sequenceモデル (2014) Sequence-to-SequenceモデルはSequence to Sequence Learning with Neural Networksの論文で提案され、「Seq2

    Seq2Seq+Attentionのその先へ - Qiita
  • FrontPage - 東北大学 乾研究室 / Inui Lab, Tohoku University

    乾研究室のページは移動しました / Communication Science Laboratory (Inui Lab) website was moved † https://www.nlp.ecei.tohoku.ac.jp/

  • GitHub - sparql-book/sparql-book

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - sparql-book/sparql-book
  • LODで広がる�オープンデータ活用の可能性

    わかやまITカーニバル�(2015/12/12)での講演資料です. 初めての方むけの,LODの説明になっています. Read less

    LODで広がる�オープンデータ活用の可能性
  • GeoNLPプロジェクト - 地名情報基盤のためのオープンなソフトウェア・データ・サービス

    識別子の付与 地名語辞書に登録した地名語をLODに接続するためには、地名語に対してGeoLODシステム内でユニークなIDを付与しなければならない。GeoNLPの基方針は、辞書制作者が独自に制作した複数の地名語辞書を組み合わせて利用する、というものである。しかし、この方針を前提とすると、地名語辞書内でユニークなIDを与えても、システム全体でユニークなIDとなる保証はないという問題が生じる。 この問題の解決策としてよく用いられる方法は、フィールド内の文字列を連結した文字列をキーとし、それをハッシュ関数に与えて固定長のIDを生成するなど、フィールド内容を変換することでIDを生成する方法である。もしフィールド内の文字列にユニーク性があれば、この方法でもIDを生成できる。しかし、この方法はフィールド内容の修正に弱く、内容の微修正を越えて永続性のあるIDを生成する目的には適していない。 そこで2段階

  • SPARQLクエリ集

    的なSPARQLクエリすべてトリプルを取得select * where { ?s ?p ?o . } LIMIT 100 検索例(DBpedia日語版) 「東京都を主語(Subject)に含む」トリプルの述語(?p)と目的語(?o)を取得するselect distinct ?p ?o where { <http://ja.dbpedia.org/resource/東京都> ?p ?o . } LIMIT 100 検索例(DBpedia日語版) 「ラベルに“大阪”を含む」トリプルの主語(?s)select distinct ?s where { ?s <http://www.w3.org/2000/01/rdf-schema#label>? "大阪"@ja . }LIMIT 100 検索例(DBpedia日語版) 「ラベルが“大阪”と一致する」トリプルの主語(?s)につながっている

    SPARQLクエリ集
  • 「きちんと管理すれば企業は成長する」の迷信が企業を衰退させる〜ToMo指数の研究〜|Yasuhiro Yoshizawa

    事業が軌道に乗り、ここ21ヶ月連続で、毎月売上記録を更新してきたベンチャーA社は、ついに念願の上場を迎えた。 ところがその直後、毎月の売上が急激に鈍化。役員たちは、上場初年度の売上予測の下方修正といった事態をなんとしても避けたいため、事業を担うマーケティング部長、営業部長たちに、こう檄を飛ばす。 「もっとしっかりと分析を行って、何を改善すべきかレポートにまとめてくれ。そして、速やかに改善計画を立て、実行してほしい」 今振り返れば、このときまでが、A社の繁栄のピーク。 この号令を境に、事業を担うメンバーたちは、「今月は、お客さんへのリーチを20%回復させるためになんとかしなければ」「来訪したユーザが、うちのサイトで購入してくれる率を5%改善しよう」など、計画に基づいて打ち手を探るが、なぜか以前のようなインスピレーションも沸かなければ、ありきたりなアイデアばかりの繰り返しとなる。 一向に成長の

    「きちんと管理すれば企業は成長する」の迷信が企業を衰退させる〜ToMo指数の研究〜|Yasuhiro Yoshizawa