タグ

textに関するsbg3のブックマーク (40)

  • 大自然言語時代のための、文章要約 - Qiita

    さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフ そこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。 文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま

    大自然言語時代のための、文章要約 - Qiita
  • Word Mover's Distance を使って文の距離を計算する - Ahogrammer

    自然言語処理にとって文や文書間の類似度を計算するのは重要なタスクです。 類似文(書)の計算には、盗作の検知、関連記事の検索、質問応答における質問文の多様性の吸収といった様々な応用があります。 文書間の距離を計算する手法として Word Mover’s Distance があります。 Word Mover’s Distance は2015年に提案された手法です。Twitterのようなショートテキストに対して良い結果を示しているのが特徴です。 具体的には Word2vec や GloVe 等で得られた単語の分散表現を使って文書間の距離を計算します。 記事では、Word Mover’s Distance を試してみることを目的としています。 具体的には gensim という単語の分散表現や類似文書を計算できるPythonライブラリを用いて Word Mover’s Distance を計算しま

    Word Mover's Distance を使って文の距離を計算する - Ahogrammer
    sbg3
    sbg3 2017/04/26
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita

    少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。 サブワード ニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (NMT) は、LSTMによる符号化・復号化を組み合わせて翻訳を行います。 ↓↓↓↓↓↓↓ あなたの記事の内容 NMTのアーキテクチャは従来法と大きく異なりますが、入出力はこれまでと同様、なにかしらのトークン列です。どのような列でもよいのですが、慣習的に単語列が

    Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita
  • TFUG#3 RettyにおけるDeep Learningの自然言語処理への応用事例 - Speaker Deck

    Rettyにおいて文字単位で学習するCNNを用いて分かち書き不要な口コミ分類器を構築した事例について紹介します。

    TFUG#3 RettyにおけるDeep Learningの自然言語処理への応用事例 - Speaker Deck
  • 論文等、書き物を他人に見せる前のチェックリスト – 上田ブログ

    研究室で必要だと思ってチェックリスト化してみました。 2016/12/16加筆: 分野によって違うとかいろいろ言う人がいたので、GitHubにリストを移植しておきました。CCライセンスの下、ご自由に変更ください。あと、日語でもテクニカルライティングではパラグラフライティングが必須です。 学生さんへ: チェックリストに書いてあることがなんで必要なのか分からないときは、遠慮なく質問しましょう。また、チェックリストは互いに無駄な時間を作らないための工夫であり、規則ではないので、チェックリスト通りでなくてもどうしていいか分からない場合は積極的に質問しましょう。

  • MySQLとPostgreSQLと日本語全文検索3

    概要 このイベントは「MySQLとPostgreSQLと日語全文検索」の第3弾です。今回がこのシリーズの最終回です。 第1弾はMySQL・PostgreSQLの日語全文検索機能を使ったことがない人向けの内容で、第2弾は使ったことがある(触ってみたくらいで十分)人向けの内容でした。今回も第2弾と同様に使ったことがある人向けの内容です。 「MySQLとPostgreSQLと日語全文検索」は次の2つのことについて紹介するイベントです。 MySQLで日語全文検索する方法とその利用事例 PostgreSQLで日語全文検索する方法とその利用事例 ハッシュタグは「#mypgft」(MySQLとPostgreSQLとFull Text searchより)です。 過去のイベント: 2016-06-09: MySQLとPostgreSQLと日語全文検索2 2016-02-09: MySQLとPos

    MySQLとPostgreSQLと日本語全文検索3
  • GitHub - google/budou: Budou is an automatic organizer tool for beautiful line breaking in CJK (Chinese, Japanese, and Korean).

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - google/budou: Budou is an automatic organizer tool for beautiful line breaking in CJK (Chinese, Japanese, and Korean).
  • jQuery Tocible - jQuery製の自動生成型目次ライブラリ

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました Webページで長いコンテンツを書いた場合、あらかじめ目次が用意されます。しかし多くの目次は文頭にあり、途中から選ぶことはできません。また、見出しレベルを細かくすると目次だけで長くなってしまって可読性が落ちてしまいます。 そこで使ってみたいのがjQuery Tocibleです。ヘッダーを使って自動生成し、使いやすい目次を提供します。 jQuery Tocibleの使い方 コンテンツの右側に自動生成された目次が表示されます。 スクロールすると小見出しが表示されます。 さらにスクロール。 実際に使っているところです。ハイライトされる部分がスクロールに合わせて変化しているのが分かります。 jQuery Tocibleは自動生成された目次で、かつフローティング表示なのでコンテンツを読みつつ、

    jQuery Tocible - jQuery製の自動生成型目次ライブラリ
  • 講義まとめ:自然言語処理のための深層学習(CS224d) - Qiita

    CS224d(自然言語処理のための深層学習)はスタンフォード大のRichard Socherが2015年から教えている講義で、動画やスライドなどの講義資料と演習問題がウェブ上で無料で公開されています。 CS224d: Deep Learning for Natural Language Processing 会社の勉強会で週1回半年程度かけて講義動画と演習を終えたため、勉強したことを簡単にまとめてみたいと思います。 なぜ今なのか? 深層学習(Deep Learning)は2000年代後半のRBMやauto-encoderなどの教師なし学習から流行が始まりましたが、それらを教師あり学習の事前学習に使うアプローチは徐々に衰退し、2010年代前半には画像認識のための畳み込みネットワークがImageNetコンテストのおかげで爆発的に有名になりました。詳しくありませんが音声認識の分野でも既存の複雑な

    講義まとめ:自然言語処理のための深層学習(CS224d) - Qiita
  • Introducing DeepText: Facebook’s text understanding engine

    Text is a prevalent form of communication on Facebook. Understanding the various ways text is used on Facebook can help us improve people's experiences with our products, whether we're surfacing more of the content that people want to see or filtering out undesirable content like spam. With this goal in mind, we built DeepText, a deep learning-based text understanding engine that can understand wi

    Introducing DeepText: Facebook’s text understanding engine
  • Facebook、「DeepText」を発表--ディープラーニングに基づくテキスト理解エンジン

    Facebookは米国時間6月1日、「DeepText」を発表した。ディープラーニングに基づくこのツールは、同ソーシャルネットワーク上に存在する膨大な量の非構造化データの意味を理解するために同社が利用しているものである。 Facebookによると、このテキスト理解エンジンは、人間に近い正確さで1秒あたり1000件の投稿に含まれるテキストのコンテキストを理解することができ、20カ国語以上の言語に対応するという。 「Facebook上におけるテキストのさまざまな使用方法を理解することは、ユーザーが求めるコンテンツをさらに表示する上でも、スパムのような望ましくないコンテンツを除去する上でも、われわれの製品におけるユーザーのエクスペリエンスの向上につながる」と同社はブログ投稿で述べた。 DeepTextは、「Facebook Messenger」などの一部のアプリケーションで既に利用されている。例

    Facebook、「DeepText」を発表--ディープラーニングに基づくテキスト理解エンジン
  • 日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

    こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推

    日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
  • https://503dg.jp/mojigumi-nyu-mon/

  • 同人雑誌「月刊群雛 (GunSu)」の作り方

    1月28日に創刊した「月刊群雛 (GunSu) ~インディーズ作家を応援するマガジン~」も、早いもので3号目が発売開始されました。おかげさまでこれまでの号は多くの方々にご購入いただき、たくさんの感想を頂戴することができました。また、直接的、間接的な支援や、温かい応援の言葉もいただきました。この場をお借りして、みなさまに御礼申し上げます。ほんとうにありがとうございます。 さて、創刊の日に「マガジン航」へ寄稿させていただいた「同人雑誌「月刊群雛 (GunSu)」が目指すこと」では、この「月刊群雛」とはそもそもどういう雑誌なのか、どういう目的で作ったのか、どこを目指しているのか、参加条件はどうなっているのかといった概要を説明しました。そこで今回は、実際にどのような形で制作をしているかについてお話させて頂きます。 「月刊群雛」の制作は発売3週前から始まる 「月刊群雛」は、毎月最終火曜日が発売日です

  • jQuery Notebook - 見ているWebページをそのままに編集 MOONGIFT

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました まさにWYSIWYG! 一般的にCMSを構築した場合、訪問者の見る画面と管理者の画面は分かれています。管理上、その方が分かりやすいのですが、管理者にとっては編集した内容がどのように表示されるかが掴みづらいのが難点です。 そこで最近では訪問者の見たままにWebサイトを編集できるCMSが増えていますが、同じような機能を独自のシステムにも追加できるのがjQuery Notebookです。 jQuery Notebookの使い方 jQueryプラグインだけあって使い方は簡単です。 <div class="my-editor"></div> $(document).ready(function(){ $('.my-editor').notebook(); }); これで完了です。続いてデモを

    jQuery Notebook - 見ているWebページをそのままに編集 MOONGIFT
  • jQuery.dotdotdot·溢れるテキストの末尾処理はこれで! MOONGIFT

    システムでHTMLを出力する場合に良くあるのが想定よりも文字数が多くて溢れてしまうケースです。スタイルシートのオーバーフローで切り捨ててしまっても良いですが、突然文字が切れてしまうのは何となく違和感があります。 そこで用いるのが一定の文字数以上の場合、…で締めるというものですが、文字数と切れる場所が常にちょうど良いとは限りません(特に日語、英語が混ざった場合)。そこで使ってみたいのがjQuery.dotdotdotです。 jQuery.dotdotdotは指定した行数で文字数を区切ってくれます。同様のライブラリとしてはtrunk8が知られています。 左側が溢れた場合。右側はjQuery.dotdotdotによる補正後です。 …だけでなく、Read moreのように文字を指定することもできます。 HTMLにも対応しており、マークアップが適切に反映されています。単純にちょん切る訳ではありませ

    jQuery.dotdotdot·溢れるテキストの末尾処理はこれで! MOONGIFT
  • cssとは?使い方と学び方の基礎まとめ - プログラミング学習の窓口

    プログラミングの基礎であるhtmlを勉強していると、必ず出てくる言葉がcss。 現代のwebサービスにおいて、htmlcssはいわば兄弟のようなもので切っても切れない関係と言えるでしょう。 では、cssとはいったいどういうものなのでしょうか。 簡単に言うと、Webページの文字の色や大きさ、背景、配置といった見た目を設定する言語の一種です。 静的ページも動的ページも見た目の部分の多くはこのcssで制御されています。 もしcssを詳しく学ぶなら、独学もいいですがプログラミングスクールがおすすめです。費用は当然かかりますが、アドバイスがもらえることと、学習スケジュールが管理されるので、強制的に頑張れる仕組みが作れるのもメリットと言えるでしょう。 The post cssとは?使い方と学び方の基礎まとめ first appeared on プログラミング学習の窓口.

  • Web APIドキュメントを書く際に要チェック·iglo MOONGIFT

    igloはGo製のオープンソース・ソフトウェア(MIT License)です。 モバイルアプリやWebアプリケーションなどWeb APIの利用は多くなっています。そこで必要になるのが可読性の高いAPIドキュメントです。これから作成しようと思われている方にはigloをお勧めします。 元々はMarkdown風なドキュメントで、このようなHTMLファイルが生成されます。 レスポンスはクリックすると表示されます。 igloはAPI Blueprintの記法に沿っています。Markdownに似たフォーマットで、テキストファイルとしての可読性も高く、HTMLへ変換した後はさらに表示の制御がされていて必要な部分が追いかけやすくなっています。 どのようなプログラミング言語であってもAPIリファレンスは付き物です。大きなフレームワークや小さなクラスであってもそれは変わらないでしょう。APIドキュメントがない

    Web APIドキュメントを書く際に要チェック·iglo MOONGIFT
  • Qiitaのtextarea自動補完がOSSになりました - Qiita

    jQuery.textcomplete(デモ) GitHubのようなtextareaの補完機能を実装する - カーソル位置の取得 を書いたのも今は昔、いつか続きを書こう書こうと思いながら気がつけば5ヶ月が過ぎました なんか続きを書くのが面倒くさくなったのと、某日最大レシピ共有サイトの技術部長の人から「OSSにして欲しい」という要請を人伝に受け取ったこともあって、OSS化した次第です。 ライセンス MITライセンス 簡単な使い方 簡単に説明します。詳しくは README を読んでください。 まず jQuery.textcomplete は名前からも分かるように jQuery プラグインになっているので、別途 jQuery が必要です。 <script src="path/to/jquery.js"></script> <script src="path/to/jquery.textcomp

    Qiitaのtextarea自動補完がOSSになりました - Qiita