[B! nlp] InoHiroのブックマーク

大規模言語モデルの驚異と脅威

2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを（Research Preview版ではあるが）無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転…

InoHiro 2023/03/28

nlp

リンク

文字のゆらぎをどう扱うか？ - Sansanにおける自然言語処理の活用/How to handle orthographical variants? - Speaker Deck

■イベント Sansan Builders Box 2018 https://jp.corp-sansan.com/sbb2018/ ■登壇概要タイトル：「文字のゆらぎをどう扱うか？ - Sansanにおける自然言語処理の活用」登壇者：Data Strategy & Operation Center R&Dグループ研究員奥田裕樹 ▼Sansan Builders Box https://buildersbox.corp-sansan.com/

InoHiro 2018/11/15

NLP

リンク

文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)

前置きというか概要今年のEM NLP2017で提案されていたSCDV(Sparse Composite Document Vectors)について、日本語のコーパス(livedoor ニュースコーパス)で検証しました。 20171114追記 fasttextベースのSCDVによるテキスト分類精度を追記しました。 SCDVのモチベーション (https://dheeraj7596.github.io/SDV/) いい感じのランディングページまで用意していてすげえなって思いました。論文は当然のようにarxivで公開されています。大正義。 https://arxiv.org/pdf/1612.06778.pdf HTMLで読みたい方はこちら。https://www.arxiv-vanity.com/papers/1612.06778/ これを読んでいる皆様に、「どうにかして文章のベクトルが欲しい

InoHiro 2017/12/31

NLP

リンク

CS124 - From Languages to Information (Winter 2024)

CS 124: From Languages to Information Dan Jurafsky Winter 2024, Tu/Th 3:00-4:20 in Hewlett 200 The online world has a vast array of unstructured information in the form of language and social networks. Learn how to make sense of it using neural networks and other machine learning tools, and how to interact with humans via language, from answering questions to giving advice, from regular expression

InoHiro 2017/11/09

NLP

リンク

朝日新聞単語ベクトル

朝日新聞メディアラボ・朝日新聞単語ベクトル本サイトは移転しました。5秒後にジャンプします。ジャンプしない場合は、以下のURLをクリックしてください。移転先のページ

InoHiro 2017/11/08

nlp
word2vec

リンク

NLP2017 NMT Tutorial「ゼロから始めるニューラルネットワーク機械翻訳」

2. 自己紹介 • 科学技術振興機構研究員 – 日中・中日機械翻訳実用化プロジェクト（2013-2017年度） • NLP若手の会2017年委員長 http://yans.anlp.jp – 3/14 YANS懇@秋葉原 • チケットまだあります！ – 8/27-29 (予定) NLP若手の会第12回シンポジウム@??? • スポンサー募集予定！ご検討ください！ • AMCダイヤモンド会員 2 3. 非常に参考になる資料など • そもそもディープラーニングって何？という方は – https://www.slideshare.net/yutakikuchi927/deep- learning-26647407 • 日本語いやだ！英語の資料がいい！という方は – https://sites.google.com/site/acl16nmt/ – https://arxiv.org/abs

InoHiro 2017/04/26

リンク

258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料

InoHiro 2017/03/06

NLP

リンク

文字列アルゴリズムの学びかた - Hatena Developer Blog

こんにちは！はてなアプリケーションエンジニアの id:takuya-a です。みなさんは、このような疑問をもったことはありませんか？ grep はどのように文字列を検索しているのか？ MeCab はどうやって辞書を高速にルックアップしているのか？パーサやコンパイラを作りたいけど、何から始めればいいのか？本稿では、「文字列アルゴリズムとはどんなものなのか？」「なぜ重要なのか？」「何を知っておくべきか？」「どうやって勉強すればいいのか？」といった疑問にお答えしていこうと思います。文字列アルゴリズムの意外な応用や、モチベーションを保ちやすい勉強のしかた、文字列アルゴリズムを勉強するために行った社内での取り組み、実装するときのコツといったトピックについても触れています。このエントリは、はてなエンジニアアドベントカレンダー2016の22日目の記事です。昨日は id:syou6162 さんに

InoHiro 2016/12/23

リンク

GitHub - ku-nlp/jumanpp: Juman++ (a Morphological Analyzer Toolkit)

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

InoHiro 2016/10/19

RNN Language Model

NLP

リンク

言語処理100本ノックをRubyでやったメモ

Interpretable Machine Learning 6.3 - Prototypes and Criticisms

InoHiro 2016/09/14

ruby
nlp

リンク

cookpadで学ぶ自然言語処理＆機械学習/internship2016

JavaScript: Past, Present, and Future - NDC Porto 2020

InoHiro 2016/09/08

リンク

ついに明かされる「りんな」の“脳内”　マイクロソフト、「女子高生AI」の自然言語処理アルゴリズムを公開

日本マイクロソフトは都内で開いた開発者向けイベント「de:code 2016」で、同社が独自に開発する“女子高生AI”「りんな」の自然言語処理アルゴリズムの詳細を語った。りんなのアルゴリズムのキモは「ランク付け」だという。自然な“女子高生らしさ”を生み出している秘密とは？りんなは2015年7月にLINEアカウントとして登場し、同年12月にはTwitterアカウントも開設。「マジで？！やば！」など“日本の女子高生”をイメージした受け答えができるのが特徴で、現在LINEとTwitterを合わせて340万人以上のユーザーと会話しているという。 Microsoftが開発しているAIとして「Cortana」がよく引き合いに出されるが、Cortanaのコンセプトが「Productivity」（生産性向上）であるのに対し、りんなのコンセプトは「Emotional」（感情的）。例えば、「明日晴れるかなぁ

InoHiro 2016/05/27

nlp

リンク

自然言語処理と深層学習の最先端

第4回 JustTechTalk の発表資料

InoHiro 2016/05/26

NLP

リンク

りんなシステム図 | 「りんな」が言葉を紡ぐ裏には、最新の自然言語処理技術があった - INTERNET Watch

InoHiro 2016/05/26

リンク

MeCab ソースコードリーディング私的メモ（形態素解析編） - あらびき日記

この記事は abicky.net の MeCab ソースコードリーディング私的メモ（形態素解析編）に移行しました

InoHiro 2016/05/16

NLP
Mecab

リンク

日本語解析ツール MeCab, CaboCha の紹介工藤拓 (PDF)

InoHiro 2016/05/16

nlp
Mecab

リンク

グーグル、オープンソースの自然言語フレームワーク「SyntaxNet」をリリース

Boaty McBoatface、こちらが「Parsey McParseface」だ。 Boaty McBoatfaceは結局、英政府の新しい極地調査船の名称にはならなかったが、それでも技術大手Googleは、それをもじった独自の名称を新たにオープンソース化された同社の英語構文解析器に採用することにした。より正確に言うと、Googleは米国時間5月12日、「TensorFlow」で実装されたオープンソースの同社自然言語フレームワーク「SyntaxNet」をリリースした。12日にリリースされたのは、新しいSyntaxNetモデルのトレーニングに必要なすべてのコードと、基本的にSyntaxNet用の英語プラグインであるParsey McParsefaceである。 Googleによると、SyntaxNetは、「Google Now」の音声認識機能など、同社の自然言語理解（Natural Lan

InoHiro 2016/05/13

リンク

Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source

Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

InoHiro 2016/05/13

リンク

日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推

InoHiro 2016/05/11

リンク

日本語Wikificationコーパス ver 0.1 (2016/03/10)

本コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。日本語に対するEntity Linking, Wikificationエンジンの開発や評価に利用されることを想定して構築されました。本コーパスの構築にあたってベースとした拡張固有表現タグ付きコーパスは、BCCWJのコアデータに対して、関根の拡張固有表現(Version 7.1)の境界情報を人手で付与したコーパスです。本コーパスでは、拡張固有表現タグ付きコーパスに付与されているENEのうち、以下のENEを除いたENEに、Wikipediaエントリを付与しています。時間表現 / 数値表現 / アドレス / 称号名_その他(「くん」「さん」「様」等) / 施設部分名（「二階」「南口」「202号室」等） BCCWJ

InoHiro 2016/04/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (39)

nlpに関するInoHiroのブックマーク (86)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス