タグ

NLPに関するoinumeのブックマーク (6)

  • Google App Engine/Python で無料でAIサービスをホストする - Qiita

    前書き 今更GAE/pかよ! って感じですが、これがやっぱり良くできてるのですよ。 自分用に作ったAI論文検索ツールをGoogle App Engine/pythonでウェブサービス用にしてみたら結構さくっと動いてしまったので、またやる時のためにメモ書きとして残しておきます。 TL DR; Facebook fasttext を使ったディープラーニング論文の検索/クラスタリングツールをwebサービスにする手順。使ったものは fasttext, scikit-klearn, GAE/p, jinja2です。無料でまずはパパッと公開しようぜ! >> サービスサイトはこちら。コードはgithubに。 AI系論文のサイトがとても使いにくいポンコツ ってこと、ありますよね。CVPR2018という画像処理のトップ学会があります。ディープラーニングブームを盛り上げて来た学会で、東京では毎年論文読み会が開

    Google App Engine/Python で無料でAIサービスをホストする - Qiita
    oinume
    oinume 2018/06/28
    Facebook のfasttext
  • Cloud Natural Language | Google Cloud

    【Next Tokyo ’24】 8/1 - 2 パシフィコ横浜にて開催!最新技術やトレンド、顧客事例、専門家によるセッションなど、ビジネス変革を加速させるヒントが満載です。

    Cloud Natural Language | Google Cloud
    oinume
    oinume 2017/05/18
  • 新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

    JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。 これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。 速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。 導入方法 前提 OS X Yosemite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。 推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。 また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr

    新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
    oinume
    oinume 2016/10/15
  • WikipediaからのSolr用類義語辞書の自動生成

    6. 見出し語(=原型語) 類義語(=略語、日語版頭字語) 入国管理局 入管 文房具 文具 社員堂 社 国際連盟 国連 リポビタンD リポD ベルサイユのばら ベルばら 木村拓哉 キムタク Universal Serial Bus USB (日語における頭字語の例) Copyright (c) 2012 RONDHUIT Co.,Ltd. 6 7. 辞書型コーパス (見出し語,説明)× M 項目 設定ファイル <類義語知識の獲得> すべての見出し語に関し以下を ループ処理 Lucene/Solr インデックス 1. 類義語候補tBの同定 インデックス作成 2. 見出し語tAと類義語候補tBの 類似度S(tA, tB)の計算 3. 類似ならば出力 • • • 説見見 明出出 しし 語語 の 読 CSVファイル み Copyright (c) 2012 RONDHUIT Co.,Ltd

    WikipediaからのSolr用類義語辞書の自動生成
  • 文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)

    言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこでチュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less

    文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
    oinume
    oinume 2014/03/19
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 1