タグ

NLPに関するgfxのブックマーク (17)

  • まともな簡体字・繁体字変換 - アスペ日記

    まともな簡体字・繁体字変換(以下、簡繁変換)を作りました。*1 https://jfconv.netlify.app/ なぜ、 まともと言うのか? それは、簡繁変換というのは一対多変換であって、それを正しくできていない(しようともしていない)変換というのはまともではないからです。 まともでない簡繁変換 例えば、日語にもある単語で例を挙げると、「乾燥」「幹部」「干涉」というものがあります。 簡体字では「乾」「幹」は「干」になるので、これらは「干燥」「干部」「干涉」と書かれます。 これらを繁体字に変換すると、「乾燥」「幹部」「干涉」に戻ってほしいところです。 それが、「簡体字 繁体字 変換」と検索して上位に出てくるサイトでこれらを変換しても、だいたいうまくいきません。 あるサイトでは、「幹燥」「幹部」「幹涉」となります。「干→幹」という単純な置き換えしかしていないということです。 また、別の

    まともな簡体字・繁体字変換 - アスペ日記
  • pixivコミック作品のタグが自動生成されるまでの軌跡 - pixiv inside

    pixivコミック・ノベル」チームのエンジニアの pawa です。 pixivコミックはWebやアプリで漫画を試し読みできるサービスです。私が一番好きな pixivコミック作品は「温泉卓球☆コンパニオンズ!」です。 2017年7月4日、pixivコミック(Web版)の作品ページにタグ機能が追加されました。 これらのタグは、作品説明文から自動的に抽出されたもので、コンピュータに計算させた「作品のキーワードとして妥当な順番」に並んでいます。 今回は、このタグ機能が生まれるまでの物語をご紹介します。 問題提起 pixivコミックに携わる者として、以前から、次の2点を問題だと感じていました。 特定のジャンル(たとえばスポーツ)の漫画を探すのが難しい 「あわせて読みたい」作品がなぜ「あわせて読みたい」のか分かりにくい 私は、社会人になってから、大好きなスポーツが共通する人とスポーツをすることの果て

    pixivコミック作品のタグが自動生成されるまでの軌跡 - pixiv inside
    gfx
    gfx 2017/09/01
    おお、これは知見だ!!
  • 新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

    JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。 これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。 速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。 導入方法 前提 OS X Yosemite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。 推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。 また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr

    新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
    gfx
    gfx 2016/10/13
  • Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記

    こんにちは! 日語のウェブサイトを作っていると、日語特有の問題にぶちあたることがありますよね。 その中でも今回着目したいのは、日語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日語改行問題とは何か ウェブブラウザで日語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。 たとえば、こんなかんじ。 「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。 英語では単語がスペースによって区切られますが、日語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。 そのため、英語では単語の途中で改行されることは通常ありませんが、日語では単語の途中で改行されることがよくあります。 文ならともかく、見出しやキャッチ

    Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記
  • 単純なキーワードマッチングを超えたWikiPediaの知識を利用した自然言語処理を行いたい方へ - Qiita

    キーワードマッチングを超えた知識を利用する価値 人間間の会話では"Twitter"や"Facebook"がSNSだなと分かって会話ができたり、"ヤマハ"と言われても前後の文脈で"ヤマハ"がバイクの"ヤマハ"かピアノの"ヤマハ"か分かります。 これは単語の背景に関連する知識情報を利用できているからです。 この単語を知識情報と繋げる手法として近年の自然言語処理ではエンティティリンキングという手法がよく用いられています。 コードを使ってすぐに確認したい方は下記でインストールしてください。 コード: - https://github.com/SnowMasaya/WikiPedia_Entity_Vector_Get_Similarity_word 必要なデータ: - 分析したいデータ - Wikificatation - 日Wikipedia エンティティベクトル ユースケース これを実際

    単純なキーワードマッチングを超えたWikiPediaの知識を利用した自然言語処理を行いたい方へ - Qiita
    gfx
    gfx 2016/08/01
  • RECRUIT TECHNOLOGIES Member's blog 自動要約APIを作ったので公開します

    リクルートテクノロジーズの大杉です。 広島市立大学修士2回生の飯沼さんと一緒に、自然言語要約ツールを作りましたので、リクルートテクノロジーズのgithubアカウントにて公開します。このapiでは、入力した文章から、指定したパラメータ(行数など)に応じて、重要だと思われる文の抽出ができます。例えば、当ブログ当記事の直前のこの記事を3行で要約すると、以下のようになります。 1. “リクルートテクノロジーズでは、ここ最近、UXデザインの専門家とビッグデータの専門家が、協力してリクルートグループ内の各事業に入り、プロジェクトを推進していく事例が多くなっています。”, 2. “UXデザインでは、定性的なリサーチと定量的なアクセスログ解析を組み合わせて、ユーザ行動を可視化することは以前からやってきました。”, 3. “「成功体験とは何か」を定義して、きちんとデザインできるかが、UXデザインの大きな

    RECRUIT TECHNOLOGIES Member's blog 自動要約APIを作ったので公開します
  • Statistical Semantic入門 ~分布仮説からword2vecまで~

    1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio

    Statistical Semantic入門 ~分布仮説からword2vecまで~
    gfx
    gfx 2014/03/02
  • Cookpadのレシピを機械翻訳する · Naoki Orii's blog

    前回のつくれぽ数の予測に引き続き、今回もCookpadネタです。 皆さんご存知の通り、英語版Cookpad(https://en.cookpad.com)が8月5日にリリースされました。 今のところ、英語圏のユーザがレシピを投稿するのではなく、どうやら日語版サイトのレシピを翻訳しているみたいです: 日の家庭料理レシピ数では世界一を誇るクックパッドレシピのなかから、海外の家庭でも手軽に作りやすい人気レシピ英語に翻訳していきます。(中略)オープン当初は約1,500品の掲載レシピ数からスタートし、早期に数万品まで増やしていく予定です (クックパッド英語版『COOKPAD』をリリース) そのため、Cookpadの日語のレシピ英語レシピは1対1の関係にあります。例えば「たまにはね♪塩鯖のトマト煮(^m^*)」を英語に翻訳したものは「Salted Mackerel, Simmered

  • 電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術 : 404 Blog Not Found

    2012年02月09日02:15 カテゴリ書評/画評/品評SciTech 電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術 出版社より献御礼。 日本語入力を支える技術 徳永拓之 いい時代になったものだ。 コンピューターで扱うのに最も難解な言語の一つである日語の取り扱い方を、書籍で学べるなんて。 しかしこうしてで読んでみると、改めてすごいことだと思う。 この難問から、我々が逃げずに取り組んで来たことに。 書「日本語入力を支える技術」は、今や「出来て当たり前」となった電脳に対する日本語入力を中心に、電脳で日語をどう扱うのか、どこまで扱えるのかを簡潔(succinct)にまとめた一冊。さすがPFIの中の人が著者だけあって、書自体が簡潔データ構造で記述されているのではないかというぐらい中身の濃い一冊で、blogで取り上げるの中では最もページ密度の高いの一つである。

    電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術 : 404 Blog Not Found
    gfx
    gfx 2012/02/09
  • なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか? - あんちべ!

    件名: 主人がオオアリクイに殺されて1年が過ぎました。 差出人: 久光 いきなりのメール失礼します。 久光さやか、29歳の未亡人です。 お互いのニーズに合致しそうだと思い、連絡してみました。 自分のことを少し語ります。 昨年の夏、わけあって主人を亡くしました。 自分は…主人のことを…死ぬまで何も理解していなかったのが とても悔やまれます。 主人はシンガポールに頻繁に旅行に向っていたのですが、 それは遊びの為の旅行ではなかったのです。 収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。 一年が経過して、ようやく主人の死から立ち直ってきました。 ですが、お恥ずかしい話ですが、毎日の孤独な夜に、 身体の火照りが止まらなくなる時間も増えてきました。 主人の残した財産は莫大な額です。 つまり、謝礼は幾らでも出きますので、 私の性欲を満たして欲しいのです。 お返事を頂けましたら、もっと詳

    なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか? - あんちべ!
    gfx
    gfx 2011/11/26
  • Wikipedia:データベースダウンロード - Wikipedia

    ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。 より詳しい解説はmeta:Data dumps(英語)を参照してください。 全プロジェクトのダンプ:du

  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

    gfx
    gfx 2011/05/16
  • 多くない文

    ある日語を学んでいる外人から、こんな質問を受けた。 当に日語は常に否定疑問文を論理的に答えるのか? 例えば、「多くない?」って聞かれたときはどう答えるんだ。 はて、これはどうしたことか。私は今まで、日語は常に否定疑問文を論理的に答えると考えていた。しかし、「多くない?」という疑問文に対しては、目的物が多くなかった場合、 うん、多くないね。 いや、多くないよ。 と、両方答えることが可能であるし、目的物が、多い場合にも、やはり同様に、二種類の答え方が可能だ。 はて、これはどうしたことだろう。常日頃、「英語はなんて非論理的な言語だ。日語を見よ」と笑っていたのが、急に恥ずかしくなってきた。 ところが、どうも思うに、「多くない?」という文章は、私の感覚からすると、肯定疑問文にも、否定疑問文にも、受け取れるのだ。事実、英語のように非論理的に答える場合、私は肯定疑問文だと解釈している。とすれば

  • サーバ管理者日誌 続・ゲタソックリ

    昨日に引き続き、GETAssocをいじる。 まずは、関連文書検索の置き換えを実装しようということで、TF-IDF算出のために、プレインテキストを生成していた部分に手を入れて、 stp[http://getassoc.cs.nii.ac.jp/?%E5%90%84%E7%A8%AE%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89%2Fstp] にかけるための、 itbファイル[http://getassoc.cs.nii.ac.jp/?itb%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E5%BD%A2%E5%BC%8F] を生成する様にした。 実際の関連文書検索は、Perlモジュールの pnwam[http://getassoc.cs.nii.ac.jp/package/pnwam-1.1.0.tar.gz] を使って実装する。添付されて

  • perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

    すみません。タイトルはやや釣り気味です。 類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi   https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。(冷) 考え方と仕組み 類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。 昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。 そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。 で、今回考えたLuigiも実は近似型のインデッ

    perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary
  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

  • 猫はうろうろ - yasuhisa's blog

    にゃーにゃー、ではなくてw。情報学類(今名前変わったんだっけか)のほうで出ている自然言語処理の講義ほうで、形態素解析をするための「wikipedia:ビタビアルゴリズム(Viterbi algorithm)」というのを勉強しました(GWの前くらいに)。なんか全然分かっていなかったので、書いてみることにしました。アルゴリズムの種類としては動的計画法(Dynamic Programming)に入るので、アルゴリズムデザインのほうの勉強にもなるし(という合理化)。 「はうろうろ」という文字列は「、はう、ろう、ろ」や「、は、うろうろ」など様々な形で形態素解析することができます。これをある基準で分解したいのですが、ここでは一番単純そうな単語数最小法と呼ばれる方法でやります。 このやり方で「はうろうろ」と「家におくりました」を形態素解析すると結果は次のようになります。 /tmp% ruby v

    猫はうろうろ - yasuhisa's blog
  • 1