[B! NLP] gfxのブックマーク

まともな簡体字・繁体字変換 - アスペ日記

まともな簡体字・繁体字変換（以下、簡繁変換）を作りました。*1 https://jfconv.netlify.app/ なぜ、まともと言うのか？それは、簡繁変換というのは一対多変換であって、それを正しくできていない（しようともしていない）変換というのはまともではないからです。まともでない簡繁変換例えば、日本語にもある単語で例を挙げると、「乾燥」「幹部」「干涉」というものがあります。簡体字では「乾」「幹」は「干」になるので、これらは「干燥」「干部」「干涉」と書かれます。これらを繁体字に変換すると、「乾燥」「幹部」「干涉」に戻ってほしいところです。それが、「簡体字繁体字変換」と検索して上位に出てくるサイトでこれらを変換しても、だいたいうまくいきません。あるサイトでは、「幹燥」「幹部」「幹涉」となります。「干→幹」という単純な置き換えしかしていないということです。また、別の

gfx 2021/07/08

リンク

pixivコミック作品のタグが自動生成されるまでの軌跡 - pixiv inside

「pixivコミック・ノベル」チームのエンジニアの pawa です。 pixivコミックはWebやアプリで漫画を試し読みできるサービスです。私が一番好きな pixivコミック作品は「温泉卓球☆コンパニオンズ！」です。 2017年7月4日、pixivコミック（Web版）の作品ページにタグ機能が追加されました。これらのタグは、作品説明文から自動的に抽出されたもので、コンピュータに計算させた「作品のキーワードとして妥当な順番」に並んでいます。今回は、このタグ機能が生まれるまでの物語をご紹介します。問題提起 pixivコミックに携わる者として、以前から、次の2点を問題だと感じていました。特定のジャンル（たとえばスポーツ）の漫画を探すのが難しい「あわせて読みたい」作品がなぜ「あわせて読みたい」のか分かりにくい私は、社会人になってから、大好きなスポーツが共通する人とスポーツをすることの果て

gfx 2017/09/01

おお、これは知見だ！！

NLP
tag

リンク

新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。導入方法前提 OS X Yosem ite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr

gfx 2016/10/13

NLP

リンク

Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記

こんにちは！日本語のウェブサイトを作っていると、日本語特有の問題にぶちあたることがありますよね。その中でも今回着目したいのは、日本語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日本語改行問題とは何かウェブブラウザで日本語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。たとえば、こんなかんじ。「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。英語では単語がスペースによって区切られますが、日本語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。そのため、英語では単語の途中で改行されることは通常ありませんが、日本語では単語の途中で改行されることがよくあります。本文ならともかく、見出しやキャッチ

gfx 2016/09/12

NLP
Japanese

リンク

単純なキーワードマッチングを超えたWikiPediaの知識を利用した自然言語処理を行いたい方へ - Qiita

キーワードマッチングを超えた知識を利用する価値人間間の会話では"Twitter"や"Facebook"がSNSだなと分かって会話ができたり、"ヤマハ"と言われても前後の文脈で"ヤマハ"がバイクの"ヤマハ"かピアノの"ヤマハ"か分かります。これは単語の背景に関連する知識情報を利用できているからです。この単語を知識情報と繋げる手法として近年の自然言語処理ではエンティティリンキングという手法がよく用いられています。コードを使ってすぐに確認したい方は下記でインストールしてください。コード： - https://github.com/SnowMasaya/WikiPedia_Entity_Vector_Get_Similarity_word 必要なデータ： - 分析したいデータ - Wikificatation - 日本語 Wikipedia エンティティベクトルユースケースこれを実際

gfx 2016/08/01

リンク

RECRUIT TECHNOLOGIES Member's blog 自動要約APIを作ったので公開します

リクルートテクノロジーズの大杉です。広島市立大学修士２回生の飯沼さんと一緒に、自然言語要約ツールを作りましたので、リクルートテクノロジーズのgithubアカウントにて公開します。このapiでは、入力した文章から、指定したパラメータ（行数など）に応じて、重要だと思われる文の抽出ができます。例えば、当ブログ当記事の直前のこの記事を3行で要約すると、以下のようになります。 1. “リクルートテクノロジーズでは、ここ最近、UXデザインの専門家とビッグデータの専門家が、協力してリクルートグループ内の各事業に入り、プロジェクトを推進していく事例が多くなっています。”, 2. “UXデザインでは、定性的なリサーチと定量的なアクセスログ解析を組み合わせて、ユーザ行動を可視化することは以前からやってきました。”, 3. “「成功体験とは何か」を定義して、きちんとデザインできるかが、UXデザインの大きな

gfx 2016/07/28

リンク

Statistical Semantic入門 ~分布仮説からword2vecまで~

1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio

gfx 2014/03/02

NLP

リンク

Cookpadのレシピを機械翻訳する · Naoki Orii's blog

前回のつくれぽ数の予測に引き続き、今回もCookpadネタです。皆さんご存知の通り、英語版Cookpad（https://en.cookpad.com）が8月5日にリリースされました。今のところ、英語圏のユーザがレシピを投稿するのではなく、どうやら日本語版サイトのレシピを翻訳しているみたいです：日本食の家庭料理のレシピ数では世界一を誇るクックパッドのレシピのなかから、海外の家庭でも手軽に作りやすい人気レシピを英語に翻訳していきます。（中略）オープン当初は約1,500品の掲載レシピ数からスタートし、早期に数万品まで増やしていく予定です (クックパッド英語版『COOKPAD』をリリース) そのため、Cookpadの日本語のレシピと英語のレシピは1対1の関係にあります。例えば「たまにはね♪塩鯖のトマト煮(^m^*)」を英語に翻訳したものは「Salted Mackerel, Simmered

gfx 2013/08/28

COOKPAD
NLP

リンク

電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術 : 404 Blog Not Found

2012年02月09日02:15 カテゴリ書評/画評/品評SciTech 電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術出版社より献本御礼。日本語入力を支える技術徳永拓之いい時代になったものだ。コンピューターで扱うのに最も難解な言語の一つである日本語の取り扱い方を、書籍で学べるなんて。しかしこうして本で読んでみると、改めてすごいことだと思う。この難問から、我々が逃げずに取り組んで来たことに。本書「日本語入力を支える技術」は、今や「出来て当たり前」となった電脳に対する日本語入力を中心に、電脳で日本語をどう扱うのか、どこまで扱えるのかを簡潔(succinct)にまとめた一冊。さすがPFIの中の人が著者だけあって、本書自体が簡潔データ構造で記述されているのではないかというぐらい中身の濃い一冊で、本 blogで取り上げる本の中では最もページ密度の高い本の一つである。

gfx 2012/02/09

NLP

リンク

なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか？ - あんちべ！

件名：主人がオオアリクイに殺されて1年が過ぎました。差出人：久光いきなりのメール失礼します。久光さやか、29歳の未亡人です。お互いのニーズに合致しそうだと思い、連絡してみました。自分のことを少し語ります。昨年の夏、わけあって主人を亡くしました。自分は…主人のことを…死ぬまで何も理解していなかったのがとても悔やまれます。主人はシンガポールに頻繁に旅行に向っていたのですが、それは遊びの為の旅行ではなかったのです。収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。一年が経過して、ようやく主人の死から立ち直ってきました。ですが、お恥ずかしい話ですが、毎日の孤独な夜に、身体の火照りが止まらなくなる時間も増えてきました。主人の残した財産は莫大な額です。つまり、謝礼は幾らでも出きますので、私の性欲を満たして欲しいのです。お返事を頂けましたら、もっと詳

gfx 2011/11/26

NLP
spam

リンク

Wikipedia:データベースダウンロード - Wikipedia

ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています（Wikipedia:著作権と利用規約を参照）。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。より詳しい解説はmeta:Data dumps（英語）を参照してください。全プロジェクトのダンプ：du

gfx 2011/06/14

リンク

livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語

gfx 2011/05/16

MeCab
NLP

リンク

多くない文

ある日本語を学んでいる外人から、こんな質問を受けた。本当に日本語は常に否定疑問文を論理的に答えるのか？　例えば、「多くない？」って聞かれたときはどう答えるんだ。はて、これはどうしたことか。私は今まで、日本語は常に否定疑問文を論理的に答えると考えていた。しかし、「多くない？」という疑問文に対しては、目的物が多くなかった場合、うん、多くないね。いや、多くないよ。と、両方答えることが可能であるし、目的物が、多い場合にも、やはり同様に、二種類の答え方が可能だ。はて、これはどうしたことだろう。常日頃、「英語はなんて非論理的な言語だ。日本語を見よ」と笑っていたのが、急に恥ずかしくなってきた。ところが、どうも思うに、「多くない？」という文章は、私の感覚からすると、肯定疑問文にも、否定疑問文にも、受け取れるのだ。事実、英語のように非論理的に答える場合、私は肯定疑問文だと解釈している。とすれば

gfx 2011/02/21

japanese
nlp

リンク

サーバ管理者日誌続・ゲタソックリ

昨日に引き続き、GETAssocをいじる。まずは、関連文書検索の置き換えを実装しようということで、TF-IDF算出のために、プレインテキストを生成していた部分に手を入れて、 stp[http://getassoc.cs.nii.ac.jp/?%E5%90%84%E7%A8%AE%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89%2Fstp] にかけるための、 itbファイル[http://getassoc.cs.nii.ac.jp/?itb%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E5%BD%A2%E5%BC%8F] を生成する様にした。実際の関連文書検索は、Perlモジュールの pnwam[http://getassoc.cs.nii.ac.jp/package/pnwam-1.1.0.tar.gz] を使って実装する。添付されて

gfx 2010/11/22

NLP
GETassoc

リンク

perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

すみません。タイトルはやや釣り気味です。類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi 　 https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。（冷）考え方と仕組み類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。で、今回考えたLuigiも実は近似型のインデッ

gfx 2010/11/22

リンク

入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と

gfx 2010/11/16

]

リンク

猫はうろうろ - yasuhisa's blog

にゃーにゃー、ではなくてw。情報学類(今名前変わったんだっけか)のほうで出ている自然言語処理の講義ほうで、形態素解析をするための「wikipedia:ビタビアルゴリズム(Viterbi algorithm)」というのを勉強しました(GWの前くらいに)。なんか全然分かっていなかったので、書いてみることにしました。アルゴリズムの種類としては動的計画法(Dynamic Programming)に入るので、アルゴリズムデザインのほうの勉強にもなるし(という合理化)。「猫はうろうろ」という文字列は「猫、はう、ろう、ろ」や「猫、は、うろうろ」など様々な形で形態素解析することができます。これをある基準で分解したいのですが、ここでは一番単純そうな単語数最小法と呼ばれる方法でやります。このやり方で「猫はうろうろ」と「家におくりました」を形態素解析すると結果は次のようになります。 /tmp% ruby v

gfx 2009/05/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

NLPに関するgfxのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス