タグ

自然言語処理に関するYMZのブックマーク (41)

  • 誰か増田の文章の癖から同一人物が書いたものを抽出するアルゴリズム作ってよ。

    誰か増田の文章の癖から同一人物が書いたものを抽出するアルゴリズム作ってよ。

    誰か増田の文章の癖から同一人物が書いたものを抽出するアルゴリズム作ってよ。
    YMZ
    YMZ 2013/05/09
    トラバが謎い。
  • UniDic/中古和文UniDic - 言語データベースとソフトウェア

    UniDic 2022/04/01 このページは更新は終了しています。UniDicの情報はこちらのページをご覧ください。 http://clrd.ninjal.ac.jp/unidic 2012/05/02 科研費報告書『和文系資料を対象とした形態素解析辞書の開発』(2012),『中古和文UniDic 短単位規程集』(2012)のPDFを公開しました。 形態素解析辞書 : 中古和文UniDic† UniDicの情報をまとめた新しいサイトがオープンしました。このページの内容は古い情報です。今後はこちらのページをご覧ください。 →https://clrd.ninjal.ac.jp/unidic/

  • 論文『音象徴の機械学習による再現:最強のポケモンの生成』まとめ | ぱろすけのメモ帳

    2012年3月に言語処理学会の年次大会で発表されましたこちらの論文、ここ最近ちょっとだけ自然言語処理、機械学習界隈で話題になっていたのですが、皆様ご存知でしょうか? 論文まとめサイトと化しつつある我がブログ、まあ取り上げますよね! ポケモン論文は、実のところ数多くあります。cinii で検索するとけっこうありますね。しかしながら理系的なアプローチは珍しく、卒業論文「ポケモンつなげるもん♪ ―最長しりとり問題を整数計画法で解く―」だけが突出して有名です。この論文は、停滞した情報系ポケモン論文業界に一石を投じるものであります。 この論文、最初タイトル見たときは「どこのFランだよwww」と思ったのですが、Last Author である荒牧英治先生は自分と同じ大学の自分と同じ建物にいらっしゃることが分かり、急に真顔になりました。 さてさて内容です。 タイトルは『音象徴の機械学習による再現:最強のポ

  • 文理な話。- IHARA Note

    最近はどうでもいい話はgoogle+に書いているのですが、この話をgoogle+に書くのもちょっとなあと思ったので、こっちに書きます。「Google 辞めました - アスペ日記」を読んでの感想です。 リンク先のエントリは、一言でいってしまえば会社と自分との方針が違ったのでgoogleを辞めたというただそれだけの話なんですが、面白かった。こんな私の文章なんか読んでいないでご一読ください。多分、8割くらいの人には面白いから。 この人の経歴がプロフィールのところに書かれていたので読んでみたのですが、これがすでに面白いです。京都大学の工学部を一年で辞めて、大阪外大でがっちり言語の勉強をしているんですね。その後、ワープロソフトを作る会社で働いて、それからもう一度語学の勉強をして、京都大学の自然言語処理の修士課程に入る。で、約一年前にgoogleに入って退社。 要するに、文系的な意味で言語の好きな、理

    文理な話。- IHARA Note
  • 自然言語処理こそが今世紀最後の錬金術 - やねうらおブログ(移転しました)

    日本語入力を支える技術 ~変わり続けるコンピュータと言葉の世界』(asin:4774149934)が発売された。PFI(株式会社Preferred Infrastructure)のなかの人が書いただ。 日本語入力を支える技術というを書きました http://d.hatena.ne.jp/tkng/20120203/1328248554 以下、どうでもいいことをつらつらと。 最近、ソーシャルゲーム界隈が賑わっているのでIT系の優秀な人材がそっちに大量に流れてしまっていて、IT業界自体の空洞化が起きようとしていて当に嘆かわしい限りである。私は自然言語処理こそが今世紀最後の錬金術だと思っているのだが、この分野はなかなか大きな進歩がないのが実状だ。 例えば、2chのまとめサイトが収益を生み出すのだから、機械によって自動的にどこかの記事のまとめ(要約etc..)を生成できれば、これが自動的に

    自然言語処理こそが今世紀最後の錬金術 - やねうらおブログ(移転しました)
  • 係り受け解析に文節の概念は必要か否か?

    Zelch @zzzelch 日語の係り受けが文節単位な件について。今やガラパゴスなんだがなぜか。京大コーパスが原因か。先行していて規模も大きいEDRコーパスは単語単位だった。言語資源の設計が言語処理を決めて来たと言って良いか思案中。機械学習屋さんは興味無かろうし。 2011-07-18 15:38:19 Zelch @zzzelch やっと明日の資料が出来た。言語屋さんにも機械学習屋さんにも色々できて楽しそうよ。単語単位の係り受け。文節単位はまあ、それはそれで良かったけど、不足というかサボってる感があるね。係り受けが交差したら困るとか、受身や使役の係り受けはどうすんねんとか。 2011-07-18 20:02:31 Taku Kudo @taku910 @zzzelch 文節単位が妥当だと思います。かな漢字変換も単語単位より文節単位のほうが日語の性質をよくモデル化できます。また単語単

    係り受け解析に文節の概念は必要か否か?
  • 博物館所蔵の芸術作品の画像:オープンアクセスの経験(4) / クリスティン・ケリー - 翻訳記事 - みんなの翻訳

    2018年05月30日 平素よりみんなの翻訳サイトをご利用いただき誠にありがとうございます。 この度、2018年05月30日 10:00より、サーバ移行に伴いサービスを一時停止させていただきます。 ※作業完了予定は未定となります。 完了時期が分かり次第、サイト上で連絡させていただきます。ご迷惑をお掛けし、申し訳ございませんが、しばらくお待ちください。

    YMZ
    YMZ 2011/03/16
    タグ付けしたい…けど今ちょっと時間がなくて申し訳ない。
  • 言語処理学会第17回年次大会(NLP2011)の現地情報

    Masato Hagiwara (萩原正人) @mhagiwara_ja ちなみに今年の言語処理学会は豊橋つまり超地元なので実家から行きます。土地勘の無い人にちょっとしたTips: 1. 名古屋からは通えません。2. おそらくホテルのキャパが足りないので早めに確保されることをオススメします。3. 豊橋駅のまわりには基的に何もありません。 2010-12-28 19:08:08 💉🐄 👨‍👩‍👦ぬーぼー✈️🌤️💉 @noobow 皆さんNLP2011に申し込まれているようなので開催校の卒業生として。大学は駅からバスで30分かかります。また、大学から徒歩圏内にホテルや事できるような場所はありません。駐車場は十分あります。可能なら車での来場がおすすめ。 2010-12-28 19:22:25

    言語処理学会第17回年次大会(NLP2011)の現地情報
  • Google 日本語入力のベータ版をアップデートしました。(0.13.521.0 / 0.13.537.1)

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google 日本語入力のベータ版をアップデートしました。(0.13.521.0 / 0.13.537.1)
    YMZ
    YMZ 2010/11/18
    「広く知られている誤字や誤用の一部がサジェストや変換候補に表示されなくなりました。」
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

    YMZ
    YMZ 2010/11/15
    「日本語にとって非常に重要な言語的構造の1つに文節がある。」なんだけど、日本語屋さんはさほど文節に興味がないように思える。
  • 紬:外国人名対訳辞書

    まえがき 辞書の編纂作業を100%自動化することはできるでしょうか? ここで想定しているのは、人名、地名、組織名、製品名など固有名詞の辞書や特定の分野・領域で使われる専門用語の辞書です。我々は、このような辞書を人間が編纂するのには限界があると考え、編纂作業を自動化する技術の開発に取り組んできました。 このウェブページで公開する外国人名対訳辞書は、我々が開発した技術で100%自動編纂された辞書です。この辞書は、「紬クローラー」と名付けられたシステムが、 約5か月に渡ってウェブから収集した人名対訳集合を、クリーニングすることによって作成されています。 まだまだ改良すべきところは多々ありますが、既存の辞書を凌駕する収録数と十分に使用に耐える品質に達したと判断し、広く公開することにしました。 自動編纂された辞書には、誤りが含まれています。辞書の利用は、使用者の責任において行なって下さい。

  • J-POPジェネレータ

    サービス概要 J-POPの歌詞を自動で生成するサービス。 ChatGPT時代には全くもって不要となった存在である! ↓自動生成したJ-POP歌詞 作詞:○○ ○○ 作曲:○○ ○○ どうしてこんなにも涙が溢れるの? 君が教えてくれたこと 会いたくて会いたくて 瞳を閉じると君がいる 今度いつ会えるかな ここにいるよ 君がいれば他に何もいらない ずっと傍にいて 会いたいけど会えなくて 何かを探して 君じゃなきゃダメなんだ 変わらない 胸が苦しくなる 君に会いたいよ 傍にいるよ 会いたいよ 会えますように 願うたび ずっと一緒に歩いていたい この気持ちに理由なんか無い つないだ手離さないで 〜 間奏 35秒 〜 思い浮かべる 桜舞い散る夜に どんな時でも君を守るから せつないよ 会いたい 君からもらったかけがえの無いモノ 瞳を閉じて 私だけを見て欲しい 胸が痛いよ もしも翼があったなら 素直にな

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改
  • KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア

    概要と特長 KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。 プログラミング不要、マウス操作で格的な分析 安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介(スクリーンショット) スクリーンショット集 [旧ページ:言葉・文書・可視化・他] KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチュートリアル ヘルプ 質問&エラー報告用の掲示板 ※投稿にはGitHubへの登録が必要(無料)[旧掲示板] よくある質問(FAQ) 開発者が語る公式セミナー & サポート:㈱SCREEN A

  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

    YMZ
    YMZ 2010/06/23
    「Baidu絵文字入りモバイルウェブコーパス(Baiduがウェブから抽出した絵文字を含む日本語データから作成したn㌘データ)を使用していただけます。」「六本木住み」はもう不自然の域を超えた気がする。
  • IBM東京基礎研、外国語文書を母国語で分析できるテキストマイニング技術を開発

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日IBMは6月10日、海外でビジネスを行う企業が、外国語で記述された文書データを1つの言語で分析することを可能にする「言語横断テキストマイニング技術」を開発したと発表した。 同技術を開発した日IBM東京基礎研究所のテキストマイニング研究チームは、文章からの情報抽出やマイニングのためのインデックス構造などの研究開発とともに、製造、金融、保険、放送、通信、小売など様々なビジネス分野への応用に対して、その業績が認められ、同日、社団法人人工知能学会より現場イノベーション賞を授与されている。 膨大な文書データを活用する技術には「検索」「分類・整理」「知識発見」という異なるレベルの技術が存在し、その目的も言語処理の内容も異なる。IBMのテキスト

    IBM東京基礎研、外国語文書を母国語で分析できるテキストマイニング技術を開発
  • 30分で理解する自然言語処理 まとめ - プログラマでありたい

    今まで何か日語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポート コーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いですね。併せて紹介しているxml2sqlも秀逸です。 特徴語抽出のあれこれ あれこれと言いつつ形態素解析Yahoo APIを使った特徴語抽出のみを紹介しています。手軽に出来るのが魅力です。 ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと Algorithm::NaiveBayesの使い方を簡単なサンプルで紹介いたしました。割と好評です。ベイジアンフィルターの人気の高さを垣間みれますね。 TermExtract Perlで出来る特徴語抽出 TermExtractという専門語抽出モジュールの紹介です。TermEx

    30分で理解する自然言語処理 まとめ - プログラマでありたい
  • Google 日本語入力のヒューリスティック - 武蔵野日記

    Google 日本語入力のソースコードが公開されたらしい。Mozc (もずく)という名前だそうで。オフィシャルブログだけではなく、Twitter でもものすごい勢いで伝播していたようだが、すごいいつきである。そして、公開されるやいなや読んだ人もたくさんいるようで、そちらもすごいなと思う。日本語入力エンジンのソース読む人なんて、ほとんどいないと思っていたのだが、逆にこんなに日本語入力って注目されるんだ、と嬉しい気持ちである(でも日本語入力エンジン作る人が増えたりはしないのかもしれない)。 そんな感じでいち早くソースコード読まれた @tkngさんがMozc(Google日本語入力)のコードを読んだメモを公開してくださった。ありがたい。変換アルゴリズムは、挙動から考えてそうだろうな、と思っていたのと同じだった。変換履歴を用いたリランキングをするところがなかなか難しいのだが、@tkng さんも手

    Google 日本語入力のヒューリスティック - 武蔵野日記
    YMZ
    YMZ 2010/05/17
    「統計ベースに一気に移行することで、このような知識が全部消えてしまうのは損失だと自分は考えていて、なんとかしてこのようなヒューリスティックと統計的な推論をうまく接合できないか」
  • このサイトについて - 文体診断ロゴーン

    一 文体診断ロゴーンについて 文体診断ロゴーンは、あなたの入力した文章を解析して、その文体の特徴を診断します。 診断では、文章の区切りは句読点だけで判断しています。改行などで文章を区切っている場合はご注意ください。また、文章が短かすぎる場合や、極度にくだけている場合は診断の信頼性が低い場合があります。目安として、適切な診断には、文体の一致指数の最大値が50以上であることが必要だと考えています。 まあ、しかし、そんなに難しく考えずとも、適当に文章を貼り付けていただければ、それなりに楽しんでいただけると思います。これをきっかけに名作に触れる機会が増えれば、作者として喜びとするところです。 二 使用したテキストについて テキストは64名の著者から各1作品を選びました。こちらにテキストの一覧をまとめてあります。著者の先生には、テキストを使用させていただいたこと、深く感謝いたします。 また、テキスト

    YMZ
    YMZ 2010/04/08
    文体診断ロゴーン