タグ

nlpに関するy_yanbeのブックマーク (16)

  • 自然言語処理(機械学習) vs エンジニア - 木曜不足

    1/28 に行われた第200回 NL研(情報処理学会の自然言語処理研究会)でのパネル討論会を @mamoruk さんが twitter で中継してくださってて、これが当にとてもおもしろかった。Togetter でのまとめがこちら。 NL研 #signl200 まとめ(その2) - Togetter 単語のいくつかは残念ながらわからないが(笑)、「自然言語処理も機械学習も、どちらのアカデミックの世界にも身を置いたことのない門外漢のエンジニア」という立場で普段考えていることといろいろオーバーラップしている部分、齟齬を起こしている部分があって、思い出してはこれを読み返している。 まだあれこれ思い悩んでいる部分でもあるので、多分まとまらないし、明日にはまた違うことを考えてるかもなんだけど、ちょっと書き散らかしてみよう。 @mamoruk: 中川先生「自然言語処理分野外の人は自然言語処理のことを知

    自然言語処理(機械学習) vs エンジニア - 木曜不足
    y_yanbe
    y_yanbe 2011/02/02
  • 言語処理学会第17回年次大会(NLP2011)ワークショップ 「自然言語処理における企業と大学と学生の関係」

    ワークショップは終了いたしました。ご協力いただいた皆様、どうもありがとうございました。 twitterのまとめ。 twitterのハッシュタグは #gengo2011ws です。 自然言語処理に関係した企業と大学と学生の関係が変化しています。 自然言語処理に関する大学での研究内容と企業での応用が非常に近くなって来ています。 企業がデータを大学等に提供し、その研究成果が社会に還元される仕組みができつつあります。 多くの学生は大学での研究活動の後に企業に入り、研究所や事業部での活躍が期待されています。 企業はより優秀な頭脳を集めるために、これまでの枠に捕われない採用姿勢をとる傾向が強まっています。 インターン制度により学生が企業の中身を事前に知ることができるようになっていますが、範囲は限定されています。 ワークショップでは、企業、大学、学生の3者の間での相互理解を目的に、それぞれの 立場や

    y_yanbe
    y_yanbe 2011/01/31
    パネリストからの寄稿(PDF)がどれも興味深い
  • NLP2011で気になる発表 - 糞糞糞ネット弁慶

    3/7から開催される言語処理学会第17回年次大会(NLP2011)で面白そうな発表をメモしておく.豊橋には行けないので後で確認するためのメモ. 自分の興味は知識抽出,特許,検索であるようだ. A1-6 意味的類似度を用いたWeb文書からの集合拡張 ○萩原正人, 関根聡 (楽天) B1-7 クエリログの時系列情報に基づくキーワード修正リスト生成手法 ○平手勇宇, 竹中孝真 (楽天) C1-3 類似論文からの関連用語抽出による論文検索支援システムの提案 ○南浦佑介, 新美礼彦 (未来大) C1-7 医薬品の副作用調査を目的とした統合的言語処理システム ○大熊智子, 三浦康秀, 外池昌嗣, 増市博 (富士ゼロックス), 篠原(山田)恵美子, 荒牧英治, 大江和彦 (東大) D1-6 情報抽出と述語項の類似度を利用した音声対話システム ○吉野幸一郎, 森信介, 河原達也 (京大) E1-5 分野に

    NLP2011で気になる発表 - 糞糞糞ネット弁慶
    y_yanbe
    y_yanbe 2011/01/19
  • NLP若手の会(YANS) Web Site -   第4回 (2009年)

    開催趣旨シンポジウムは、自然言語処理および関連分野の若手研究者の交流を促進し、若手のアクティビティを高めることを目指しています。これから始まる、または始まったばかりの研究の発表を歓迎し、活発な議論を行う場を実現したいと考えています。以下のように研究発表を募集しますので、奮ってご応募ください。 また、招待講演や国際会議参加報告などの特別セッションを通じて、自然言語処理の普及・啓蒙を図り、若手研究者の育成につなげていきたいと考えています。 主催:言語処理学会 日時:2009年9月30日(水)〜10月1日(木) 場所:京都大学 国際交流ホールIII (京都市左京区吉田町) 参加費:無料 (懇親会費は別途) 発表募集要項以下のとおり研究発表を募集します。 発表テーマ自然言語処理 音声言語処理 人工知能 その他、関連分野 発表資格発表者は40歳までの年齢の

  • twitter検索/ジャンル推定API

    使い方: テキストのジャンル推定してラベリングする。500文字以降削除、twitterログから学習。ラベルは予告無く更新される。 ラベル一覧 API: JSON,JSONPによる出力に対応しています。回数制限はありません。興味をもたれた方は常識的な範囲で使ってください。 JSON : http://pcod.no-ip.org/genre?...&json JSONP : http://pcod.no-ip.org/genre?...&json=handler

    y_yanbe
    y_yanbe 2009/05/27
    Twitterのログから学習したデータを用いて,与えられたテキストにラベリングするらしい / 素性データやラベルがTwitter的なので,Twitterによくありそうなテキストの分類に向いてるのかな
  • はてなブログ | 無料ブログを作成しよう

    キーボードを、持ち歩く。 久しぶりに、スマホ用のキーボードを使ってブログを書いている。 いくつかキーが壊れてしまっているので買い替えないといけないのだが、壊れるくらいには使い込んでいたんだなと思った。 当時は、今のようにPCを普段から持ち歩くことが少なかったので、出先でもブログ…

    はてなブログ | 無料ブログを作成しよう
    y_yanbe
    y_yanbe 2009/05/17
  • 問答論的矛盾

  • 「自然言語処理は Python がいちばん」について

    http://d.hatena.ne.jp/mamoruk/20090327/p1 「いちばん」かどうかはわかりませんが、うちの会社の製品ではpythonを主力に使った自然言語処理を含む製品を販売しているので、実際の感想を。 うちでは、pythonを元データの整備のための運用バッチ処理から、客が最終的に手にする情報の生成、実際に客が使うWEBインターフェースまで、pythonを主力にしています。 別のチームが作った別の製品ではS2Struts(JAVAね。)でWEBを作っている部分もありますが。 自然言語処理はぶっちゃけどの言語でも可能だとは思います。 mecabが使えて、Unicodeが使えて、正規表現が使えれば、まあ、どの言語を使ってもそんなに大差はないのではないでしょうか。 あとはsennaのような日語用の全文検索エンジンなども使いますが、そこらへんに近い部分は基的にC++で書き

    「自然言語処理は Python がいちばん」について
    y_yanbe
    y_yanbe 2009/04/29
    お仕事に自然言語処理を使ってる方からの反応。参考になる
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • Programming Language of Choice

    my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) Some of you know that I (at least used to be) a bit of a programming language snob. In fact, on several occasions, I've met (in NLP or ML land) someone who recognizes my name from PL land and is surprised that I'm not actually a PL person.

    y_yanbe
    y_yanbe 2009/03/23
    そういやUCBで共同研究したNLPの先生もPython使いだった.なんでだろう
  • NLP2009:情報の信頼性を判断する研究が熱い! - 反言子

    3月2日〜5日の言語処理学会第15回年次大会(NLP2009)に参加してきました。じつは言語処理にはそれほど興味がなかったのですが、おもしろい研究にたくさん出会えました。 関根先生のチュートリアル講演「自然言語処理のための知識獲得」、西垣先生の招待講演「意識と言語と情報」、また口頭発表やポスター発表にもいろいろおもしろい発表があったのですが、ここでは情報の信頼性に関する研究を取り上げます。 情報の信頼性を判断する研究 はじめは情報の信頼性を機械が判断するなんてうさんくさい、と思っていました。しかし発表を聞いて、システムの仕事は人間の判断を支援することだとわかりました。以下の点から、信頼性分析の研究っておもしろい!と感じた。 高機能な検索エンジンを通してひとの思考を促す クリティカルシンキングに基づいて分析方法を設計する ユーザが納得するために要約システムとの対話を繰り返す 高機能な検索エン

    NLP2009:情報の信頼性を判断する研究が熱い! - 反言子
  • 人工知能なんちゃら研究会 2日目 - 反言子

    人工知能なんちゃら研究会 1日目 - 反言子の続き。 まとめ:大規模データからの機械学習と自然言語処理への応用 - 人工知能学会基問題研究会 - 生駒日記 おまけ 昼:FPAIから早めに退去して八重洲の新宿ねぎしでべた。牛グリル焼定が見当たらなかったのでねぎし定1200円。値段相応な感じ。ここも店員が元気でよかった。牛タンおいしいです^q^ そのあとJAISTの説明会に行った。この話は今度。 説明会を終えて東京駅のねんりん家に並んでバームクーヘンを買った。 夕:八重洲のからなべ屋でメンチカツカレー550円。メンチカツが揚げたてでおいしい。正直カレーは(ry 推論とか信頼度とかウェブとか 発表は3つほどしか聞けなかった。ナースの勤務表を自動生成する研究がおもしろかった。 発表を聞けなかったところで、仮説に基づいた推論モデルを検討する研究や、設計における意思決定をモデル化する研究が

    人工知能なんちゃら研究会 2日目 - 反言子
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

    y_yanbe
    y_yanbe 2009/03/14
    これはすばらしい/データベースへ問い合わせを行うためのフロントエンドプログラムが要るなぁ/書いた http://subtech.g.hatena.ne.jp/y_yanbe/20090314/p2
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
    y_yanbe
    y_yanbe 2009/01/27
    ああいう作業って素性エンジニアリング(feature engineering)っていうのか
  • Google サジェストのローマ字検索機能 = Google IME - 武蔵野日記

    Google サジェストがもっと便利にという記事で、検索窓にローマ字で入力しても Google サジェストに変換した候補が出るようになったことを知る。(前からできたような気もするが……Google サジェストではなかったかも) それでこの記事に関するはてなブックマークのコメントを見ていて、これ migemo の発展版と見ている人が大勢いるのかぁ、とはっとする。自分的にはかな漢字変換の発展版だと思っていたのだが……(ローマ字→かな漢字変換してくれて検索する、という意味で。多言語情報検索の単言語版と見てもよいかも)。以下、実際どういう技術でやっているのかは推測にすぎないが、Migemo との比較で考察してみる。 Migemo としては 仕組みは簡単です。利用者が 1文字入力するたびに、ローマ字列か ら正規表現を生成して、それで検索するという力技な方法です。 ということで、たぶんクエリに対する検

    Google サジェストのローマ字検索機能 = Google IME - 武蔵野日記
    y_yanbe
    y_yanbe 2009/01/22
    技術的にはmigemoというよりはIMEに近いらしい.なるほど
  • 係り受けAPI - まきもと@ねっとわーく

    また、一月くらいぼんやりしてたけど、こちらには技術寄りの話を書いて行こうと思う。所謂日記はmakimoto.log に書く方針で。*1ということで、ヤフーが日語係り受け解析Webサービスというのをリリースしたので、適当なコードを書いてみた。係り受けというのは構文解析の一種で、文節同士の依存関係を解析する技術のこと。自然言語処理に置いては形態素解析の次の段階の処理として扱われることが多い。ということで、早速コード。*2 #!/usr/bin/env python # vim:fileencoding=utf-8 from xml.etree.ElementTree import ElementTree from urllib import urlopen,quote from sys import stdin ns = '{urn:yahoo:jp:jlp:DAService}' for

    y_yanbe
    y_yanbe 2008/08/22
    iterなんて組み込み関数あったっけ?と思ったらPython 2.5から入ったらしい
  • 1