タグ

nlpに関するmakimotoのブックマーク (154)

  • Programming Language of Choice

    my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) Some of you know that I (at least used to be) a bit of a programming language snob. In fact, on several occasions, I've met (in NLP or ML land) someone who recognizes my name from PL land and is surprised that I'm not actually a PL person.

  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
    makimoto
    makimoto 2009/03/27
    NL190について
  • NL研190で発表しました。 - nokunoの日記

    情報処理学会 第190回自然言語処理研究会で発表しました。また、恒例の発表資料を公開しました。内容は修論発表のものとほぼ同じです。資料は同じでも時間は5分長かったので丁寧にしゃべっていたら、5分くらい時間オーバーしてしまったようです。 休憩時間に、id:makimotoや4月からの同期に挨拶。発表後は、id:mamoruk、id:tkng、DO++の人、森先生と事に行きました。3人はIM飲み会でお会いしましたが、O野原さんとは初対面。 自然言語処理コミュニティでの発表は初めてだったのですが、思ったよりも知り合いやブログを知っている人が多く、自分もこっち側の人間なのだなぁ、と今更ながら実感しました。

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

  • 人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog

    hillbig.cocolog-nifty.com ということで僕が取ったメモも出してみようと思う。内容としては大体3つで オンライン学習 L1正則化 索引を用いた効率化, 全ての部分文字列を利用した文書分類 という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足によりよく分からなかった。が、最初の二つはなんとか付いていけたので、出してみます。主に自分用のメモですが。 オンライン学習自然言語処理のデータは3つの特徴がある。 高次元 疎 冗長 で、あとはデータがばかでかいので、いわゆるバッチ処理だとメモリに乗り切らなかったりとかということがある。それでオンライン学習というのが今よく使われているようだ。オンライン学習の方法には下のような方法がある。簡単なものから難しいものへ。 perceptron 自然言語処理と相性がよい 色んなもののベースになる 線形分離できるときには

    人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog
    makimoto
    makimoto 2009/03/14
  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
    makimoto
    makimoto 2009/03/14
  • LOLITA - Wikipedia

    LOLITA is a natural language processing system developed by Durham University between 1986 and 2000. The name is an acronym for "Large-scale, Object-based, Linguistic Interactor, Translator and Analyzer". LOLITA was developed by Roberto Garigliano and colleagues between 1986 and 2000. It was designed as a general-purpose tool for processing unrestricted text that could be the basis of a wide varie

    makimoto
    makimoto 2009/03/07
    これは酷い名前
  • NLP(自然言語処理)研究者をスコアリングしてみた - Unchained Life

    IR研究者をスコアリングしてみた - 睡眠不足?! http://d.hatena.ne.jp/sleepy_yoshi/20090215/p1 この記事を読んでNLP分野ではどうだろう、と思ったのでやってみました。 対象とした会議は2001年~2008年のACLとEMNLPです(年によっては他会議との併設含む)。 cf. DO++: 自然言語処理の学会 http://hillbig.cocolog-nifty.com/do/2008/04/post_fe44.html ACL anthologyから以下のページを利用してデータを取得 ACL: http://www.aclweb.org/anthology-new/P/P08/ (2008年の場合。08の部分を変えれば他の年が見られる) EMNLP: http://www.aclweb.org/anthology-new/sigdat.h

    NLP(自然言語処理)研究者をスコアリングしてみた - Unchained Life
    makimoto
    makimoto 2009/03/01
  • http://lab0.com/text2table/

    makimoto
    makimoto 2009/03/01
    Rails で作ってあるんですね。
  • Microsoft Research ESL Assistant

    Designed for learners of English as a Second Language, the Microsoft Research ESL Assistant helps find writing errors and shows how others have expressed similar ideas on the web.Hover your mouse over suggestions to see examples of use. Click to accept.

  • Apple - Job Opportunities - Job description

    Will work on investigating and prototyping methods to improve Japanese input utilizing statistical methods. Position is available in Tokyo and Cupertino. The position requires proficiency with C and/or C++, and scripting languages such as perl and ruby. Objective-C is desirable. It requires good written communication skills in English. Good verbal communication skills in English is desirable, and

  • インターン募集

    ご報告: 下記インターンのポジション、おかげさまで決まりました。夏がとても楽しみ。 ------------------------------------------------------------------------- えー、ここは「生活日記」であって、仕事関連の話はできるだけ書かないようにしてるのですが、たまに禁を破ります。ということで: Apple Inc. において自然言語処理のできる学生インターンを募集します http://jobs.apple.com/index.ajs?method=mExternal.showJob&RID=28907 内容は、将来の日本語入力エンジンに適用できる技術の開発。 C, C++, 統計自然言語処理がばりばりにできること。柔軟な思考ができること。チームで仕事ができること。口が堅いこと :) 英語技術ライティング必須。勤務地がクパティーノ

    makimoto
    makimoto 2009/01/24
    Apple の IM 開発関連のインターン
  • セマンティックウェブとオントロジー研究会

    【終了しました】第46回SWO研究会 発表募集 ■日時:2018年11月25日(日) 14:00-18:00 ■会場:淡路夢舞台国際会議場(地図) ■参加費:無料 ■発表申込しめきり:2018年10月22日(月) ■原稿提出しめきり:2018年11月19日(月) ■発表・参加募集:http://www.sigswo.org/papers/46cfp ■プログラム:http://www.sigswo.org/papers/46program

  • NLP2009 program

    言語処理学会第15回年次大会(NLP2009)会議プログラム 日時: 2009年 3月2日(チュートリアル),3日〜5日(会議) 会場: 鳥取大学 鳥取キャンパス スケジュール 発表一覧 著者索引 (ア行 カ行 サ行 タ行 ナ行 ハ行 マ行 ヤ行 ラ行 ワ行 その他)

    makimoto
    makimoto 2008/12/29
  • Workshop on Active Learning for NLP - NLPWiki

    Call for Paper Submissions NAACL HLT 2009 Workshop on Active Learning for Natural Language Processing June 5, 2009, Boulder, Colorado, USA http://nlp.cs.byu.edu/alnlp/ Submission Deadline: March 6, 2009 Endorsed by the following ACL Special Interest Group: SIGANN, Special Interest Group for Annotation Motivation Labeled data is a prerequisite for many popular algorithms in natural language proce

  • projects:sgd [leon.bottou.org]

    Learning algorithms based on Stochastic Gradient approximations are known for their poor performance on optimization tasks and their extremely good performance on machine learning tasks (Bottou and Bousquet, 2008). Despite these proven capabilities, there were lingering concerns about the difficulty of setting the adaptation gains and achieving robust performance. Stochastic gradient algorithms ha

  • NAIST 奈良先端科学技術大学院大学 - プレスリリース - ネットに蓄積され...

    ネットに蓄積された個人の経験を集めて知の宝庫に ~CGM上の経験情報を検索・分析できるデモサービス「みんなの経験」を一般公開~ 【概要】 奈良先端科学技術大学院大学(学長:安田 國雄)情報科学研究科 自然言語処理学講座の乾健太郎准教授と阿部修也研究員らの研究グループは、ニフティ株式会社(社長:和田 一也、東京都品川区)との産学連携により、ブログなどネットに書かれた個人の経験情報を検索できるシステム「みんなの経験」を開発しました。日12月4日(木)から研究目的のサービスとして一般に公開いたします(「みんなの経験」:http://minna.naist.jp/)。 「みんなの経験」では、商品や店舗、観光地、行政サービスなど様々なトピックについて、人々がブログに書き記した膨大な数の経験を自動解析し、データベース化しています。ユーザは、例えば「アロマオイル」や「インターネットオークション」のよう

  • N文節最長一致とかな漢字変換 - 武蔵野日記

    uim のメーリングリストで知ったのだが、最近 Anthy のパッチのメンテナンスを続けてらっしゃる G-HAL さんがAnthy の変換アルゴリズムを N 文節最長一致にするパッチを公開したそうだ。 結論のところだけ引用してしまうが、 プログラムの設定値や depgraph やシステム辞書の頻度情報などの、 手作業でのパラメータ調整で変換結果を最高にしようなんて無理、無謀。 オリジナルの Anthy にて、 「手作業で設定するヒューリスティックのパラメータ調整」 と言う方向性を捨てて、 「コーパスからパラメータを自動生成する」 と言う方向性を選んだのは、 至極真っ当。 ただ、不適切だったのは、 公募したコーパスが十分な品質と量になる事を前提とした点と、 個人の文体に合わせた調整機構(学習機能?)が無いと言う運用上の点。 とのことで、全くその通りだと思う。 新聞数年〜十数年分のコーパスはさ

    N文節最長一致とかな漢字変換 - 武蔵野日記
  • OpenMWE for Japanese - PukiWiki

    はじめに OpenMWEは、慣用句や複合語といったmultiword expressions(MWEs)関係の言語資源で、オープンソースソフトウェアとして配布しています。 プロジェクトはMWEsに関わる自然言語処理技術の開発を主な目的としており、次のような言語資源を順次リリースする予定です。 コーパス MWEsの用例集。文法的振る舞いを観察したり、機械学習データとして使用する。 辞書 MWEsの言語処理で必要な情報を記述した辞書。 同定システム 文中のMWEsを同定(検出)するシステム。MWEsの中には、例えば慣用句「骨を折る」のように、文字通りの意味と慣用的(比喩的)な意味の両方を持つものがあるが、このシステムは両者を区別して(曖昧性を解消して)MWEsを同定する。 格解析システム 述語として使用されるMWEs(「骨を折る」「頭が痛い」「解決を見る」など)の述語項構造を解析するシステ