タグ

NLPに関するKshi_Kshiのブックマーク (86)

  • Unix を使える学生は急速に減っている - 武蔵野日記

    午前3時から NLP(自然言語処理)若手の会シンポジウム・情報処理学会自然言語処理研究会関係の仕事を黙々とする。大学運営関係のお仕事は9月中旬までないので、いまのうちに溜まった仕事を片付け、9月の準備をしておき、10月以降に備えたい(授業が週3コマある)。 (2014-08-21 追記)タイトルだけ見て反応する人が多いので、よくあるコメントについて冒頭で説明しておく。 「最近の若い者はなっとらん」と言っているだけで、教育もしていないなら当然。→8月20日に追記したが、教員なので教育するのが仕事の一部であり、研究室に配属された学生は最初週20時間(1個2時間×10個)の勉強会に出てもらい、それぞれ合計すると演習を解いたりするのに週20時間かかるようなので、合計週40時間基礎勉強に使ってもらっている。(参考: 研究室の勉強会のスケジュール) 必要性がないとやらないのでは?→世の中の99%の人に

    Unix を使える学生は急速に減っている - 武蔵野日記
  • NLP論文ネタ一覧

    by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の

  • Mallet: MAchine Learning for LanguagE Toolkit

    View the Project on GitHub mimno/Mallet Download ZIP File Download TAR Ball View On GitHub Mallet: MAchine Learning for LanguagE Toolkit MALLET is a Java-based package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text. MALLET includes sophisticated tools for document classificati

  • ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記

    5時に日光で自然に目が覚めたので電話。前使っていたプリペイドの携帯を持ってきたので$30チャージして、かれこれ3時間くらい話していると思うのだが、まだなくならない。日の携帯電話にかけて1分$0.15のレートなので、200分いけるようだ。 朝はベストペーパー・ペストスチューデントペーパー・ベストショートペーパーの3のトーク。これらの論文が決まらないと会議のプログラムを確定できないので、早くプログラムを公開してほしい、といろんな人からせっつかれて困った、と (ACL のプログラム委員長) 松先生がぼやいていたのだが、ベストペーパーの紹介を今日は松先生がして、ベストペーパーを事前に発表する Pros and Cons というタイトルでしっかり「事前に決めるのは大変だった」と苦言を呈していた (笑) 副学長に加えてプログラミング委員長、なんだか今年松先生は忙しそうな年である。 さてベスト

    ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記
  • [連載]フリーソフトによるデータ解析・マイニング第61回 統計的テキスト解析(6)~語のネットワーク分析~

    [連載] フリーソフトによるデータ解析・マイニング 第61回 統計的テキスト解析(6)~語のネットワーク分析~ 1.ネットワーク分析とは ネットワーク分析は、社会学や通信ネットワークなどの分野で多く用いられている。数学のグラフ(Graph)理論に基礎を置いている。したがって、分野によってはグラフ分析とも呼ぶ。ネットワークは、頂点(V: Vertex)と辺(E: Edge)を基構成要素とする。頂点を「点」「ノード」、辺を「線」とも呼ぶ。ネットワークは、線で点と点の関係を示す。線が方向性を持つグラフを有向グラフ(Directed Graph)、線が方向性を持たないグラフを無向グラフ(Undirected Graph)と呼ぶ。図1に、有向グラフと無向グラフの例を示す。

    Kshi_Kshi
    Kshi_Kshi 2012/12/20
    共起語ネットワークをRで作成する話。
  • pythonによる文字列の正規化 - TorasenLab@はてな

    テキストマイニングなどを行うためには文書、文、単語などの文字列の正規化が重要です。 単語の大文字小文字の統一、半角全角の統一などをする必要があります。 文字列の正規化のために利用しているpythonコードを以下に書いておきます。 今後増える可能性もあります。 実行環境 Ubuntu 10.04 64ビット python 2.6.5 unicode型に変換する def unicode_ignore_invalid_char(text): if isinstance(text, str): return text.decode('utf-8', 'ignore') return text 変換不能な文字列を無視してstr型からunicode型に変換する。 str型に変換する def str_ignore_invalid_char(text): if isinstance(text, unico

    pythonによる文字列の正規化 - TorasenLab@はてな
    Kshi_Kshi
    Kshi_Kshi 2012/11/22
    正規化。以下例: 全角英数字->半角英数字, 半角カタカナ->全角カタカナ
  • 言語情報処理 ポータル

    CLEF 2011 (Conference on Multilingual and Multimodal Information Access Evaluation) (2011/9/19-22, Amsterdam, Netherlands) NLP若手の会 第6回シンポジウム (2011/9/21-22, 奈良先端科学技術大学院大学, 奈良) MT-Summit XIII (Machine Translation Summit XIII) (2011/9/19-23, Xiamen, China) IWPT 2011 (12th International Workshop on Parsing Technologies) (2011/10/5-7, Dublin, Ireland) 電子情報通信学会 言語理解とコミュニケーション研究会(NLC) 思考と言語研究会(TL) 共催研究会

  • 自然言語処理研究室(岡山大学大学院自然科学研究科)

    竹内研究室 岡山大学 大学院自然科学研究科 工学部 情報工学科 [Japanese]/[English] 研究 (自然言語処理研究) 主な研究テーマ 研究発表一覧 自然言語処理ツール/資源(動詞項構造シソーラス(2008.3.15)) 研究員 教員紹介のページ竹内 学生 研究室関係 所在地とアクセスマップ 研究室の活動状況(研究報告の概略など) 研究の環境と様子 講義 H20 前期 資料が更新されている場合下記pdfをブラウザで開いた状態で「更新」を行うこと.キャッシュ に残っていてアクセスしただけだと古いスライドのままになる. 言語解析論(水曜3限、2年生、第11講義室) 講義資料(10/1) 小さいslide(pdf) 大きいslide(pdf) psfile 言語解析の概要 講義資料(10/8) 小さいslide(pdf) 大き

    Kshi_Kshi
    Kshi_Kshi 2012/11/21
    自然言語処理の研究室。言語資源・講義スライドが有難い。
  • http://www.gsk.or.jp/index.html

  • evaluative expressions

    評価値表現辞書 (評価表現辞書) はじめに 近年,blogなどを通して個人がネット上に配信する情報の重要性が広く認知 されるようになり,それにともなって,個人の意見をWeb上のテキストから収集,分析する技術への関心が高まっています. 実際に,ここ数年で意見を扱った多くの研究が発表されています (関連研究についてはこちらをご参照ください). 意見の収集,分析には評価をあらわす表現(以下,評価値表現)が手がかりになると考えられます. 我々は,評価値表現はある程度ドメイン横断的に使用可能だと考え,半自動手法を使用しつつ辞書を作成しました. この辞書が意見情報抽出や分析の研究に携わっていらっしゃる方々の手助けになれば幸いです. 評価値表現辞書とは 評価値表現辞書は,評価を表すために使われる可能性のある表現を集めた辞書です. 我々は評価を以下のように定義しています. 評価の主体が評価対象のクラスに対

    Kshi_Kshi
    Kshi_Kshi 2012/11/21
    卒研に使った辞書懐かしい。
  • 公開資源/日本語評価極性辞書 - 東北大学 乾研究室 / Inui Lab, Tohoku University

    FrontPage / 公開資源 / 日語評価極性辞書 3 秒後に Open Resources/Japanese Sentiment Polarity Dictionary に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowl

  • Part of speech tagging

    EMNLP 2012 参加報告 東北大学大学院情報科学研究科 東北大学工学部情報知能システム総合学科 東北大学電気通信情報機構 JST 戦略的創造研究推進事業「さきがけ」・ 「情報環境と人」 岡崎 直観(okazaki at ecei tohoku ac jp) http://www.chokkan.org/ @chokkanorg 2012-09-04 EMNLP 2012 国際会議参加報告 1 http://www.chokkan.org/publications/emnlp2012.pdf EMNLP 2012 • スケジュール • 2012年3月28日: 論文投稿締切り(ACL 2012の採択通知後) • 2012年5月1日~4日: 著者回答期間 • 2012年5月18日: 採択通知 • 2012年6月3日: 最終原稿締切り • 2012年7月12日~14日: 会議開催(韓国の済州

    Kshi_Kshi
    Kshi_Kshi 2012/11/21
    okazaki 先生のスライド
  • Sign in - Google Accounts

  • Catalogue of Language Resources and Tools in Japan

    [形態素解析器] [パーザ] [ツール(その他)] 新聞記事 毎日新聞CD-ROM 毎日新聞CD-ROM (1991年) 毎日新聞CD-ROM (1992年) 毎日新聞CD-ROM (1993年) 毎日新聞CD-ROM (1994年) 毎日新聞CD-ROM (1995年) 日経新聞CD-ROM 日経産業・金融・流通新聞CD-ROM 読売新聞CD-ROM (邦文記事) 読売新聞CD-ROM (英文記事) 朝日新聞CD-ROM 注釈付きコーパス RWCテキストデータベース RWC-DB-TEXT-94-1 RWC-DB-TEXT-94-2 RWC-DB-TEXT-95-3 RWC-DB-TEXT-96-2 RWC-DB-TEXT-97-1 CRL-DB-TEXT-97-1 EDR日語コーパス EDR英語コーパス 京都テキストコーパス JEITAマルチモーダル対話コーパス

    Kshi_Kshi
    Kshi_Kshi 2012/11/21
    とても助かるまとめ
  • シソーラス - Wikipedia

    シソーラス (英: thesaurus) は単語の上位 / 下位関係、部分 / 全体関係、同義関係、類義関係などによって単語を分類し、体系づけた類語辞典・辞書。 語源はギリシャ語"thesauros"で、宝物庫の意味。1852年、英国でピーター・マーク・ロジェが、語彙を意味によって分類した『Thesaurus of English Words and Phrases』(英語語句宝典、1852)を著してから100年以上続いている。日では1964年、国立国語研究所が編集し『分類語彙表』を発表している。 シソーラスは類語辞典の一種である。類語辞典には五十音順に項目立てしているものと、概念ごとに分類しているものがある。シソーラスは語彙の持つ意味から、大分類 - 中分類と下っていき、目的の単語に達することができるようになっている。 シソーラスは自然言語処理の分野でも重要な位置にあり、『分類語彙表』

    Kshi_Kshi
    Kshi_Kshi 2012/11/21
    日本語シソーラスの代表的なものがまとめられている
  • Webデータに基づく複合動詞用例データベース (開発版)

    Option マニュアル サ変動詞 形容詞 Webデータに基づく 複合動詞用例データベース (開発版) このデータベースは,複合動詞研究用の基礎データの提供を目的に機械的に構築されています。詳しくは,解説・関連資料をご覧ください。 読み(ひらがな)で検索します(例:さがしだす) 読み 表記 複合動詞を検索することができます(例:「さがしだす」) 複合動詞を構成する動詞で検索することもできます(例:「さがす」) 読み,表記での検索ができます。デフォルトは,「読み」検索です。 表示される格要素が少ない場合は,Optionを調節してください。 新着情報 2014-04-15: 一部の環境で用例が文字化けする不具合を修正しました。 2013-09-17: 姉妹版の「Webデータに基づく形容詞用例データベース」を公開しました。 2013-07-04: 複合動詞リストを更新しました。変更点は,「出現数

  • isoHunt › the BitTorrent & P2P search engine

    Kshi_Kshi
    Kshi_Kshi 2012/11/21
    これは公開されいたらマズイのでは。「日本語大シソーラス 類語検索大辞典」
  • Amazon.co.jp: 日本語大シソーラス類語検索大辞典 ((HY版)): 山口翼: 本

    Amazon.co.jp: 日本語大シソーラス類語検索大辞典 ((HY版)): 山口翼: 本
    Kshi_Kshi
    Kshi_Kshi 2012/11/21
    類語辞書デジタルデータ欲しいのー。
  • [NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット

    Wikipediaなどの「辞書型コーパス」からLucene/Solr用の類義語辞書を自動作成するシステムを開発しましたので、簡単にご紹介します。 参考資料(SlideShare) 辞書型コーパスからの類義語知識の自動獲得(SlideShare) Lucene/Solrと類義語検索 Lucene/SolrではSynonymFilterを使って類義語検索を簡単に実現することができます。たとえば次のような内容のsynonyms.txtを用意し: 自動車損害賠償責任保険, 自賠責保険 Solrのschema.xmlファイルに次のようなフィールド型を定義すれば: <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.Japane

    [NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット
    Kshi_Kshi
    Kshi_Kshi 2012/11/20
    類義語辞書構築方法 / 名詞
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知