タグ

nlpとdataに関するmanabouのブックマーク (4)

  • 2019年のGunosy研究開発チームの振り返りとこれから - Gunosyデータ分析ブログ

    はじめに こんにちは、研究開発チームの関です。 いつのまにやら年末感が漂ってきましたね。今年もクリスマスは赤レンガ倉庫でカップルたちの中アイドルライブを見て過ごしました。*1 年越しはCDJででんぱ組と年越しを迎えるので、クリスマスも年越しも推しと過ごせて幸せです。 さて、この記事はGunosy Advent Calendar 2019の21日目の記事です。*2 この記事では研究開発チームのこの1年の振り返りと、今後について書いて行こうと思います。 自分なりの整理や、社内広報の役割も兼ねています。 はじめに 2018年までの研究開発 2019年の主な活動 業績 学会・研究会への参加 参加した国際学会(いずれも発表参加) 参加した国内学会・研究会 スポンサーした学会 参加レポート 大学での講義 ウェブ工学とビジネスモデル ウェブサービスにおけるデータ分析機械学習 2019年の振り返り よか

    2019年のGunosy研究開発チームの振り返りとこれから - Gunosyデータ分析ブログ
  • 自然言語処理の前処理・素性いろいろ - Debug me

    ちゃお・・・† 舞い降り・・・† 先日、前処理大全というを読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

    自然言語処理の前処理・素性いろいろ - Debug me
  • 大自然言語時代のための、文章要約 - Qiita

    さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフ そこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。 文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま

    大自然言語時代のための、文章要約 - Qiita
  • MITの研究チーム、文法や構文の注釈を入れた非ネイティブ英語話者による英文のデータベースを公開 | スラド IT

    米国・マサチューセッツ工科大学(MIT)の研究チームが、ネイティブでない英語話者が書いた英文に文法や構文の注釈をすべて入れ、データベースとして公開した。この種のデータベースとしては初の大規模なものだという(MIT Newsの記事、 The Vergeの記事)。 データセットは英語を第2言語とする学生が試験で書いた論文から抽出した5,124の文で構成され、それぞれ1つ以上の誤りを含む。世界人口のおよそ40%が母国語とする10言語のネイティブスピーカーがほぼ均等になるように抽出されているという。データセットのオリジナルソースは英ケンブリッジ大学が公開したもので、誤りに関する注釈だけが入れられていたそうだ。 データセットに情報を追加するため、研究チームはMITの学生および大学院生を募集し、8週間にわたって注釈の入れ方についての指導を行った後に作業を開始した。注釈は品詞の区分、単数・複数や時制など

  • 1