[B! nlp][data] manabouのブックマーク

manabou id:manabou

nlpとdataに関するmanabouのブックマーク (4)

2019年のGunosy研究開発チームの振り返りとこれから - Gunosyデータ分析ブログ
はじめにこんにちは、研究開発チームの関です。いつのまにやら年末感が漂ってきましたね。今年もクリスマスは赤レンガ倉庫でカップルたちの中アイドルライブを見て過ごしました。*1 年越しはCDJででんぱ組と年越しを迎えるので、クリスマスも年越しも推しと過ごせて幸せです。さて、この記事はGunosy Advent Calendar 2019の21日目の記事です。*2 この記事では研究開発チームのこの1年の振り返りと、今後について書いて行こうと思います。自分なりの整理や、社内広報の役割も兼ねています。はじめに 2018年までの研究開発 2019年の主な活動業績学会・研究会への参加参加した国際学会（いずれも発表参加）参加した国内学会・研究会スポンサーした学会参加レポート大学での講義ウェブ工学とビジネスモデルウェブサービスにおけるデータ分析と機械学習 2019年の振り返りよか
manabou 2019/12/26
data

nlp
リンク
自然言語処理の前処理・素性いろいろ - Debug me
ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋智光技術評論社Amazon 前処理余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ﾊﾝｶｸｶﾅ') # => 'ハンカクカナ' neologdn.normalize
manabou 2018/05/30
nlp

book

mecab

python

debug

data
リンク
大自然言語時代のための、文章要約 - Qiita
さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフそこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。本文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま
manabou 2017/10/20
nlp

data

summary
リンク
MITの研究チーム、文法や構文の注釈を入れた非ネイティブ英語話者による英文のデータベースを公開 | スラド IT
米国・マサチューセッツ工科大学(MIT)の研究チームが、ネイティブでない英語話者が書いた英文に文法や構文の注釈をすべて入れ、データベースとして公開した。この種のデータベースとしては初の大規模なものだという(MIT Newsの記事、 The Vergeの記事)。データセットは英語を第2言語とする学生が試験で書いた論文から抽出した5,124の文で構成され、それぞれ1つ以上の誤りを含む。世界人口のおよそ40%が母国語とする10言語のネイティブスピーカーがほぼ均等になるように抽出されているという。データセットのオリジナルソースは英ケンブリッジ大学が公開したもので、誤りに関する注釈だけが入れられていたそうだ。データセットに情報を追加するため、研究チームはMITの学生および大学院生を募集し、8週間にわたって注釈の入れ方についての指導を行った後に作業を開始した。注釈は品詞の区分、単数・複数や時制など
manabou 2016/07/31
mit

nlp

language

dataset

data

grammer

syntax
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx