sucroseのブックマーク - はてなブックマーク

論文メモ: Linguistic Benchmarks of Online News Article Quality - skozawa's blog

ACL2016 の論文 Linguistic Benchmarks of Online News Article Quality を読んだのでメモ。自分がやってみたいと思ってることに近いことをやっていて面白い。概要オンラインニュースの質を測れるかを検討した論文。質という1つの指標で表すのではなく、質に関係する14の指標を用意して評価する。14の指標に対して、専門家がニュースに対して5段階評価でそれぞれ点数をつけたコーパスを作成。14の指標と質との関係を分析し、ベンチマークとして質を予測できるかを調査。質を測るための指標 5カテゴリ、14の指標を用意。 Readability: 読みやすさ Fluency: 流暢さ、文が意味的につながっているか Conciseness: 簡潔さ、冗長でないか Informativeness: 情報量 Descriptiveness: 描写性、タイトル

sucrose 2017/02/06

リンク

Semi-supervised Sentiment-aware LDA - skozawa's blog

NAACL 2015の論文のLCCT: A Semi-supervised Model for Sentiment Classificationを読んだ。メモと気になった部分を軽く実装して試してみた。感情分析で、コーパスベースのアプローチと辞書ベースのアプローチでco-trainingする話。コーパスベースのアプローチだと、精度は高いが再現率が低い。逆に辞書ベースのアプローチだと再現率は高いが精度が低いのでこれを解決したいというもの。ドメインに依存しない汎用的な素性をコーパスベースのアプローチで取得し、ドメインに依存するような素性は辞書ベースのアプローチでカバーする。ドメイン依存の単語はSemi-supervised Sentiment-aware LDAというアプローチを使って獲得する。ポジティブ、ネガティブ、ニュートラルの3分類でそれぞれに対していくつかシードを与えてることでド

sucrose 2015/11/03

“NAACL 2015の論文のLCCT: A Semi-supervised Model for Sentiment Classificationを読んだ。メモと気になった部分を軽く実装して試してみた”

リンク

長単位解析器Comainu 0.72をリリースしました - skozawa's blog

中・長単位解析器Comainuのバージョン0.72をリリースしました。バグフィックスです。リリース comainu 0.72 - 中・長単位解析器 Comainu - OSDN 一部にハッシュの順序を前提としたコードが含まれていたため、ハッシュの順序がランダムとなったPerl5.18以降で動作がおかしくなる現象がたまに起きるようになっていました。 perl5180delta - perl v5.18.0 での変更点 - perldoc.jp 問題点の指摘、および、丁寧なデバッグをして頂き、@katsuhitosudoh さんありがとうございました。 Perlが新しいとComainuがコケることが分かったのが昨日の収穫。いつからかは知らないが5.16.1はセーフ、5.22.0はアウト。はっきりとは分からないけどhashの暗黙の要素順の問題なのかな…— Katsuhito Sudoh (@

sucrose 2015/10/24

“一部にハッシュの順序を前提としたコードが含まれていたため、ハッシュの順序がランダムとなったPerl5.18以降で動作がおかしくなる現象がたまに起きるようになっていました”

リンク

Elasticsearch勉強会 in 大阪/京都で発表しました - skozawa's blog

京都と大阪であったElasticsearch勉強会で発表をしてきました。もともと京都でだけ発表する予定でしたが、発表者が足りないとのことだったので急遽大阪でも同じ内容を発表しました。 Elasticsearch勉強会 in 大阪 - elasticsearch勉強会 | Doorkeeper Elasticsearch勉強会 in 京都 - elasticsearch勉強会 | Doorkeeper 内容ははてなブックマークのトピック生成の話で、少し前にはてなエンジニアセミナーでも少し話したんですが、今回はElasticsearchを使ってる部分を中心にした発表です。以下がスライドです。勉強会の詳細については、 @johtani さんのブログをご覧ください。blog.johtani.info

sucrose 2015/07/18

リンク

言語処理学会に参加した - skozawa's blog

今年は京都（京大）であったということもあって、言語処理学会第21回年次大会に参加してきた。 16～21日でチュートリアル、本会議、ワークショップとあったけど、本会議の1,2日目とワークショップの計4日間参加。本会議で発表を聞いたものの中から覚えている/気になったものをメモ程度に。素性に重みを付けるSelf-training手法を用いた文書分類の領域適応ドメイン適応にself-trainingを適用し、素性の重み付けも少し従来と変えるアプローチ重み付けのところの有効性はあまりよくわからなかった self-training、勝手に98, 99%とかすごい高い精度じゃないとうまくいかないと思ってたのだけど、性能向上していたので意外だった議論文生成における文抽象化のための固有表現抽象化聞きたかったけど、人気だったのであんまりちゃんと聞けなかった固有表現と固有表現の抽象化候補が与えられ

sucrose 2015/03/22

リンク

論文紹介：HEADY: News headline abstraction through event pattern clustering - skozawa's blog

2週間くらい前になるけど、社内輪読会があって論文紹介をした。今回はACL2013の HEADY: News headline abstraction through event pattern clustering を紹介した。内容同じ内容のニュースの集合に対してヘッドラインを生成する話。固有表現を汎化してパターン抽出し、そのパターンをNosiy-OR Baysian Networkで学習することで、固有表現の種類に応じてヘッドラインに使われやすいパターンを推論する。感想・疑問抜粋的(extractive)ではなく、要約的(abstractive)なアプローチを取った手法として、そこそこ良い性能がでていそう。 HEADYの圧縮率はどの程度なのか。文ごと取得する手法ではあるが、TopicSumが良い性能をだしているので、短くする必要がないならTopicSumでよさそうに見える。目的

sucrose 2015/02/12

リンク

論文紹介：Active Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracy - skozawa's blog

今日は久々に自分の担当の社内輪読会だった。今回はACL2014のActive Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracyを紹介した。ACL2014読み会が色んなところで開催されていたと思うけど、たぶんどこでも紹介されていなかった気がする（別に紹介されていてもいいのだけど）。内容最近はやりのクラウドソーシングを使ったもの。クラウドソーシングを使うと、安価で大規模なコーパスが作れるが、どうしても品質が下がってしまうので、なるべく低い労力で品質を向上したいという目的で能動学習のアプローチを利用してコーパスの品質を向上している。感想能動学習のアプローチを取り入れたこと自体はこの論文の新規性ではないけど、コーパスの品質改善に能

sucrose 2014/10/16

リンク

テキストマイニングシンポジウムに参加した - skozawa's blog

テキストマイニングシンポジウムに参加した。第５回テキストマイニング・シンポジウム：参加募集 - 言語理解とコミュニケーション研究会 1日目は企業の方の話が多めで公にできないことも結構あるみたいだった。 Twitterから抽出したプロファイルデータと購買データを組み合わせた次世代型ハイブリッド・ターゲティング楽天とNTTデータの人の話。最初は楽天の人の話で、既存のマーケティング手法には限界があるので、Twitterなどのソーシャルなデータを活用するというもの。リコメンドで問題になる購入履歴のないユーザへの問題（コールドスタート）をTwitterのデータが活用すると緩和ができる。メールの開封率やコンバージョンを購入履歴に基づいたものとTwitterデータを活用したものなどで比較していたのがおもしろかった。次にNTTデータの人の話。ツイートに対して、キーワード抽出やカテゴリ分類、ポジネ

sucrose 2014/09/15

リンク

文節境界解析のラベルと性能 - skozawa's blog

文節境界解析で使うラベルで、BIとBILUの2種類でどちらが性能がよいかを検証してみた。結果的にはBIだけのほうが性能が高かった。前回の輪読会で紹介した固有表現抽出に関する論文の中で印象に残ったことのひとつとして、系列ラベリングに使うラベルで最近はBIOよりもBILOUを使ったほう性能が高いというものがあった。 BIO(Begin, Inside, Outside)とBILOU(Begin, Inside, Last, Outside, Unit(Begin and Last))の違いは固有表現の末尾を考慮するかどうかで、末尾を考慮したほうが性能がよいというもの。社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した - skozawa's blog Comainuでは、

sucrose 2014/06/30

リンク

社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した - skozawa's blog

社内輪読会で論文を紹介した。今回はACL2012からJoint Inference of Named Entity Recognition and Normalization for Tweetsを紹介。内容ツイートから固有表現抽出(NER)、及び、固有表現の正規化(NEN)を行っている。提案のポイントは、これまで、NERとNENを別タスクとして、NERを行った後にNENを行っていたものを、同時に解いている点。これにより、NENで得られる知見をNERにフィードバックできて、性能が向上するというもの。感想 NENの効果人名と地名、組織名などの区別は難しそうなので、それをNENの知見を取り入れて解決できるのであればよさそうに感じた。評価実験ベースラインとして従来研究の手法を利用して比較してるけど、提案手法をNERとNENに分割して直列に適用した手法との比較もして欲しいと感じた。ベ

sucrose 2014/06/19

リンク

日本語WordNet-Affectの構築 - skozawa's blog

日本語版のWordNet-Affectが欲しかったので構築した。 WordNet-Affect WordNet-AffectはWordNetに対して感情情報を付与したもので、感情分析などに利用されている言語資源。 WordNet-Affect: an Affective Extension of WordNet 日本語のWordNet-Affectを構築する論文はでているのだけど、構築された言語資源は特に公開はされていないようだったので、この論文に書かれている作り方とは少し違うけど、作ってみた。 Developing Japanese WordNet Affect for Analyzing Emotions 日本語WordNet-Affectの作り方以下の言語資源を利用して日本語WordNet-Affectを構築する WordNet 1.6 WordNet 3.0 WordNet-Af

sucrose 2014/05/26

リンク

社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog

会社で最近始まった論文の輪講で担当だったので、発表をした。論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。今回紹介したのは、少し古いけど、ACL2011からTopical Keyphrase Extraction from Twitter 参加してる人はそれぞれ分野が違うので、どの部分をどの程度説明すればいいかが難しい。内容内容はTwitterからトピックのキーフレーズを抽出する手法の提案で、提案は主に以下の2点 Context-sensitive Topical PageRank によるキーワードスコアリング relevanceとinterestingnessを用いたキーフレーズスコアリング紹介したものを少し修正したものをアップした。感想 1つ目はスコアリングの際にトピックを考慮することによ

sucrose 2014/05/08

リンク

(ry - skozawa's blog

(ry という表現がなぜか気になったので、分析してみた (ryとは (イカリャクとは) [単語記事] - ニコニコ大百科とは (ryとは『以下略』を意味するネットスラングであ(ry 由来は、『（略）』とタイピングする際に、ローマ字で(ryaku)とする表記かｒ(ry つまりこの言葉は略の略で、「わざわざ全部言わなくても(ry」というメッセージが(ry 転じて「(ry」と(ry 使用する箇所としては、わざわざ言うまでもない･言いにくいこｔ(ry しかし、使いすぎるとめいわｋ(ry なので、用法容量を(ry個人的にはまったく使わない表現だけど、言語処理するにはちょっとやっかいな表現。言いにくいことを書くときに使うので、著者の心理を表していることが多くておもしろそう。データ特に使う予定もなく適当に収集していたツイートデータを利用。2014年1月～3月のツイートの中から (ry を含む9921

sucrose 2014/04/13

“(ry という表現がなぜか気になったので、分析してみた”

リンク

Comainuをリリースしました - skozawa's blog

中・長単位解析ツールComainuをリリースしました。 Comainu | 中・長単位解析ツールダウンロードはsourceforgeからできます。ソースファイルとモデルファイルをダウンロードしてください。モデルファイルは解凍すると1Gくらいあるので注意してください。中・長単位解析器 Comainu プロジェクト日本語トップページ - SourceForge.JP 長単位というのは、国語研が採用している言語の単位のことです。国語研が構築した現代日本語書き言葉均衡コーパス（BCCWJ）では言語単位として語彙形態論研究に適した短単位と構文・意味研究に適した長単位を利用しています。 Comainuでは、このうち長単位の解析をします（短単位はMeCabとUniDibで解析します）。長単位は短単位（単語）以上、文節以下の長さで大雑把には文節を自立語部分と付属語に分けたものが長単位となります

sucrose 2014/03/29

リンク

言語処理学会に参加しました - skozawa's blog

札幌であった言語処理学会第20回年次大会に参加してきました 1年ぶりの学会参加。今年は3年ぶり？くらいの発表もしてきました。発表内容はComainuをリリースしました - skozawa's blog もう論文も公開されてる http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P6-2.pdf 発表のとき、Comainuに興味あるとすごいテンション高く言ってくれる人がいて、なんでそんなにテンション高いんだろうと思っていたけど、自分の研究に使いたかったようで、発表の次の日には早速使われていて勢いある感じだった。とりあえずちゃんと使えていそうで安心した。欅コーパスで利用しようとしてるみたいだけど、HPにはほとんど情報ない感じだったので、今度ちゃんと論文読んでみよう統辞・意味情報を付加した日本語コーパスの構築欅ツリーバン

sucrose 2014/03/29

リンク

はてなブックマーク

タグ

ブックマーク / skozawa.hatenablog.com (15)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス