タグ

ブックマーク / repose.hatenadiary.jp (15)

  • 声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨 - 糞糞糞ネット弁慶

    声優統計コーパスの音素バランス文,および音声データについて告知します. 告知 今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく,句読点情報が付与された JSUT コーパスまたは JVS コーパスの voiceactress100 (以降, voiceactress100 と呼びます) の使用を推奨します. 声優統計コーパスのバランス文と voiceactress100 は一部の単語が異なっており,完全な互換性がありません voiceactress100 は声優統計コーパスバランス文を音声処理の研究者が洗練したものです 声優統計コーパスの一部の読みはバランス文と一致していません.また,アクセントや句読点位置も統一されていません 上記の理由により,今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく voiceactress100 の使用を推奨し

    声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨 - 糞糞糞ネット弁慶
  • IBIS 2019 行った - 糞糞糞ネット弁慶

    第22回情報論的学習理論ワークショップ (IBIS 2019) | 第22回情報論的学習理論ワークショップ, 2019.11.20〜23, ウインクあいちに行った. 昨年の札幌に比べると名古屋は近い いつもの胃ではなく腸の具合が完全に悪くて半分ぐらいまともに発表を聞かずにトイレにいた ウインクあいち2階上のトイレは人も少なくホールの音声も聞こえて快適 抗生物質を処方された時は忘れずに整腸剤も貰わないと当に駄目だと痛感しました 有料のチュートリアルも聞きたかったのですが朝から握手会があったので断念 11/20 グラフ文法を用いたグラフ生成 「化学構造式のためのハイパーグラフ文法」を発表した(JSAI2018) で予習していた 分子グラフの生成をしたい (ハードな)原子価の制約を必ず満たす分子ハイパーグラフ文法を提案 ソフトな制約は VAE で学習する 全てを深層学習でやるのではなく,ハード

    IBIS 2019 行った - 糞糞糞ネット弁慶
  • 300 万ノード 1 億エッジからなる日本語版 Wikipedia のリンク構造から学習した見出し語の node2vec (分散表現) を公開しました - 糞糞糞ネット弁慶

    タイトルの通りです.Wikipedia 文を用いた埋め込みは 東北大乾研による日Wikipedia エンティティベクトル BIZREACH によるHR領域向け単語ベクトル|株式会社ビズリーチ 朝日新聞による朝日新聞単語ベクトル BERT with SentencePiece を日Wikipedia で学習してモデルを公開しました – 原理的には可能 – データ分析界隈の人のブログ、もとい雑記帳 Out-of-the-box - 日Wikipediaで学習したdoc2vevモデル がありますが,リンク情報を用いた埋め込みは見かけなかったので公開します.このデータが誰かの何かの役に立てば幸いです. ダウンロードリンク 2 種類のファイルを用意しました. jawiki_n2v.txt.tar.gz : jawiki_n2v.txt.tar.gz は namespace ,ノード

    300 万ノード 1 億エッジからなる日本語版 Wikipedia のリンク構造から学習した見出し語の node2vec (分散表現) を公開しました - 糞糞糞ネット弁慶
  • MovieLens dataset や ImageNet や CaboCha 付属モデルファイルはそのままでは商用利用できない - 糞糞糞ネット弁慶

    タイトルそのままです. 機械学習領域において有名なデータはよくライセンスを確認してみるとそのままでは商用利用ができないことがしばしばあります. ブログや Qiita に書いたり,大学研究者であれば問題になりにくいとは思いますが,なんらかの企業に所属して研究開発やシステム開発を行っている場合には注意が必要になることがあるかもしれません*1. 色々あってライセンスについて少し調べたのと,ウェブ上での言及を見かけなかったのでここにメモを残します. MovieLens dataset MovieLens | GroupLens MovieLens dataset (以降 MovieLens) は GroupLens によって収集・公開されている映画の評価データです. このデータはそこそこの量があること,映画という馴染みの深い題材であることから,協調フィルタリングや行列分解を用いた推薦問題を解く際の

    MovieLens dataset や ImageNet や CaboCha 付属モデルファイルはそのままでは商用利用できない - 糞糞糞ネット弁慶
  • IBIS 2017 行った - 糞糞糞ネット弁慶

    IBIS2017 | 第20回情報論的学習理論ワークショップ, 2017.11.8〜11, 東京大学 郷キャンパス 聞いたポスターについてメモ.人があまりに多くて,予定していた半分も聞くことができなかった. D1-22 : 機械学習モデルの列挙 著者らによるスライド 機械学習モデルの列挙 同じ精度を持ちつつ,異なるモデルを複数列挙することでユーザが納得のいくモデルを見つけることができる,という話 Enumerate Lasso の論文は読んでいたけれど,特殊な形の決定木であっても列挙は可能である,という話をもう少し詳しく聞きたかった D1-25 : HTTP通信を用いた半教師あり学習によるマルウェア感染端末の分類器について 教師あり学習で判別したいが特徴量が非常にスパース.そこで半教師ありでデータを追加すると精度が改善する とはいえ追加せずとも AUC が 0.8 近かった D1-38

    IBIS 2017 行った - 糞糞糞ネット弁慶
  • プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞糞糞ネット弁慶

    声優統計学会 サークル「日声優統計学会」の最後の活動として,読んでくださった方々への恩返しの意味を込め, id:repose と id:MagnesiumRibbon で声優統計コーパスを上記ページにて公開しました. 概要 声優統計コーパスは diphone の出現頻度を考慮しながら独自に構築した音素バランス文 その音素バランス文をプロの女性声優 3 名が 3 パターンの感情表現(ニュートラル,喜び,怒り)で読み上げた総長約 2 時間,総ファイルサイズ 720 MB,計900個の音声ファイル の 2 つで構成されています. 音素バランス文については表示 - 継承 4.0 国際 (CC BY-SA 4.0)で公開しています. 音声ファイルについては研究・分析目的でのみ無償で利用可能です. 音素バランス文 音素バランス文は日語版 Wikipedia文データを元に構築しています.

    プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞糞糞ネット弁慶
  • 退職します - 糞糞糞ネット弁慶

    先日の大久保瑠美さんのラジオで読まれたメールでも書いたように,9月末で今の職場を退職します. そんなことよりも今は,2015年9月30日で終了する大久保瑠美さんの動画付ラジオ番組「A&G NEXT GENERATION Lady Go!!」の最終回の事を考えたい.

    退職します - 糞糞糞ネット弁慶
    pulltop-birth
    pulltop-birth 2015/09/24
    誰?ちなみに当該のメールが読まれたのは青春学園 Girls High↑↑2015年8月15日放送回の20分頃からです
  • 東日本大震災ビッグデータワークショップ Project 311に「野良分析チーム」として参加した - 糞糞糞ネット弁慶

    概要 当時をデータで振り返った時に、当に必要なサービスは何だったのか、次の災害に備えるために、今我々はどんな準備をすればよいのでしょうか? 「東日大震災ビッグデータワークショップ - Project 311 -」 では震災発生から1週間の間に実際に発生したデータを参加者に提供いたします。参加者はそのデータを改めて分析することによって、今後起こりうる災害に備えて、どのようなことができるかを議論し、サービスを開発することができます。 東日大震災ビッグデータワークショップ - Project 311 - Googleが主催し,様々な会社から提供されたデータを用いて分析/サービス開発を行うワークショップに@haraponさんと「野良分析チーム」を組んで参加した.ちなみに@haraponさんとはTwitterはてなブックマークでやり取りする程度の間柄であり,これまで一度も会ったことはなく,最

    東日本大震災ビッグデータワークショップ Project 311に「野良分析チーム」として参加した - 糞糞糞ネット弁慶
    pulltop-birth
    pulltop-birth 2012/10/28
    この期間でこれだけ色々やれるの流石だし「大雑把にでも傾向が掴めないならば,洗練された手法を用いて関係性をモデリングする必要も意味も無い」とか参考になることが色々書いてある
  • アニメにおける共演関係を用いた声優のブレイク推定 - 糞糞糞ネット弁慶

    概要 声優の共演関係から声優がいつブレイクしたかを年月の単位で推定した. 結果はここに. データ しょぼいカレンダーをクロールし, アニメタイトル 放映開始年月 出演声優一覧 を取得した. https://github.com/ybenjo/crawl_syobocal/blob/master/src/crawl.rb どうやったか 時間区切りごとに共演関係の重み付き無向グラフを構築する 来なら声優 <-> アニメの二部グラフでやるべきだけど面倒なのである声優ペアが同じアニメに出演していたらそのあいだにエッジを張る そのグラフごとにPageRankを計算する このPageRankは共演関係上の声優の「重要度」と考える 声優ごとにPageRankの時系列データが得られるので外れ値検出を行う 出演作品数の時系列データを用いるより,他の共演者の情報を使う事ができる筈. PageRank おなじ

    アニメにおける共演関係を用いた声優のブレイク推定 - 糞糞糞ネット弁慶
  • 開発合宿してきた & 声優統計メンバーy_benjoからのWikipediaのリンク構造に対するメッセージをお読みください - 糞糞糞ネット弁慶

    というわけで毎年恒例二泊三日の開発合宿を@inut,@syou6162,@twittoru,@wakuteka,@yag_aysとやってきた. 開発合宿してきます - 糞ネット弁慶 現実逃避のために開発合宿してきた - 糞ネット弁慶 合宿そのもの 卓球して 酒飲んで 温泉に入って アノテーションして 漫画を読んで という感じだった. 寝て起きたら@twittoruがコード修正しててくれたり,相手のマシンにsshしてscreen -xやってペアプロやってる人がいたりして良かった.わっせわっせと集まって色々喋りながらそれぞれのテーマに取り組むと「それ***でできるよ」とか「それ今やりました」みたいなやり取りが生まれ続けるので効率というか相互作用が良い. 二日目は丸一日文字列がアニメタイトルかそうでないかだけを判別し続けた.人力アノテーションとかそもそもやったことが無く,NLP業界の人だと「アノ

    開発合宿してきた & 声優統計メンバーy_benjoからのWikipediaのリンク構造に対するメッセージをお読みください - 糞糞糞ネット弁慶
  • 大規模データ処理勉強会 〜「大きな」データと対峙する(仮称)〜に参加してきた - 糞糞糞ネット弁慶

    クレジットカード現金化詐欺【業界人が教える口コミ情報】 【ユーザ】「ライフサイエンス分野の大規模データ・現場での課題とこれから」 (ライフサイエンス統合データベースセンター/DBCLS @iNut) スライド(pdf) SQL, NoSQL, アルゴリズムの話無し DBCLSの説明 データベースとは 研究成果が公開される場としてのDB 公共の汎用研究リソースとしてのDB ex. PubMed(論文) ex. 集団疫学(数千の時系列データ) ex. 大規模塩基配列データ 生命科学系のデータの特徴 メタデータの重要性 維持管理必要 実装者と実行者の関係 dryとwet 大規模塩基配列データ 量が多い: 7kb→1Tbに パーソナルゲノム NGSデータ 画像データ: 50TB シグナル強度: 2〜10TB 中間ファイル: 1.5TB 中間ファイル: 45TB 結果: 5TB 宅急便で送るほうが早

    大規模データ処理勉強会 〜「大きな」データと対峙する(仮称)〜に参加してきた - 糞糞糞ネット弁慶
  • というわけでTsukuba.R#9@東京大学に参加してきた & 発表してきた - 糞糞糞ネット弁慶

    Tsukuba.R#9 - Tsukuba.R - Seesaa Wiki(ウィキ) 前回企画から8ヶ月,前回実施から14ヶ月ぶりの実施となったTsukuba.Rをやってきた. One more time in Tsukuba.R (@wakuteka) Rをいきなり使う事になったユーザに対する手引きとして書籍,ウェブサイトの紹介.そして統合開発環境としてHome - RStudioも紹介. RStudio,タイムラインでは散々話題になっていたが「俺にはEmacs + ESSがある」と頑なに拒んでいたので動いているのを見るのははじめてだった.結構良い感じだったので他の人に薦める時はまずRstudioから薦めようと思う.また,SweaveというTeXコードとRのコードをまとめて書けるパッケージも軽く触れられていて@gentlementatu氏が興味を示していた. ポケモンのインターフェース風

  • 「放置系ブラック研究室で楽しく生きるにあたって」の補足 - 糞糞糞ネット弁慶

    これは放置系ブラック研究室で楽しく生きるにあたって - 糞ネット弁慶の補足である. 書いた目的 放置系研究室の存在を世に知らしめたかった そもそも一般的な院生に対して放置系の話をすると全くと言っていいほど通じない.意識高い他大学院生と話していても 意識高い他大学院生(略称:意識高):「修論どうですか?」 私:「や,全然やってないんですけど.」 意識高:「あー,これまでの研究をまとめて修論にしちゃう感じですか?凄いなー.」 私:「え,だから論文とか当に書いてないんですけど.まだテーマも決まってないし.」 意識高:「またまた〜そんなこと言って出してるんでしょ?ところで次の***(学会名)出します?」 私:「(***ってそもそも何だ……知らないとか言っても通じないだろうし……)や,出さないですね.」 意識高:「そうなんですか.僕なんか***と△△△と◯◯◯出さなきゃいけなくて当に忙しいし,そ

    「放置系ブラック研究室で楽しく生きるにあたって」の補足 - 糞糞糞ネット弁慶
    pulltop-birth
    pulltop-birth 2011/03/01
    コメント欄が……
  • IJCNN Social Network Challengeの勝者が取った手法(deanonymize)は許されるか? - 糞糞糞ネット弁慶

    当はリンク予測の話として書きたかったが,優勝チームの手法及びそれに対する反応が面白かったのでメモ. 三行まとめ リンク予測のコンペティションが行われた 優勝チームは(データの出処となっていた)Flickrをクロールし,匿名化(anonymize)されていたテストデータを実データと結びつける(deanonymize)事により予測精度を向上させた 優勝チームの手法が公開され,公式フォーラムで「これは問題ではないか?」と言われる 背景 最近見つけたのだが,Kaggle: Your Home for Data Scienceというサイトでは常時賞金が出るデータコンペティションが行われている. 企業や研究者がデータを提供し,分析者がそれを分析する.企業は最終的には賞金を出し,データに対する知見を得る,みたいなアウトソーシングであると公式サイトでは説明がされている. Companies, gover

    IJCNN Social Network Challengeの勝者が取った手法(deanonymize)は許されるか? - 糞糞糞ネット弁慶
  • NTTサイバーソリューション研究所でインターン - 糞ネット弁慶

    インターン中毎朝バスの中で聴いてた曲。 というわけで8月はずっとYRP野比にあるNTTサイバーソリューション研究所でインターン(正確には夏季実習)してた。 テーマとしては、WebページのリンクデータからSPAMサイトを見つける古典的な問題を改善しつつ、途中からかなり新しい方向に進んで行ったりして、成果としては素晴らしい進歩があったというわけではないけれども、なんとかそれっぽい形にまとめて終了という感じ。 きっかけ きっかけは学校から案内が来ていたこと。テーマはRuby機械学習などお馴染みのものが見えたので、受かったら運がいいかなぐらいの気持ちで送付。どうせ夏休みに研究室に通うわけでもなし、id:syou6162ははてなインターンに行ってしまうしでやる事無かったし。 動機 動機として一番強かったのはid:mamorukさんの 大学院生の夏休みの過ごし方ガイド - 生駒日記 だと思う。上の記

    NTTサイバーソリューション研究所でインターン - 糞ネット弁慶
  • 1