コーパスに関するzanninoのブックマーク (2)

  • NHKスペシャル連動企画 運命の1号機“3万会話”が明かす真実 〜東電 テレビ会議 最新科学で分析〜 |NHK NEWS WEB

    原発事故を検証するNHKスペシャル「メルトダウンFile.6」(3月12日放送)との連動企画。大津波をきっかけに、4基の原発で次々と緊急事態が連鎖した福島第一原発事故。あの時、最初にメルトダウンしたとみられる1号機では、その後も事態の悪化が止まりませんでしたが、東京電力はそのことに長く気づきませんでした。なぜ危機的な状況が見過ごされたのか。NHKでは、東京電力が当時、店や福島第一原発などの各拠点をテレビ会議で結んで対応を検討した際の録画映像から20日間にわたる会話を文字に起こし、データベース化。約3万4千回にのぼる膨大な発言について、人の会話などの文章を解析する人工知能テクノロジー(「IBM Watson Explorer」)も活用して独自に分析し、“危機”の深層に迫りました。

    NHKスペシャル連動企画 運命の1号機“3万会話”が明かす真実 〜東電 テレビ会議 最新科学で分析〜 |NHK NEWS WEB
    zannino
    zannino 2017/03/14
    先日の福島原発についてのNHKスペシャルで、IBMのWatsonを使った会話データ分析がされていた。まるでWatsonというひとつのシステムが自動で結果を出してるように見えたんだけど、裏では膨大な人力があるはずです。
  • 概要 国語研日本語ウェブコーパス(NWJC)

    データの構築手法について ウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。 得られたウェブページはnwc-toolkitを用いて、日語文抽出と正規化を行いました。 コピーサイトの問題を緩和するために、文単位の単一化(文の異なりをとること)を行いました。 形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、 さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。 参考文献について 『国語研日語ウェブコーパス』 国際論文誌: Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20

    zannino
    zannino 2017/03/07
    コーパスとは「テキストや発話を大規模に集めてデータベース化した言語資料」。日本語コーパスと検索システムが公開中。アレクサ日本語版早く使ってみたい。
  • 1