タグ

2021年7月12日のブックマーク (3件)

  • [文章生成]MeCabをインストールして分かち書きを試してみよう

    今回の目的 前回は、青空文庫のWebサイトから梶井基次郎の小説データを取得して、そこから文のデータを抽出する方法を見ました。今回は、自然言語処理で扱いやすいように分かち書きをするための準備をします。 ところで、自然言語処理とはもちろん私たちが日常的に使っている言葉(ここでは日語としましょう)をコンピューターに処理させることです。その結果、コンピューターに入力された言葉からは、何らかの情報が取り出されます。何らかの情報とは例えば地名や製品名、ランチの注文かもしれませんし、ユーザーがしたい何かのアクションかもしれません。あるいは、入力された言葉が、全体として肯定的なものなのか、否定的なものなのかを判断するといったことも考えられます。 いずれにせよ、こうした処理を行うには、入力された言葉をさまざまな段階を踏んで解析する必要があるでしょう。 例えば、「くるまでまつ」という文について考えてみます

    [文章生成]MeCabをインストールして分かち書きを試してみよう
  • [文章生成]スクレイピングで青空文庫からデータを取得してみよう

    今回の目的 前回までは画像処理についていろいろと試してきました。今回からは数回に分けて、自然言語処理(Natural Language Processing)について学んでいく予定です。ここ数年、機械学習の世界においてはTransformerやGPT-x、BERTなどなど、さまざまな技術が生み出されて、自然言語処理の分野が活況を呈しています。その適用領域も翻訳、文章の要約、感情分析、チャットボットなどなど、幅広いものです。 そうした中で、取りあえず今回からは青空文庫から著作権の切れた作品を学習データとして、文章生成を行うことを目的として、自然言語処理にまつわるさまざまな要素を学んでいくつもりです。

    [文章生成]スクレイピングで青空文庫からデータを取得してみよう
  • 消えた出版社の本はどこへ 著作権引き継ぎの課題とは 活字の海で - 日本経済新聞

    出版社は中小事業者が多く、経営基盤も弱体だ。万一経営に行き詰まったら、そこが出していた書籍はどうなるのか。を生き延びさせるために奔走している人たちがいる。仏教書の出版社、サンガは資金繰りに窮し、1月に仙台地裁に破産手続きを申し立てた。同社はアップル創業者のスティーブ・ジョブズが愛読した『禅マインド ビギナーズ・マインド』(鈴木俊隆著)などのロングセラーを持っている。こうした書籍が消えてしまう

    消えた出版社の本はどこへ 著作権引き継ぎの課題とは 活字の海で - 日本経済新聞
    medihen
    medihen 2021/07/12
    権利者不明の不動産の処理なんかも連想するけど、公告して一定期間後も無連絡だったら著作権消滅とか、原契約に基づいて分配金をプールしておき申し出あったら後日精算とかじゃまずいのかな。