自然言語処理の領域で近年注目されている技術にword2vecというのがあります。 今日は、夏休みの自由研究として、スタンフォード哲学事典のデータを使って、word2vecを作ってみたいと思います。 人文系の領域でコンピューターを使った研究は、最近デジタル・ヒューマニティーズなどと呼ばれてちょっと流行しているようです。私もデジタル・ヒューマニティーズやってみたいので、手始めにとりあえずやってみます。といっても今回の試みは遊びみたいなものですが、コードと手順は残しておくので、もっと本格的な研究のとっかかりになればと思います。 コードと手順は以下に残してあります。 コード: https://github.com/takada-at/sep_crawl Google Colaboratory: https://colab.research.google.com/drive/15MB_mhYbX4v