自然言語処理をやっている人はよく辞書の整備が大変だと言います。 そんな話をしていたところ、「自分が詳しくない分野の言葉を知るときはweblio辞書が便利だよ」という知見を教えてもらいました。 www.weblio.jp しかし、私は怠惰なプログラマーなので、スクレイピングでデータを取得しました。 試しに、建築・不動産の辞書をスクレイピングで引っ張ってくることにしました。 PythonとRubyでスクレイピングするのは飽きたのでRでコードを書きました。 問題になった(工夫した)のは以下の点です。 英字('a', 'b', 'c'...)、日本語('aa', 'ka', 'sa'...)、数字(0:9)、記号('sign')のURLがある JavaScriptの即時実行式を真似たのはトリッキーすぎるかな… 単語と読みが別々に表示されている 例えば「アウトフレーム工法」「アウトフレームコウホウ」