サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
パリ五輪
qiita.com/matub-ken
様々な形式のファイルをテキスト化してワードクラウドで分析します。 pythonを利用した、テキストファイルをワードクラウド表示するサンプルはいくつか、見つかります。 ところが、手元にある分析したいファイルは、エクセルだったり、ワード、パワーポイント,pdf,htmlなどテキスト以外の様々なファイルがあります。 これらをテキスト化する方法も個々に見つけられますが、個別に変換するのが面倒だったので、これらのファイルを解析してワードクラウドで分析するようなコードを書いてみました。 分析対象の具体的な拡張子は .xlsx,.docx,.pptx,.pdf,.csv,.txt,.text,.md,.htm,.html です。 また、テキストの拡張子を増やすのは、簡単に拡張できます。 (コードのコピペでなく、配列変数修正だけで拡張できるよう直すかもしれません。) 各種ファイルのライブラリを利用してます
このページを最初にブックマークしてみませんか?
『qiita.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く