タグ

2020年3月23日のブックマーク (3件)

  • Word2VecとTF-IDFで社内文書を検索するサービスを作ってMattermostから使えるようにした - Qiita

    初めまして。 株式会社ハイマックスの平田と申します。 記事とは無関係ですが、約1年を経て念願(!)のQiita Organizationの作成が叶ったことをこの場を借りて報告いたします。 さて先日、社内のMattermostから使える文書検索サービスをリリースしました。 単なる全文検索ではなく、Word2VecとTF-IDFで文書をベクトル化(≠Doc2Vec)し、検索ワードとの距離による検索を行っています。これにより、文書上と多少表現が異なる検索ワードでもヒットするようになります。 この記事では、サービスを作ってMattermostから使えるようにするまでの流れをソースコード(抜粋)付きで紹介します。 作ったもの Mattermostのチャンネルのいずれかで、例えば「/bot テスト」と入力すると… こんな感じで社内の文書管理システムから関連する文書のリンクを返してくれます。 作った動機

    Word2VecとTF-IDFで社内文書を検索するサービスを作ってMattermostから使えるようにした - Qiita
  • PDFからテキストデータをうまく抜けるか実験(pdfminer.six)/Pythonサンプル - SE_BOKUのまとめノート的ブログ

    目次 PDF形式のデータから、テキストを抜き出す Pythonで使えるPDFライブラリ比較 pdfminer.six pdfminer.six付属のツールpdf2txt.py pdfminerを使ったPythonプログラム シンプルなレイアウトのPDFで試す 2段組みの複雑なPDFで試す 結論:プログラムのインプットにPDFは不適 理由1:うまくいくPDFとうまくいかないPDFがある 理由2:特にうざい2バイト文字が化ける問題 PDF形式のデータから、テキストを抜き出す PDF形式のデータから、テキストを抜き出して、何か処理する時のインプットデータにできないかと試してみた結果のご報告です。 一口にPDFと言っても、様々なバージョンがあります。 暗号化もできます。 ja.wikipedia.org そいういうバリエーションを吸収しないといけないなどと考えると、プログラミングでデータで使うには

    PDFからテキストデータをうまく抜けるか実験(pdfminer.six)/Pythonサンプル - SE_BOKUのまとめノート的ブログ
    katz1955
    katz1955 2020/03/23
    “pdf2txt.py”
  • 元祖スーパースプレッダー「腸チフスのメアリー」が残した教訓

    アイルランド出身の料理人メアリー・マローン。腸チフスが集団発生した際、初めて保菌者と特定された人物だ。メディアはマローンを「腸チフスのメアリー」と呼び、マローンの裁判と強制隔離は世間の注目を集めた。1909年ごろに公開されたこのイラストでは、マローンが頭蓋骨を割ってフライパンに入れている。(CHRONICLE, ALAMY) ジョージ・ソーパーはいわゆる探偵ではなかった。彼は土木技師だったが、公衆衛生の専門家のような存在になっていた。そのため1906年、米国ニューヨーク州ロングアイランドの家主が腸チフスの発生源の追跡に苦労していたとき、ソーパーに声がかかった。その夏、家主はある銀行家の家族と使用人にロングアイランドの家を貸していた。8月後半までに、この家に暮らす11人のうち6人が腸チフスに感染したのだ。 ソーパーは以前、ニューヨーク州の職員として感染症の調査を行っていた。「『エピデミック・

    元祖スーパースプレッダー「腸チフスのメアリー」が残した教訓