タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

NLPとwikipediaに関するmamorukのブックマーク (2)

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    mamoruk
    mamoruk 2011/01/03
    Pythonのライブラリがあったのですねー
  • 2010-05-22

    データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例 タブ区切り データ例 形態素 品詞 idf値 あいぞう 名詞 6.09252 あいぞめ 名詞 5.01334 あいた 感動詞 4.58737 あいたい 名詞 4.46927 あいだ 名詞 2.82231 *1:WP2TXTの変換によって文がなくなる場合がある *2:めんどくさかったので・・・ データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:

    2010-05-22
  • 1