タグ

2021年1月4日のブックマーク (3件)

  • インターネットと文章

    ソフトウェアエンジニアに対するアンサーブログを書こうと思ってたら、アンサーブログってなんか懐かしくて良いなと思った。ただ、自分はこの類の文章を1年前に書いてしまっており、同様のスタイルで出せる分量の気合の入った仕事がまだ存在しない。去年一年やったことはほぼ書いてしまっている。なので正確に言うと何もアンサーしていないが、インターネットと文章について書こうと思う。 インターネット 高校生だった当時2002年、親戚の大学生だったお兄ちゃんに侍魂というサイトを教えてもらい、親父の仕事PCで読んだ。衝撃だった。文章でこんなに笑ったのは人生で初めてだった。そこから色んなテキストサイトを読んだ。特に「Numeri」、「俺とパンダ」は当に好きでたぶん全部読んでる。 2003-2005年、大学生の頃に自分でさくらのレンタルサーバーを借りてHTMLを手打ちした自分の「ホームページ」を作っていた。WYSIW

    sh19910711
    sh19910711 2021/01/04
    "インターネットで公開される文章は面白い。真摯に書こうとすればするほど、書いている人間の諸々が、単語の選択、句読点、カッコ、改行から溢れてしまう"
  • Python: LexRankで日本語の記事を要約する - け日記

    仕事で行っているPoCの中で、文章の要約が使えるのではと思い、調査をし始めています。 今回はsumyのLexRankの実装を使い、過去の投稿を要約してみます。 LexRank LexRankは、抽出型に分類される要約アルゴリズムで、文書からグラフ構造を作り出して重要な文のランキングを作ることで要約と言える文を発見します。2004年に提案されています (提案論文はこちら) 。 要約アルゴリズムは抽出型と生成型に大きく分けられます 抽出型は、対象の文章内から要約と言える代表的な文を抜き出す方法 (大事なところに線を引くのと近い方法) 生成型は、文章内の文をそのまま使わずに、要約文を作る方法 (読書メモを作るのと近い方法) LexRankのキーポイントは2つで、PageRankから着想を得たTextRank (提案論文PDF) の派生となります。 文をノード、文間の類似度をエッジとした無方向グラ

    Python: LexRankで日本語の記事を要約する - け日記
    sh19910711
    sh19910711 2021/01/04
    "LexRankは、抽出型に分類される要約アルゴリズムで、文書からグラフ構造を作り出して重要な文のランキングを作ることで要約と言える文を発見 / 2004年に提案"
  • Apache HAWQ を最新の Hadoop パッケージ ( HDP 2.5.3 ) で使ってみた(前編) | GMOインターネット 次世代システム研究室

    2017.04.04 Apache HAWQ を最新の Hadoop パッケージ ( HDP 2.5.3 ) で使ってみた(前編) こんにちは。次世代システム研究室のデータベース・Hadoop (MySQL/MariaDB/PerconaServer, PostgreSQL, Hive, HBase, etc..) 担当のM.K.です。 今回は一連の GreenplumDB の検証の続きで、GreenplumDB を Hadoop とくっつけてしまった変種?の Apache HAWQ を試してみます。 HAWQ のアーキテクチャー理解と、HAWQ クラスタの構築をやってみました。 とりあえず前編です!後編はまたいつか・・ HAWQ は Hadoop で動くものの、GreenplumDB の特徴自体は変わらないので、以前に書いた「CentOS 7 に Greenplum DB クラスタを構築

    Apache HAWQ を最新の Hadoop パッケージ ( HDP 2.5.3 ) で使ってみた(前編) | GMOインターネット 次世代システム研究室
    sh19910711
    sh19910711 2021/01/04
    "GreenplumDB は PostgreSQL のフォークで Redshift のようなプロダクト / HAWQ はそれをさらにHadoop の HDFS に搭載したようなもの / HAWQ は HAdoop With Query の頭文字から命名"