タグ

ブックマーク / acro-engineer.hatenablog.com (4)

  • Pandasのメモリ削減方法を整理した - Taste of Tech Topics

    皆さんこんにちは 機械学習チーム YAMALEXチームの@tereka114です。最近、寒いので、鍋を中心にべて生きています。 検証段階でも、規模の大きなデータを扱う機会が増えてきて、Pandasのメモリ消費量が厳しいと感じてきたので、その削減や効率化のテクニックまとめたいと思いました。 有名なものからマイナーなものまで、思いつく限り書いてみます。 そもそもなぜ、Pandasのメモリ削減技術が必要なのか 準備 Pandasのメモリ削減 1. 型修正 2. 逐次読み込み 3. 読み込み時の型指定 4. 逐次読み込み&集約 5. 不要なものを読み込まない 6. 不要なカラム/DataFrameを消す 番外編:そもそもPandasを利用しない 最後に そもそもなぜ、Pandasのメモリ削減技術が必要なのか Pandasで扱うデータの多くのファイルはCSV,Parquet, JSON(JSONL

    Pandasのメモリ削減方法を整理した - Taste of Tech Topics
  • GiNZA+Elasticsearchで係り受け検索の第一歩 - Taste of Tech Topics

    急に冷え込んできてお布団が恋しい季節になってきました。 こんにちは。@Ssk1029Takashiです。 この記事は自然言語処理 Advent Calendarの6日目の記事になります。 qiita.com 全文検索システムは単語検索であることが多いですが、単語検索だけだと困ることもあります 症例検索を例にとって見てみましょう。 検索エンジンに以下の2つの文章が登録されているとします。 「ずっと胃がキリキリと痛い。ただ、熱は無く平熱のままだ。」 「昨日からとても頭が痛い。おまけに胃がむかむかする。」 この時、「胃が痛い」と検索したとき、通常の単語検索の場合だと両方ともヒットしてしまいますが、下の文章は意味としては異なる文章のためゴミになります。 この記事では、GiNZAとElasticsearchを使って意味的に正しい上の文章だけを拾ってくる仕組みを簡単に実現してみようと思います。 どうや

    GiNZA+Elasticsearchで係り受け検索の第一歩 - Taste of Tech Topics
  • GiNZAの固有表現抽出とElasticsearchを使って自動でタグ検索 - Taste of Tech Topics

    こんにちは。@Ssk1029Takashiです。 最近は家でもどうにかラーメンべられないかと試行錯誤しています。 タグ検索とは、キーワード検索とは違い、検索する前からユーザーが選択肢からキーワードをセレクトボックスなどで選んで、検索できる検索方法です。 通常のキーワード検索と違って、ユーザーが0からキーワードを考える必要がないため、効率的に情報を絞り込めます。 もしくは、キーワード検索と併用して使用することも可能です。 ただ、コンテンツごとにタグを設定するのはとても手間がかかります。 コンテンツ作成者も必ずしもタグを設定してくれるとは限りません。 このような時に、自動でタグ付けをしてくれる仕組みがあると楽にタグ検索を実現できます。 ただ、単純な形態素解析で名詞をタグとすると、ゴミが多くなってしまいます。 そこで、今回は、日語処理ライブラリであるGiNZAの固有表現抽出機能とElast

    GiNZAの固有表現抽出とElasticsearchを使って自動でタグ検索 - Taste of Tech Topics
  • 『今話題の分散リアルタイム系OSS』を開催しました - Taste of Tech Topics

    こんにちは。kimukimuです。 2012/09/20、ATNの第5回、「今話題の分散リアルタイム系OSS」を開催しました。 そこで発表した内容についてスライドを公開したので ここにも投稿させてもらいますね。 Stormの注目の新機能TridentAPI Stormの注目の新機能TridentAPI from AdvancedTechNight 単なるキャッシュじゃないよ!?infinispanの紹介 単なるキャッシュじゃないよ!?infinispanの紹介 from AdvancedTechNight 次回も、皆さんの参加をお待ちしています^^

  • 1