タグ

2024年5月11日のブックマーク (21件)

  • 継続して改善する固有表現抽出 / Continuous improvement of named entity extraction

    ■イベント Sansan Builders Stage 2021 https://jp.corp-sansan.com/engineering/buildersstage2021/ ■登壇概要 タイトル:
継続して改善する固有表現抽出 登壇者:技術部 DSOC 研究開発部 Data Analysisグループ シニアリサーチャー 高橋 寛治 ▼Sansan Engineering https://jp.corp-sansan.com/engineering/

    継続して改善する固有表現抽出 / Continuous improvement of named entity extraction
    sh19910711
    sh19910711 2024/05/11
    "BERTを用いた固有表現抽出におけるバッチ能動学習 / 前処理や後処理は命名しオブジェクトとして注入することで可読性を高める / 実際に試したり使ったりすることで出力に関する問題点や改善要望が出てくる" 2021
  • インターネット時代におけるマスメディアの必要性(読書メモ:『マスメディアとは何か 影響力の正体』) - 道徳的動物日記

    マスメディアとは何か 「影響力」の正体 (中公新書) 作者:稲増一憲 中央公論新社 Amazon マスメディアを研究する分野といってもさまざまにあるだろうが、書の内容は「マスメディアが人々にもたらす影響をデータを用いて科学的に検証する研究分野」である「メディア効果論」に立脚しており、「取材方法などに関する情報の送り手についての議論ではなく、視聴者などの受け手に対する影響」に関する議論がメインとなっている(p.v)。 そして書のもうひとつの特徴は、マスメディアを擁護したり肯定したりする議論がたびたび登場すること。市井の人々がマスメディアに対して抱いているさまざまなイメージ……「偏っている」「人々を洗脳している」「何も影響力がない」「オワコンだ」……が誤っていることを指摘して、マスメディアの影響力について冷静に分析しながら、その存在が民主主義社会には不可欠であることが主張されているのである

    インターネット時代におけるマスメディアの必要性(読書メモ:『マスメディアとは何か 影響力の正体』) - 道徳的動物日記
    sh19910711
    sh19910711 2024/05/11
    "ただ情報を発信するだけでみんながその情報に影響されるわけではない / 「集団内のバリア」がある / マスメディアが偏向していると認識してしまう「敵対的メディア認知」というバイアス" 2023
  • MicrosoftにおけるBIの歴史 - テクテク日記

    歴史というと、実は学生の時に殆ど興味がなかった分野だったのですが、今思えば自分が歴史よりも現在・将来について興味があったのが原因だったのかもしれません。ただし、例外として自分が今最も活用しているテクノロジーについての歴史は面白くて堪りません。今回はMicrosoftのBIに関する歴史について簡単に紹介してみようと思います。Power BIの登場背景、MicrosoftのBIテクノロジーの登場逸話等に興味がある人は最後まで読んでみて下さい。 凄い人達 当時のBIテクノロジー 混沌の2000年代 セルフサービスBIの登場 MicrosoftのBIに対する戦略 凄い人達 MicrosoftのBIテクノロジーを開発した人たちがいます。有名なところでAmir Netz氏とChristian Wade氏が挙げられます。Amir氏はTechnical Fellowというタイトルを持っており、Micros

    MicrosoftにおけるBIの歴史 - テクテク日記
    sh19910711
    sh19910711 2024/05/11
    "90年代のMicrosoftはエンタープライズ向けBIツールで世の中を席巻 / 当初データを集計するためにはMOLAP、ROLAPという技術を使用 / 手軽に分析できる環境ではないことから、ひと昔のBIは全てエンタープライズBIと呼ばれ" 2021
  • スクラムチームを支える心理学 - スプリントの不確実性にEmojiで立ち向かう

    スプリントの失敗は「まったく予見ができなかった問題」が原因になるとは限りません。認識できたはずの問題を認識できなかった、存在は認識していたのに注目しなかった、問題に注目はしたが対策を検討していなかったなど、後から振り返ると「なぜそこでつまづいてしまったんだろう…」と思えるようなことが、スプリントの失敗の原因となることもあります。 この記事ではそのような問題を「予見できたはずの問題」と呼び、それらに「Emoji」で立ち向かうプラクティスを紹介します。 予見できたはずの問題へ対処するための「RPMプロセス」 私たちのチームでは、例えば「着手をしてみたら設計が生煮えだったことが分かり、予定通りにタスクの実装が進められなかったこと」や、「タスク間の依存関係が認識できておらず、不要な待ちが発生してしまったこと」などといった、来ならプランニングの時点で予見できたはずの問題を適切に扱えなかったことによ

    スクラムチームを支える心理学 - スプリントの不確実性にEmojiで立ち向かう
    sh19910711
    sh19910711 2024/05/11
    "Emojiをチームの「パターン」として用いる / 予見できたはずの問題: 「予見できたはず」という性質のために、どうしても「もっと気をつけよう」以外の具体的なアプローチになかなか繋がりづらい" 2021
  • 効率のよい語学学習? - インタプリタかなくぎ流

    通勤途中の書店で偶然見つけた、奈倉有里氏の『ことばの白地図を歩く』を読んでいたら、「妖怪あきらめ」という「語学学習にひそむ強敵」が出てきました。 でたぞ、語学学習にひそむ強敵、妖怪あきらめ。こいつのやっかいなところは、意外にも「なんのために」という目的意識や、「なるべく効率よく」という効率主義と相性が良く、教科書と仲良しなところだ。 ことばの白地図を歩く なるほど、語学をやるならまずは目的をはっきりと定めて、その目的にいたる効率のよい教科書を使うというのは当たり前のような気もします。でも奈倉氏は、そういう目的意識や効率主義ーー私たちが語学をやるならそれは自明でしょと思っているものーーが逆に語学をあきらめてしまう危険性を誘発しているのではないかとおっしゃっているわけです。 実際にこのでは「あえて効率の悪い学習法をやってみる」ことをおすすめしたりしています。もっと自分の興味のおもむくままに学

    効率のよい語学学習? - インタプリタかなくぎ流
    sh19910711
    sh19910711 2024/05/11
    "目的意識や効率主義が逆に語学をあきらめてしまう危険性を誘発しているのではないか / 語学は「あとから『じわっ』としみてくる」 / 自分が楽しめているかどうかを判断するほうがいい"
  • 社内 GameDay をやってみた - エムスリーテックブログ

    こんにちは、エムスリーエンジニアリングGの榎田です。趣味数学ゲームです。数学はここ半年ほど 微積分の勉強 をしていて、ぼちぼち微分形式の話ができそうです。ゲームは黎の軌跡(日ファルコム軌跡シリーズ最新作)を遊んでいます。初週ナイトメアでも遊べるバランスなのがよいです。あとフェリちゃんがかわいい。 お仕事では Docpedia という医師向け Q&A サービス を開発するチームでの仕事が半分、チーム SRE としての仕事が半分、という立ち位置です。最近、その Docpedia チームで GameDay というものをやりました。その過程で色々なことが学べたので、今日はその話を書きます。 GameDay とは 出した問題 ぱっと見 裏で何を壊したか 結果 問題設計の意図 ひどく難しくしない できることを制限しない 引き継ぎ 感想や学び 一人でも文殊、三人でもっと文殊 権限があることと実際に

    社内 GameDay をやってみた - エムスリーテックブログ
    sh19910711
    sh19910711 2024/05/11
    "単純に「検証環境で障害を起こすから、復旧してね」という問題を出すことにしました / 本番障害時にできる調査手段は一切制限しない / 権限があることと実際に行動に移せることは違う" 2021
  • University of the Peopleを卒業してコンピュータサイエンスの学士号を取りました(仮) - Journal

    先日AY2024-Term3を終えて卒業要件単位数を満たすことができました。今はまだ卒業申請中なので「仮」としている。ディプロマを手にするまでは実感が湧かなそうだけれど日に日に記憶が薄れていくので振り返りを。 清々しい気分で見物した今年の牡丹 目次 CS 2204 Communications and Networking CS 2301 Operating Systems 1 CS 3307 Operating Systems 2 CS 4402 Comparative Programming Languages CS 4407 Data Mining and Machine Learning さいごに CS 2204 Communications and Networking OSI参照モデル、TCP/IPモデルの各レイヤーの役割とそこに使われているプロトコルやアルゴリズムを一通り学ん

    University of the Peopleを卒業してコンピュータサイエンスの学士号を取りました(仮) - Journal
    sh19910711
    sh19910711 2024/05/11
    "CS 2301: 教科書は無料で公開されているArpaci-Dusseauの『Operating Systems: Three Easy Pieces (OSTEP)』 + 「Virtualization」の章を8週かけて学んだ / CS 4407: HadoopとRDBMSとNoSQL + 機械学習の各モデルのアルゴリズムと理論、Rを使った分析手法"
  • AWS Config Rulesを使用し、組織全体で一定期間利用の無いIAMユーザーにDenyポリシーをアタッチしてみた - サーバーワークスエンジニアブログ

    エンタープライズクラウド部の山下(祐)です。 今回は、AWS Config Rules(以下、Configルール)で一定期間利用の無いIAMユーザーを検知し、修復アクションでAWSDenyAllポリシーをアタッチ&管理者へのメール通知を行ってみたいと思います。 また、CloudFormation StackSets(以下、StackSets)とAWS Config Conformance Packs(以下、適合パック)を使用し、AWS Organizations(以下、Organizations)の組織全体で利用の無いIAMユーザーを管理できるようにしたいと思います。 適合パックとStackSetsの配布イメージ 修復の流れ StackSetsの委任 修復アクション用IAMロール SNSトピック Configルール 修復アクション ビジュアルツール ランブック属性 ① GetUsernam

    AWS Config Rulesを使用し、組織全体で一定期間利用の無いIAMユーザーにDenyポリシーをアタッチしてみた - サーバーワークスエンジニアブログ
    sh19910711
    sh19910711 2024/05/11
    "マネージドルールの「iam-user-unused-credentials-check」 + 一定期間利用のないコンソールパスワード、アクセスキーを持つIAMユーザーを検知 / SSMのAutomation: Step Functions同様に、ビジュアルツールを用いて作成することも可能"
  • 並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)

    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ (Open Source Conference 2021 Online/Hokkaido 発表資料) 2021年6月26日 NTTデータ 技術革新統括部 システム技術部 デジタル技術部 インテグレーション技術担当 吉田 貴哉Read less

    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)
    sh19910711
    sh19910711 2024/05/11
    "従来のデータレイク: 高度化する要件に対してデータの整合性を保つのが難しい・更新の重複への対応が難しいなどの課題 / データレイクを進化させるOSSのストレージレイヤソフトウェアが登場" 2021
  • Cloudflare AI Gatewayを利用して、Amazon Bedrockを使ったAPIの利用状況の可視化、分析、ロギングできるか試してみた | DevelopersIO

    Cloudflare AI Gatewayを利用して、Amazon Bedrockを使ったAPIの利用状況の可視化、分析、ロギングできるか試してみた どうも!オペレーション部の西村祐二です。 以前、Hono + Cloudflare Workers + AWS SDK for JavaScript v3 + Amazon Bedrockの構成でAIモデルの動作確認用のAPIを作りました。 Hono + Cloudflare Workers + AWS SDK for JavaScript v3の構成でAmazon Bedrockが利用できるか試してみた | DevelopersIO 今回このAPIに対して、AIアプリケーションの利用状況を可視化、分析、キャッシュ、生成された回答のロギングなどの環境を提供するCloudflare AI Gatewayを試してみたいと思います。 Cloudfl

    Cloudflare AI Gatewayを利用して、Amazon Bedrockを使ったAPIの利用状況の可視化、分析、ロギングできるか試してみた | DevelopersIO
    sh19910711
    sh19910711 2024/05/11
    "Cloudflare AI Gateway: モデルの利用状況をモニタリングできるダッシュボードであったり、ログ、キャッシュの機能もあり + 今後、DLPの機能や使用状況によるアラートの機能など多くの便利な機能が計画"
  • Google Meet仮想背景のAIモデルを参考に開発した高速高精度なバーコードスキャナ

    こんにちは。 前回のブログでGoogle Meetの仮想背景用のAIモデルをwasm化したTensorflow Lite(TFLite)で動かす方法についてご紹介しました。今回は、この技術の活用先の一つとして、軽量、高速なバーコードスキャナを作成してみたのでご紹介したいと思います。 動作としてはこのような感じになります。様々の向きを向いている複数のバーコードを高速に読み取れています。 軽量Semantic Segmentationモデル 仮想背景で使われているAIモデルはSemantic Segmentationモデルと呼ばれます。このモデルは、写真などの画像のピクセル毎に何が写っているかを分類し、対象物が写っている領域を特定してくれます。例えば、下図のように、左の可愛い様の画像を入力すると真ん中のように様と背景の領域を特定した出力を出してくれます。これを人間に使って人間と背景の領域を

    Google Meet仮想背景のAIモデルを参考に開発した高速高精度なバーコードスキャナ
    sh19910711
    sh19910711 2024/05/11
    "軽量Semantic Segmentationを用いてバーコードがありそうな領域を切り出す / シーケンシャルに行っていたエッジ検出処理の一部を、Tensorflow Lite(+XNNPACK)で最適化された行列演算で一気に計算" 2021
  • 深層学習の不確実性 - Uncertainty in Deep Neural Networks -

    Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-menRead less

    深層学習の不確実性 - Uncertainty in Deep Neural Networks -
    sh19910711
    sh19910711 2024/05/11
    "現実の環境は非常に変化しやすくNNが未知データと捉え「知らない」不確実性が生まれる / NNは分布の変化に敏感 + 性能を劣化させることがある / アンサンブルで重要なのはNN間の振る舞いの多様性" 2021
  • 不正検知を可能とする弱教師あり学習手法「DevNet」の紹介 〜膨大なデータに潜む異常を最小限のラベリングで見つける技術〜

    sh19910711
    sh19910711 2024/05/11
    "不正対策の難しさ: 不正かどうかの判断には文脈を考慮する必要がある + 一回ならまぐれかもしれない / 考慮しなければいけないことが時間と共に変化 / DevNet: 未知のデータは正常とみなして学習" arXiv:1911.08623 2021
  • NFL 1st and Future - Player Contact Detection 振り返り - :D

    はじめましての人ははじめまして。普段sqrt4kaidoという名前でkaggleのコンペなどに参加しています。記事では、先日まで行われていたNFLで5位に入ることができましたので、その振り返りを行いたいと思います。 概要 データ ベースライン 弊チームソリューション stage1 stage2 推論 上位解法紹介 1st 3rd 感想、進め方など 概要 コンペは、The National Football League (ナショナル・フットボール・リーグ、以下:NFL)の試合中におけるプレーヤーの外部接触を検出するタスクでした。タスクの実施にあたっては、試合の動画データとトラッキングデータなどのテーブルデータが与えられました。提出はコードコンペティションの形式で行われました。 データ 動画は、全体が映ったものと、ゴール側(EndZone)、サイド側(SideLine)から撮られた3種類

    NFL 1st and Future - Player Contact Detection 振り返り - :D
    sh19910711
    sh19910711 2024/05/11
    "試合中におけるプレーヤーの外部接触を検出するタスク / 精度向上を行うとともに効率的な学習方法を模索するのもこのコンペの肝の一つ / PyTurboJPEGを利用することで、1.5倍ほど画像読み込み時間を短縮" 2023
  • シンプルなHITL機械学習と様々なタスクにおけるHITL機械学習

    sh19910711
    sh19910711 2024/05/11
    "様々なサンプリング手法を組み合わせて活用することで同じ件数の学習データであってもモデルの予測性能を効率よく改善できる / 評価データを最初に作成しないとモデルの精度を正しく評価するのが難しくなる"
  • 英単語学習アプリMikan - 締切駆動型人間の日常

    3月20日あたりから5月10日のTOEFL-ITPまでの一ヶ月半くらい、ボキャブラリを高めるためにスマホあぷりMikanを使ったのでご紹介を。 Mikanとは東大生の人が作った英単語学習アプリです。 最大の特徴は、出てきた単語が分かったら右に、分からなかったら左にスワイプすることで分からない単語を繰り返し集中的に見ることで英単語を効率よく覚える学習方式です。 このアプリには以下の今の時点で5つのコースがあります。 TOEIC TOEFL GRE JUKEN CENTER 今回自分はTOEFLのコース3000語のコースをやったので、TOEFLのコースについてまとめます。 良い点 無料である 非常に高速に学習できる 全ての単語に音声がついている TOEFL3800に出てくる単語がよく出てくる 良くない点 復習機能が微妙 発音記号がついてない 日語訳だけでは他の同じ訳の単語とどう違うのか分から

    英単語学習アプリMikan - 締切駆動型人間の日常
    sh19910711
    sh19910711 2024/05/11
    "一ヶ月で一日平均100語ずつ進め, 3000語を一周 / 500語を超えたあたりから1回で覚える必要はないことに気づきました / 単語になれることを目的として、学習したその時だけは日本語訳が出てくればよいというスタンス" 2015
  • 実務で生成AIサービスを開発してわかったこと

    生成AIを使ったサービスを開発してわかったことをメモしておきます。 開発したもの 業種 SaaS 課題 提供サービス内でユーザーがアイディアを考えることが難しかった。様々なデータを人力で集めてくる必要があった 解決策 アイディア起案に繋がりそうなデータを自動で集めてきて提示する。手法はベクトル検索、AIによる要約生成。 その他 チャットUIは作っていない。ユーザーの入力は最初の検索テキスト入力文のみ。 開発前の検証・プロトタイピング 開発する前に生成AIの出力を検証することが必要 生成AIの出力の質はサービスの肝だから 生成AIの出力は事前の予想と違うこともあり早い段階で出力を確認しておかないと後々の仕様変更があったときにキツイから AIに渡すデータの中身を確認しておく 例えばRAGを使って社内ドキュメントやDBを検索する場合、それらのデータの中身を吟味する必要がある 必要なデータと不要な

    実務で生成AIサービスを開発してわかったこと
    sh19910711
    sh19910711 2024/05/11
    "「チャットUIのAIサービス」と言われたらユーザは日頃使い慣れているWeb版ChatGPTのGPT-4と同じような体験を期待する / 通常の処理にしれっと生成AI機能を混ぜて既存の機能を向上させる + 地味AIと呼んでいる"
  • 外国語習得に覚えるべき語彙を決めること - 多言語話者の効率的外国語学習法

    使わない単語を覚えても意味がない 使わない単語を覚えても意味がない。keenという語の訳語を一生懸命暗記している高校生がいるが、普段から英語の文を読む私でもこの単語はあまり見かけない。つまり、普通の人がこの言葉を覚えてもほとんど役に立たないということだ。 ベトナム旅行の場合 そこで、到達目標のレベルと範囲を設定するべきである。例えば、ベトナムに旅行に行く場合、「これはいくらですか?」「ベンタイン市場まで行きたいです。」「鶏肉のフォーを下さい」などの文が出来れば良い。 香港の日常で必要な広東語の場合 僕の広東語の勉強の例を挙げる。僕は広東語の日常会話ができればいいと考えているので、「歩道橋渡ってまっすぐ行くとバス停があるんですね」や「冷蔵庫に牛乳ある?ないなら、今から買い物に行くついでに買うけど。」「エビ餃子ありますか?」程度が言えれば十分である。一番難しい単語で「細菌」がわかればよくて、「

    sh19910711
    sh19910711 2024/05/11
    "使わない単語を覚えても意味がない / 絵画の解説が理解したいなら、芸術に関する単語を覚えればいい / 「英語が話せたらかっこいい」というような動機は漠然としすぎていて覚えるべき単語がわからない" 2013
  • コンプライアンスを楽しみたい! - mortdoreeのブログ

    エントリは法務系Advent Calendar2016の13日目のエントリーです。 前日は、経文緯武さんのグループガバナンスについてでした。 今回、お題について「在宅勤務したい!」と「コンプライアンスを楽しみたい!」で迷っていたのですが、前者は先週末に少し議論になっていたので後者の話を書いてみようと思います。 なお、記事は私の現時点での個人的見解です。これから実践していく中で意見が変わる可能性もなきにしもあらずです。 自己紹介 新卒で法務に配属されて以来、2度の産休育休をはさみ契約法務っぽい仕事をやらせてもらってきましたが、今年、弊社グループ全体に適用されるコンプライアンスプログラムを推進するチームに異動してきました。 弊社もコンプライアンスプログラムを制定し、定期的に見直して、とちゃんとやってはいるのですが、優等生企業の不祥事が〜と言われる昨今、各職場、各従業員の心に響く施策を打たな

    コンプライアンスを楽しみたい! - mortdoreeのブログ
    sh19910711
    sh19910711 2024/05/11
    "「今のコンプライアンスは推進している人もやらされてる人もみんなコンプライアンスが嫌いなのが問題なのだ。嫌々やっている人間の言葉なんか誰も聞きたくない」というご意見 / 「もうやめよう!その法令遵守」" 2016
  • Poincaré Embeddings でJ1リーグのチーム・選手を可視化 - u++の備忘録

    ふと「Poincaré Embeddings」*1で遊んでみたいと思い立ち、サッカーJ1リーグのデータで試してみました。 Poincaré Embeddings gensimでの実装とデータセット Poincaré Embeddingsの学習 活用方法 おわりに Poincaré Embeddings Poincaré Embeddingsに関する説明は、ABEJA*2やscouty*3のブログに譲ります。 Poincaré Embeddings は端的に言うと word2vec の埋め込み先をユークリッド空間ではなく双曲空間にするという手法で、階層構造やべき分布をもつデータを埋め込むという問題設定において、低次元でもよい表現を与えられるという特徴があります。 Poincaré Embeddings による職種の類似度計算とその利用 - LAPRAS AI LAB gensimでの実装とデ

    Poincaré Embeddings でJ1リーグのチーム・選手を可視化 - u++の備忘録
    sh19910711
    sh19910711 2024/05/11
    "gensimの実装では正則化の影響で周囲にノードが集結しすぎないような工夫 / チーム名が中心 + 円周側に選手 / 「浦和レッズ」の近くに「サンフレッチェ広島」が配置 + 移籍した選手の影響ではないか" 2019
  • コモディティ品で GPU 計算ノードを構築したときの障害の記録メモ(2.5 年目) - Qiita

    背景 2019 年コモディティ品で GPU 計算ノードを構築するメモ https://qiita.com/syoyo/items/cffcd64aa09cdb042b5d あたりで GPU 計算ノード(機械学習, レイトレ, マイニング)を構築している 2019 年からだいたい 2.5 年くらい連続稼働させていて(~10 nodes くらい), インシデントも多少たまってきたので記録です. GPU の障害 1~2 週間連続稼働させているとエラーも出やすくなります. Linux(Ubuntu) + GPU エラーメッセージ集 https://qiita.com/syoyo/items/0707daed0295db6a3ffa GPU fallen of the bus がよく出ます: 熱暴走なり, メモリエラーが原因が多い模様. 基リブートすれば治る. 機械学習などで長期間回すときは GP

    コモディティ品で GPU 計算ノードを構築したときの障害の記録メモ(2.5 年目) - Qiita
    sh19910711
    sh19910711 2024/05/11
    "1~2 週間連続稼働させているとエラーも出やすく / エラーが出ると software reboot(/sbin/reboot)できないことが多い + なにかしら物理リセットできる仕組みがあるとよい / SSD も HDD: 10 個かって 1 個が 2 年で壊れる感じ" 2021