サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
skozawa.hatenablog.com
年末年始にいくつか本を読んでいたが、失敗の科学という本が面白かった。 失敗の科学 失敗から学習する組織、学習できない組織 作者:マシュー・サイドディスカヴァー・トゥエンティワンAmazon 内容的には、失敗をしたときにきちんとその失敗から学びましょうというものだが、実際に大きな失敗をすると人や組織はその失敗を隠してしまったり、失敗を仕方ないものとして学ぼうとしない傾向があり、その現象をクローズドループ現象と呼んでいる。 航空業界ではオープンループがうまく回っているが、医療業界はクローズドループになってしまっていることや、心理療法士はフィードバックをきちんともらえないから経験が当てにならないなどが書いてあって面白かった。 おもしろかった点をいくつかあげておく 努力が判断を鈍らせる 努力や労力をかけているほど、失敗したときにその失敗を受け入れることが難しく、解釈を変えて失敗したことを無かったこ
2017年を振り返る。 2017年目標 - skozawa's blog 手を動かす、行動する VPSを移行したかったので、ansible触ってみたり、pythonで少しアプリ作ってみたりした。apacheからnginxになってある程度モダンにできたのでよかった。 あとは転職がらみで、いくつかの会社に話を聞かせてもらいに行ったりできたのはよかった。 自己投資 そんなにできなかった気がするけど、東京に引っ越すタイミングで色々買い替えたので、まあいいかな 次の5年 ビジネス、プロダクトへの貢献に対して、自分ができる/したいことを考えて、動けた1年だったかなと思う。 今年はなんといっても転職が一番大きな出来事だった。年始あたりから考えつつ、いくつか話を聞かせてもらいにいったりもして、最終的に今の会社にさせてもらった。転職後でまだまだインプットが多い状態だけど、今のところ、自分なりには良い選択だっ
正式には2017年10月15日付での退職ですが、9月29日が最終出社日でした。 はてなには2012年4月に新卒で入社して5年半、濃密な時間を過ごさせてもらいました。大変お世話になりました、ありがとうございました。 はてなでの5年 はてなでは、アプリケーションエンジニアとして5年半過ごしました。はてなブログやはてなブックマーク、Mackerel、Miiverse、BrandSafe はてな、家電会議、PINGAなどなど、C向け自社サービスから、B向け自社サービス、受託まで、多くのサービス開発に関わりました。はてなのエンジニアの中でも関わったサービス数は多い方でいろいろと経験させてもらいました。 最初の2年くらいは、はてなブログ、Miiverse、はてなスペース、Mackerelと、いくつかのプロジェクトに関わり、エンジニアとして少しずつ成長させてもらいました。この2年でコードの品質やWebの
筑波大学であった、言語処理学会第23回年次大会に参加してきた。参加したのは2日目と3日目。 聞いてある程度メモをとれたものを残しておく。徐々にメモするの疲れてきて3日目のはあまりメモとれてない。 『現代日本語書き言葉均衡コーパス』への情報構造アノテーションの構築 BCCWJに対して、情報状態、定性、特定性、有生性、有情性、動作主性、共有性の7つの情報をアノテーションした。 意味まで踏み込もうとすると、こういった情報が必要になってくるんだろう。アノテーション自体はすごく難しそうな印象だった。 クラウドソーシングによる関係知識のアノテーション XとYにおける活性化関係(促進、抑制)をアノテーションする。Xを固定して、Xに対して促進する、促進させる、抑制する、抑制されるという4つの関係となる、体言もしくは用言を文書中から選択してアノテーションする。クラウドソーシングを利用してアノテーションするが
ACL2016 の論文 Linguistic Benchmarks of Online News Article Quality を読んだのでメモ。 自分がやってみたいと思ってることに近いことをやっていて面白い。 概要 オンラインニュースの質を測れるかを検討した論文。質という1つの指標で表すのではなく、質に関係する14の指標を用意して評価する。14の指標に対して、専門家がニュースに対して5段階評価でそれぞれ点数をつけたコーパスを作成。14の指標と質との関係を分析し、ベンチマークとして質を予測できるかを調査。 質を測るための指標 5カテゴリ、14の指標を用意。 Readability: 読みやすさ Fluency: 流暢さ、文が意味的につながっているか Conciseness: 簡潔さ、冗長でないか Informativeness: 情報量 Descriptiveness: 描写性、タイトル
お題「エンジニア立ち居振舞い」 僕が意識しているエンジニアの立ち居振る舞いは、チーム開発におけるボトルネックをなるべく発生させないようにすること。 エンジニア、デザイナー、企画、ディレクターなどがいるチームで開発していると、エンジニアリングやサービス仕様の側面で困りごとが発生することがある。 例えば、 チームのエンジニアが仕様や設計について困っている。 チームのエンジニアがレビュー待ちでタスクが進めづらくなっている。 デザイナーの開発環境でエラーがでたり、gitの操作で困っている。 企画、ディレクターなどがエンジニアリングに関して相談がある。 比較的チームに長く在籍していて、サービス仕様などに詳しいということもあるけど、こういったエンジニアリングにおける困りごとをなるべくすばやく解決できるようにして、待ち時間を短く、チームの開発効率を上げようとしている。あとは、一人でできるタスクよりも複数
今年は言語処理学会に参加できなかったので、proceedingsを眺めて気になった論文を斜め読みだけした。メモ程度だけど残しておく。 来年の言語処理学会はどこなんだろ、筑波大?行けるといいな。 慣用句感情コーパスの構築および慣用句感情表現辞書の拡張 単語やフレーズだけでなく、慣用句の感情表現を獲得する 既存の慣用句感情表現辞書を使ってコーパスを作成し、そこから慣用句感情表現を拡張する web上のテキストからの表記ゆれ語獲得 「うーれしい」と「嬉しい」のような表記ゆれ語と正規語を教師なしのアプローチで獲得する Twitterのデータに対して、区切り文字(改行文字、句読点、記号、顔文字、スペース)で分割し10文字以下の文字列を対象とする 実際にデータ見ないと決められないような上手な条件設定だなーと感じた 意味類似度、音類似度、ノード間類似度を利用 音類似度(母音の置換と削除を無視した編集距離)
NAACL 2015の論文のLCCT: A Semi-supervised Model for Sentiment Classificationを読んだ。メモと気になった部分を軽く実装して試してみた。 感情分析で、コーパスベースのアプローチと辞書ベースのアプローチでco-trainingする話。 コーパスベースのアプローチだと、精度は高いが再現率が低い。逆に辞書ベースのアプローチだと再現率は高いが精度が低いのでこれを解決したいというもの。 ドメインに依存しない汎用的な素性をコーパスベースのアプローチで取得し、ドメインに依存するような素性は辞書ベースのアプローチでカバーする。 ドメイン依存の単語はSemi-supervised Sentiment-aware LDAというアプローチを使って獲得する。ポジティブ、ネガティブ、ニュートラルの3分類でそれぞれに対していくつかシードを与えてることでド
中・長単位解析器Comainuのバージョン0.72をリリースしました。 バグフィックスです。 リリース comainu 0.72 - 中・長単位解析器 Comainu - OSDN 一部にハッシュの順序を前提としたコードが含まれていたため、ハッシュの順序がランダムとなったPerl5.18以降で動作がおかしくなる現象がたまに起きるようになっていました。 perl5180delta - perl v5.18.0 での変更点 - perldoc.jp 問題点の指摘、および、丁寧なデバッグをして頂き、@katsuhitosudoh さんありがとうございました。 Perlが新しいとComainuがコケることが分かったのが昨日の収穫。いつからかは知らないが5.16.1はセーフ、5.22.0はアウト。はっきりとは分からないけどhashの暗黙の要素順の問題なのかな…— Katsuhito Sudoh (@
初めてYAPC::Asiaに参加して、前夜祭で発表してきました。 yapcasia.org YAPCの前夜祭の雰囲気をよく知らずに、ものすごい真面目というか硬派な発表をしてしまった。みんなビール飲んでるし、僕の前の発表がuzullaさんで爆笑とりまくってるし、これまでにないやりずらさを感じながらの発表でしたが、一部の人には楽しんでもらえたようなのでよかったです。20分発表で質疑が10分、質疑10分も持つのかと思ってたけど、意外といろんな方が質問してくださったのでありがたかった。 あと、togetterでツイートまとめてもらえるのは助かりますね。ありがたい。 はてブのトピックページはこう作られている! 中の人による実装解説 #yapcasia #yapcasiaE - Togetterまとめ はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015 from
京都と大阪であったElasticsearch勉強会で発表をしてきました。 もともと京都でだけ発表する予定でしたが、発表者が足りないとのことだったので急遽大阪でも同じ内容を発表しました。 Elasticsearch勉強会 in 大阪 - elasticsearch勉強会 | Doorkeeper Elasticsearch勉強会 in 京都 - elasticsearch勉強会 | Doorkeeper 内容ははてなブックマークのトピック生成の話で、少し前にはてなエンジニアセミナーでも少し話したんですが、今回はElasticsearchを使ってる部分を中心にした発表です。 以下がスライドです。 勉強会の詳細については、 @johtani さんのブログをご覧ください。blog.johtani.info
最近、認知心理学について少し興味が出てきたのでいくつか読んでみた。 自然言語処理の研究をしていたけど、認知科学のことは勉強するタイミングなかったせいか、全然知らなかった。けど、言語処理してるんだから、認知科学のこと多少は知っておいてもよいのではという気になった。ただ、どれを読んだらいいかわからないのだけど、適当に探して読んでみた。 認知科学への招待 作者: 苫米地英人出版社/メーカー: サイゾー発売日: 2014/01/27メディア: 単行本この商品を含むブログ (2件) を見るタイトル通り導入的な内容でわかりやすかった。フレーム理論やスクリプト理論とか、自然言語処理でも聞いたことがある内容が書いてあって、どうやって発展してきたのかがわかって面白かった。最後のほうにでてきた超情報場というのはちゃんと理解できなかった。 現代の認知心理学〈3〉思考と言語 作者: 日本認知心理学会,楠見孝出版社
中・長単位解析器Comainuのバージョン0.71をリリースしました。 機能的な変更点はなく、unidic2 (unidic.db) の公開への対応が主な変更です。 unidic2を近日リリース予定としてから1年たってしまいました(すいません...)が、unidic2の一般配布に関する確認がとれた(BCCWJの成果DVDにはunidic2が含まれているので一部の人には既に配布されていた)ので、Comainu用にunidic2をコンパイルしたunidic.dbの配布とその対応を含めたComainu 0.71をリリースしました。これで誰でもComainuを正しく動作させることができるようになります。 リリース comainu 0.71 - 中・長単位解析器 Comainu - SourceForge.JP リリース comainu-unidic2 0.10 - 中・長単位解析器 Comainu
今年は京都(京大)であったということもあって、言語処理学会第21回年次大会に参加してきた。 16~21日でチュートリアル、本会議、ワークショップとあったけど、本会議の1,2日目とワークショップの計4日間参加。 本会議で発表を聞いたものの中から覚えている/気になったものをメモ程度に。 素性に重みを付けるSelf-training手法を用いた文書分類の領域適応 ドメイン適応にself-trainingを適用し、素性の重み付けも少し従来と変えるアプローチ 重み付けのところの有効性はあまりよくわからなかった self-training、勝手に98, 99%とかすごい高い精度じゃないとうまくいかないと思ってたのだけど、性能向上していたので意外だった 議論文生成における文抽象化のための固有表現抽象化 聞きたかったけど、人気だったのであんまりちゃんと聞けなかった 固有表現と固有表現の抽象化候補が与えられ
前に作った、日本語WordNet-Affect作るためのスクリプトが動かないとコメントをもらったので修正した。 python2、nltk2系だと動いていたけど、バージョンを固定しないとnltk3が入るようになっていつの間にか動かなくなってた。python2系使ってたらnltk2を入れて欲しいものだけど、特にそういうことは考慮してくれないようだ。 なので、python3系、nltk3系で動くように修正した。 ただ、その際にsqliteのDriverに使ってた pysqlite2 はpython3 対応されてないのでどうしようかという感じだったけど、python3系ではsqlite3がデフォルトで入っていてそちらを使うのが正しいようだったのでこれも修正。 http://docs.sqlalchemy.org/en/rel_0_9/dialects/sqlite.html#driver mast
2023年振り返り 去年の目標はインプットでした skozawa.hatenablog.com 機械学習 ChatGPTなどのLLMがかなり盛り上がった年だった。 LLMの流れがかなり速いのでインプットは追いついていない。 論文も少しは読んだけど、そこまで数は多くなかった。 それでもアウトプットは色々あり、動画要約などに関わったり、なぜかスポンサーの記者会見で話したり、参議院議員会館で話したりと不思議な経験が多かった。 グノシーでGPT-3を活用した「動画AI要約記事」開発 2月24日よりβ版を提供決定 ユーザーと価値ある動画コンテンツとのマッチング機会を最適化|株式会社Gunosy(グノシー)|情報を世界中の人に最適に届ける 女子プロゴルファーの西村優菜プロとGunosyがスポンサー契約締結~発信力支援&データ分析支援でプレーをサポート~ - 新経済連盟主催 国会議員向け「最先端ビジネス
今日は久々に自分の担当の社内輪読会だった。 今回はACL2014のActive Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracyを紹介した。ACL2014読み会が色んなところで開催されていたと思うけど、たぶんどこでも紹介されていなかった気がする(別に紹介されていてもいいのだけど)。 内容 最近はやりのクラウドソーシングを使ったもの。クラウドソーシングを使うと、安価で大規模なコーパスが作れるが、どうしても品質が下がってしまうので、なるべく低い労力で品質を向上したいという目的で能動学習のアプローチを利用してコーパスの品質を向上している。 感想 能動学習のアプローチを取り入れたこと自体はこの論文の新規性ではないけど、コーパスの品質改善に能
データ解析や機械学習の話が気になったので、PyCon JP 2014に参加した。 PyCon JP 2014 - connpass 会場に電源とれる場所が少なく、あまりメモ取れてなかったので、記憶をたどりながら書いてるけどあんまり覚えてない。 Deep Learning for Image Recognition in Python http://www.slideshare.net/atelierhide/py-conjp2014-slideshare 画像認識にDeep Learningを使ってKaggleであった犬の画像か猫の画像かを識別するコンテキストに参加した話で、Deep Learning(PythonのDeCAF)使ったら精度95%以上になったらしい。 Effective numerical computation in Numpy and Scipy http://www.
テキストマイニングシンポジウムに参加した。 第5回 テキストマイニング・シンポジウム:参加募集 - 言語理解とコミュニケーション研究会 1日目は企業の方の話が多めで公にできないことも結構あるみたいだった。 Twitterから抽出したプロファイルデータと購買データを組み合わせた次世代型ハイブリッド・ターゲティング 楽天とNTTデータの人の話。 最初は楽天の人の話で、既存のマーケティング手法には限界があるので、Twitterなどのソーシャルなデータを活用するというもの。リコメンドで問題になる購入履歴のないユーザへの問題(コールドスタート)をTwitterのデータが活用すると緩和ができる。メールの開封率やコンバージョンを購入履歴に基づいたものとTwitterデータを活用したものなどで比較していたのがおもしろかった。 次にNTTデータの人の話。ツイートに対して、キーワード抽出やカテゴリ分類、ポジネ
下の記事を見て、研究とかで使われるツールでちょっとインストールとかが複雑なものはもうDockerで配布したほうがいいのかなと思った。 専門用語を自動抽出するTermExtractをDockerで簡単に使えるようにしました - CreateField Blog なので、試しにCabochaとComainuをDockerで動かせるようにしてみた。 Cabocha(日本語構文解析器) Cabochaのインストールはそんなに複雑じゃないけど、--enable-utf8-only(CabochaというかMeCabだけど) みたいなの毎回気にしなくて良くなくなる。 今回は辞書にはUnidicを利用 docker pullして $ docker pull skozawa/cabocha-unidicdocker runすればCabochaが使えるようになる。 $ echo "太郎は花子が読んでいる本を次
WordNet、ずっと知ってはいたけど、ちゃんと触ったことなかった。最近WordNetを少し触る機会があったので、メモ。 インストール WordNetのサイトからダウンロードしてきてインストール http://wordnet.princeton.edu/wordnet/download/current-version/ http://wordnetcode.princeton.edu/3.0/WordNet-3.0.tar.gz ダウンロードして解凍して、インストールすると /usr/local/WordNet-3.0 にインストールされる tar -xzf WordNet-3.0.tar.gz cd WordNet-3.0 ./configure make sudo make installこれでパスを通せば、wn(/usr/loca/WordNet-3.0/bin/wn)コマンドが使え
文節境界解析で使うラベルで、BIとBILUの2種類でどちらが性能がよいかを検証してみた。結果的にはBIだけのほうが性能が高かった。 前回の輪読会で紹介した固有表現抽出に関する論文の中で印象に残ったことのひとつとして、系列ラベリングに使うラベルで最近はBIOよりもBILOUを使ったほう性能が高いというものがあった。 BIO(Begin, Inside, Outside)とBILOU(Begin, Inside, Last, Outside, Unit(Begin and Last))の違いは固有表現の末尾を考慮するかどうかで、末尾を考慮したほうが性能がよいというもの。 社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した - skozawa's blog Comainuでは、
社内輪読会で論文を紹介した。 今回はACL2012からJoint Inference of Named Entity Recognition and Normalization for Tweetsを紹介。 内容 ツイートから固有表現抽出(NER)、及び、固有表現の正規化(NEN)を行っている。提案のポイントは、これまで、NERとNENを別タスクとして、NERを行った後にNENを行っていたものを、同時に解いている点。これにより、NENで得られる知見をNERにフィードバックできて、性能が向上するというもの。 感想 NENの効果 人名と地名、組織名などの区別は難しそうなので、それをNENの知見を取り入れて解決できるのであればよさそうに感じた。 評価実験 ベースラインとして従来研究の手法を利用して比較してるけど、提案手法をNERとNENに分割して直列に適用した手法との比較もして欲しいと感じた。ベ
中古和文版の長単位解析Comainuを作って、リリースした。 https://sourceforge.jp/projects/comainu-emj/ BCCWJ(現代日本語書き言葉均衡コーパス)を作るときに、長単位解析をしていて、現代文に関しては終わったのだけど、そのあと中古和文でもという話があって少し手伝いをしていた。 実際に手伝ってたのはもう半年以上前で、気づいたらコーパスも日本語歴史コーパス(CHJ)として公開されていた。 Unidicの中古和文版も公開されてることなので、Comainuの中古和文版も作った。 中古和文のUnidicとComainuを使うと中古和文の長単位解析ができる。 $ echo "いづれの御時にか、女御、更衣あまたさぶらひたまひける中に、いとやむごとなき際にはあらぬが、すぐれて時めきたまふありけり。" | ./script/comainu.pl plain2l
日本語版のWordNet-Affectが欲しかったので構築した。 WordNet-Affect WordNet-AffectはWordNetに対して感情情報を付与したもので、感情分析などに利用されている言語資源。 WordNet-Affect: an Affective Extension of WordNet 日本語のWordNet-Affectを構築する論文はでているのだけど、構築された言語資源は特に公開はされていないようだったので、この論文に書かれている作り方とは少し違うけど、作ってみた。 Developing Japanese WordNet Affect for Analyzing Emotions 日本語WordNet-Affectの作り方 以下の言語資源を利用して日本語WordNet-Affectを構築する WordNet 1.6 WordNet 3.0 WordNet-Af
会社で最近始まった論文の輪講で担当だったので、発表をした。 論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。 今回紹介したのは、少し古いけど、ACL2011からTopical Keyphrase Extraction from Twitter 参加してる人はそれぞれ分野が違うので、どの部分をどの程度説明すればいいかが難しい。 内容 内容はTwitterからトピックのキーフレーズを抽出する手法の提案で、提案は主に以下の2点 Context-sensitive Topical PageRank によるキーワードスコアリング relevanceとinterestingnessを用いたキーフレーズスコアリング 紹介したものを少し修正したものをアップした。 感想 1つ目はスコアリングの際にトピックを考慮することによ
(ry という表現がなぜか気になったので、分析してみた (ryとは (イカリャクとは) [単語記事] - ニコニコ大百科とは (ryとは『以下略』を意味するネットスラングであ(ry 由来は、『(略)』とタイピングする際に、ローマ字で(ryaku)とする表記かr(ry つまりこの言葉は略の略で、「わざわざ全部言わなくても(ry」というメッセージが(ry 転じて「(ry」と(ry 使用する箇所としては、わざわざ言うまでもない・言いにくいこt(ry しかし、使いすぎるとめいわk(ry なので、用法容量を(ry個人的にはまったく使わない表現だけど、言語処理するにはちょっとやっかいな表現。言いにくいことを書くときに使うので、著者の心理を表していることが多くておもしろそう。 データ 特に使う予定もなく適当に収集していたツイートデータを利用。2014年1月~3月のツイートの中から (ry を含む9921
札幌であった言語処理学会第20回年次大会に参加してきました 1年ぶりの学会参加。 今年は3年ぶり?くらいの発表もしてきました。 発表内容はComainuをリリースしました - skozawa's blog もう論文も公開されてる http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P6-2.pdf 発表のとき、Comainuに興味あるとすごいテンション高く言ってくれる人がいて、なんでそんなにテンション高いんだろうと思っていたけど、自分の研究に使いたかったようで、発表の次の日には早速使われていて勢いある感じだった。とりあえずちゃんと使えていそうで安心した。 欅コーパスで利用しようとしてるみたいだけど、HPにはほとんど情報ない感じだったので、今度ちゃんと論文読んでみよう 統辞・意味情報を付加した日本語コーパスの構築 欅ツリーバン
中・長単位解析ツールComainuをリリースしました。 Comainu | 中・長単位解析ツール ダウンロードはsourceforgeからできます。 ソースファイルとモデルファイルをダウンロードしてください。 モデルファイルは解凍すると1Gくらいあるので注意してください。 中・長単位解析器 Comainu プロジェクト日本語トップページ - SourceForge.JP 長単位というのは、国語研が採用している言語の単位のことです。 国語研が構築した現代日本語書き言葉均衡コーパス(BCCWJ)では言語単位として語彙形態論研究に適した短単位と構文・意味研究に適した長単位を利用しています。 Comainuでは、このうち長単位の解析をします(短単位はMeCabとUniDibで解析します)。 長単位は短単位(単語)以上、文節以下の長さで大雑把には文節を自立語部分と付属語に分けたものが長単位となります
次のページ
このページを最初にブックマークしてみませんか?
『skozawa's blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く