EMNLP2023に採択された論文を眺めていたところ、ある論文が目に止まりました。 「Discovering Universal Geometry in Embeddings with ICA」という論文です。 これは京大下平研の山際さんの論文で、ざっくりとサマると「Word EmbeddingなどのEmbeddingを独立成分分析(ICA)で次元削減することで、人間にとって解釈性の高い成分を取り出すことができる」という論文です。 Vision TransformerやBERTを用いた実験から、モーダルや言語に関わらず解釈性の高い表現が得られたという結果を得ています。 論文内では、文を対象としたEmbeddingであるText Embeddingには触れられていないですが、おそらくうまく動くだろうという見込みがあったため、本手法をText Embeddingに対して実行してみました、という
![独立成分分析(ICA)を使ってText Embeddingを分析してみた - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/47065c9bcd28958d05caaa83dca52960351b437c/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUU3JThCJUFDJUU3JUFCJThCJUU2JTg4JTkwJUU1JTg4JTg2JUU1JTg4JTg2JUU2JTlFJTkwJUVGJUJDJTg4SUNBJUVGJUJDJTg5JUUzJTgyJTkyJUU0JUJEJUJGJUUzJTgxJUEzJUUzJTgxJUE2VGV4dCUyMEVtYmVkZGluZyVFMyU4MiU5MiVFNSU4OCU4NiVFNiU5RSU5MCVFMyU4MSU5NyVFMyU4MSVBNiVFMyU4MSVCRiVFMyU4MSU5RiZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9YWZhYmMwNzc0Y2FlOGM5OTdiNTZiMzhkNjk1YmEzMDE%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwb3Rha3VtZXNpJTIwaW4lMjAlRTYlOUMlOUQlRTYlOTclQTUlRTYlOTYlQjAlRTglODElOUUlRTclQTQlQkUmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zMiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTMyNzY1YWZkMGU0YWRiZDdiODkzOTUzNGZiNzY0YTAw%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3Dbc0af5b1ad449e0387ba82d604764ce6)