あらすじ:
我々は語感の定量化を目指している.そのために,まず1段階目として,語の発音に対する画像を生成し,次に2段階目として,画像に写る概念に対する視覚的印象を推定する枠組を考えている.本発表では,この2段階目を実現するために,事前学習済みモデルであるCLIP,GPT,Stable Diffusionを用いて,形容詞対で記述することができる任意の視覚的印象の推定手法を提案する.実際に,4種の視覚的印象を対象として各印象を示す概念が写る画像を収集し,各印象に対応する概念が写る画像の検索タスクとして評価実験を実施した.その結果,画像に写る概念に対する各印象の度合いをほぼ正確に推定できることを確認した.
種類: Poster at MIRU Symposium (画像の認識・理解シンポジウム)
日付: August 2024