大阪電気通信大学

生成系AIを用いた属性ごとのマスキングによるプライバシー保護に関する研究

概要

 国土交通省では,持続可能なまちづくりに向けて,街の賑わいを測定するために,デジタル技術を活用する方法を検討している[1].これらの方法では,プライバシーの保護の観点で動画像を保持せずに統計処理した結果のみを保存しているため,進路変更や滞留の原因を後から動画像を用いて分析できない.既存手法[2]では,これに対応するため,まちの賑わいの分析に必要な性別の情報を残して,図1に示すようにDensePose[3]を用いたマスキングをすることで個人を特定できない動画像を生成できる.しかし,本手法では,画像から推定した3Dモデル上に,テクスチャ画像を貼り付けるのみであるため,実物からかけ離れたマスキングになる場合がある.この実物からかけ離れたマスキング結果では,後から街のにぎわいの分析に活用することが困難である.また,個人属性の推定を性別のみとしているため,動画像から年齢層などの分析が出来ない.そこで,本研究では,推定に年齢層を追加し,生成系AIを用いて,より実物に近いマスキングを施すことで,プライバシーを保護しつつ,解析に用いることができる動画像を生成する手法を提案する.

図1 個人属性に応じたDense Poseによるマスキング[2]

提案手法

 本研究で提案する手法の処理フローを図2に示す.提案手法は,人物検出・追跡機能,属性推定機能と動画像加工機能で構成される.入力データは,カメラで撮影した動画像を用いる.出力データは,個人属性に応じてマスキングを施した動画像とする.

図2 提案内容の処理フロー

a)人物検出・追跡機能

 本機能では,深層学習を用いて検出した人物を追跡する.まず,動画をフレームごとに分割する.次に,Yolov8[4]を用いて,人物を検出する.このとき,Deep-OCSORT[5]を用いて,人物のBBOXを追跡し,図 3のように座標値を記録する.そして,この座標値をもとに人物を正方形とBBOXの形状に沿って切り取り,それぞれ保存する.このとき,正方形で保存する理由は,属性情報を推定するCNNの推定に正方形の画像が必要なためである.また,BBOXの縦横の最長の数値をもとに,長さを統一し,正方形状に切り取っている.このとき,正方形が画面からはみ出る場合には,図 4に示すように画面にはみ出た辺の座標値にもとづき,フレーム内の正方形に移動している.BBOXに関しては,動画像加工機能で用いるために切り取っている.

図3 座標値の書き込みイメージ
図4 はみ出したフレームの切り取り

b)属性推定機能

 本機能では,VGGNet[6]のVGG16を用いて,人物の性別と年齢層の属性を推定する.まず,物体検出・追跡機能で切り取った正方形の画像から,VGG16の推定モデルを用いて,各人物の性別と年齢層を推定する.このとき,年齢層は学生,中年と高齢者の3つに分類する.次に,図 5のように追跡した人物の画像をまとめて推定し,分類回数を性別と年齢層ごとに計測し,最も分類した属性の推定結果を記録する.まとめて推定する理由は,各フレームの推定結果に依存した場合,一貫したマスキング処理が困難なためである.

図5 まとめて推定するイメージ

c)動画像加工機能

 本機能では,BBOXに沿って切り取った人物画像に対して生成系AIのStable Diffusion[7]を用いてマスキングを施す.まず,綺麗に生成するため,元画像の2倍にリスケールし,Comfy UI-Video Matting[8]を用いて,人物全体をマスク化する.次に,姿勢推定AIのDW Pose[9]を用いて,人物の姿勢や顔の向きを推定し,Stable Diffusionの拡張技術であるControl net[10]のIn paintを用いることで,マスク部分に対し,姿勢に沿った画像を生成し,元画像の長さをもとにリサイズする.そして,マスキング画像を保存する.このとき,生成する画像の特徴は,IP Adapter[11]を用いて,指定した画像から抽出したものとする.これにより,既存研究の課題ではテクスチャ制作に時間を要していたが,本技術を活用することで,一枚の画像から属性ごとに異なるキャラクターのマスキング処理ができる.最後に,図6のようにComfy UI[12]を用いて,まとめて処理することで,実物に近いマスキングを施す.

図6 マスキング処理のイメージ

実証実験

実験目的

 本実験では,まず,追加した属性を含めた個人属性に対して,正解データと比較することで推定精度を確認する.次に, Dense Poseを用いた既存手法[2]と提案手法により生成した動画像を目視で比較し,提案手法の有用性を確認する.

実験内容

 本実験では,まず,60人を対象に性別と年齢層を推定し,目視で確認した正解データとモデルで推定した結果を比較する.そして,推定した結果を集計し,正解率を算出することで,推定精度を評価する.また,図7に示すように年齢層の推定に用いるモデルは性別ごとに異なるため,性別が正解と一致していることを前提に評価する.

図7 推定方法のイメージ

 目視での比較の際には,別角度でも確認するため,2か所を対象に提案手法によるマスキングを施す.そして,既存手法と比較して姿勢や顔の向きなど,人の動きを正確にマスキングできているかを目視で評価する.本実験の検証対象は,図8と図9のように街中の横断歩道とし,監視カメラの設置位置を想定した2か所とする.さらに,生成系AIに用いるモデルは,日本人を対象にしているため,アジア人を中心に画像を生成できるNoble Mix Fix[13]を選定している.また,図 10に示すように生成する際の特徴は年齢層が一目で判別できる画像を指定している.

図8 撮影場所①
図9 撮影場所②
図10 各属性の生成する際の特徴

結果と考察

 既存手法によるマスキング処理の結果を図 11と図 12に,提案手法によるマスキング処理の結果を図 13と図 14に示す.まず,図 11と図 12を確認すると,テクスチャを貼付したマスキング処理のため,人体が1色で塗りつぶされており,骨格が不鮮明であることがわかる.これに対して,図 13が示すように提案手法では,骨格が鮮明であり,顔の向きが正確にマスキングできていることがわかる.次に,既存手法では性別のみを対象としているが,提案手法では,年齢層を追加したマスキングを施していることがわかる.ただし,姿勢情報のみを参照して生成しているため,図 14が示すように,高齢の女性や自転車に乗っている中年の男性に対しては,姿勢以外の情報が不足しているため,生成に乱れが生じている.このことから,姿勢情報のみを考慮した画像の生成には課題があることがわかる.これは,画像内から推定した情報が姿勢推定のみであることが原因と考えられる.そのため,今後は,Canny[14]といった異なる画像解析技術も併用し,生成側により詳細な情報を与えることで,生成側が補完する情報を削減する必要がある.

図11 Dense Poseによるマスキング処理・撮影場所①
図12 Dense Poseによるマスキング処理・撮影場所②
図13 提案手法によるマスキング処理・撮影場所①
図14 提案手法によるマスキング処理・撮影場所②

 提案手法による性別と年齢層の推定結果を表1と表2に示す.まず,性別の推定結果では,男性の推定における正解率が83.3%,女性の推定における正解率は93.3%であった.次に,年齢層の推定結果では,男性専用モデルが60%,女性専用モデルは63.3%の正解率を示した.なお,間違った推定を要因として,教師データに人物の全身画像を用いているため,服装の情報が判定に影響していることが原因と考えられる.そのため,今後は,教師データを増加することで,服装に左右されない深層学習モデルの構築が必要である.

おわりに

 本研究では,個人属性に応じてマスキングを施す手法を提案した.そして,本実験により,既存研究と比較した結果,提案手法はより骨格を正確に描写するマスキングが可能であることを確認した.ただし,生成する際の情報が不足しているため,一部画像の生成が乱れるといった課題がある.そのため,今後は他の画像解析技術を併用し,生成する際に必要な情報を追加する必要がある.これにより,より実物に近いマスキング技術の開発を目指す.

参考文献

  1. Ultralytics:Ultralytics Yolov8, https://docs.ultralytics.com/ja/models/yolov8/, 2024.11.27.
  2. Maggiolino, G., Ahmad, A., Cao, J., and Kitani, K.:Deep Oc-Sort: Multi-Pedestrian Tracking by Adaptive Re-identification, 2023 IEEE,International Conference on Image Processing (ICIP), pp.3025-3029, 2023.
  3. Simonyan, K.:Very Deep Convolutional Networks for Large-scale Image Recognition, ArXiv Preprint ArXiv:1409.1556, 2014.
  4. Stability.ai:Stable Diffusion, https://ja.stability.ai/stable-diffusion, 2024.11.27.
  5. Fannovel16:ComfyUI-Video-Matting, https://github.com/Fannovel16/ComfyUI-Video-Matting, 2024.11.27.
  6. Comfyanonymous:Comfy UI, https://github.com/comfyanonymous/ComfyUI, 2024.11.27.
  7. Noblemon:Noble Mix Fix, https://civitai.com/models/65480/noble-mix-fix, 2024.12.04.

作者プロフィール

岡村将佑

総合情報学部 情報学科 3年

コメント