高保真 3D 頭部重建在許多場(chǎng)景中都有廣泛的應(yīng)用,例如 AR/VR、醫(yī)療、電影制作等。盡管大量的工作已經(jīng)使用 LightStage 等專業(yè)硬件實(shí)現(xiàn)了出色的重建效果,從單一或稀疏視角的單目圖像估計(jì)高精細(xì)的面部模型仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。 本文中,我們將介紹來(lái)自達(dá)摩院的CVPR2023最新的頭部重建論文,該工作在單圖頭部重建榜單REALY上取得正臉、側(cè)臉雙榜第一,并在其他多個(gè)數(shù)據(jù)集中取得了SOTA的效果。
論文題目:A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images
(資料圖片)
論文地址:https://arxiv.org/abs/2302.14434
項(xiàng)目主頁(yè):HRN
ModelScope (demo) : ModelScope 魔搭社區(qū)
受限于 3DMM 的低維表征,大多數(shù)基于 3DMM 的頭部重建方法無(wú)法恢復(fù)高頻面部細(xì)節(jié),如皺紋、酒窩等。一些方法嘗試引入細(xì)節(jié)貼圖或非線性操作,結(jié)果仍然不理想。 為此,我們?cè)诒疚闹刑岢隽艘环N新穎的層次化表征網(wǎng)絡(luò) (HRN),以實(shí)現(xiàn)單圖的高精細(xì)頭部重建。 具體來(lái)說(shuō),我們對(duì)頭部幾何細(xì)節(jié)進(jìn)行了解耦并引入了層次表征來(lái)實(shí)現(xiàn)精細(xì)的頭部建模。 同時(shí),結(jié)合面部細(xì)節(jié)的3D先驗(yàn),提高重建結(jié)果的準(zhǔn)確性和真實(shí)性。 我們還提出了一個(gè)de-retouching模塊,以實(shí)現(xiàn)更好的幾何和紋理解耦。 值得注意的是,通過(guò)考慮不同視圖的細(xì)節(jié)一致性,我們的框架可以擴(kuò)展到多視圖重建。 在兩個(gè)單視圖和兩個(gè)多視圖頭部重建基準(zhǔn)上的大量實(shí)驗(yàn)表明,我們的方法在重建精度和視覺效果方面優(yōu)于現(xiàn)有方法。
現(xiàn)有的一些方法 [1、2、3] 嘗試通過(guò)預(yù)測(cè)displacement map來(lái)捕捉高頻面部細(xì)節(jié),例如皺紋等,并取得了不錯(cuò)的效果。但是,displacement map由于其定義方式,無(wú)法對(duì)更大尺度的細(xì)節(jié)進(jìn)行建模,例如下巴、臉頰的輪廓細(xì)節(jié)等。為此,我們將頭部的幾何進(jìn)行拆解,并分別用不同的表征分別對(duì)其進(jìn)行表示,如上圖所示。具體的,我們將頭部幾何拆分為低頻部分、中頻細(xì)節(jié)以及高頻細(xì)節(jié):
低頻部分描述了頭部的整體骨架(胖瘦、五官位置及大致形狀),對(duì)于這個(gè)部分,我們使用現(xiàn)有的參數(shù)化3DMM方法,利用低維的系數(shù)及對(duì)應(yīng)形狀基進(jìn)行表征。中頻部分描述了頭部骨架基礎(chǔ)上的較大尺度的細(xì)節(jié)(如肌肉走向、面部輪廓等),該部分我們利用在UV空間的3通道的deformation map作為表征,其描述了每個(gè)頂點(diǎn)在低頻基礎(chǔ)上的xyz三方向上的形變。高頻部分描述了頭部的小尺度的細(xì)節(jié),比如皺紋等,該部分我們利用displacement map進(jìn)行像素尺度上的細(xì)節(jié)建模。總體來(lái)說(shuō),我們將頭部幾何拆分為三個(gè)部分,并根據(jù)其尺度大小及細(xì)節(jié)特征,引入了三種層次化的表征,分別從頭部、頂點(diǎn)、像素三個(gè)不同顆粒度進(jìn)行建模,實(shí)現(xiàn)頭部的精準(zhǔn)化、精細(xì)化重建。
在HRN (hierarchical representation network) 網(wǎng)絡(luò)結(jié)構(gòu)中,我們整體采用了coarse-to-fine的框架,首先,我們利用現(xiàn)有的3DMM-based方法deep3d[4],預(yù)測(cè)頭部的低頻幾何部分(圖2藍(lán)色區(qū)域),同時(shí),我們可以獲得對(duì)應(yīng)的position map以及texture map,這兩者將作為細(xì)節(jié)預(yù)測(cè)的輸入。而后,我們分別利用兩個(gè)串聯(lián)的pix2pix網(wǎng)絡(luò),預(yù)測(cè)deformation map以及displacement map(圖2綠色區(qū)域)。最后,我們結(jié)合預(yù)測(cè)的精細(xì)化幾何、光照、優(yōu)化后漫反射貼圖,進(jìn)行可微分渲染,得到重建后的頭部圖像(圖2紫色區(qū)域)。通過(guò)將中頻、高頻的渲染頭部分別與原圖計(jì)算損失,可引導(dǎo)頭部的幾何形變,從而獲得對(duì)應(yīng)的幾何細(xì)節(jié)。在此整體流程中,我們還引入了一些新穎的模塊和損失函數(shù),來(lái)提升建模精度。
盡管可以使用重建損失從單個(gè)圖像中粗略地重建面部細(xì)節(jié),但由于其本質(zhì)是個(gè)高度ill-posed的任務(wù),僅從單圖獲取的細(xì)節(jié)存在模糊性和歧義性。 添加額外的正則化可能有助于縮小解空間,但也會(huì)導(dǎo)致細(xì)節(jié)準(zhǔn)確性和保真度嚴(yán)重下降。 為了解決這個(gè)問(wèn)題,我們從真實(shí)3D數(shù)據(jù)中獲取真實(shí)的頭部3D細(xì)節(jié),從而作為先驗(yàn)信息引導(dǎo)網(wǎng)絡(luò)的預(yù)測(cè)。如上圖,我們利用提出的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)真實(shí)的3D mesh進(jìn)行擬合,從而獲得deformation map以及displacement map的groud-truth。而后,我們?cè)诰W(wǎng)絡(luò)訓(xùn)練中,引入判別器網(wǎng)絡(luò),用真實(shí)的分布引導(dǎo)細(xì)節(jié)圖的生成。消融實(shí)驗(yàn)表明,引入3D細(xì)節(jié)先驗(yàn)可使預(yù)測(cè)的頭部幾何更加的平滑、真實(shí)。
頭部圖像是幾何、光照和面部漫反射率組合的結(jié)果。 之前的工作假設(shè)面部漫反射率是平滑的,并使用 3DMM 的低頻反照率對(duì)其進(jìn)行建模。 然而,實(shí)際皮膚紋理充滿了高頻細(xì)節(jié),如痣、疤痕、雀斑和其他瑕疵,這給幾何細(xì)節(jié)學(xué)習(xí)帶來(lái)了歧義,尤其是在單視圖頭部重建任務(wù)中。 受[5]的啟發(fā),我們提出了一個(gè)De-Retouching模塊,旨在生成具有高頻細(xì)節(jié)的面部反照率,并促進(jìn)更精確的幾何和外觀解耦。我們首先從FFHQ數(shù)據(jù)集中收集了10, 000張頭部圖像,并訓(xùn)練了一個(gè)retouching網(wǎng)絡(luò)G,去除頭部的瑕疵等高頻細(xì)節(jié)。給定頭部紋理 T" ,我們首先使用 G 去除其紋理細(xì)節(jié)并得到 T0,如上圖所示。而后,我們旨在將紋理細(xì)節(jié)烘焙到粗糙的反照率 A0 中以獲得優(yōu)化后的反照率 A" 用于渲染 . 我們假設(shè)從 A0 到 T0 的光照應(yīng)該與從 A" 到 T" 的光照一致,如:
其中 S 表示shading,⊙ 表示逐元素矩陣乘法。 然后我們可以求解方程并獲得 A" 為:
其中 ?(T0) 避免了 0 附近的值爆炸,默認(rèn)情況下 ε = 1e?6。 與 A0 相比,優(yōu)化后的反照率 A" 包含更多高頻紋理細(xì)節(jié),這減輕了幾何和紋理之間的歧義,尤其是在單視圖頭部重建任務(wù)中。
我們提出了一種新穎的輪廓感知損失 L_con 來(lái)實(shí)現(xiàn)面部輪廓的精確建模。 L_con 作用在中頻幾何M1 (figure 2)上,旨在拉動(dòng)邊緣的頂點(diǎn)以對(duì)齊面部輪廓。 如上圖所示,我們首先將 M1 的頂點(diǎn)投影到圖像空間中。 然后我們使用預(yù)訓(xùn)練的面部摳圖網(wǎng)絡(luò) [6] 預(yù)測(cè)面部掩碼M_face 并進(jìn)行后處理以獲得每一行的左側(cè)和右側(cè)點(diǎn)。 給定頂點(diǎn) p 和 M_face 上對(duì)應(yīng)的投影點(diǎn) p",我們得到向量 l_p 和 r_p(從 p" 到水平方向的邊緣點(diǎn))。 那么L_con可以描述為:
可以看到,L_con 懲罰了頭部 soft margin 之外的頂點(diǎn)(如上圖中的藍(lán)色和灰色點(diǎn))并將它們拉到頭部輪廓,同時(shí)保持頭部?jī)?nèi)部的頂點(diǎn)不動(dòng)。我們只關(guān)注面部輪廓的下部以避免頭發(fā)的干擾。 與常見的分割損失相比,L_con 給出了更直接的頭部輪廓優(yōu)化方向,也更容易訓(xùn)練。消融研究也證實(shí)了 Lcon 在提升重建輪廓精度中的有效性。
歸功于層次化建模以及3D先驗(yàn)引導(dǎo),我們可以輕易地將HRN適用于多視角頭部重建任務(wù)中。通過(guò)添加不同視角之間的幾何一致性,我們可以使用兩到三個(gè)少量的視角完成整體面部幾何的精確建模。 上圖顯示了 MV-HRN 的流程。 我們假設(shè)頭部低頻部分和中頻細(xì)節(jié)在不同視圖之間是一致的,而照明、姿態(tài)、表情和高頻細(xì)節(jié)等應(yīng)該是視角相關(guān)的。 因此,我們引入了一個(gè)標(biāo)準(zhǔn)空間以及視角獨(dú)立空間,分別對(duì)共享的固有面部形狀以及每個(gè)視圖的姿勢(shì)、光照、表情和高頻細(xì)節(jié)等進(jìn)行建模。 通過(guò)擬合過(guò)程,在不同視角圖像的監(jiān)督下,臉型逐漸被限制在更小、更準(zhǔn)確的空間內(nèi)。 實(shí)驗(yàn)表明,MV-HRN 在短時(shí)間內(nèi)(不到一分鐘)僅給出少量(2~5)個(gè)圖像視圖即可實(shí)現(xiàn)準(zhǔn)確重建。
可以看出,無(wú)論是在單圖,還是多圖重建中,我們的方法在幾何的精確性上以及細(xì)節(jié)的還原度上都相比于現(xiàn)有方法有較大提升。
同樣,在與真實(shí)mesh的平均誤差等定量指標(biāo)的對(duì)比中,我們的方法也在多個(gè)單圖、多圖頭部重建benchmark中超越了現(xiàn)有的SOTA方法。
[1] Anpei Chen, Zhang Chen, Guli Zhang, Kenny Mitchell, and Jingyi Yu. Photo-realistic facial details synthesis from single image. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9429–9439, 2019. 1, 6
[2] Yudong Guo, Juyong Zhang, Jianfei Cai, Boyi Jiang, and Jianmin Zheng. Cnn-based real-time dense face reconstruction with inverse-rendered photo-realistic face images. IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1–1, 2018. 1
[3] E. Richardson, M. Sela, R. Or-El, and R. Kimmel. Learning detailed face reconstruction from a single image. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. 1
[4] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia, and Xin Tong. Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 0–0, 2019. 2, 4, 6
[5] Biwen Lei, Xiefan Guo, Hongyu Yang, Miaomiao Cui, Xuansong Xie, and Di Huang. Abpn: Adaptive blend pyramid network for real-time local retouching of ultra highresolution photo. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2108–2117, 2022. 2, 5
[6] Jinlin Liu, Yuan Yao, Wendi Hou, Miaomiao Cui, Xuansong Xie, Changshui Zhang, and Xian-sheng Hua. Boosting semantic human matting with coarse annotations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8563–8572, 2020. 4
另外給大家介紹下CV域上的開源免費(fèi)模型,歡迎大家體驗(yàn)、下載(大部分手機(jī)端即可體驗(yàn)):
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary
關(guān)鍵詞: