调研了几种主流的数字人技术,从唇形、表情、动作等方面进行了对比。

SadTalker[开源] Wav2Lip[开源] D-ID[商业化] HeyGen[商业化]
嘴唇:没有完全张开,唇形不匹配
眼睛:眼睛轻微活动
肢体:头部轻微活动
嘴唇:嘴巴张开,唇形不匹配
眼睛:眼睛轻微活动
肢体:头部轻微活动
嘴唇:嘴巴张开,唇形匹配
眼睛:眼睛可眨眼
肢体:头部可转动,更自然
嘴唇:嘴巴张开,唇形匹配
眼睛:眼睛小范围眨眼
肢体:头部可转动
嘴唇:完全张开,唇形不匹配
眼睛:眼睛可眨眼
肢体:头部轻微活动
嘴唇:完全张开,唇形不匹配,幅度较大
眼睛:眼睛可眨眼
肢体:头部轻微活动
嘴唇:完全张开,唇形匹配
眼睛:眼睛可眨眼
肢体:头部可转动,更自然
嘴唇:完全张开,唇形匹配
眼睛:眼睛可眨眼
肢体:头部可转动,更自然

来个好玩的《郭德纲讲英文》