只需一段文本或音频,即可生成逼真的数字人视频,唇形、表情与语音自动同步,无需拍摄即可快速产出专业级内容。
支持数十种语言与口音,结合情感语调与节奏控制,使数字人的表达更贴近真人,轻松应对跨国沟通和本地化场景。
提供标准化 API 和 SDK,可快速嵌入网站、App 或实时交互系统,实现数字人能力高效落地,适配多行业定制需求。
D-ID 在以色列特拉维夫成立,创始团队包括 Gil Perry、Eliran Kuta 和 Sella Blondheim。公司最初专注于人脸去识别技术,利用深度学习算法对视频中的人脸进行模糊或替换,以保护个人隐私。
完成种子轮融资,由人工智能领域的知名风投机构领投。同年推出第一代人脸去识别 API,主要面向安防监控、媒体制作和医疗影像等需要隐私保护的行业客户。
技术路线发生重要转折。团队发现其去识别算法中的人脸生成模块具有创造虚拟人物的潜力,开始投入资源研发基于生成对抗网络(GAN)的肖像视频合成技术。同年提交多项核心专利。
正式从隐私保护赛道转向生成式 AI 视频领域。推出初始版本的“面部再演”(Face Reenactment)技术,能够基于单张照片驱动面部表情和头部运动。该技术被多家媒体公司用于虚拟主播实验。
发布 D-ID 创意实感工作室(Creative Reality™ Studio)测试版。用户上传一张静态照片并输入文本,即可生成逼真的说话视频。该产品在微软等企业合作伙伴的内测中获得积极反馈。
Creative Reality™ Studio 正式向公众开放,支持英语、西班牙语、法语等语言。同年推出 AI 虚拟人定制功能,允许企业创建专属数字员工用于客户服务、培训和营销。用户量突破百万。
与 ElevenLabs 达成合作,集成其高保真语音合成模型,大幅提升虚拟人的声音真实度。发布 D-ID 无代码视频编辑平台,用户无需编程即可通过拖拽方式制作 AI 数字人内容。同年完成 2500 万美元 B 轮融资。
推出 D-ID 虚拟智能体(D-ID Agents),具备实时对话、手势生成和上下文记忆能力。该产品可用于教育、零售和客服场景,实现人与 AI 数字人的自然交互。公司开始探索多模态情感识别技术。
发布移动端 SDK,允许第三方应用内嵌数字人功能。更新视频生成模型至第四代,支持实时面部表情捕捉与多摄像头视角切换。公司宣称月活跃视频生成量突破 5 亿次。