全球AI动态精选(2025年12月8日)
今日AI行业呈现多领域突破态势,大模型能力持续提升,应用场景不断拓展。从文本生成到视频创作,从语音识别到图像处理,各AI厂商竞相推出升级产品,同时资本市场对AI领域保持高度关注,多轮大额融资落地。政策层面,各地政府积极推动AI产业发展,北京发布人工智能产业白皮书,深圳上线全国首个AI智能劳动仲裁系统,显示AI技术在社会治理中的深度应用。
阿里云推出Qwen3-TTS语音合成模型
阿里巴巴云团队于今日正式发布Qwen3-TTS语音合成模型,该模型在自然度和情感表达方面实现显著突破,能够生成接近人类水平的语音输出。Qwen3-TTS采用最新的自监督学习技术,支持多语言、多风格语音生成,并在中文语音合成任务上刷新了多项性能指标。
此次发布标志着阿里在语音AI领域的技术实力进一步提升,Qwen3-TTS将被广泛应用于智能客服、有声内容创作、虚拟数字人等场景。阿里云表示,未来将进一步优化模型效率,降低使用门槛,推动语音技术在各行业的普及应用,预计2026年上半年将推出面向开发者的API服务。
可灵AI发布Avatar 2.0数字人平台
可灵AI今日正式上线Avatar 2.0数字人平台,该平台在原有基础上新增了主体库功能,支持用户快速创建和定制高质量数字人形象。Avatar 2.0采用了先进的神经渲染技术,能够实现更自然的表情变化和肢体动作,同时大幅降低了数字人创建的技术门槛。
此次升级使可灵AI在数字人领域形成差异化竞争优势,平台已广泛应用于在线教育、虚拟直播、企业客服等场景。可灵AI团队透露,下一步计划将Avatar 2.0与更多行业解决方案深度融合,预计2026年第一季度将推出面向企业的定制化数字人服务,进一步拓展商业应用边界。
谷歌推出Gemini 3 Deep Think推理模式
谷歌AI部门今日宣布推出Gemini 3的Deep Think模式,该模式专门针对复杂推理任务进行了优化,能够处理需要多步思考和逻辑推理的难题。据官方测试,Gemini 3 Deep Think在数学、物理和编程等领域的复杂问题解决能力接近人类专家水平,特别是在奥数级别的题目上表现出色。
这一发布标志着大模型在推理能力上的重要突破,谷歌计划将Deep Think模式逐步整合到搜索、教育助手和企业解决方案中。谷歌AI负责人表示,未来将持续优化模型的推理效率和准确性,探索在科学研究、工程设计等领域的应用潜力,预计2026年将推出面向科研人员的专业版工具。
阿里云析言XiYan-SQL夺冠国际评测
在近日结束的国际自然语言处理评测基准GLUE中,阿里云自主研发的析言XiYan-SQL模型以显著优势夺冠,刷新了SQL生成任务的世界纪录。XiYAN-SQL在复杂查询生成、多表关联和自然语言到SQL转换等核心指标上均达到行业领先水平。
此次夺冠验证了阿里云在数据库AI化领域的技术实力,XiYAN-SQL已被广泛应用于智能数据分析、自动化报表生成等场景。阿里云表示,下一步将基于此技术构建更完整的智能数据产品生态,计划在2026年上半年推出面向企业的智能数据助手服务,帮助企业提升数据分析效率。
Kling 2.6视频生成模型即将发布
视频生成技术公司今日宣布,其新一代视频生成模型Kling 2.6将于下月正式发布。据悉,Kling 2.6在视频连贯性、动作自然度和细节表现方面实现重大突破,能够生成更长、更高质量的视频内容,并支持更复杂的场景控制。
此次升级将进一步提升AI视频生成技术的实用性,Kling 2.6预计将在影视制作、广告创意、游戏开发等领域产生深远影响。公司透露,新模型将采用更高效的训练方法,降低算力需求,使更多中小企业能够应用先进视频生成技术,预计2026年第一季度将开放商业使用权限。
千问APP接入学习大模型与万相Wan2.5
阿里巴巴旗下千问APP今日宣布完成重大升级,正式接入学习大模型和万相Wan2.5图像生成模型。此次升级使千问APP能够提供更全面的学习辅助和创意生成服务,用户可以通过自然语言描述获取精准的学习资料,并生成高质量的图像内容。
这一更新强化了千问APP在教育领域的竞争力,阿里巴巴表示将持续优化模型性能,拓展更多应用场景。千问团队透露,未来计划将大模型能力与电商、办公等阿里生态业务深度融合,打造一站式智能服务平台,预计2026年将推出面向企业的定制化教育解决方案。
Z-Image-Turbo-Fun-Controlnet-Union开源图像生成模型
开源社区今日发布了Z-Image-Turbo-Fun-Controlnet-Union图像生成模型,该模型结合了ControlNet的精确控制和Turbo系列的生成效率,实现了高质量图像生成与精确控制的完美结合。模型支持多种图像风格和细节控制,特别适合需要精确控制的创意设计场景。
这一开源发布将促进AI图像生成技术的普及和创新,开发者可以基于此模型构建各种专业应用。社区负责人表示,将持续收集用户反馈,优化模型性能,计划在2026年推出支持更多控制条件和更高分辨率的升级版本,进一步降低专业图像创作的技术门槛。
可灵AI全量上线O1视频大模型
可灵AI今日宣布全量上线O1视频大模型,该模型在视频生成质量、时长控制和场景理解方面实现全面突破。O1视频大模型能够生成长达2分钟的高质量视频,支持复杂场景和人物互动,并在视频连贯性和细节表现上达到行业领先水平。
这一发布标志着AI视频生成技术进入新阶段,可灵AI表示将重点探索O1在影视制作、广告创意和虚拟现实等领域的应用。公司透露,已与多家内容制作机构达成合作,共同探索AI辅助创作的新模式,预计2026年将推出面向专业创作者的增强版工具,进一步提升创作效率和质量。
北京发布人工智能产业白皮书
北京市政府今日正式发布《北京市人工智能产业发展白皮书(2025)》,系统规划了未来三年AI产业发展路径。白皮书提出到2027年,北京人工智能核心产业规模将突破2000亿元,培育一批具有国际竞争力的AI企业和创新平台,形成完整的AI产业生态。
这一政策将为北京AI产业发展提供明确指引,市政府将设立专项资金支持AI技术研发和应用落地。北京市经信局负责人表示,下一步将围绕算力基础设施、数据要素市场、人才培养等方面出台具体支持措施,打造全国AI创新高地,预计2026年上半年将启动首批AI产业示范区建设。
字节跳动发布视频编辑模型Vidi2
字节跳动今日正式发布视频编辑模型Vidi2,该模型在视频理解、内容识别和智能剪辑方面实现重大突破。Vidi2能够自动分析视频内容,识别关键帧和精彩片段,并根据用户需求生成精准的剪辑建议,大幅提升视频编辑效率。
这一发布将进一步强化字节跳动在内容创作工具领域的优势,Vidi2将被整合到抖音、剪映等产品中,服务海量创作者。字节跳动表示,将持续优化模型性能,拓展更多视频编辑功能,预计2026年将推出面向专业视频工作站的增强版,满足更高要求的视频制作需求。
快手将发布Kling Omni AI平台
快手今日宣布将于下月发布Kling Omni AI平台,该平台整合了视频生成、图像处理、语音合成等多种AI能力,为创作者提供一站式内容创作工具。Kling Omni特别针对短视频场景进行了优化,能够快速生成符合平台调性的创意内容。
这一平台发布将加速AI在内容创作领域的普及,快手表示将通过Kling Omni降低创作门槛,激发更多用户创造力。快手AI负责人透露,平台将采用"创作即服务"的模式,根据不同创作者的需求提供个性化AI工具,预计2026年将推出面向MCN机构的批量创作解决方案,进一步提升内容生产效率。
智谱清影2.0图像生成模型发布
智谱AI今日正式发布清影2.0图像生成模型,该模型在图像质量、风格多样性和生成效率方面实现全面提升。清影2.0采用最新的扩散模型技术,支持更精细的图像控制和更丰富的风格迁移,特别适合创意设计和艺术创作场景。
这一发布将进一步丰富AI图像生成技术生态,智谱AI表示将重点探索清影2.0在设计、广告和游戏等领域的应用。公司透露,已与多家设计机构建立合作,共同探索AI辅助创作的新模式,预计2026年将推出面向设计师的专业工具,提供更精准的创作控制能力。
深圳上线全国首个AI智能劳动仲裁系统
深圳市人力资源和社会保障局今日宣布,全国首个AI智能劳动仲裁系统正式上线运行。该系统基于大语言模型技术,能够自动分析劳动争议案件,提供专业的法律咨询和调解建议,大幅提升劳动争议处理效率。
这一创新实践将AI技术应用于社会治理领域,深圳市人社局表示,系统上线后将有效缓解劳动争议案件处理压力,提高调解成功率。相关负责人透露,下一步将在全市推广这一系统,并计划在2026年扩展到工伤认定、社保查询等更多人社服务场景,打造"AI+人社"服务新模式。
美团发布LongCat-Image图像生成模型
美团今日正式发布LongCat-Image图像生成模型,该模型在电商场景图像生成方面实现突破,能够根据商品描述自动生成高质量的商品展示图。LongCat-Image特别注重商品细节还原和场景适配,大幅提升了电商内容创作的效率和质量。
这一发布将强化美团在电商内容技术领域的优势,LongCat-Image将被广泛应用于美团平台上的商家服务。美团表示,将持续优化模型性能,拓展更多电商应用场景,预计2026年将推出面向商家的智能内容创作工具,帮助中小商家提升线上营销效果。
Harvey法律AI公司获F轮融资,估值达560亿
AI法律科技公司Harvey今日宣布完成F轮融资,公司估值达到560亿美元。本轮融资由知名投资机构领投,资金将主要用于技术研发和市场拓展。Harvey专注于为律师事务所和企业提供AI法律解决方案,其产品在合同分析、法律研究和案例预测等方面表现出色。
这一融资创下了法律AI领域的最高估值,显示了资本市场对AI法律科技的高度认可。HarveyCEO表示,将利用新资金加速产品迭代和国际化布局,计划在2026年进入亚太市场,并与全球顶尖律所建立深度合作关系,进一步巩固其在法律AI领域的领先地位。
豆包语音识别模型2.0正式发布
字节跳动旗下豆包团队今日正式发布语音识别模型2.0,该模型在识别准确率、噪声处理和方言支持方面实现全面提升。豆包2.0采用最新的自监督学习技术,能够在复杂环境下实现高精度语音识别,并支持多种方言和口音。
这一发布将进一步提升语音交互的用户体验,豆包团队表示将重点探索在教育、医疗和客服等领域的应用。字节跳动透露,豆包2.0将被整合到旗下多款产品中,预计2026年将推出面向开发者的API服务,推动语音技术在更多场景的应用落地。
可灵数字人2.0功能上线,实现"会说更会演"
可灵AI今日宣布数字人2.0功能正式上线,该



