导航首页 » 资源中心 » AI最新资讯 » 2025年12月10日智能科技纵览

2025年12月10日智能科技纵览

浏览 77737 2025-12-10 06:56:46 点赞 719

2025年12月10日智能科技纵览

今日AI领域呈现多模态技术加速落地、开源生态持续繁荣、应用场景不断拓展的态势。从多模态大模型开源到语音识别技术突破，从数字人功能升级到产业政策发布，人工智能正以前所未有的速度渗透各行各业。资本方面，AI法律科技公司获得巨额融资，显示专业领域AI应用正迎来价值释放期。整体来看，AI技术正从单一能力向综合智能演进，产业生态日趋成熟。

蚂蚁集团推出灵光网页版AI助手

蚂蚁集团正式发布灵光网页版AI助手，该产品基于自研大模型技术，能够理解用户复杂需求并提供多轮对话交互体验。灵光网页版无需下载安装，用户通过浏览器即可使用，支持文本创作、信息查询、生活助手等多种功能，特别针对金融、生活服务场景进行了优化。

此次发布标志着蚂蚁集团AI能力向轻量化、场景化方向迈进。灵光网页版的推出有望降低用户使用门槛，扩大AI服务覆盖面，同时为蚂蚁生态内的支付宝、财富等业务提供智能化支持。未来，灵光或将进一步整合蚂蚁的金融科技能力，打造更具垂直领域优势的AI助手产品。

智谱AI开源GLM-4.6V系列多模态大模型

智谱AI正式宣布开源GLM-4.6V系列多模态大模型，该模型在视觉理解、图文生成、跨模态推理等任务上表现优异。GLM-4.6V系列包含多个参数规模版本，支持开发者根据自身需求选择合适的模型，并提供了完整的训练和推理工具链。

此次开源将进一步丰富国内开源大模型生态，降低AI技术门槛。GLM-4.6V系列在多模态任务上的优异表现，有望推动AI在内容创作、设计辅助、教育等领域的应用落地。智谱AI表示将持续优化模型性能，并计划构建围绕GLM-4.6V的开发者社区，促进技术创新与产业应用。

谷歌Mixboard平台重磅升级

谷歌宣布对其AI创意平台Mixboard进行重大升级，新增了更强大的图像生成、视频编辑和3D建模功能。升级后的Mixboard整合了谷歌最新的Gemini模型能力，用户可以通过自然语言描述直接生成高质量的多媒体内容，并支持跨媒体格式转换。

此次升级强化了谷歌在创意AI领域的竞争力，为内容创作者提供了更全面的工具支持。Mixboard的进化反映了AI技术正从单一模态向多模态融合方向发展，未来或将进一步整合AR/VR技术，创造沉浸式创作体验。谷歌表示，Mixboard的升级是其"AI for Creativity"战略的重要一步，将持续投入以拓展创意AI边界。

阿里云推出Qwen3-TTS语音合成系统

阿里云正式发布Qwen3-TTS语音合成系统，该系统在自然度、情感表达和音色多样性方面取得突破。Qwen3-TTS支持多种语言和方言，能够根据文本内容自动调整语调、节奏和情感，生成的语音质量接近真人水平，已应用于阿里云智能客服、有声读物等领域。

Qwen3-TTS的推出将提升人机交互体验，特别是在智能客服、数字人、教育等场景中具有重要应用价值。阿里云表示，未来将进一步优化Qwen3-TTS的个性化定制能力，支持用户根据需求创建专属音色，并计划将其整合到阿里云AI开放平台，为更多开发者提供高质量的语音合成服务。

可灵AI上线主体库功能

可灵AI宣布正式上线主体库功能，用户可以通过简单的操作将真实人物、虚拟角色或特定对象转化为可交互的AI主体。该功能支持批量处理和自定义训练，生成的AI主体能够保持原有人物特征并具备对话、表情生成等能力。

主体库功能的推出降低了数字人创建门槛，有望推动数字人技术在媒体、娱乐、教育等领域的规模化应用。可灵AI表示，未来将持续优化主体库的功能，增加更多场景化模板，并计划开放API接口，让第三方应用能够更便捷地集成数字人能力。

谷歌推出Gemini 3 Deep Think模式

谷歌正式发布Gemini 3大模型的Deep Think模式，该模式专为复杂推理和深度分析任务设计，能够处理更长上下文并执行多步骤推理。Deep Think模式在科学研究、代码生成、逻辑推理等任务中表现出色，支持用户通过自然语言进行复杂问题求解。

Deep Think模式的推出标志着AI正从简单问答向深度思考能力迈进，这将极大拓展AI在专业领域的应用边界。谷歌表示，Deep Think模式将逐步向Gemini企业用户开放，并计划在教育、科研等专业领域建立应用生态，推动AI成为人类智力增强的重要工具。

阿里云析言XiYan-SQL夺冠权威评测

在最新的自然语言到SQL生成评测中，阿里云自研的析言XiYan-SQL模型以显著优势夺冠，准确率超过第二名15个百分点。XiYan-SQL能够将复杂的自然语言查询精准转换为SQL语句，支持多表关联、子查询等复杂操作，已在阿里云数据分析平台大规模应用。

XiYan-SQL的夺冠展示了国内AI在数据库领域的领先实力，将降低数据分析门槛，推动企业数据价值挖掘。阿里云表示，将持续优化XiYan-SQL的性能，扩展支持更多数据库类型，并计划将其作为核心能力集成到阿里云数据智能产品中，助力企业数字化转型。

美团发布LongCat-Image图像生成模型

美团正式发布自研的LongCat-Image图像生成模型，该模型在图像编辑、风格迁移和内容生成等任务上达到开源SOTA水平。LongCat-Image特别针对电商、餐饮等场景进行了优化，能够生成高质量的商品图片、菜品图片和营销素材。

LongCat-Image的发布将提升美团生态内的内容创作效率，降低商家营销成本。美团表示，未来将进一步优化模型在特定领域的表现，并计划开放API接口，让更多商家能够利用AI技术提升内容质量。这一举措也反映了互联网公司正通过自研AI模型强化自身业务竞争力。

豆包语音识别模型2.0正式发布

字节跳动旗下豆包团队正式发布语音识别模型2.0，该模型在噪声环境下的识别准确率提升30%，支持实时语音转写和说话人分离。豆包语音识别2.0采用全新的声学建模方法，能够适应多种口音和语速，已在抖音、番茄小说等产品中应用。

豆包语音识别2.0的发布将提升语音交互体验，特别是在短视频、有声内容等场景中具有重要价值。字节跳动表示，将持续优化模型性能，扩展支持更多语言和方言，并计划将其作为基础能力开放给更多开发者，推动语音技术在各行业的应用落地。

北京发布人工智能产业白皮书

北京市经信局正式发布《北京市人工智能产业发展白皮书（2025）》，提出到2027年全市人工智能核心产业规模突破5000亿元的目标。白皮书明确了北京在AI基础研究、关键技术创新、产业应用等方面的重点任务，并推出了一系列支持政策。

该白皮书的发布将为北京AI产业发展提供清晰指引，进一步巩固北京在全国AI领域的领先地位。政策支持将加速AI技术与实体经济的融合，特别是在智能制造、智慧医疗、智慧城市等领域的应用落地。业内专家认为，北京的政策举措将为全国AI产业发展提供有益参考。

AI法律科技公司Harvey完成F轮融资

AI法律科技初创公司Harvey宣布完成F轮融资，估值达到560亿美元。本轮融资由多家知名投资机构领投，资金将用于扩大研发团队、拓展产品线和加速全球市场布局。Harvey开发的AI法律助手已为全球多家顶级律师事务所提供服务。

Harvey的高估值反映了资本市场对专业领域AI应用的认可，预示着AI在垂直行业正迎来价值释放期。此次融资将进一步巩固Harvey在法律AI领域的领先地位，同时也将推动整个法律科技行业的创新与发展。业内分析师认为，专业AI公司的崛起标志着AI投资正从通用大模型向垂直领域应用转变。

留言评论

2025年12月10日智能科技纵览