导航首页 » 资源中心 » AI最新资讯 » 2026年3月9日智能科技纵览

2026年3月9日智能科技纵览

浏览 156003 2026-03-09 06:56:49 点赞 591

2026年3月9日智能科技纵览

今日AI行业呈现技术迭代加速、应用场景多元化与资本热度持续攀升的态势。大模型领域迎来新一轮升级，OpenAI发布GPT-5.4系列，微软开源Phi-4-Reasoning-Vision-15B视觉推理模型，同时阿里开源HiClaw Team版OpenClaw，推动AI技术普惠化。应用层面，小米发布Agent产品Xiaomi miclaw，美团Tabbit浏览器开启公测，AI向垂直场景深度融合。资本市场活跃，VAST完成5000万美元A轮融资，MiniMax公布上市后首份财报，显示AI商业化进程加速。整体来看，AI技术正从通用能力向专业化、个性化方向演进，产业生态日趋完善。

OpenAI发布GPT-5.4系列原生支持计算机操控

OpenAI于今日正式发布GPT-5.4系列模型，该版本实现了原生计算机操控能力，用户可通过自然语言指令直接控制计算机完成复杂任务。新模型在代码生成、多模态理解和推理能力方面均有显著提升，特别是在处理需要多步骤操作的工作流程时表现出色。GPT-5.4系列还优化了长文本处理能力，支持最高200万token的上下文窗口，并大幅降低了响应延迟。

此次发布标志着AI从纯文本交互向实际操作能力的重大跨越，将极大提升AI助手在办公、编程等领域的实用性。业内分析认为，GPT-5.4的计算机操控能力可能成为AI应用落地的关键突破点，推动AI从信息处理工具向生产力工具转变。OpenAI表示，未来几周将逐步向企业用户开放API接口，开发者可基于此构建更智能的自动化应用。

微软开源Phi-4-Reasoning-Vision-15B视觉推理模型

微软今日宣布开源Phi-4-Reasoning-Vision-15B模型，这是一款专为视觉推理任务设计的15B参数模型。该模型结合了视觉理解和逻辑推理能力，能够分析复杂图像场景并作出准确判断。Phi-4-Reasoning-Vision在多个视觉基准测试中表现优异，特别是在需要多步骤推理的任务上超越了同类开源模型。微软提供了完整的训练代码和预训练权重，支持研究人员进行二次开发。

此次开源反映了微软推动AI技术民主化的战略意图。Phi-4-Reasoning-Vision的发布有望降低视觉AI技术的应用门槛，加速计算机视觉在医疗影像分析、自动驾驶等领域的创新。业内专家指出，微软通过开源策略构建AI生态系统，与OpenAI形成互补，共同推动AI技术边界拓展。开发者社区预计将基于此模型开发出更多创新应用。

阿里开源HiClaw Team版OpenClaw 5分钟完成本地安装

阿里巴巴今日宣布开源HiClaw Team版，这是基于OpenClaw优化的AI开发框架，专注于提升本地AI开发效率。HiClaw Team版将安装时间从原来的30分钟缩短至5分钟，并优化了资源占用，在普通笔记本电脑上即可流畅运行。该框架支持主流深度学习框架，内置了数据预处理、模型训练和部署的全流程工具，特别适合中小企业和开发者快速构建AI应用。

HiClaw的开源标志着阿里云在AI基础设施领域的战略布局进一步深化。通过降低AI开发门槛，阿里希望吸引更多开发者加入其AI生态，形成技术社区与商业应用的良性循环。业内分析认为，这一举措将加速AI技术在中小企业的普及，特别是在智能制造、零售等垂直领域的应用落地。阿里表示，未来将持续优化HiClaw，计划增加更多行业预训练模型。

VAST完成5000万美元A轮融资加速构建世界模型

AI世界模型研发公司VAST今日宣布完成5000万美元A轮融资，由红杉资本领投，现有投资方跟投。本轮融资将用于扩大研发团队，加速构建下一代世界模型和UGC互动内容平台。VAST开发的AI世界模型能够模拟复杂环境，支持用户创建和交互高度逼真的虚拟世界，其技术在游戏、元宇宙和数字孪生领域具有广泛应用前景。

此次融资反映了资本市场对AI世界模型技术的看好。随着元宇宙概念的兴起，能够构建和模拟复杂虚拟环境的技术成为投资热点。VAST表示，计划在未来18个月内推出面向开发者的世界模型API，并拓展至教育、医疗等领域的应用场景。业内专家认为，世界模型技术可能成为下一代互联网基础设施的关键组成部分，重塑人机交互方式。

小米发布Agent产品Xiaomi miclaw 智能助手再升级

小米今日正式发布AI Agent产品Xiaomi miclaw，这是基于大语言模型开发的智能助手，具备跨设备协同和自主任务执行能力。miclaw不仅能进行自然语言交互，还能理解用户意图并主动完成多步骤任务，如安排日程、控制智能家居设备、查询信息等。该产品已整合小米生态链内多款设备，支持语音、文字和图像多种交互方式，首批将搭载于小米14 Ultra手机和MIUI 15系统。

miclaw的发布显示小米正加速AI战略落地，通过软硬件结合构建智能生态。小米CEO雷军表示，AI将成为小米未来十年的核心战略方向。业内分析认为，miclaw的自主任务执行能力可能改变用户与智能设备的交互方式，推动智能家居从被动响应向主动服务转变。小米计划将miclaw逐步扩展至汽车、可穿戴设备等更多场景，构建全场景智能体验。

美团Tabbit浏览器开启公测 AI搜索体验升级

美团今日宣布旗下AI浏览器Tabbit正式开启公测，这款产品集成了大语言模型技术，提供智能搜索内容摘要和个性化推荐功能。Tabbit能够理解用户搜索意图，自动提炼关键信息，并生成结构化摘要，大幅提升信息获取效率。此外，浏览器还具备多模态交互能力，支持图片、语音等多种输入方式，并内置美团生态内的服务直达功能，如美食推荐、酒店预订等。

Tabbit的推出标志着美团在AI应用场景上的重要拓展。作为本地生活服务巨头，美团通过AI技术提升用户搜索体验，增强平台粘性。业内专家指出，AI浏览器可能成为互联网入口的新形态，整合信息获取与服务提供。美团表示，Tabbit将持续优化算法模型，未来计划接入更多美团生态内的服务，打造一站式本地生活AI助手。

MiniMax公布上市后首份财报 AI音乐业务增长强劲

AI内容创作平台MiniMax今日公布了上市后首份财报，显示公司2025年第四季度营收同比增长320%，其中AI音乐业务增长尤为突出。MiniMax的AI音乐创作平台Music 2.5+已吸引超过500万专业音乐人用户，生成内容被广泛应用于影视、广告等领域。财报显示，公司研发投入占比达45%，主要用于大模型优化和垂直领域应用拓展。

MiniMax的业绩表现印证了AI内容创作市场的巨大潜力。随着AIGC技术的成熟，专业内容创作领域正迎来变革。MiniMax通过"AI+专业创作"的模式，既满足了内容生产效率需求，又保证了作品质量。公司CEO表示，将继续深耕AI音乐、视频创作等领域，计划年内推出面向企业的定制化AI内容创作解决方案。业内分析认为，MiniMax的成功为AI内容创业公司提供了可参考的商业模式。

通义发布语音双模型提升人机交互自然度

阿里巴巴达摩院今日宣布推出通义语音双模型，包括语音识别ASR和语音合成TTS两大模块，大幅提升人机交互的自然度和准确性。新模型在噪声环境下的识别准确率达到95%，支持全球100多种语言和方言，并具备情感化语音合成能力，可根据文本内容自动调整语调、节奏和情感色彩。通义语音双模型已应用于阿里云智能语音服务，企业客户可通过API接口快速集成。

通义语音双模型的发布反映了阿里在AI语音技术领域的持续投入。随着智能音箱、车载语音等应用的普及，自然流畅的语音交互成为刚需。达摩院表示，通义语音双模型将逐步开放更多行业定制能力，如医疗、教育等专业领域的语音识别优化。业内专家指出，语音交互作为最自然的人机交互方式，将在AIoT时代扮演重要角色，推动智能设备普及率提升。

Perplexity与CoreWeave达成多年战略合作

AI搜索引擎Perplexity今日宣布与云计算服务商CoreWeave达成多年战略合作，双方将共同构建AI推理基础设施。根据协议，CoreWeave将为Perplexity提供高性能GPU算力支持，优化其大模型推理性能，同时合作开发面向企业的AI推理解决方案。此次合作将帮助Perplexity提升搜索响应速度，扩展服务规模，并降低运营成本。

Perplexity与CoreWeave的合作反映了AI应用对基础设施需求的快速增长。随着大模型参数规模不断扩大，高效、可扩展的推理基础设施成为AI公司核心竞争力。业内分析认为，此类战略合作将成为行业常态，AI公司将更多资源投入到核心算法研发，而将基础设施外包给专业服务商。Perplexity表示，此次合作将使其能够更快迭代产品，为用户提供更精准、及时的AI搜索体验。

番茄、拼多多密测AI互动剧

今日有消息称，番茄小说和拼多多正在秘密测试AI互动剧产品，探索AI在内容创作和电商场景的创新应用。番茄小说的AI互动剧允许读者通过选择影响剧情发展，AI实时生成相应内容；拼多多的AI互动剧则结合电商元素，用户在观看剧情的同时可直接购买相关商品。两款产品均基于大语言模型和生成式AI技术，目前处于小范围测试阶段。

AI互动剧的测试显示内容产业正积极探索AI与创新的结合方式。番茄小说作为字节跳动旗下的内容平台，希望通过AI互动剧提升用户参与度和粘性；拼多多则试图通过AI互动剧增强电商体验，实现内容与销售的无缝衔接。业内专家认为，AI互动剧可能成为内容消费的新形态，但面临内容质量控制、版权保护等挑战。两家公司均表示，将根据测试反馈持续优化产品体验。

谷歌发布Gemini 3.1 Flash-Lite 轻量级模型受关注

谷歌今日发布Gemini 3.1 Flash-Lite模型，这是Gemini系列中的轻量级版本，专为移动设备和边缘计算场景优化。Flash-Lite模型参数量仅为3B，在保持核心功能的同时大幅降低了计算资源需求，可在普通智能手机上流畅运行。新模型在多项基准测试中表现优异，特别是在多语言理解和低资源任务处理方面具有明显优势。谷歌已将Flash-Lite集成到Android系统，为开发者提供便捷的AI能力接入。

Flash-Lite的发布反映了谷歌在AI普惠化战略上的持续推进。通过轻量级模型，谷歌希望将AI能力扩展至更多终端设备，特别是在新兴市场和网络条件有限的地区。业内分析认为，轻量级模型将成为AI落地的重要方向，推动AI技术在移动设备、物联网等领域的普及。谷歌表示，将持续优化Flash-Lite性能，计划年内推出面向更多行业的定制化版本。

留言评论

2026年3月9日智能科技纵览