引言

我们认为,Deepseek 开源引领 AI 技术民主化进程,中国创新生态与市场优势将推动全球 AI 应用爆发

Deepseek 的崛起标志着非共识创新路线的胜利,在全球技术封锁的背景下,通过卓越的工程实践能力成功实现了技术突破,不仅让中国从 AI 追随者重新回归到定义者的地位,也迫使全球重新评估中国的技术资产价值;更重要的是,Deepseek 采取的开源策略将进一步刺激全球头部模型公司加速发展,在强化学习范式的推动下,AI 技术将迎来新一轮快速迭代,这标志着 AI 领域的"安卓时刻"已经到来,开放创新生态即将形成。

作为全球最大的单一消费市场,中国拥有微信等超级流量入口对 Deepseek 的即时接入,这将掀起一场前所未有的全民 AI 教育浪潮;同时,中国过去十年在移动互联网时代积累的深厚用户洞察、产品设计能力、工程实践经验以及商业模式创新优势,结合国内充沛的工程师人才储备,将帮助中国创业者在全球范围内构建起独特的竞争壁垒,由此推动AI应用与衍生赛道进入爆发性增长期,开启新一轮产业变革。

我们认为如今的 AI agent 可类比移动互联网刚诞生的 2011 年初期,群雄逐鹿,我们看到新一代 AI agent 已不仅仅是工具,它们开始理解意图、创造价值,甚至在金融、医疗、教育、科研等领域成为“超级智能体”。垂直场景的需求相对明确,我们畅想认知是黄金,急需理解行业痛点善于驾驭AI重构生产关系复合型团队,这类的原生应用将有机会成为“killer app”。

初心在 AI 落地产业中布局了落地解决方案企业 Byteworks、云猿生、D5 Render 等,及 AI 落地应用 Dreamtech、DeepCS、Nolibox、Kmind

01 回顾 2024 年,大模型的“安卓时刻”已经到来,多模态模型实现重大突破

大模型排位你追我赶,头部公司优势逐渐收窄

截屏2025-05-12 14.21.46.png

  • 202405:OpenAI GPT-4o 正式发布,面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解

  • 202406:Anthropic 发布 Claude 3.5 Sonnet,在多项测试中击败对手 GPT-4o

  • 202407:Meta 发布 LLAMA 3.1 405B 大模型,在多项测试中超越 GPT-4o 和 Claude 3.5 Sonnet。历史上首次开源模型击败最强闭源模型

  • 202409:OpenAl 发布 o1 模型,验证了推理阶段的 Scaling Law,在数学、编程等推理任务上大幅超越老一代范式的大模型,人类离 AGI 更近一步

Deepseek 开启的强化推理范式,开源策略作为“后发者的矛”,拉高全行业水位线

  • 202412:幻方量化发布 DeepSeek-V3,一夜之间霸榜开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。该模型的训练成本仅 600 万美元,成本降低 10 倍

  • 202501:开源推理 AI 模型 DeepSeek-R1 发布,该模型在数学、编程和推理等任务上表现优异,训练和推理成本低,上线 18 天内,累计下载量已突破 1600 万次。

  • DeepSeek R1 突破的关键在于放弃传统 PRM/MCTS 路径,采用纯强化学习(Pure RL)实现"左脚踩右脚"的自我迭代,V3 的 671B MoE 架构构成技术护城河,其 FP8 训练/MLA 优化/DeepSeekMoE 设计体现工程思维的极致化 

截屏2025-05-12 14.24.08.png

多模态侧,Sora 的出现标志着视频生成领域的一次重大突破,其生成的视频在三维、时序、物理一致性等方面都显著优于以往模型。

  • 前 Sora 时代:早期(2015 年前):主要采用 Deterministic 和 Stochastic 网络,分别代表确定性预测和基于分布的预测。GAN 时代(2016-2022 年):利用生成对抗网络 (GAN) 进行视频生成,例如 VideoPoet 和 VAR (Visual Autoregressive Modeling)。

  • 后 Sora 时代:Diffusion 时代(2022 年至今):Diffusion 模型开始主导视频生成领域,例如 Google 的 VDM (Video Diffusion Model)、Meta 的 Make-A-Video、Google 的 Imagen Video、Runway 的 Gen2、PikaLab 的 Pika、SVD 以及 VideoCrafter 等。OpenAI Sora (2024 年):Sora 的出现标志着视频生成领域的一次重大突破,其生成的视频在三维、时序、物理一致性等方面都显著优于以往模型。

02 展望2025 年,强化学习驱动AI范式转变,多模态与 Agent 应用加速落地,端侧部署普及将重塑产业形态

  1. RL 技术范式转变:DeepSeek-R1首次验证了纯强化学习在提升推理能力上的有效性。通过完全依赖 RL 训练(如R1-Zero阶段),无需监督微调(SFT)数据,模型能够自主进化推理能力。例如,在数学推理基准 AIME 2024中,R1-Zero 接近 OpenAI 的 o1 模型。这种“自我反思-调整”机制打破了传统依赖人工标注数据的训练逻辑,标志着RL从辅助工具向核心范式的转变。

  2. 有RL 改善边际 AI agent 将实现应用:作为 LLM 时代最具想象力的应用形态,其核心价值在于"自由度的跃迁"——通过大模型自主拆解任务、调用工具、与环境交互,突破传统自动化系统的规则限制。DeepSeek 开源 reasoning model 推进了行业向 Agent 的进一步探索。生成式 AI 正式从「生成工具」走入「自主决策 AI」,在长距离多步骤任务自动化上价值显著。

  3. 端侧模型渗透率提升:DeepSeek-R1 通过算法创新(如强化学习、动态思维链)、工程优化(蒸馏、量化)和开源生态,显著降低了端侧 AI 的部署成本与门槛,同时提升了模型性能。随着更多定制化应用的涌现,端侧 AI 有望在消费电子、工业、医疗等领域实现更深度渗透。

  4. 多模态 AI 效果进一步提升,存在架构级创新机会:多模态AI的探索慢于语言模型,若多模态AI从技术突破期进入价值兑现期,其影响将超越单纯效率提升,重新定义人机协作边界(如具身智能体自主操作设备),并推动 AGI 向更接近人类认知的方向演进。在多模态生成方面,Auto-Regression 模型在时序建模方面具有理论优势,但实践中受限于误差累积和长距离依赖问题。Diffusion 模型在实践中表现出更好的时序一致性,但未来 Auto-Regression 模型仍有潜力,存在架构级别的创新机会。

03 我们认为一项新技术随着成熟往往会经历不同创业周期,不同阶段创业需要的资源禀赋差异巨大

  • 泛科技行业随着一项新兴技术逐步成熟、落地,总是按照技术创业周期->产品创业周期->销售创业周期逐步过渡;随着过去数年芯片制程、算力性能的大幅提升,基础模型的能力涌现促使技术加速成熟落地,生成式 AI 领域的创业窗口期前所未有地快速过渡

  • 技术创业周期中,企业能否选择对的(而非主流的)技术路径,并匹配有前沿探索能力的科研人才持续投入、探索,构建护城河是关键;产品创业周期中,技术路径已经或接近收敛,大厂和先发龙头加大行业基建的投资,初创公司有望利用高性价比的行业基建,通过用户洞察、产品设计、商业模式的创新做差异化产品;而销售创业周期中,产品也日趋成熟,销售渠道有优势的公司开始进行快速资源变现与套利

04 我们认为当前时点生成式AI处于技术向产品创业周期过渡阶段,后者有足够的非共识,是创业公司的机会

  • 非共识才能诞生超额收益,“市场不好的时候”最易产生预期差。一家投资机构若想长期获得高于同行的收益必须进行价值挖掘,发现他人未能看到的价值,而投资人与主流观点的预期差(本质是机构观点与大众的认知偏差)决定了其超额收益。“市场好的时候”就是所有人预期一致的时候,“市场不好的时候”大部分人悲观,小部分人乐观,对未来预期存在差异,往往能找到更好的机会

  • 以史为鉴,技术创业周期后的产品创业周期往往能诞生最大的机会。以 PC 互联网为例,1999 年互联网泡沫破灭,但 2005 年才迎来互联网普遍投资热,但期间的 4~5 年间诞生了诸如百度、腾讯、阿里、携程等 TMT 领域最高回报的项目

  • 生成式 AI 较以往新兴技术由于生产力的提升,阶段过渡发生的更快,而产品创业周期更具创业公司所需的非共识。PC、移动互联网时代带来了商业模式的变化和生产关系的重构,而生成式 AI 带来了生产力的大幅提升。随着 GPT-4、DALL.E3、SORA 的出现使得文字、图片、视频等模型的技术路线收敛,模型 scale up 受限于算力短缺难以再上一个量级,基于当前模型架构所能达到的模型性能接近上限,技术创业周期临近尾声;而当前生成式 AI 的产品多功能简单,接近于实验室 demo,与“终局”的移动互联网产品带来的用户价值差异巨大,但我们看到诸如移动互联网早期从工具到社区的产品开始出现,生成式 AI 或已进入产品创业周期

  • 生成式 AI 作为通用技术产业链长、下游应用场景广泛,而做好每个小点都能产生足够大的公司。选择在什么场景下,基于什么样的模型、技术栈,满足什么用户群体的什么需求,每一个选择都存在非共识。以新能源车为例,“电车”公司超越传统车企的不是技术,而是思维模式、大公司的组织惯性上的差异,导致供应链的逻辑、造车的底层逻辑产生了差异。中国公司的颠覆式创新机会来自小步快跑的持续创新,发挥中国工程师红利,将顶尖人才聚集,组织上保持快速迭代、快速引领的能力;研发上赌各种未来的方向,关注小的、现有体系外的创新,与全球领先、各领域的创新保持同步 

05 技术仅是门槛,落地才是赛点。让 AI 落地可用是系统工程问题,有极强非共识,创业公司有机会通过差异化的技术路径、场景选择找到 PMF

  • 大模型的通用能力得到显著提升,但让模型落地到场景,为用户创造价值仍存在重重困难:

    • 上一波AI浪潮中就出现过因定制化导致的“高级外包公司泥潭”。彼时 Alpha Go 击败围棋世界冠军李世石、柯洁,人工智能展现出来的能力让人惊讶,但企业真正将技术用到业务场景尝试商业化时,却发现能够解决的场景太过碎片化、深入业务流程中的特定环境,难以标准化、规模化,AI视觉四小龙都陷入了定制化的泥潭

    • ChatGPT 的出现让人们看到了通用模型的可能性,“百模大战”如火如荼,但落地难迫使行业“降温”。高训练成本的基础模型在细分场景的特定需求上显示出“牛刀小用”(对于简单任务的推理成本过高),在专业领域问题的表现差(领域知识的匮乏与注意力机制的限制),模型会“一本正经地胡说八道”(模型幻觉问题)、准确率低,模型并发数量有限,真正融进业务场景仍存在众多问题

  • 让大模型落地可用是系统工程问题,存在极强的非共识,是中国红利&全球机会有机结合的领域:

    • 解决大模型固有缺陷才让AI真正可用,而模型及工程优化方向是有红利、且有差异化的领域,2B 基因的初创公司有望抓住机会。其中,用研与产品能力直接决定产品能否找到 PMFF;数据库、RAG 等技术能力能给用户差异化体验,而强工程能力为生成式 AI 应用稳定上线保驾护航,解决大模型落地的关键问题将有望通过大客户订单拥有持续造血能力

    • 用好 AI,发挥中国工程师的产品能力,小步快跑实现个性化、普惠制 AI 落地产品的 2C 基因初创公司有更大的胜率。技术未必是决胜关键,用好轮子就能验证 PMF;而特定场景下AI稳定可用的工程能力造就初创公司先发优势;随着算力成本的下降,模型能力的提升,能跑通 UE 的模式长期看模型盈利能力越发稳健

06 初心在 AI 落地产业中布局了落地解决方案企业 Byteworks、云猿生、D5 Render 等及 AI 落地应用 Dreamtech、DeepCS、Nolibox、Kmind 等

  • 初心在 AI 落地产业中重点布局了AI落地解决方案与落地应用企业:

    • Byteworks,以国产 OLAP 数据库为核心的 AI 数据处理与分析工具产品

    • 云猿生,以国产 OLTP 出发,面向金融、电信行业的国产数据库、AI、云原生企业

    • D5 Render,采用光追和 AI 降噪技术让设计师所见即所得的渲染工具

    • DeepCS,专注于生产现场智能控制领域的云边一体工业 AI PaaS 平台

    • Nolibox,聚焦电商和营销场景为B端提供AI生成设计方案

    • Kmind,个人 AI 通用计算平台

    • Dreamtech,3D 模型生成和应用平台

07 AI领域:关注模型架构的突破性变化,投资于善于驾驭 AI 重构生产关系的复合型团队

从技术创新维度来看,AI 领域的质变往往源于模型架构性的突破。7年前 transformer 架构的出现彻底改变了 AI 行业格局,其核心作者创立的企业均已成长为独角兽级别的科技公司;而当下以 Mamba 为代表的新一代多模态架构在诸多任务中展现出超越 transformer 的潜力,背后凝聚了大量优秀华人科研人才的智慧结晶。我们将布局前瞻性架构,持续跟踪、测试并适时下注。

AI 落地应用领域,我们核心关注善于驾驭 AI 重构生产关系的复合型团队,以缓释从技术创业周期向产品创业周期过渡的早期投资风险;开展每个场景的系统性覆盖,并选取最具 PMFF 的团队持续跟踪,适时出手。其中我们重点关心的领域包括:

  1. 多模态内容工业化:在多模态内容工业化投资策略的构建中,技术演进沿着“文本生成→文生图/基础音视频→3D 动态场景生成→跨模态语义理解→实时交互创作”的轴线递进,其本质是通过算法将创意要素解构为数据、算法、交互的三维坐标系,并借助标准化工具链实现内容生产的边际成本趋零化。

  2. 多模态 AI search:传统搜索引擎的"关键词-链接"模式本质上是认知的降维压缩,这种降维处理虽然提高了检索效率,但也损失了大量上下文信息。而多模态搜索通过整合语音、图像、视频等自然交互方式,能够更全面地捕捉用户所处的实际场景和深层意图。这种变革本质上是在还原和重建人类认知的自然过程,使搜索服务能更准确地理解和满足用户需求。这种升维不仅体现在交互形式上,也可能重塑流量分配规则。

  3. 在垂类场景中有限状态空间×高频需求的 Agent。当前 AI Agent 的核心瓶颈在于 LLM 的任务拆解精度与工具调用可靠性,而 DeepSeek-R1 等模型在推理能力(复杂任务拆解错误率降低18%)及工具调用优化(API 选择准确率提升至 89%)上的突破,标志着技术拐点临近。投资策略应当聚焦于工具集限定、输入输出标准化的垂直场景(如服务自动化、游戏 NPC、智能硬件),通过短期布局服务标准化 Agent(以工具调用次数/用户留存率为核心指标),中期卡位多模态消费场景(押注语音/图像融合带来的体验突破),长期跟踪模型自我进化机制(特别是强化学习与世界模型的结合可能带来的范式革命),从而在确保可控风险的前提下把握 AI Agent 领域的增长机遇。

做陪伴创业者
最早的投资机构

初心是积极布局新兴业态的早期股权投资基金,专注于企业级软件、科技创新等领域的投资。我们致力于捕捉因科技赋能而改变行业格局和通过软件帮助企业降本增效、优化运营的优秀企业,进行投资布局。欢迎留下你的联系方式,与我们取得联系。