理想主义驱动下，他以技术敲开 AI 新世界大门，成为 DeepSeek 掌舵人

梁文锋：从量化投资到 AI 大模型的破局者

在当今科技浪潮中，中国人工智能公司深度求索（DeepSeek）犹如一匹黑马，其发布的 DeepSeek-R1 模型轰动全球。该模型以极低的成本实现了与美国顶级 AI 模型相匹敌的效果，引发了全球从业者的广泛关注与称赞。众多研究人员、投资者乃至西方媒体都惊叹不已，认为中国 AI 模型不仅令硅谷为之震惊，甚至可能改写大模型的研发规则。随着 DeepSeek 的声名鹊起，其背后的掌舵人 —— 梁文锋，也逐渐走进公众视野。这位 85 后创业者，在量化投资和 AI 领域都取得了令人瞩目的成就，却始终保持低调，鲜少抛头露面，这也让人们对他的成功之路充满好奇。

量化投资：用数学与 AI 开启金融新篇

1985 年，梁文锋出生于广东省湛江市。2002 年，年仅 17 岁的他凭借优异的成绩考入浙江大学电子信息工程专业，并在 2010 年顺利获得信息与通信工程硕士学位。在浙江大学求学期间，梁文锋对金融市场产生了浓厚的兴趣。2008 年，全球金融危机爆发，这场危机给世界经济带来了巨大冲击，却也为梁文锋提供了实践的契机。他带领团队运用机器学习技术深入分析市场数据，大胆尝试实现全自动量化交易。这段宝贵的经历不仅让梁文锋积累了丰富的实践经验，更为他日后的职业生涯筑牢了根基。

毕业后，梁文锋正式踏入金融领域。2013 年，他与浙大同学徐进携手创立了杭州雅克比投资管理有限公司，开启了在金融市场的探索之旅。2015 年，杭州幻方科技有限公司成立，梁文锋致力于将数学和 AI 技术深度融合于量化投资中。2016 年，幻方量化推出首个基于深度学习的交易模型，并率先将 GPU 引入计算交易仓位，这一创新性举措在行业内引起了广泛关注。此后，梁文锋不断扩充 AI 算法研究团队，持续深化 AI 技术在量化策略中的应用，逐步取代传统模型。2017 年，幻方宣布实现投资策略全面 AI 化，标志着公司在量化投资领域的重大突破。2018 年，幻方正式确立以 AI 为核心的发展战略，坚定地走在技术创新的道路上。

随着业务的飞速发展，计算资源不足的问题逐渐凸显。面对这一挑战，梁文锋没有退缩，而是带领团队迎难而上。2019 年，他们自主研发了 “萤火一号” 训练平台，为公司的量化投资业务提供了强大的技术支持。2020 年，总投资近 2 亿元、搭载了 1100 张 GPU 的 “萤火一号” 正式投入使用，显著提升了公司的计算能力。2021 年，幻方更是豪掷 10 亿元建设 “萤火二号”，进一步巩固了在量化投资领域的技术优势。

幻方量化的努力与创新得到了市场的高度认可。2018 年，公司首次荣获私募金牛奖，这一奖项堪称中国私募证券领域的最高荣誉。2019 年，在金牛奖颁奖仪式上，梁文锋发表了主题演讲《一名程序员眼里中国量化投资的未来》，这是他为数不多的公开发言之一。在演讲中，他高瞻远瞩地指出：“量化投资的未来，是用技术让市场更有效率。”

AI 领域：以创新与突破震惊世界

2023 年，梁文锋做出了一个大胆的决定，宣布正式进军通用人工智能（AGI）领域，并创办了深度求索（DeepSeek）。与其他大型 AI 研发团队相比，DeepSeek 的规模显得相对较小，包括梁文锋在内，仅有 139 名工程师和研究人员。而开发 ChatGPT 的 OpenAI 拥有 1200 名研究人员，开发 Claude 模型的 Anthropic 也有 500 多名研究人员。然而，团队规模的差异并没有阻碍 DeepSeek 前进的步伐。

在短短一年多的时间里，DeepSeek 取得了令人瞩目的成绩。2024 年 5 月，DeepSeek 发布了 DeepSeek-V2 模型，凭借创新的模型架构和超高的性价比迅速引发关注。该模型的 API 定价极具竞争力，每百万 tokens 输入仅需 1 元、输出 2 元，价格仅为美国 OpenAI GPT-4 Turbo 的百分之一。DeepSeek-V2 采用了一系列创新架构，如注意力机制方面的 MLA（多头潜在注意力）和前馈网络方面的 DeepSeekMoE 架构等，这些创新使得模型在训练效果和推理效率上都有了显著提升。

DeepSeek-V2 的问世，在国内引发了一场大模型 “价格战”。百度、阿里、字节跳动等大厂纷纷宣布大模型产品降价。对于这一现象，梁文锋在接受媒体采访时表示，DeepSeek 无意成为行业鲇鱼，低价策略的背后是希望实现算力普惠，让更多的人能够享受到 AI 技术带来的便利。

2024 年 12 月 26 日，DeepSeek-V3 模型震撼发布，再次引发科技行业的高度关注。根据 DeepSeek 网站发布的信息，DeepSeek-V3 在多项评测中成绩优异，超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，甚至可以与 GPT-4o、Claude 3.5-Sonnet 等顶级闭源模型相媲美。更令人惊叹的是，DeepSeek-V3 的训练成本和算力需求极低，仅使用 2048 颗算力稍弱的英伟达 H800 GPU，成本约为 557.6 万美元。而 OpenAI 的 GPT-4o 训练成本高达 7800 万美元，DeepSeek-V3 以十分之一的成本实现了与 GPT-4o 相抗衡的水平，这无疑是 AI 领域的一项重大突破。

2025 年 1 月 20 日，DeepSeek 再次传来喜讯，正式发布 DeepSeek-R1 模型。该模型在数学、代码、自然语言推理等任务上表现出色，性能比肩 OpenAI o1 正式版。DeepSeek-R1 在模型训练上大胆创新，在后训练阶段大规模使用强化学习（RL）技术，在仅有极少标注数据的情况下，成功地极大提升了模型的推理能力。

DeepSeek 的这一系列成就，在全球科技行业引起了巨大轰动。美国 OpenAI 创始成员之一安德烈・卡帕西（Andrej Karpathy）在社交媒体上毫不吝啬地称赞：“DeepSeek 在有限资源下展现了惊人的工程能力，它可能重新定义大模型研发的规则。” 硅谷知名风险投资家马克・安德森（Marc Andreessen）将 DeepSeek-R1 的发布与美国总统特朗普入主白宫相提并论，他称赞这是 “最令人惊叹的突破之一，给世界的一份意义深远的礼物”。

成功背后：独特的团队管理与技术理念

DeepSeek 的成功，离不开梁文锋在团队管理和技术研发上的独特策略。在团队组建方面，梁文锋别具一格，他打造了一支以本土年轻程序员为主的团队，团队成员大多为应届毕业生或工作经验不超过 5 年的年轻人，并不依赖海归或高级技术专家。梁文锋曾向媒体坦言：“团队并没有什么高深莫测的奇才，都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。” 他认为，创新需要摆脱惯性思维，有时候经验反而会成为创新的包袱。年轻的团队成员充满活力和创造力，他们敢于尝试新的思路和方法，为 DeepSeek 的发展注入了源源不断的动力。

从应用 AI 进行量化投资，到投身 AI 大模型研发，驱动梁文锋前行的并非单纯的商业利益。在有限的几次媒体采访中，他坦诚地表示：“幻方的主要班底里，很多人是做人工智能的。当时我们尝试了很多场景，最终切入了足够复杂的金融，而通用人工智能可能是下一个最难的事之一，所以对我们来说，这是一个怎么做的问题，而不是为什么做的问题…… 如果一定要找一个商业上的理由，它可能是找不到的，因为划不来。” 他还强调，“很多人会以为这里边有一个不为人知的商业逻辑，但其实，主要是好奇心驱动…… 对 AI 能力边界的好奇。”

DeepSeek 始终坚持开源路线，积极向全球开发者分享核心技术成果。在一些业内人士眼中，梁文锋是一位低调的 “技术理想主义者”。他认为，在颠覆性的技术面前，闭源形成的护城河是短暂的。即使 OpenAI 闭源，也无法阻止被其他团队赶超。“开源更像一个文化行为，而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。” 梁文锋深知，随着中国经济的不断发展，中国在科技领域也应成为贡献者。他表示：“我们已经习惯摩尔定律从天而降，躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law（缩放定律）也在被如此对待。但其实，这是西方主导的技术社区一代代孜孜不倦创造出来的，只因为之前我们没有参与这个过程，以至于忽视了它的存在。” 他坚信，中国 AI 不可能永远处于跟随的位置，“很多国产芯片发展不起来，也是因为缺乏配套的技术社区，只有第二手消息，所以中国必然需要有人站到技术的前沿。”

梁文锋的故事，是一个关于梦想、创新与坚持的故事。他从量化投资起步，凭借着对技术的热爱和对未知的探索精神，在 AI 领域闯出了一片属于自己的天地。他的成功，不仅为中国的科技发展增添了光彩，也为广大创业者和科技从业者树立了榜样。在未来，相信梁文锋和他的 DeepSeek 团队将继续在 AI 领域深耕，创造更多的奇迹，为推动全球科技进步贡献中国力量。