理想主义驱动下,他以技术敲开 AI 新世界大门,成为 DeepSeek 掌舵人

梁文锋:从量化投资到 AI 大模型的破局者


在当今科技浪潮中,中国人工智能公司深度求索(DeepSeek)犹如一匹黑马,其发布的 DeepSeek-R1 模型轰动全球。该模型以极低的成本实现了与美国顶级 AI 模型相匹敌的效果,引发了全球从业者的广泛关注与称赞。众多研究人员、投资者乃至西方媒体都惊叹不已,认为中国 AI 模型不仅令硅谷为之震惊,甚至可能改写大模型的研发规则。随着 DeepSeek 的声名鹊起,其背后的掌舵人 —— 梁文锋,也逐渐走进公众视野。这位 85 后创业者,在量化投资和 AI 领域都取得了令人瞩目的成就,却始终保持低调,鲜少抛头露面,这也让人们对他的成功之路充满好奇。

量化投资:用数学与 AI 开启理想主义驱动下,他以技术敲开 AI 新世界大门,成为 DeepSeek 掌舵人 金融新篇


1985 年,梁文锋出生于广东省湛江市。2002 年,年仅 17 岁的他凭借优异的成绩考入浙江大学电子信息工程专业,并在 2010 年顺利获得信息与通信工程硕士学位。在浙江大学求学期间,梁文锋对金融市场产生了浓厚的兴趣。2008 年,全球金融危机爆发,这场危机给世界经济带来了巨大冲击,却也为梁文锋提供了实践的契机。他带领团队运用机器学习技术深入分析市场数据,大胆尝试实现全自动量化交易。这段宝贵的经历不仅让梁文锋积累了丰富的实践经验,更为他日后的职业生涯筑牢了根基。


毕业后,梁文锋正式踏入金融领域。2013 年,他与浙大同学徐进携手创立了杭州雅克比投资管理有限公司,开启了在金融市场的探索之旅。2015 年,杭州幻方科技有限公司成立,梁文锋致力于将数学和 AI 技术深度融合于量化投资中。2016 年,幻方量化推出首个基于深度学习的交易模型,并率先将 GPU 引入计算交易仓位,这一创新性举措在行业内引起了广泛关注。此后,梁文锋不断扩充 AI 算法研究团队,持续深化 AI 技术在量化策略中的应用,逐步取代传统模型。2017 年,幻方宣布实现投资策略全面 AI 化,标志着公司在量化投资领域的重大突破。2018 年,幻方正式确立以 AI 为核心的发展战略,坚定地走在技术创新的道路上。


随着业务的飞速发展,计算资源不足的问题逐渐凸显。面对这一挑战,梁文锋没有退缩,而是带领团队迎难而上。2019 年,他们自主研发了 “萤火一号” 训练平台,为公司的量化投资业务提供了强大的技术支持。2020 年,总投资近 2 亿元、搭载了 1100 张 GPU 的 “萤火一号” 正式投入使用,显著提升了公司的计算能力。2021 年,幻方更是豪掷 10 亿元建设 “萤火二号”,进一步巩固了在量化投资领域的技术优势。


幻方量化的努力与创新得到了市场的高度认可。2018 年,公司首次荣获私募金牛奖,这一奖项堪称中国私募证券领域的最高荣誉。2019 年,在金牛奖颁奖仪式上,梁文锋发表了主题演讲《一名程序员眼里中国量化投资的未来》,这是他为数不多的公开发言之一。在演讲中,他高瞻远瞩地指出:“量化投资的未来,是用技术让市场更有效率。”

AI 领域:以创新与突破震惊世界


2023 年,梁文锋做出了一个大胆的决定,宣布正式进军通用人工智能(AGI)领域,并创办了深度求索(DeepSeek)。与其他大型 AI 研发团队相比,DeepSeek 的规模显得相对较小,包括梁文锋在内,仅有 139 名工程师和研究人员。而开发 ChatGPT 的 OpenAI 拥有 1200 名研究人员,开发 Claude 模型的 Anthropic 也有 500 多名研究人员。然而,团队规模的差异并没有阻碍 DeepSeek 前进的步伐。


在短短一年多的时间里,DeepSeek 取得了令人瞩目的成绩。2024 年 5 月,DeepSeek 发布了 DeepSeek-V2 模型,凭借创新的模型架构和超高的性价比迅速引发关注。该模型的 API 定价极具竞争力,每百万 tokens 输入仅需 1 元、输出 2 元,价格仅为美国 OpenAI GPT-4 Turbo 的百分之一。DeepSeek-V2 采用了一系列创新架构,如注意力机制方面的 MLA(多头潜在注意力)和前馈网络方面的 DeepSeekMoE 架构等,这些创新使得模型在训练效果和推理效率上都有了显著提升。


DeepSeek-V2 的问世,在国内引发了一场大模型 “价格战”。百度、阿里、字节跳动等大厂纷纷宣布大模型产品降价。对于这一现象,梁文锋在接受媒体采访时表示,DeepSeek 无意成为行业鲇鱼,低价策略的背后是希望实现算力普惠,让更多的人能够享受到 AI 技术带来的便利。


2024 年 12 月 26 日,DeepSeek-V3 模型震撼发布,再次引发科技行业的高度关注。根据 DeepSeek 网站发布的信息,DeepSeek-V3 在多项评测中成绩优异,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,甚至可以与 GPT-4o、Claude 3.5-Sonnet 等顶级闭源模型相媲美。更令人惊叹的是,DeepSeek-V3 的训练成本和算力需求极低,仅使用 2048 颗算力稍弱的英伟达 H800 GPU,成本约为 557.6 万美元。而 OpenAI 的 GPT-4o 训练成本高达 7800 万美元,DeepSeek-V3 以十分之一的成本实现了与 GPT-4o 相抗衡的水平,这无疑是 AI 领域的一项重大突破。


2025 年 1 月 20 日,DeepSeek 再次传来喜讯,正式发布 DeepSeek-R1 模型。该模型在数学、代码、自然语言推理等任务上表现出色,性能比肩 OpenAI o1 正式版。DeepSeek-R1 在模型训练上大胆创新,在后训练阶段大规模使用强化学习(RL)技术,在仅有极少标注数据的情况下,成功地极大提升了模型的推理能力。


DeepSeek 的这一系列成就,在全球科技行业引起了巨大轰动。美国 OpenAI 创始成员之一安德烈・卡帕西(Andrej Karpathy)在社交媒体上毫不吝啬地称赞:“DeepSeek 在有限资源下展现了惊人的工程能力,它可能重新定义大模型研发的规则。” 硅谷知名风险投资家马克・安德森(Marc Andreessen)将 DeepSeek-R1 的发布与美国总统特朗普入主白宫相提并论,他称赞这是 “最令人惊叹的突破之一,给世界的一份意义深远的礼物”。

理想主义驱动下,他以技术敲开 AI 新世界大门,成为 DeepSeek 掌舵人

成功背后:独特的团队管理与技术理念


DeepSeek 的成功,离不开梁文锋在团队管理和技术研发上的独特策略。在团队组建方面,梁文锋别具一格,他打造了一支以本土年轻程序员为主的团队,团队成员大多为应届毕业生或工作经验不超过 5 年的年轻人,并不依赖海归或高级技术专家。梁文锋曾向媒体坦言:“团队并没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。” 他认为,创新需要摆脱惯性思维,有时候经验反而会成为创新的包袱。年轻的团队成员充满活力和创造力,他们敢于尝试新的思路和方法,为 DeepSeek 的发展注入了源源不断的动力。


从应用 AI 进行量化投资,到投身 AI 大模型研发,驱动梁文锋前行的并非单纯的商业利益。在有限的几次媒体采访中,他坦诚地表示:“幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题…… 如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。” 他还强调,“很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动…… 对 AI 能力边界的好奇。”


DeepSeek 始终坚持开源路线,积极向全球开发者分享核心技术成果。在一些业内人士眼中,梁文锋是一位低调的 “技术理想主义者”。他认为,在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被其他团队赶超。“开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。” 梁文锋深知,随着中国经济的不断发展,中国在科技领域也应成为贡献者。他表示:“我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law(缩放定律)也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。” 他坚信,中国 AI 不可能永远处于跟随的位置,“很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。”


梁文锋的故事,是一个关于梦想、创新与坚持的故事。他从量化投资起步,凭借着对技术的热爱和对未知的探索精神,在 AI 领域闯出了一片属于自己的天地。他的成功,不仅为中国的科技发展增添了光彩,也为广大创业者和科技从业者树立了榜样。在未来,相信梁文锋和他的 DeepSeek 团队将继续在 AI 领域深耕,创造更多的奇迹,为推动全球科技进步贡献中国力量。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...