中共中央政治局常委、國(guó)務(wù)院總理李強(qiáng)1月20日下午主持召開專家、企業(yè)家和教科文衛(wèi)體等領(lǐng)域代表座談會(huì),聽取對(duì)《政府工作報(bào)告(征求意見(jiàn)稿)》的意見(jiàn)建議。其中,“深度求索”(DeepSeek)公司創(chuàng)始人、“85后”廣東小伙梁文鋒的出席,刷屏科技圈。
梁文鋒為何能夠成為李強(qiáng)總理的“座上賓”?梁文鋒所創(chuàng)立的“深度求索”(DeepSeek)公司究竟是什么來(lái)頭?
深度求索(DeepSeek)創(chuàng)始人梁文鋒。
撼動(dòng)全球AI圈的“深度求索”(DeepSeek)
公開資料顯示,梁文鋒,1985年出生于廣東省湛江市。17歲那年,他考入浙江大學(xué)電子信息工程專業(yè),畢業(yè)后在浙大攻讀碩士研究生。
2015年,梁文鋒與朋友一同創(chuàng)辦“幻方量化”,立志成為世界頂級(jí)的量化對(duì)沖基金。2016年10月,幻方量化推出第一個(gè)AI模型,第一份由深度學(xué)習(xí)生成的交易倉(cāng)位上線執(zhí)行。到2017年底,幾乎所有的量化策略都采用AI模型計(jì)算。
2023年7月,幻方量化宣布成立創(chuàng)新性大模型公司“深度求索”(DeepSeek),全稱“杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司”,專注于AI大模型的研究和開發(fā)。據(jù)悉,“深度求索”(DeepSeek)包括創(chuàng)始人梁文鋒在內(nèi),僅有139名工程師和研究人員。與此同時(shí),OpenAI有1200名研究人員,Anthropic則有500多名研究人員。
創(chuàng)新性大模型公司深度求索(DeepSeek)。
去年5月,“深度求索”(DeepSeek)發(fā)布DeepSeek-V2,憑借創(chuàng)新的模型架構(gòu)和史無(wú)前例的性價(jià)比,迅速出圈。DeepSeek-V2的關(guān)鍵開發(fā)者之一羅福莉曾在社交平臺(tái)撰文表示,“單論DeepSeek-V2模型的中文水平,是真實(shí)處在國(guó)內(nèi)外閉源模型的第一梯隊(duì)”,“外加1元/百萬(wàn)輸入Tokens的價(jià)格,只有GPT4價(jià)格的1/100,性價(jià)比之王”。順帶一提,此前傳聞中小米創(chuàng)始人雷軍曾開出千萬(wàn)元年薪希望挖走羅福莉,領(lǐng)導(dǎo)小米AI大模型團(tuán)隊(duì)。
而2024年12月26日,該公司宣布開源AI模型DeepSeek-V3的上線,更是引爆國(guó)內(nèi)外AI圈、科技圈。
直新聞注意到,DeepSeek微信公眾號(hào)發(fā)布的貼文寥寥,集中于招聘信息、大模型上線的消息。但值得注意的是,自2024年年底該公號(hào)推出名為“DeepSeek-V3 正式發(fā)布”的貼文后,多篇貼文的閱讀量飆升至10萬(wàn)+。
DeepSeek公眾號(hào)。
據(jù)DeepSeek推文顯示,DeepSeek-V3多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o(OpenAI大模型)以及Claude-3.5-Sonnet不分伯仲。令A(yù)I圈驚嘆的是,DeepSeek-V3在性能上與頂尖的閉源大模型GPT-4o(OpenAI大模型)比肩的同時(shí),全部訓(xùn)練成本總計(jì)僅為557.6萬(wàn)美元,甚至不到GPT-4o訓(xùn)練成本的二十分之一。
在多個(gè)基準(zhǔn)測(cè)試中,DeepSeek-V3的性能與頂尖的閉源大模型GPT-4o不相上下。
此外,在性能上,DeepSeek-V3在數(shù)學(xué)、代碼能力和中文知識(shí)問(wèn)答方面還超過(guò)了ChatGPT-4o。
前Open AI聯(lián)合創(chuàng)始人、Tesla AI團(tuán)隊(duì)負(fù)責(zé)人安德烈·卡帕西(Andrej Karpathy)在社交平臺(tái)上發(fā)文稱,DeepSeek-V3的出現(xiàn)也許意味著不需要大型GPU集群來(lái)訓(xùn)練前沿的大語(yǔ)言模型。他還表示,如果此模型還能通過(guò)各項(xiàng)評(píng)估,那么這將是資源受限條件下研究與工程能力的高度令人印象深刻的展示。
前Open AI 聯(lián)合創(chuàng)始人、Tesla AI 團(tuán)隊(duì)負(fù)責(zé)人安德烈·卡帕西(Andrej Karpathy)在X上發(fā)文。
Scale AI創(chuàng)始人亞歷山大·王(Alexander Wang)則發(fā)文稱,DeepSeek-V3展示給外界苦澀的教訓(xùn)是:就在美國(guó)休息時(shí),中國(guó)在工作,并以更便宜、更快、更強(qiáng)的產(chǎn)品迎頭趕上。
亞歷山大·王(Alexander Wang)在社交平臺(tái)上的貼文。
為何“深度求索”(DeepSeek)受邀參與座談會(huì)?
此次“深度求索”(DeepSeek)創(chuàng)始人梁文鋒受邀出席李強(qiáng)總理主持召開的座談會(huì),足以看出中央與國(guó)家層面對(duì)于科技、人工智能(AI)產(chǎn)業(yè)的高度重視。
在座談會(huì)上,李強(qiáng)總理提到,“要以科技創(chuàng)新推動(dòng)新舊動(dòng)能轉(zhuǎn)換,集中力量突破關(guān)鍵核心技術(shù)和前沿技術(shù),加快推進(jìn)科技成果產(chǎn)業(yè)化,努力培育更多經(jīng)濟(jì)新增長(zhǎng)點(diǎn)。”
值得注意的是,2024年,《政府工作報(bào)告》不僅3次提到“人工智能”,更首次提出了開展“人工智能+”行動(dòng)。而過(guò)去的一年中,中國(guó)在人工智能領(lǐng)域發(fā)力明顯,中央陸續(xù)出臺(tái)一系列支持人工智能產(chǎn)業(yè)發(fā)展的政策。
1月20日,就在參加總理座談會(huì)的當(dāng)天,DeepSeek正式發(fā)布DeepSeek-R1模型。這款大模型在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAI o1正式版。
梁文鋒此前接受采訪時(shí)曾表示,回望過(guò)去30多年IT浪潮,中國(guó)基本沒(méi)有參與到真正的技術(shù)創(chuàng)新里。被外界視為理想主義者的梁文鋒稱,“我們覺(jué)得現(xiàn)在最重要的是參與到全球創(chuàng)新的浪潮里去。”他說(shuō),“過(guò)去很多年,中國(guó)公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過(guò)來(lái)做應(yīng)用變現(xiàn),但這并非一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。”