自從 ChatGPT 橫空出世,AI 的熱潮已經席卷了兩年。這兩年,普通人對大語言模型的能力興奮,隨便一條指令就能生成流暢自然的文本,科幻電影里的場景,如今早已經成為現(xiàn)實。
大模型這個賽道也開始進入到一個十字路口,新技術如何轉化為新產品,滿足真需求,發(fā)展成新的商業(yè)生態(tài)。
如同移動支付、智能手機、 LTE 共同點燃了移動互聯(lián)網時代的繁盛,AI 行業(yè)這一年也在尋找這樣的 PMF(Product Market Fit)而焦慮。
新技術的大航海時代已經開啟,到底能不能發(fā)現(xiàn)新大陸,這將決定大模型是不是又一個燒錢的資本游戲,是 .com 泡沫的加速重演,還是如黃仁勛所言的新工業(yè)革命開端,這個答案會比 AGI 更快讓我們看到 。
大模型的大問題
今天,基座模型的競爭基本已經形成穩(wěn)定的格局。由 OpenAI 領銜,旗下的 ChatGPT 也是穩(wěn)居市場龍頭。Anthropic,DeepMind,Llama,Grok,也各有各的長處。
于是,今年最熱鬧的,不是誰又多擴充了多少參數(shù)、響應速度提高了多少秒,而是大模型技術怎么化身為一個能用的產品。
大語言模型的技術怎么落地,從一開始就是個抓肝撓心的問題。哈佛商業(yè)評論曾經做過一個調查,發(fā)現(xiàn)生成式 AI 的應用種類之繁雜,多達 100 類。
不過,在大類上就是五種:技術問題解決、內容生產及編輯、客戶支持、學習和教育、藝術創(chuàng)作和調查研究。
知名的投資公司 a16z,給出了他們團隊心中優(yōu)秀的生成式 AI 產品,其中有不少眼熟的,比如通用類的 Perplexity,Claude,ChatGPT。也有更為垂直的,比如筆記類產品 Granola, Wispr Flow,Every Inc.,Cubby 等。還有教育賽道今年最大贏家 NotebookLM,或者是聊天機器人 Character.ai,Replika 等。
繁花錦繡是對于普通用戶來說的:上面這些產品,絕大多數(shù)只是免費就足夠用了,訂閱版或 pro 版的費用,不是必須花的錢。強如ChatGPT,今年的訂閱收入大概在每月 2.83 億美元,與去年相比增長了兩倍。但在巨大的成本面前,這點收入顯得杯水車薪。
享受科技發(fā)展屬于普通用戶的開心事,烈火烹油是留給從業(yè)者的:再怎么激動人心的技術進化,也不能停留在實驗室里,而是要進入商業(yè)社會接受檢驗。訂閱模式沒有被廣泛接受,植入廣告的時機還沒有到來。留給大模型空燒錢的時間,已經很少了。
相比之下,toB 業(yè)務的走勢讓人有信心的多。
自 2018 年以來,財富 500 強財報電話會議中提及 AI 的次數(shù)幾乎翻了一番。在所有財報電話會議中,19.7% 的記錄提到最多的主題,就是生成式人工智能。
這也是整個行業(yè)的共識。根據(jù)中國信通院發(fā)布的《人工智能發(fā)展報告(2024 年)》藍皮書,2026 年,超過 80%的企業(yè)將使用生成式人工智能 API,或者部署生成式的應用。
面向企業(yè)側和消費側的應用展現(xiàn)出不同的發(fā)展態(tài)勢:面向消費側,大模型應用講究低門檻、創(chuàng)意性。而面向企業(yè)側,大模型應用更注重專業(yè)定制和效益反饋。
換句話說,提升效益當然是每個企業(yè)都在追求、都想實現(xiàn)的,但只有這四個字太模糊了。大模型需要證明自己能實實在在地解決使用場景中的問題,真真切切地提升效益。
精準找到切角,讓技術降落
無論是資源的投入,還是對開拓市場的力度,國內的大模型競爭,在整個 2024 年稱得上激烈。
根據(jù)工信部數(shù)據(jù),2023 年中國大語言模型市場規(guī)模增長率突破 100%,市場規(guī)模達到 147 億元。各家廠商在商業(yè)化進程上積極嘗試,首先打響的是價格戰(zhàn):以 tokens 計費、API 調用等方式的成本,正在被不斷拉低。許多主流熱門通用類大模型的價格,離白用已經沒多遠。
把價格打下、降低成本是更好實現(xiàn)的。而理解業(yè)務、分析切入場景,是一條更崎嶇的路線。
不過,也不是每一家都在參與價格戰(zhàn),靠低價硬卷。
「在這種情況下,更重要的是找到我們的特點,發(fā)揮我們的優(yōu)勢。騰訊內部本身有很多場景,這些場景給了我們更多洞察,也進一步打磨了我們的能力」騰訊云智能 AI 產品專家、騰訊混元 ToB 產品負責人趙新宇這樣認為,「往外看,聚焦一個行業(yè),聚焦在這個行業(yè)內一些特定的場景,再慢慢拓展出去!
在眾多基座模型中,混元可能不是熱度最高的一個,可在技術實力上卻不容忽視。
九月時,混元發(fā)布的通用文生文模型混元 Turbo,采用全新的混合專家模型(MoE)結構。從語言理解和生成、邏輯推理、意圖識別,到編碼、長上下文和聚合任務中,都有相當強大的表現(xiàn)。在 11 月的動態(tài)更新版本中,已經升級為全系列效果最好的模型。目前,騰訊混元的能力正在通過騰訊云全面輸出,通過提供多尺寸、多類型的模型,結合騰訊云智能其他的AI產品和能力,幫助模型應用落地到場景中。
縱觀目前模型應用落地形態(tài),大致分為兩種:嚴肅場景和娛樂場景。后者類似于聊天機器人、陪伴類應用等等。
而「嚴肅場景」,則指向企業(yè)核心業(yè)務運營中,對準確性和可靠性要求較高的應用場景。在這些場景中,大模型要承擔結構化的信息處理,往往需要遵循預設的業(yè)務流程和質量標準,其應用效果,會直接關系到企業(yè)的運營效率和業(yè)務成果。
騰訊云曾經幫助一家外呼服務商構建客服體系,這是一個典型的嚴肅類場景。同時,外呼涉及到自然語言對話能力、內容理解和分析能力,看上去天然和大語言模型有極高的適配。
實際上,挑戰(zhàn)都在細節(jié)之處。當時團隊面臨核心挑戰(zhàn)有兩個。一是性能問題,由于模型參數(shù)量巨大,達到 70B 或 300B 規(guī)模,如何在500毫秒內完成響應,并傳遞給下游 TTS 系統(tǒng)成為一個重要的技術難題。
二則是對話邏輯的準確程度。模型會在在一些對話中出現(xiàn)不合邏輯的回復,影響整體對話效果。為了克服這些挑戰(zhàn),項目團隊采取了密集迭代的策略,在 1-2 個月的開發(fā)周期內,保持每周一個版本的快速迭代節(jié)奏。
企業(yè)客戶對大語言模型技術展現(xiàn)出興趣,并愿意進行創(chuàng)新嘗試,但在技術與業(yè)務的深度融合方面,始終存在認知鴻溝。這并非源于企業(yè)對自身業(yè)務理解的不足,而是需要一個專業(yè)的技術團隊,通過深入理解行業(yè)痛點和業(yè)務場景,找到最恰切的場景,為企業(yè)量身打造 AI 落地的方案,實現(xiàn)技術與業(yè)務的最優(yōu)契合。
「傳統(tǒng)的做法可能需要運營人員一個場景一個場景地搭建(語料庫),」新宇介紹到,「而大模型,你只需要給一個 prompt,就可以實現(xiàn)需求了。」在摸清楚需求后,混元的團隊幾乎每周一個版本更新,「卷」起了迭代速度,一兩個月下來,準確度已經達到了 95%。
對于這家外呼服務商,生成式技術完全是新鮮事物。而混元直接讓他們看到了大模型所帶來的效益,在人力方面的開支減少了四分之三。
「最好的做法就是把效果拿出來,」新宇說,當客戶對生成式技術的了解有一點,但不多的時候,把效果擺出來是最有效的。通過客戶的業(yè)務經歷,找到可以切入的場景,直接去做測試驗證,展示出可以提升的效果。
類似的經歷,在體現(xiàn)和小米的合作中,這是一次被稱為「雙向奔赴」的合作。
對方希望在問答互動中引入大模型,把AI搜索的能力應用到端側。這踩中了混元的兩個長處:一是由騰訊豐富的內容生態(tài)所提供的支持;二是混元在 AI 搜索方面的力。對于問答來說,準確率非常關鍵。
「一開始還是有很多困難的,」新宇回顧道,「從他們的角度來看,業(yè)務形態(tài)涵蓋了多個場景,包括閑聊、知識問答等不同類型,其中知識問答場景,對準確率有比較高要求!
通過前期的測試,混元團隊明確了自己在搜索場景中的優(yōu)勢,雙方一起將廣泛意義上的問答互動,按照不同的話題層級逐步細化。這樣的細分,能夠讓模型更清晰地了解各個場景的具體需求和效果要求,從而進行更有針對性的優(yōu)化。
知識問答場景,成了那個降落點。在后續(xù)的實現(xiàn)上,混元需要攻克的挑戰(zhàn)仍不少:時延問題不必多說,響應時間一定要快;其次是對搜索內容的整合。
「在整個鏈路當中,我們做了自建搜索引擎,還有一個意圖分類模型,來判斷是不是一個高時效性的提問。比如是不是跟新聞、時事相關的話題,然后再判斷是該給到主模型還是 AI 搜索。」
只調用最需要的部分,這樣一來響應速度能夠大大提升。而一個重要的發(fā)現(xiàn)是, 70% 的問詢都會引到 AI 搜索上,這意味著必須要有足夠豐富的內容,作為最基礎的調用支撐。
而混元背后,站著的是整個騰訊的內容生態(tài)。從新聞、音樂、金融,甚至醫(yī)療等更具體的領域,都能在騰訊的生態(tài)里找到海量的優(yōu)質內容。這些都是混元模型在搜索時,可以觸達和引用的數(shù)據(jù),也是獨一無二的壁壘。
經過歷時兩個多月的高強度迭代,最終無論是回答的質量、響應和性能等方面,都完全實現(xiàn)了需求,上線到了小米的實際業(yè)務中。
toB 業(yè)務的要義便在于此,能夠實現(xiàn)營收、能夠贏得信任,需要實實在在給客戶的業(yè)務帶來價值。
「卷」泛化,才能走向更多場景
大模型在不同行業(yè)和產品的落地中,實際上也在促進技術自身的成長。
對于一部分大模型產品而言,選擇 toC 的路徑有一個核心考量:用 C 端的反饋來優(yōu)化模型。大模型對調優(yōu)的需求沒有盡頭,而 C 端消費群的數(shù)量和活躍度,為模型的迭代提供了養(yǎng)料。這樣一來,迭代的飛輪就能跑起來。
實際上,這在 toB 業(yè)務中也會實現(xiàn),甚至要求更高。
「少年得到」的 K12 語文作文批改功能,應用了混元的多模態(tài)能力。結合騰訊云智能的 OCR 技術,識別學生的作文內容,并根據(jù)設置好的評分標準,由大模型為作文打分。
通常,大模型和真人教師判分,差值在五分內就很好了可這并不容易實現(xiàn)。一開始混元的評分和真人教師的評分,差值小于五分的情況,只有 80%。
「模型有一定方法和能力,能夠解決一些場景里的問題。但是聚焦到一個具體客戶的業(yè)務上,對這個效果有更高的要求!剐掠钫f,「可能 90%的準確度可以達成業(yè)務目標,但只有 70% 和 80% 的時候,就有一定距離!
這意味著還要繼續(xù)「卷」下去。隨著服務企業(yè)客戶群體的不斷擴大,對技術本身也提出了新要求:首先是迭代速度的大幅提升面向 C 端用戶時,迭代可能需要一到兩個月。而現(xiàn)在,每周都能出現(xiàn)一個版本,這種高頻迭代節(jié)奏極大促進了模型的成長和進步。
其次,通過持續(xù)服務不同企業(yè)場景,也顯著增強了模型的泛化能力。這表明,深入服務多元化的企業(yè)需求不僅加快了模型開發(fā)迭代的節(jié)奏,也提高了模型的實用性和適應性,可以從嚴肅場景,拓展到偏娛樂向的場景中。
剛剛獲得千萬級 A 輪融資的角色扮演內容平臺「造夢次元」,應用到了混元大模型的角色扮演專屬模型Hunyuan-role,定位于服務年輕用戶,結合生成式 AI 技術,提供交互式、劇情化的虛擬角色互動體驗。
Hunyuan-role 開創(chuàng)了一種全新的人機交互方式。通過塑造豐富多樣的虛擬角色形象,并基于預設的劇情背景和人物設定,與用戶展開自然流暢的互動對話。
在技術層面,這樣的場景應用到了 Hunyuan-role 在長短文本對話處理、意圖識別和響應等方面都展現(xiàn)出領先優(yōu)勢,能夠勝任多樣化的應用場景,并且展現(xiàn)出了出色的內容擬人化能力不僅能夠進行有溫度的對話互動,還可以推進故事情節(jié)發(fā)展,營造沉浸式的用戶體驗。
這些特性使得 Hunyuan-role 成為產品獲客和用戶運營的有力工具,在提升用戶留存率和使用粘性方面發(fā)揮著重要作用。同樣也反映出,在嚴肅場景得到鍛煉和提升的混元,從而形成的泛化能力,可以覆蓋到更廣闊的場景,乃至在端側的應用。
從嚴肅場景,逐步擴展到娛樂、創(chuàng)意,乃至更多的場景,是大模型應用必須走上的征程。
隨著技術的成熟和成本的降低,大模型勢必要向更廣泛的應用場景擴展。原先聚焦于嚴肅的商業(yè)場景,如企業(yè)辦公、數(shù)據(jù)分析、科研等行業(yè),因為這些場景具有明確的需求和較高的支付意愿。
進一步拓展到娛樂、創(chuàng)意、內容生產等行當中,需要在思路上有一個錨點:始終以解決具體場景中的需求點為核心目標,錨定融合大模型能力的切入點。
除了與應用軟件的合作,也需要有和硬件廠商的合作,讓模型在最靠近消費者的端側有所施展與發(fā)揮,提供更貼近用戶的日常生活,提供更便捷、即時的服務體驗。
這個過程中,市場對生成式 AI 技術的認知和接受度在不斷提高,用戶基數(shù)也在持續(xù)擴大。面對這種快速變化的市場環(huán)境,模型的迭代能力變得尤為重要。這不僅體現(xiàn)在技術性能上,還包括對用戶需求的理解、對不同場景的適應性等多個維度。只有那些能夠快速學習、持續(xù)優(yōu)化、不斷適應新需求的模型和團隊,才能在競爭中保持優(yōu)勢。
在不斷覆蓋更多場景的時候,也是在走向更多的終端消費者。隨著市場整體對生成式技術的接受,潛在用戶量會持續(xù)增加,一個能夠快速迭代和自我提升的模型,才可以敏銳地適應變化,走得更穩(wěn)、更遠。
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr),更多精彩內容第一時間為您奉上。
愛范兒 |原文鏈接 查看評論 新浪微博