展會信息港展會大全

90后天才少年打造AI家教,教韓國人說英語,干出10億美元獨角獸
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-09 12:17:21   瀏覽:207次  

導讀:作者丨劉楊楠編輯丨海腰圖源丨Speak官網(wǎng)2018年1月,Speak正式在韓國上線應用商店。上線當天共3人付費,收入18美元。這是Speak成立3年來第一筆用戶付費收入。Speak是兩位天才少年共同打造的一款AI語言學習產(chǎn)品。一位名叫Andrew Hsu,生于中國臺灣,在美國長大,從小便是華盛頓各大媒體筆下的天之驕子。Hsu 5歲能解代數(shù)題,7歲因太聰明而輟學開始家庭教育(Home-schooling),用1 ......

90后天才少年打造AI家教,教韓國人說英語,干出10億美元獨角獸

作者丨劉楊楠

編輯丨海腰

圖源丨Speak官網(wǎng)

2018年1月,Speak正式在韓國上線應用商店。上線當天共3人付費,收入18美元。這是Speak成立3年來第一筆用戶付費收入。

Speak是兩位天才少年共同打造的一款AI語言學習產(chǎn)品。

一位名叫Andrew Hsu,生于中國臺灣,在美國長大,從小便是華盛頓各大媒體筆下的天之驕子。Hsu 5歲能解代數(shù)題,7歲因太聰明而輟學開始家庭教育(Home-schooling),用1年時間學完了從小學到初中的課程;12歲考入華盛頓大學,16歲從華盛頓大學畢業(yè)時手握三個理學學士學位;19歲成為斯坦福大學神經(jīng)科學項目四年級博士候選人后輟學創(chuàng)業(yè),成為Peter Thiel“20 Under 20”計劃的一期學員,后來成為首位拿到Google Venture等知名VC投資的創(chuàng)業(yè)者。

另一位名叫Connor Zwick,從13歲開始編程,曾被澳大利亞科技網(wǎng)Nettuts.com聘請擔任網(wǎng)站作者;高二時開發(fā)一款語言學習應用Flashcard+,用戶最高達500萬,最終被上市教育企業(yè)Chegg收購。之后,Connor入學哈佛,但只上了一年課便輟學創(chuàng)業(yè),成為“20 Under 20”計劃二期學員并結(jié)識Hsu。

2016年,二人共同創(chuàng)辦語言學習應用Speak,試圖借助最新的AI技術(shù),打造一個“AI tutor”,讓每位語言學習者享受到個性化教育,真正學會“說”英語。

為實現(xiàn)這個目標,成立以來,Speak團隊用了幾年時間反復試驗PMF。而上線首日的18美元讓團隊第一次看到希望,也為今天的10億美元估值寫下序章。

“小天才組合”

2011年,Peter Thiel發(fā)起20 Under 20計劃,鼓勵有想法的學生輟學或暫時休學創(chuàng)業(yè)。

同年,年僅19歲的天才少年Andrew Hsu從斯坦福輟學,成為20 Under 20的一期學員,并創(chuàng)辦Airy Labs。Airy Lab希望針對兒童開發(fā)出能被家長們廣泛認可的,具有教育意義的社交游戲,真正實現(xiàn)“寓學于樂”。

90后天才少年打造AI家教,教韓國人說英語,干出10億美元獨角獸

當時,Hsu天才少年的光環(huán),Peter Thiel的背書,以及超前的教育理念讓Airy Labs成為VC眼中的一顆新星。Airy Labs成立不久便獲得150萬美元種子輪融資,投資方大佬云集,包括Google Ventures、Foundation Capital和Playdom創(chuàng)始人Rick Thompson。拿到融資后,Airy Labs的團隊迅速擴充至20人,Hsu也成為媒體口中的創(chuàng)業(yè)明星。

然而,一時風光無兩的Airy Labs僅存活了不到1年。

Hsu的天賦并未在經(jīng)營公司中體現(xiàn),他的父母成為公司真正的掌舵人,并逐漸將公司變成了一個“家庭作坊”。

Hsu的父母近乎像管孩子一樣管理Airy Labs,他們制定的一系列管理制度在員工眼中都很“糟糕”。例如,上午9點到下午6點不能在辦公室大聲說話,必須通過電子郵件或通訊軟件交流;部分成員需要在工作結(jié)束后向Andrew Hsu或其父母匯報工作,經(jīng)常等到晚上9、10點甚至更晚才下班,而且每周通常要工作6~7天。

“管理層與父母不同,他們肯定不愛我們。他們要求的工作時間在他們所在的國家可能是正常的,但在這里是不可接受的。我認為他們沒有根據(jù)文化差異進行調(diào)整。”一位離職員工曾抱怨。

除管理問題外,Airy Labs的離職員工曾透露,公司并沒有清晰的愿景和戰(zhàn)略布局。公司網(wǎng)站上描述的愿景是“為兒童打造下一代社交學習游戲”,但公司卻沒幾個全職的游戲設計師。在這種情況下,公司卻一連發(fā)布7款免費產(chǎn)品,幾個月后才引入收費機制,導致公司一直燒錢,卻沒有收入。

面對如此局面,Hsu一度寄希望于A輪融資能提供更多資金維持運轉(zhuǎn)。但最終,員工們沒有等到A輪融資,而是減薪裁員、公司倒閉。

創(chuàng)業(yè)失敗的教訓慘痛,但Andrew Hsu改變教育的熱情卻絲毫不減。正是這次創(chuàng)業(yè)經(jīng)歷,他認識了20 Under 20計劃的二期學員Connor Zwick。

90后天才少年打造AI家教,教韓國人說英語,干出10億美元獨角獸

Connor Zwick從13歲開始編程,曾被澳大利亞科技網(wǎng)Nettuts.com聘請擔任網(wǎng)站作者。高二時,Connor Zwick一度對時下的教育體制感到失望,希望用創(chuàng)新技術(shù)實現(xiàn)真正的“因材施教”。于是,Zwick開發(fā)了語言學習應用Flashcards Plus,用戶可以把單詞和短語的語音制作成電子學習卡片反復練習。

“我當時的想法是,如果能將這些知識點匯總成某種知識圖譜,就能生成任何內(nèi)容、教授任何知識,并創(chuàng)造出一個無所不知的導師!盋onnor近期回憶道。但顯然,當時的技術(shù)水平難以滿足這個愿景。最終,F(xiàn)lashcards Plus全球用戶量達到500萬,2013年被教育科技上市公司Chegg收購。

之后,Connor考入哈佛,在哈佛大學學習一年后,便拿下10萬美元的泰爾獎學金和Y Combinator提供的15萬美元投資輟學創(chuàng)業(yè),開發(fā)了Coco Controller,曾和30家游戲企業(yè)建立聯(lián)系。

直到2016年,Andrew Hsu和Connor Zwick都看到了在AI教育領域再次出發(fā)的機會。

AlphaGo戰(zhàn)勝李世石后,深度學習范式成為AI界的新熱點,大量人工智能論文問世,Andrew Hsu和Connor Zwick在硅谷親眼見證了一切的發(fā)生。

“那時的模型更加具體,比如語音模型、圖像模型。我們看到這些模型即將與人類一樣好,甚至比人類更好!盋onnor曾對媒體表示,“當時只是覺得這東西很酷,想用AI來打造一些有趣的東西!

他們用一年時間研究AI,甚至到斯坦福蹭課學AI。期間,他們嘗試開發(fā)了各種不同的算法,還嘗試過不少計算機視覺應用,例如用AI定制服裝,或應用于醫(yī)學影像測量人體指標,以及用深度學習預測天氣。

但二人發(fā)現(xiàn)語音識別是效果最驚艷的。當時,他們在YouTube上隨機收集了一些語音數(shù)據(jù),構(gòu)建了一個語音識別系統(tǒng),不僅能理解用戶說話的內(nèi)容,還能理解不同口音。

用隨機數(shù)據(jù)訓練的模型尚且有這么好的效果,如果質(zhì)量更高的數(shù)據(jù)呢?于是,二人提出一個技術(shù)假設:是否能構(gòu)建一種真正可用的產(chǎn)品,從中收集足夠的用戶數(shù)據(jù),以供算法使用,改善建模,優(yōu)化產(chǎn)品體驗,進而獲取更多的數(shù)據(jù),形成良性的數(shù)據(jù)循環(huán)?

在這個假設之上,Speak成立了。

“先有雞”還是“先有蛋”?

或許是有了此前創(chuàng)業(yè)失敗的經(jīng)驗,Speak從創(chuàng)辦之初就制定了清晰的發(fā)展路徑。

Andrew Hsu和Connor Zwick二人一致認為,除非學習者移居到英語母語地區(qū),否則大概率只能學到一手“啞巴英語”,無法正常交流。因此,Speak的愿景就是為每一位用戶打造一位個性化的“AI tutor”,讓想學英語的人能真正會說會用。

90后天才少年打造AI家教,教韓國人說英語,干出10億美元獨角獸

目標很清晰,問題在于如何實現(xiàn)。

Speak成立初期,團隊遇到了經(jīng)典的“先有雞”還是“先有蛋”的問題要建立強大的AI模型,就需要大量多元、高質(zhì)量的語音數(shù)據(jù)喂給模型。但要獲得數(shù)據(jù),要么需要全程手動搜集,成本高昂;要么就需要創(chuàng)建一款可以收集該類數(shù)據(jù)的產(chǎn)品,但好的產(chǎn)品體驗又建立在強大的模型能力之上。

權(quán)衡過后,Speak并未直接自研模型,而是在當時的技術(shù)水平下,先推出一款用戶可接受的產(chǎn)品,跑通PMF,用戶逐漸增長后,Speak再根據(jù)用戶數(shù)據(jù)微調(diào)自己的模型,形成數(shù)據(jù)飛輪。

起初,Speak面向全球推出產(chǎn)品做用戶測試,每個市場都有AI對話功能,用戶可以選擇一個類別,選擇喜歡的話題和AI簡短對話。但試驗發(fā)現(xiàn)效果并不好,用戶基本會在產(chǎn)品發(fā)布30天后流失。

這個結(jié)局或許并不意外。不同地區(qū)用戶的學習需求、習慣文化背景不同,很難一概而論,而且語言學習市場本就競爭激烈,已經(jīng)有Duolingo、Babbel等巨頭占領市場,很難正面“硬剛”。此外,當時的語音識別技術(shù)也不足以識別全球各地的語音差異。

在Andrew Hsu和Connor Zwick苦悶之際,投資人建議先把公司規(guī)模做起來,但二人很警惕這種做法。直到2023年6月,成立七年的Speak也只有30多名員工。

最終,他們決定先從單一市場攻破,以便集中精力用有限的資源快速驗證和迭代產(chǎn)品。

2019年,Speak正式進軍韓國市場。此前,Speak進行了一番嚴格的市場調(diào)研。他們租了一個小房間做小規(guī)模的用戶測試,給每一位參與測試的用戶發(fā)一部測試手機,并全程記錄用戶的使用過程。

他們發(fā)現(xiàn),用戶真正使用產(chǎn)品的時間大多在通勤的時候。抓住通勤時段培養(yǎng)起用戶的學習習慣后,用戶在其他時間也會自然而然用Speak產(chǎn)品練習英語口語。

意識到這一點后,Speak發(fā)現(xiàn)產(chǎn)品的使用量、轉(zhuǎn)化率、留存率都大幅提升,Speak才算初步跑通了PMF。但在Hsu看來,“PMF不僅僅是單點的事物,而是一個連續(xù)的過程。你改進PMF的程度越大,你的增長速度通常就越快”。

之后,Speak不斷更新產(chǎn)品功能和課程內(nèi)容,并不斷優(yōu)化產(chǎn)品的交互設計!叭魏涡问降墓ぞ咛崾尽⒂脩艚逃蚬δ芙忉,都意味著我們的設計還不夠完善。”Connor認為,應把盡可能減少用戶教育作為一個目標。而Speak將這一點做到了極致。

很多語言學習App的內(nèi)容會采用算法推薦機制,新用戶進入應用后,通常會做一份簡單的問卷或用戶引導流程,選擇自己的學習動機、想學的內(nèi)容等,算法會根據(jù)用戶反饋給其首頁推薦大量信息。但在Connor看來,這些信息并非真正有用!斑^去我們想要獲得有價值的信息都要自己主動去搜索,而那些被推送過來的信息有99%都毫無價值,比如垃圾郵件和推送通知!

因此,Speak借助AI能力打造了一個全新的界面解鎖方式。

在產(chǎn)品首頁,Speak沒有給任何新用戶引導流程,只有一個簡單的問題:“你為什么想學英語?”然后用戶就可按下“開始”按鈕說話。每個用戶都會用不同的情緒、語音語調(diào)回復不同的答案。Speak會根據(jù)這些信息為用戶構(gòu)建個性化體驗。

90后天才少年打造AI家教,教韓國人說英語,干出10億美元獨角獸

不過,Connor曾表示,雖然語音到語音模型效果越來越好,但“語音并不總是最佳的人機交互方式,很多時候,打字和點擊圖標是更快捷的方式”。因此,Speak試圖探索一種“混合界面”,讓用戶可以在隨時都自由選擇說話還是打字。

同時,為了更好地理解用戶,Speak在后臺運行時,例如在夜間,模型會利用閑置GPU資源分析用戶數(shù)據(jù),從而解析用戶感興趣的課程,并在第二天的學習中給用戶推送新的課程。在Connor看來,“思維模型”真正的價值正在于,即使用戶沒有使用產(chǎn)品,模型也在后臺不斷處理著用戶數(shù)據(jù),分析用戶需求。這種模式也決定,Speak的產(chǎn)品迭代依賴于模型有更強的語音識別、理解和生成能力。

2022年,Speak遇到OpenAI,PMF又有了質(zhì)的飛躍。

綁定OpenAI,自建AI團隊

從2022年起,OpenAI連續(xù)四次投資Speak。

90后天才少年打造AI家教,教韓國人說英語,干出10億美元獨角獸

OpenAI Startup Fund成立于2021年5月,已投資數(shù)個AI應用項目,包括Descript、Anysphere、Diagram、Harvey AI、Kick、Mem和Speak等,涉獵AI音視頻編輯、AI編碼工具、AI產(chǎn)品設計、AI法律顧問、會計軟件等多個領域的落地應用。其中,Speak是唯一一個教育類軟件。

對于投資的創(chuàng)業(yè)項目,OpenAI通常不僅給錢,還給技術(shù)。Speak也不例外。

2023年3月,Speak先后官宣了和OpenAI的三項合作:

3月1日,宣布成為OpenAI全新“Whisper”模型API的首發(fā)合作伙伴。Whisper有更強的語音識別能力,在處理帶口音的語音以及無縫處理多語言語音(代碼切換)方面的表現(xiàn)更好。

3月14日,宣布其作為早期訪問者,將GPT-4接入其“AI tutor”中,能讓AI tutor實現(xiàn)高度個性化和上下文相關(guān)的反饋。同時,GPT-4能夠生成更高準確度和連貫性的文本,讓用戶和AI tutor進行更自然、更有針對性的互動。

3月23日,Speak宣布與OpenAI合作啟動ChatGPT插件的Alpha版本,用戶可從ChatGPT的界面直接訪問Speak。

但Speak并未把全部希望寄托在OpenAI上。在和OpenAI深度綁定的同時,Speak也在2023年著手搭建了自己的AI團隊,開始利用過去幾年從產(chǎn)品上積累的數(shù)據(jù)集微調(diào)自己的語音模型。

2024年,Speak在官網(wǎng)博客中宣布升級了核心語音識別系統(tǒng)。

系統(tǒng)升級前,Speak分別在iOS和Android系統(tǒng)上運營著不同的ASR(自動語音識別)系統(tǒng),還會用自有數(shù)據(jù)訓練端側(cè)小模型適配特定型號的移動設備,也會采用第三方語音識別服務。

但長此以往,Speak便發(fā)現(xiàn)了一些弊端。例如,為了支持比較老的設備,Speak使用了參數(shù)規(guī)模更小、計算能力較低的模型,對語音識別效果較差;第三方語音識別服務往往也難以識別口音較重的語音,會影響用戶體驗;Speak必須維護iOS和Android兩套語音系統(tǒng),導致“事倍功半”。

而系統(tǒng)升級后,Speak基于內(nèi)部數(shù)據(jù)集微調(diào)了Conformer系列的語音識別模型,該數(shù)據(jù)集包含了用戶數(shù)千小時帶有濃重口音的英語語音音頻。

此外,Connor認為:“模型評估非常困難且重要。對于我們的機器學習團隊來說,最重要的可能是評估,特別是對于大型語言模型經(jīng)常執(zhí)行的開放式任務,如果你能夠提煉出完美的評估標準,你基本上就提煉出了你正在優(yōu)化的目標問題!币虼,Speak根據(jù)用戶數(shù)據(jù),構(gòu)建了自定義測試集,主要評估語音模型根據(jù)音頻轉(zhuǎn)錄單詞的單詞錯誤率(WER)。評估發(fā)現(xiàn),微調(diào)過后的模型單詞錯誤率比通用模型降低60%以上。

90后天才少年打造AI家教,教韓國人說英語,干出10億美元獨角獸

內(nèi)部Speak測試集上的單詞錯誤率(WER),圖片來源:Speak官網(wǎng)

目前,Speak微調(diào)的Conformer-CTC模型僅用于英語語音識別,但Speak透露,該模型未來也將擴展到西班牙語等其他語言中。此外,Speak還在開發(fā)超出單詞之外的其他語音和語言模態(tài)(例如,用于發(fā)音反饋的音素)。

在用自有數(shù)據(jù)微調(diào)模型的同時,Speak依然抓緊每一次與OpenAI合作的機會。因為在Connor看來,“語言學習和實時對話練習,是語音到語音技術(shù)的最佳用例,因此我們抓住機會與OpenAI合作,并將這項技術(shù)深度嵌入我們的核心體驗中!辈┛蛯懙。

2024年10月1日,Speak又與OpenAI合作測試了GPT-4o的實時API,推出Live Roleplays,使用戶能夠在各種角色扮演情境中進行沉浸式、逼真的口語練習。借助GPT-4o上的實時API,Speak的AI tutor可以像人類教室一樣快速或更快地響應,并能夠理解并提供關(guān)于語音各方面的反饋,而不僅僅是純文本轉(zhuǎn)錄,如語調(diào)、發(fā)音、韻律等。

不過,Speak在博客中寫道,語音到語音模型的指令跟隨能力仍然不如文本模型,目前還不擅長更細致的語言學習特定任務,如發(fā)音指導和反饋。

語言學習界最懂AI的公司

2024年12月,Speak宣布完成7800萬美金C輪融資,由Accel領投,OpenAI Startup Fund、Khosla Ventures和Y Combinator等跟投。本輪投后估值10億美元,Speak也被看作大模型浪潮中第一家真正以C端應用立足的獨角獸。

除獲得資本青睞外,Speak的產(chǎn)品表現(xiàn)也得到市場認可。據(jù)“投資習所”的信息,截止2024年12月,Speak的ARR已經(jīng)接近5000萬美元,年增長率達到100%。

Speak主要的商業(yè)收入都來自C端,沒有免費版本,只為用戶提供七天免費試用,之后就按月或按年收費,收費標準分為2檔:

Premium計劃:$99.99/年,每月2000個AI tutor積分;

Premium plus計劃:$234.99/年,每月10000個AI tutor積分。

(AI tutor積分對應的是用戶和AI Tutor的對話字數(shù),每和AI對話一個詞即1積分。)

在Speak的實際測試中,2000家教積分學習5天就能消耗完,這也意味著對于有固定學習習慣的用戶而言,Premium Plus方案更劃算。

2024年,Speak也開始拓展to B業(yè)務。Speak for Business可以練習特定的商務對話,例如與供應商和客戶的專業(yè)討論等。目前,Speak for Business擁有超過200個客戶,員工采用率為85%。

Speak為何能在一眾語言學習市場激烈的競爭中脫穎而出?答案或許就是“聚焦”二字。

Speak自創(chuàng)立之初的目標就很聚焦,圍繞“啞巴英語”這個核心痛點打造產(chǎn)品體驗,并一直堅持產(chǎn)品導向的思路,持續(xù)迭代PMF。最近的訪談中,Connor表示Speak一直非常注重課程內(nèi)容,現(xiàn)在內(nèi)部仍會對AI tutor的課程內(nèi)容進行A/B test。

同時,兩位創(chuàng)始人很清楚,其產(chǎn)品體驗的迭代很大程度上依賴于底層AI模型的能力。因此,在OpenAI強勢爆發(fā)后,Speak主動擁抱大模型。找到OpenAI這個強勢的合作伙伴后,Speak也并未在AI的火爆中迷失方向,盲目高估模型的能力,而是組建自己的AI團隊,利用多年積累的用戶數(shù)據(jù)微調(diào)語音模型,升級語音識別系統(tǒng),繼續(xù)迭代產(chǎn)品功能。

套用近兩年很時髦的概念,Speak是一個更加“AI原生”的產(chǎn)品。相比其他語言學習應用,Speak更像一家技術(shù)公司。按對話積分消耗收費的模式,也和大模型按token消耗量計費的模式很相似,甚至營銷文案也相應調(diào)整為類似“20分鐘內(nèi)說100句話”的口號。

同時,為了在單一市場打造最佳產(chǎn)品體驗,Speak也十分注重產(chǎn)品設計和營銷手段的本地化。在正式進入韓國市場前,Speak做了充分的市場調(diào)研,并在后期搭建了一個世界級的本地營銷團隊,根據(jù)韓國市場的用戶特點定制相應的營銷策略,創(chuàng)建了一個獨特的品牌形象。

Andrew Hsu曾透露,截止2024年12月,Speak應用的下載量已超過1000萬次, 每位用戶每天的使用時間約為10-20分鐘。

目前,Speak正在將韓國市場的成功經(jīng)驗逐漸帶到其他市場進行驗證。2022年底,Speak開始開拓日本市場;2024年下半年,Speak在中國臺灣市場的收入開始快速增長。

不過,Speak目前主要活躍在不以英語為母語的市場。相比之下,歐美等以英語為母語的市場則由Duolingo、Babbel等老牌語言學習軟件占領;微軟、谷歌等大廠也對語言學習應用虎視眈眈,真正激烈的競爭風暴或許還沒有到來。

本文為創(chuàng)業(yè)邦原創(chuàng),未經(jīng)授權(quán)不得轉(zhuǎn)載,否則創(chuàng)業(yè)邦將保留向其追究法律責任的權(quán)利。如需轉(zhuǎn)載或有任何疑問,請聯(lián)系editor@cyzone.cn。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港