在數(shù)字經(jīng)濟(jì)時(shí)代,大數(shù)據(jù)及其分析技術(shù)的應(yīng)用已幾乎滲透到社會(huì)的每個(gè)領(lǐng)域。近年來(lái),以生成式預(yù)訓(xùn)練Transformer模型(Generative Pre-Trained Transformer,GPT)為代表的大語(yǔ)言模型(Large Language Model,LLM,以下簡(jiǎn)稱大模型)顯示出巨大的應(yīng)用潛力,進(jìn)一步強(qiáng)化了大數(shù)據(jù)對(duì)社會(huì)各行各業(yè)的賦能作用。GPT是一種基于人工智能技術(shù),用大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,經(jīng)調(diào)優(yōu)后可自動(dòng)生成文本、視頻、音頻、圖像等各種類型內(nèi)容的人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)模型。它不僅對(duì)數(shù)據(jù)和算力的需求產(chǎn)生了指數(shù)級(jí)增長(zhǎng),同時(shí)也賦予了數(shù)據(jù)在經(jīng)濟(jì)金融分析中更大的潛在價(jià)值。本文將從數(shù)據(jù)資源、實(shí)證工具、理論研究、大模型等方面,探討大數(shù)據(jù)及其技術(shù)在經(jīng)濟(jì)金融分析中的創(chuàng)新應(yīng)用及其面臨的一些挑戰(zhàn)。
數(shù)據(jù)資源視角
從數(shù)據(jù)尋找規(guī)律、發(fā)現(xiàn)規(guī)律、驗(yàn)證規(guī)律,是經(jīng)濟(jì)學(xué)的實(shí)證分析傳統(tǒng)。正是以數(shù)據(jù)為基礎(chǔ)的實(shí)證研究范式,讓現(xiàn)代經(jīng)濟(jì)學(xué)被廣泛認(rèn)為是最具有科學(xué)性的社會(huì)科學(xué)。傳統(tǒng)的經(jīng)濟(jì)金融分析主要依靠結(jié)構(gòu)化數(shù)據(jù),如微觀層面的財(cái)務(wù)數(shù)據(jù)和市場(chǎng)交易數(shù)據(jù)以及宏觀層面的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)等。這些數(shù)據(jù)雖然質(zhì)量較高,但大部分是低頻數(shù)據(jù)且數(shù)據(jù)量有限,從而有損相關(guān)計(jì)量模型的預(yù)測(cè)精準(zhǔn)性。
大數(shù)據(jù)技術(shù)的應(yīng)用則有助于克服上述經(jīng)濟(jì)金融分析范式的不足。在數(shù)字化浪潮下,數(shù)據(jù)資源呈指數(shù)型爆發(fā)式增長(zhǎng)。2010年全球數(shù)據(jù)量為2ZB(ZB是Zettabyte的簡(jiǎn)寫,中文譯作澤字節(jié),1澤字節(jié)等于10萬(wàn)億億字節(jié)),預(yù)計(jì)到2025年將增長(zhǎng)到181ZB。大數(shù)據(jù)技術(shù)為高維經(jīng)濟(jì)建模創(chuàng)造了可行的數(shù)據(jù)條件。從此,經(jīng)濟(jì)學(xué)家和分析者們或不再擔(dān)憂數(shù)據(jù)太少,反而是焦慮數(shù)據(jù)太多,因?yàn)?a target="_blank" class="autolink">大數(shù)據(jù)量太大也會(huì)同時(shí)帶來(lái)“噪聲”大、密度低等困擾。特別是許多大數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù)如文本、圖形、視頻、音頻等,如何從中提取有效的經(jīng)濟(jì)金融指標(biāo)至關(guān)重要。
與原始數(shù)據(jù)相比,通過(guò)大數(shù)據(jù)技術(shù)加工后得到的特征變量更有助于經(jīng)濟(jì)解釋和預(yù)測(cè)。例如,從股票貼吧的文本數(shù)據(jù)中提取和構(gòu)建投資者情緒指標(biāo),可以反映市場(chǎng)的非理性程度;基于高頻經(jīng)濟(jì)數(shù)據(jù),構(gòu)造實(shí)時(shí)的宏觀經(jīng)濟(jì)指標(biāo),可對(duì)傳統(tǒng)的滯后的低頻(如季度、月度)宏觀經(jīng)濟(jì)指標(biāo)形成有效補(bǔ)充;利用大量的異質(zhì)性市場(chǎng)主體微觀數(shù)據(jù),可以讓經(jīng)濟(jì)決策者精細(xì)地洞察微觀經(jīng)濟(jì)形勢(shì)變化,避免合成謬誤,從而實(shí)現(xiàn)精準(zhǔn)施策、靶向發(fā)力;在傳統(tǒng)低頻財(cái)務(wù)數(shù)據(jù)的基礎(chǔ)上增加高頻另類數(shù)據(jù),可以有效提升企業(yè)信用風(fēng)險(xiǎn)模型預(yù)測(cè)的及時(shí)性和準(zhǔn)確性。
實(shí)證工具視角
大數(shù)據(jù)不僅為經(jīng)濟(jì)金融分析提供了豐富的數(shù)據(jù)資源,而且其分析模型還可以成為經(jīng)濟(jì)金融分析的有效工具。
從方法論角度看,與計(jì)量經(jīng)濟(jì)學(xué)類似,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等大數(shù)據(jù)分析模型也是建立在數(shù)理統(tǒng)計(jì)基礎(chǔ)上的數(shù)據(jù)科學(xué)。例如,自然語(yǔ)言模型和計(jì)量經(jīng)濟(jì)學(xué)的金融時(shí)間序列模型“異曲同工”,均是對(duì)時(shí)間序列數(shù)據(jù)的建模。因此,許多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型或算法在經(jīng)濟(jì)金融分析場(chǎng)景亦可適用,甚至在某些場(chǎng)景還可以起到更好的效果。
一是能夠捕捉到計(jì)量經(jīng)濟(jì)模型沒有覆蓋的經(jīng)濟(jì)特征。例如,計(jì)量經(jīng)濟(jì)模型更多是線性模型,無(wú)法刻畫經(jīng)濟(jì)變量的非線性關(guān)系,而深度學(xué)習(xí)模型具有強(qiáng)大的非線性函數(shù)表達(dá)能力。目前,證券分析師們已經(jīng)開始利用深度學(xué)習(xí)模型,識(shí)別和捕捉傳統(tǒng)線性資產(chǎn)定價(jià)模型中的非線性因子。
二是可以刻畫現(xiàn)有計(jì)量經(jīng)濟(jì)模型無(wú)法呈現(xiàn)的經(jīng)濟(jì)結(jié)構(gòu)信息。在現(xiàn)代經(jīng)濟(jì)學(xué)建模過(guò)程中,微觀主體往往被假定為相互獨(dú)立的決策者。例如,各生產(chǎn)者(消費(fèi)者)按照各自的生產(chǎn)函數(shù)(效用函數(shù))進(jìn)行生產(chǎn)(消費(fèi))決策,中央銀行的貨幣政策規(guī)則與財(cái)政部門的財(cái)政政策規(guī)則相互獨(dú)立;各主體行為之間的關(guān)聯(lián)是間接的,首先是影響到市場(chǎng)的供需變化和價(jià)格變化,然后再影響其他主體行為。這是現(xiàn)代經(jīng)濟(jì)學(xué)“無(wú)形之手”理論的基本要義。依此構(gòu)建的計(jì)量經(jīng)濟(jì)模型,雖然具有較好的經(jīng)濟(jì)理論基礎(chǔ),但無(wú)法納入主體之間的現(xiàn)實(shí)關(guān)聯(lián)關(guān)系,如社交網(wǎng)絡(luò)、股權(quán)網(wǎng)絡(luò)、生產(chǎn)網(wǎng)絡(luò)、供應(yīng)網(wǎng)絡(luò)等。這樣的分析模型在實(shí)證上難以捕捉或呈現(xiàn)更豐富的經(jīng)濟(jì)特征,如經(jīng)濟(jì)主體的從眾心理、羊群效應(yīng)、趨同效應(yīng)等非理性行為。而基于知識(shí)圖譜的圖分析方法,則可以有效構(gòu)建和分析經(jīng)濟(jì)主體之間的網(wǎng)絡(luò)關(guān)系,彌補(bǔ)計(jì)量經(jīng)濟(jì)模型的上述不足。典型的應(yīng)用例子是,可以利用知識(shí)圖譜分析金融市場(chǎng)主體之間的關(guān)聯(lián),實(shí)證研究單個(gè)主體的系統(tǒng)重要性以及主體之間的風(fēng)險(xiǎn)傳染。
三是提高模型的預(yù)測(cè)能力。傳統(tǒng)計(jì)量經(jīng)濟(jì)模型注重模型參數(shù)的估計(jì)及顯著性檢驗(yàn),在樣本內(nèi)具有更強(qiáng)的經(jīng)濟(jì)解釋能力;而機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型采用非參數(shù)估計(jì)方法,在樣本外預(yù)測(cè)方面表現(xiàn)更優(yōu)。
理論研究視角
大數(shù)據(jù)分析模型除了在實(shí)證上可以成為經(jīng)濟(jì)金融分析的有益工具,在理論上它們也可以相互融合。以強(qiáng)化學(xué)習(xí)為例。在時(shí)間維度上,現(xiàn)代經(jīng)濟(jì)學(xué)研究(特別是金融學(xué))的一個(gè)關(guān)鍵問(wèn)題是跨期優(yōu)化,即在未來(lái)不確定情況下怎么作出最優(yōu)決策并實(shí)現(xiàn)收益或價(jià)值的跨期最大化。這是動(dòng)態(tài)規(guī)劃方程(Dynamic Programming Equation)的求解問(wèn)題。而強(qiáng)化學(xué)習(xí)正是利用蒙特卡羅模擬、深度學(xué)習(xí)、時(shí)間差分(Temporal Difference)算法等技術(shù)求解動(dòng)態(tài)規(guī)劃方程的方法。如今,基于強(qiáng)化學(xué)習(xí)的經(jīng)濟(jì)學(xué)研究正在推進(jìn),部分成果已經(jīng)在金融市場(chǎng)上得到應(yīng)用和檢驗(yàn)。
當(dāng)然,任何科學(xué)研究都沒有萬(wàn)能的方法和模型,大數(shù)據(jù)分析模型也存在不足。其最大的不足在于一些大數(shù)據(jù)分析模型在理論上不具有可解釋性。對(duì)于自然語(yǔ)言識(shí)別、圖像識(shí)別等感知智能而言,結(jié)果的準(zhǔn)確性要比可解釋性更重要(例如,人們通常只關(guān)注機(jī)器學(xué)習(xí)對(duì)語(yǔ)言的翻譯是否準(zhǔn)確,而對(duì)其背后的機(jī)理是否可解釋不在意),但在經(jīng)濟(jì)金融的實(shí)際應(yīng)用場(chǎng)景中,由于監(jiān)管要求或出于算法公平的目的,可解釋性要比準(zhǔn)確性更重要。因此,發(fā)展可解釋的大數(shù)據(jù)分析模型,在大數(shù)據(jù)分析模型中融入經(jīng)濟(jì)理論,提高模型的經(jīng)濟(jì)解釋能力,或?qū)⒊蔀?a target="_blank" class="autolink">大數(shù)據(jù)經(jīng)濟(jì)金融分析的研究重點(diǎn)。最終甚至可能衍生出新的交叉學(xué)科,如大數(shù)據(jù)計(jì)量經(jīng)濟(jì)學(xué)。
大模型視角
2022年11月,美國(guó)科技公司開放人工智能(OpenAI)發(fā)布人工智能聊天應(yīng)用程序ChatGPT。該大模型上線后不到3個(gè)月就突破了1億月活用戶,成為史上用戶增長(zhǎng)速度最快的消費(fèi)級(jí)應(yīng)用程序。不少人認(rèn)為,ChatGPT是40余年來(lái)最具革命性的技術(shù)進(jìn)步,將引發(fā)一場(chǎng)顛覆式的商業(yè)模式變革。
與小模型相比,大模型展現(xiàn)了強(qiáng)大的內(nèi)容生成能力。大模型可以根據(jù)用戶要求,生成與之相匹配的內(nèi)容,包括文本、圖像、音頻、視頻等,在自動(dòng)問(wèn)答、機(jī)器翻譯、文本創(chuàng)作、文本摘要、閱讀理解等任務(wù)的性能表現(xiàn)顯著強(qiáng)于小模型。大模型與之前小模型的主要區(qū)別在于其模型“變大”后帶來(lái)的“涌現(xiàn)”能力:當(dāng)模型的規(guī)模(計(jì)算量、模型參數(shù)或數(shù)據(jù)集大?。┻_(dá)到一定程度時(shí),模型的任務(wù)性能急劇上升。其最大特點(diǎn)是“暴力出奇跡”——需要投入大規(guī)模的算力和數(shù)據(jù)集。以ChatGPT為例,其訓(xùn)練參數(shù)達(dá)到1750億個(gè)、訓(xùn)練數(shù)據(jù)45TB,每天可生成45億字的文本內(nèi)容。支撐ChatGPT的算力至少需要上萬(wàn)顆英偉達(dá)最先進(jìn)的GPU A100,單次模型訓(xùn)練成本超過(guò)1200萬(wàn)美元。
大模型、大數(shù)據(jù)、大算力讓AI再次迎來(lái)了高光時(shí)刻,各行業(yè)均高度關(guān)注大模型在本領(lǐng)域的應(yīng)用,調(diào)動(dòng)資源發(fā)展垂直領(lǐng)域大模型:有的在通用大模型基礎(chǔ)上,利用專業(yè)領(lǐng)域數(shù)據(jù)進(jìn)行適配微調(diào);有的則是混合通用數(shù)據(jù)和專業(yè)領(lǐng)域數(shù)據(jù),重新預(yù)訓(xùn)練大模型,如彭博社訓(xùn)練了金融領(lǐng)域大模型Bloomberg GPT??梢灶A(yù)見,通用大模型和垂直領(lǐng)域大模型的發(fā)展將促進(jìn)大模型在包括經(jīng)濟(jì)金融在內(nèi)的各個(gè)領(lǐng)域的廣泛應(yīng)用,金融行業(yè)的研發(fā)、投顧、客服、營(yíng)銷、風(fēng)險(xiǎn)管理等業(yè)務(wù)的智能化水平將大幅提升。
具體而言,大模型將給經(jīng)濟(jì)金融分析帶來(lái)兩個(gè)層面的變化。一是與數(shù)據(jù)的交互方式更加智能化、人性化。從知識(shí)壓縮視角看,大模型實(shí)質(zhì)上是一個(gè)超級(jí)知識(shí)庫(kù)。它通過(guò)對(duì)大規(guī)模語(yǔ)料的學(xué)習(xí),將知識(shí)壓縮為大模型的參數(shù)?;诖竽P偷闹悄芑芰?,數(shù)據(jù)的讀取、輸出、調(diào)用、應(yīng)用將變得高度智能化,就像ChatGPT那樣以人性化的方式開展。二是大模型將成為經(jīng)濟(jì)金融分析的高效智能助手。大模型可以智能地支持經(jīng)濟(jì)金融分析人員高效開展信息檢索、信息抽取、信息歸納、內(nèi)容總結(jié)、情感分析、代碼撰寫、文檔撰寫、主體識(shí)別、關(guān)系識(shí)別、邏輯推理等任務(wù)。不僅如此,大模型還可通過(guò)外部插件擴(kuò)展和提升更廣泛的能力,如文獻(xiàn)搜索、文檔解析、數(shù)學(xué)計(jì)算、自動(dòng)化執(zhí)行等,從而更好地支持經(jīng)濟(jì)金融分析。截至2023年8月底,ChatGPT插件已將近900個(gè),為用戶提供了更多智能化工具。
大模型在本質(zhì)上依然是概率模型,雖然它的內(nèi)容生成已達(dá)到人類難辨的水平,但仍無(wú)法完全保障模型輸出的準(zhǔn)確性和可信性,其分析預(yù)測(cè)結(jié)果仍將存在“一本正經(jīng)胡說(shuō)八道”的風(fēng)險(xiǎn)。因此,在應(yīng)用大模型開展經(jīng)濟(jì)金融分析過(guò)程中,不能過(guò)于迷信大模型的能力,還需采用優(yōu)化策略,提升模型輸出的穩(wěn)健性和準(zhǔn)確性。
結(jié) 語(yǔ)
綜上所述,隨著人工智能技術(shù)的快速發(fā)展,大數(shù)據(jù)在經(jīng)濟(jì)金融分析中的賦能作用得到了極大提升。大數(shù)據(jù)分析模型不僅可以有效緩解經(jīng)濟(jì)計(jì)量模型的“數(shù)據(jù)不足”問(wèn)題,而且能夠?yàn)榻?jīng)濟(jì)金融分析提供更豐富的工具,輔助捕捉計(jì)量經(jīng)濟(jì)模型沒有覆蓋的經(jīng)濟(jì)特征以及計(jì)量經(jīng)濟(jì)模型無(wú)法呈現(xiàn)的經(jīng)濟(jì)結(jié)構(gòu)信息,提高模型預(yù)測(cè)能力。除了實(shí)證方面的應(yīng)用,大數(shù)據(jù)分析模型還可以在理論上與經(jīng)濟(jì)金融學(xué)融合,包括開展基于強(qiáng)化學(xué)習(xí)的經(jīng)濟(jì)學(xué)研究、發(fā)展大數(shù)據(jù)計(jì)量經(jīng)濟(jì)學(xué)等。大模型將使經(jīng)濟(jì)金融分析人員與數(shù)據(jù)的交互方式更加智能化、人性化,并成為經(jīng)濟(jì)金融分析的高效智能助手。盡管如此,大數(shù)據(jù)分析模型仍存在諸多亟待完善的地方,特別是需要進(jìn)一步提高模型輸出的可解釋性和可信性?!?/p>
文章圖片轉(zhuǎn)載于網(wǎng)絡(luò),僅供學(xué)習(xí)與交流,非商業(yè)用途,版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們立即整改刪除。
手機(jī):13609168199
郵件:jason.cui@launchinfo.cn