千亿体育

千亿体育經濟統計系唐曉彬教授在統計學國內期刊《統計研究》上發表論文

    20217月,千亿体育經(jing)濟統(tong)計(ji)系(xi)唐曉(xiao)彬(bin)教授在(zai)統(tong)計(ji)學國內期(qi)刊《統(tong)計(ji)研究(jiu)》上(shang)發表論文(wen)《大數據背景下 CPI 預(yu)測問題的文(wen)本 挖掘(jue)技術設計與(yu)應用》。

內容提要(yao):本(ben)文創新(xin)地將半(ban)監督(du)交互式關鍵(jian)詞提取算法詞頻(pin)-逆(ni)向文件頻(pin)率( Term FrequencyInverse Document Frequency, TF-IDF ) 與 基(ji) 于(yu) Transformer 的(de) 雙 向 編 碼 表(biao) 征(zheng) ( Bidirectional Encoder Representation from Transformers,BERT) 模(mo)型(xing)相(xiang)結(jie)合,設計(ji)出一(yi)種(zhong)擴(kuo)(kuo)展(zhan) CPI 預(yu)測(ce)(ce)(ce)種(zhong)子關(guan)(guan)鍵詞(ci)的(de)文(wen)本(ben)挖(wa)(wa)掘(jue) 技術(shu)(shu)(shu)。 采用交(jiao)互(hu)(hu)式(shi)(shi) TF-IDF 算(suan)法,對(dui)原始 CPI 預(yu)測(ce)(ce)(ce)種(zhong)子關(guan)(guan)鍵詞(ci)匯廣度(du)(du)上進(jin)(jin)行(xing)(xing)擴(kuo)(kuo)展(zhan),在(zai)此基(ji)礎(chu)(chu)上通(tong)過 BERT “兩段式(shi)(shi)”檢(jian)索過濾模(mo)型(xing)深入挖(wa)(wa)掘(jue)文(wen)本(ben)信(xin)息并匹配關(guan)(guan)鍵詞(ci),實現 CPI 預(yu)測(ce)(ce)(ce)關(guan)(guan)鍵詞(ci)深度(du)(du)上的(de)擴(kuo)(kuo)展(zhan),從而構(gou)建 了 CPI 預(yu)測(ce)(ce)(ce)的(de)關(guan)(guan)鍵詞(ci)庫(ku)(ku)。 在(zai)此基(ji)礎(chu)(chu)上,本(ben)文(wen)進(jin)(jin)一(yi)步對(dui)文(wen)本(ben)挖(wa)(wa)掘(jue)技術(shu)(shu)(shu)特(te)征(zheng)擴(kuo)(kuo)展(zhan)前后的(de)關(guan)(guan)鍵詞(ci)建立預(yu)測(ce)(ce)(ce)模(mo) 型(xing)進(jin)(jin)行(xing)(xing)對(dui)比(bi)分(fen)(fen)析。 研究表(biao)明,相(xiang)比(bi)于(yu)傳(chuan)統的(de)關(guan)(guan)鍵詞(ci)提取算(suan)法,交(jiao)互(hu)(hu)式(shi)(shi) TF-IDF 算(suan)法不(bu)僅(jin)無需借助語料庫(ku)(ku), 而且還允許種(zhong)子詞(ci)的(de)輸入。 同時,BERT 模(mo)型(xing)通(tong)過遷(qian)移(yi)學(xue)習(xi)的(de)方(fang)式(shi)(shi)對(dui)基(ji)礎(chu)(chu)模(mo)型(xing)進(jin)(jin)行(xing)(xing)微(wei)調,學(xue)習(xi)特(te)定領域 知(zhi)識,在(zai) CPI 預(yu)測(ce)(ce)(ce)問題(ti)中很好地實現了語言表(biao)征(zheng)、語義拓展(zhan)與人機交(jiao)互(hu)(hu)。 相(xiang)對(dui)于(yu)傳(chuan)統文(wen)本(ben)挖(wa)(wa)掘(jue)技術(shu)(shu)(shu),本(ben) 文(wen)設計(ji)的(de)文(wen)本(ben)挖(wa)(wa)掘(jue)技術(shu)(shu)(shu)具有較強的(de)泛(fan)化表(biao)征(zheng)能力,在(zai) 84 個 CPI 預(yu)測(ce)(ce)(ce)關(guan)(guan)鍵種(zhong)子詞(ci)的(de)基(ji)礎(chu)(chu)上,擴(kuo)(kuo)充后的(de)關(guan)(guan) 鍵詞(ci)對(dui) CPI 具有更高的(de)預(yu)測(ce)(ce)(ce)準(zhun)確度(du)(du)和更充分(fen)(fen)的(de)解釋性。 本(ben)文(wen)針對(dui) CPI 預(yu)測(ce)(ce)(ce)問題(ti)設計(ji)的(de)文(wen)本(ben)挖(wa)(wa)掘(jue)技術(shu)(shu)(shu), 也為建立其他(ta)宏觀(guan)經濟指標(biao)關(guan)(guan)鍵詞(ci)詞(ci)庫(ku)(ku)提供新(xin)的(de)研究思路與參考價值(zhi)。

千亿体育