
近日,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所科學(xué)數(shù)據(jù)研究室構(gòu)建了水稻種質(zhì)信息自動(dòng)化提取工作流程,該方法可實(shí)現(xiàn)自動(dòng)提取非結(jié)構(gòu)化文本內(nèi)的關(guān)鍵種質(zhì)信息。相關(guān)研究成果發(fā)表在《大數(shù)據(jù)雜志(Journal of Big Data)》上。
水稻是保障國家糧食安全和推動(dòng)農(nóng)業(yè)可持續(xù)發(fā)展的戰(zhàn)略性資源,但大量種質(zhì)信息分散于文獻(xiàn)、報(bào)告等非結(jié)構(gòu)化文本中,仍未被充分發(fā)掘利用。
科研團(tuán)隊(duì)通過將大語言模型與精細(xì)化提示詞工程相結(jié)合,構(gòu)建水稻種質(zhì)信息提取框架Chat-RGIE,通過分模塊多層級(jí)提示詞設(shè)計(jì)提高整體識(shí)別的準(zhǔn)確性與大模型的指令遵循能力,并有效約束的“幻覺”現(xiàn)象的產(chǎn)生,在實(shí)驗(yàn)環(huán)境下提取準(zhǔn)確率高達(dá)95.54%,“幻覺”的發(fā)生率約束至1.5%。該研究為水稻種質(zhì)資源的數(shù)字化管理提供了強(qiáng)有力的技術(shù)工具,有助于加速種質(zhì)資源的鑒定評(píng)價(jià)與共享利用,推動(dòng)“經(jīng)驗(yàn)育種”向“智慧育種”的轉(zhuǎn)型升級(jí)。
該研究得到中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程和國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心項(xiàng)目的支持。(通訊員 劉杉)
原文鏈接: https://doi.org/10.1186/s40537-025-01236-0












