12月2日,2023國際產學研用合作會議(上海)分子科學與生命健康論壇舉行。論壇上,華東師范大學發布了化學領域大模型ChemGPT 1.0。

圖說:項目負責人介紹ChemGPT 1.0功能 采訪對象供圖
研發團隊負責人、化學與分子工程學院教授何曉介紹,ChemGPT 1.0是一個集成了先進人工智能技術的化學合成工具。在上海市教委的大力支持下,華東師范大學于2021年成立了分子智造上海市前沿科學研究基地,由化學與分子工程學院和計算機科學與技術學院組建了聯合研發團隊,開展了AI4ChemicalScience的探索,致力于人工智能驅動的化學研究,將機器學習技術與化學合成相結合,以提高合成的效率和精度。兩年來,研究團隊通過深入研究化學性質數據庫、創新性引入物理描述符以及全新泛函CF22D的開發,成功構建了ChemGPT 1.0,為人工智能時代的分子智造提供了新工具。
何曉稱,ChemGPT 1.0具有三大亮點——
首先是高質量化學對話數據集的構建。ChemGPT 1.0整合了超過39萬條高質量對話數據,包括734種化學性質問答類數據、11679種科學類(含化學)問答類數據和658種化學類問答類數據以及超過一萬條百科詞條,轉化成了超過207萬條問題數據集。基于對化學領域專業知識的廣泛收集和深入理解,構建的數據集為全面、準確地完成化學知識問答提供了強大支撐。
其次是化合物逆合成數據庫的創建。針對化合物逆合成的難題,團隊通過數據拼接、疊加、加權和合成方式篩選,構建了一個全新的逆合成數據庫。該數據庫規模宏大,提高了模型的魯棒性和反應性,且具有高質量的標注數據,提升了模型的準確性和可靠性。通過更好的數據平衡,顯著提高了模型對各類反應的預測能力。在USPTO-50K測試任務中,經過新數據集訓練的大模型ChemGPT 達到了74.4%預測精度,位列第一。
還有就是對話模型和逆合成模型的創新改進。ChemGPT 1.0的對話模型和逆合成模型分別基于ChatGLM和LLaMA模型。通過全量微調以及在A800 GPU集群上兩個月的訓練,性能顯著提升。此外,通過多模型多模塊融合技術的實施,使得ChemGPT 1.0無需安裝任何插件,就能支持化學專業知識、化學逆合成、生物醫藥以及通用領域的知識問答。此外,ChemGPT 1.0還支持自動上網查資料,幫助模型返回高質量的實時回答并具備繪畫功能。
在此基礎上,研發團隊成功完成了自動化學合成反應技術體系的整體構建和框架設計。結合超限制造成果,以微流控芯片為基礎的化學合成節省了80%的實驗時間。由AI化學家—“小華”驅動的微縮合成工廠,實現了化合物的自動化合成,為化學合成領域帶來了革命性的變化,展示了人工智能在生物醫藥領域的巨大潛力。
ChemGPT 1.0是華東師范大學在AI For Science領域的又一重要成果,研發團隊將在此基礎上,進一步優化提升拓展功能,助推上海人工智能和生物醫藥重點領域加速向全球創新鏈、產業鏈、價值鏈的高端邁進。
閱讀原文
記者丨郜陽
來源丨新民晚報
編輯丨錢夢童
編審丨戴琪
更多閱讀:
中國新聞網丨ChemGPT1.0上海“問世” 人工智能+化學合成帶來革命性變化
第一教育丨身邊的AI化學家來啦!華東師大推出化學領域大模型!