為推動大規??缯Z言數據庫和常模的發展,5月31日至6月1日,跨語言數據庫與常模國際研討會在華東師范大學普陀校區逸夫樓報告廳和兒童腦成像中心順利舉辦。本次會議由華東師范大學蔡清教授、香港理工大學李平教授共同發起,旨在通過推動跨語言數據庫的建設和共享、探討人類語言與認知理解的核心問題、促進跨語言、跨學科的深入合作。會議由華東師范大學主辦,香港理工大學、中國心理學會語言心理學專委會和上海市心理學會協辦,并得到腦動極光醫療科技有限公司支持。來自美國、比利時、澳大利亞、新加坡、中國香港、中國澳門以及內地的百余位知名高校和科研機構的學者、師生和相關人士參加本次會議。在兩天的會議中,與會者充分交流并展望了相關研究領域的發展前景。

跨語言數據庫與常模國際研討會在華東師大舉辦
華東師大心理與認知科學學院院長周曉林教授在開幕式致辭中,代表學院向遠道而來的海內外專家學者致以誠摯歡迎。他指出,在當今國際和時代背景下,開展跨語言和跨文化研究具有重要意義。周曉林強調,作為中國心理學研究的重鎮,華東師大心理與認知科學學院將充分發揮學科優勢與平臺作用,為推動該領域研究創新發展貢獻智慧與力量。

華東師大心理與認知科學學院院長周曉林教授致辭
比利時根特大學的Marc Brysbaert教授首先作了題為“What Language Researchers Must Learn from the Engineering Approach”的大會主旨報告,探討了大語言模型對語言研究的助益。從多語言詞頻分析切入,Brysbaert教授引入基于語言模型估計的詞匯熟悉度指標,系統比較了其與傳統詞頻統計方法的差異,并分析了該指標與抽象度等詞匯特征的關系。此外,他展示了多語言詞匯熟悉度評估數據庫的建設進展,強調優秀研究工具開發、嚴謹的逐步驗證及大規模數據建設對語言研究的基礎性支撐作用。

比利時根特大學的Marc Brysbaert教授作主旨報告
卡內基梅隆大學的Brian MacWhinney教授作題為“TalkBank Resources for Studying Spoken Languages”的主旨報告。作為兒童語言數據交換系統(CHILDES)創始人,他系統展示了其團隊構建的全球語言數據共享平臺TalkBank的最新進展,并進行了現場功能演示。依托四大核心原則,該平臺已整合32種語言、5000萬詞次口語數據、9TB音視頻,支撐超1.2萬篇論文產出,內含6大臨床診療庫、4大兒童語言發展庫及多語言研究庫等14個領域。MacWhinney教授提出,未來將通過Docker容器化全球部署,“以兒童語言學習能力為新圖靈測試標準”,引領語言科學向開放協作范式轉型。

卡內基梅隆大學的Brian MacWhinney教授作主旨報告
墨爾本大學的Simon De Deyne博士作題為“Measuring Cross-linguistic Semantic Alignment between Minds: Insights from the Small World of Words Project”的主題報告,介紹了多語言SWOW(Small World of Words)詞聯想項目與跨語言語義對齊的最新結果。其研究發現聯想關系中包含語義、視覺與情感等多維信息,以及從強到弱的不同程度的關聯性。相比大語言模型(LLMs)與詞嵌入向量,詞聯想更貼近人類認知;而不同語言同一概念的差異逾五成。報告深入探討了聯想多樣性及標注標準化等挑戰,并展望了SWOW平臺在認知建模與跨文化研究中的應用潛力。

墨爾本大學的Simon De Deyne博士作主題報告
新加坡國立大學的Cynthia Siew博士作題為“Insights from Developing Psycholinguistic Norms for the Singaporean Mental Lexicon”的主題報告。報告介紹了新加坡式英語(Singlish)特有詞匯的心理語言學常模和詞匯聯想庫的構建,分享了特有詞匯在各項詞屬性上的人類評分和大語言模型評分的一致性,指出GPT-4o雖然在明確指令下可生成與人類高度相關的語義評分,但在如幽默度等高度復雜和具備人類特殊性的指標上仍與人類評分存在顯著差異。報告還揭示了不同年齡和性別在新加坡式英語概念上的聯想模式差異,并探討了當前研究的挑戰、開放性問題及未來發展方向。

新加坡國立大學的Cynthia Siew博士作主題報告
31日下午,深圳市神經科學研究院的譚力海研究員作題為“Reading and Language Development of Chinese Children”的會議主旨報告,深入探討了中文閱讀的神經機制及其發展規律。研究展示了過去幾十年中中文閱讀的神經影像學研究成果,并在此基礎上介紹了團隊研發的《小學生漢語閱讀能力標準化測評》。該測評實現了對中國兒童閱讀能力的規范化評估。報告還介紹了通過縱向追蹤發現的3-5歲兒童語言發展的年齡發展梯度。這些發現不僅為理解中文閱讀發展提供了科學依據,也為早期語言干預提供了重要參考。

深圳市神經科學研究院的譚力海研究員作主旨報告
北京師范大學的李虹教授作題為“Aligning Text Complexity and Reader Ability: Development and Validation of the Chinese Leveled Reading System”的主題報告。報告聚焦兒童閱讀習得過程,基于文本難度的精準評判與科學測量和兒童閱讀能力的全面評估,通過文本難度與閱讀水平的精準匹配構建中文分級閱讀指標體系。報告介紹了基于265個語言特征建立的語料庫可讀性公式,通過模型預測實現文本與閱讀標準的量化對齊;同時創新性采用Maze score建立年級常模,精準衡量同年級兒童閱讀水平差異,為個體化閱讀方案提供科學支撐。

北京師范大學的李虹教授作主題報告
上海交通大學的徐旴教授作題為“Lexicalization in the Mental Lexicon of L1 and L2 Speakers”的主題報告。從“詞匯是什么”這一主題切入,關注復合詞從“復雜的語義組合”到“語義單元”這樣的詞匯化過程。報告分享了母語者對漢語雙字詞和二語者對復合詞的詞匯化水平評分,揭示了語言中詞匯化水平的分布規律,探究了詞匯化和詞頻、熟悉度、抽象度等常用指標的關系,以及對詞匯加工的影響。徐旴教授使用問卷和聽眾進行了詞匯化判斷的互動,體現了語言研究根植于日常生活的生命力和趣味性。

上海交通大學的徐旴教授作主題報告
在青年學者講壇環節中,上海交通大學的李鸞副教授、北京大學的覃朗助理教授、華東師范大學的張義賓副研究員、南方醫科大學的鄒來泉副教授、多倫多大學的Mia Zhang等分別從兒童語言習得和認知發展、跨語言、多模態以及大模型應用等各方面分享了他們的近期研究成果。

青年學者講壇
6月1日上午和下午的報告分別由華南師范大學的王穗蘋教授和江蘇師范大學的朱祖德教授主持。

華南師范大學的王穗蘋教授和江蘇師范大學的朱祖德教授主持研討會
香港理工大學的李平教授首先作題為“From Child Language to AI: Large-Scale Multimodal Data for Cognitive Research and Application”的主旨報告。報告分享了對于兒童語言習得和大模型的思考,介紹了團隊在模型-人腦對齊方面的新進展,揭示了句子級的訓練對于語言模型和人類對齊方面的影響,并考察了個體差異在其中發揮的作用。在大語言模型發展日新月異的背景下,李平教授分析了人腦的特殊性,強調大規模多模態數據與神經科學數據對于科學研究的重要性,介紹了團隊在多模態神經數據庫建設方面的關鍵工作。報告現場,李平教授就模型和人類的感知、認知和動作三個層面的科學議題與聽眾展開深度互動交流。

香港理工大學的李平教授作主旨報告
普林斯頓大學的Uri Hasson教授作題為“Deep Language Models as a Cognitive Model for Natural Language Processing and Its Development in the Human Brain”的會議主旨報告。針對“深度神經網絡能否模擬人腦語言處理”的關鍵問題,團隊通過對比深度語言模型與人腦處理過程發現:二者在基礎計算原則上相似,但高級認知功能上仍存在差異。為實現精準模擬,其團隊采用皮層電圖技術記錄100小時真實對話神經活動,構建整合聲學-語音-語言層級的創新模型,可準確預測未經訓練的語言層級神經響應,為類人的語言模型提供新路徑。報告還特別介紹了團隊近年正在進行的“First 1000days Project”,通過在嬰兒家庭部署多模態、高密度數據采集,首次建立含環境互動信息的嬰幼兒發展數據庫,為理解兒童發展提供重要的建?;A。

普林斯頓大學的Uri Hasson教授作主旨報告
中國科學院心理研究所的李興珊研究員作題為“Universal and Specific Reading Mechanisms across Different Writing Systems”的主題報告,聚焦漢語閱讀認知機理,系統探討了書寫系統跨語言差異對閱讀機制的影響。研究提出中文不依賴詞間空格標記詞邊界的特性,對比分析了不同書寫系統中閱讀機制的共性與特異性。報告強調,詞間空格的使用本質反映語言系統內在需求,需通過跨語言研究深入解析閱讀的普遍認知機制、書寫系統特異性機制及多路徑加工模型的內在關聯。

中國科學院心理研究所的李興珊研究員作主題報告
華東師范大學蔡清教授作題為“Alignment and Discrepancy in Humans, Language Models, and Words”的主題報告,從alignment(對齊)出發,探討了人類認知與大語言模型在語義表征上的異同。報告展示了基于人類大規模詞匯聯想的和語言模型對于腦活動的解釋上的差異,強調了人類語言數據的貢獻。報告還強調了個體差異和概念多樣性的重要性,提出模型對人腦的對齊并非目標本身,更重要的是理解這種“偏離”所反映的人類認知多樣性與發展特征。

華東師范大學蔡清教授作主題報告
北京大學的畢彥超教授作題為“Semantics across the Globe: A Universal Neurocognitive Structure that Adapts”的主旨報告,分享了關于人腦如何整合語言、感知和經驗以建構世界知識的最新研究成果。通過色彩知識在視覺障礙群體中的研究,展示了語言如何成為感知經驗缺失情況下的替代信息來源。報告比較不同文化和語言環境下人類對概念的共性與差異,強調了語義知識的多維度本質。畢教授指出,盡管人類經驗千差萬別,但大腦對世界的認知存在驚人的一致性,這為理解人類語言共同的認知機制提供了新視角。

北京大學的畢彥超教授作主旨報告
在兩天的圓桌討論中,現場的各位專家與參會人一起就常模的跨語言對齊、文化因素在多語言常模中的作用、大語言模型和語言的認知科學間的關系與發展等問題展開了熱烈而深入的探討。


圓桌論壇
在場的參會老師和同學就講座和圓桌會議的內容進行了熱烈討論。

師生討論
會議的海報展示環節在華東師范大學兒童腦成像中心與即將建成的腦磁圖成像中心舉辦。多項最新的研究成果在現場呈現,參觀者與作者們進行了深入交流,氣氛熱烈。

海報展示環節
在閉幕式上,李平教授和蔡清教授就會議進行了總結和閉幕發言,對與會專家和同行在數據庫的設計、跨語言和大模型相關語言研究方面的研究分享和深入探討表示感謝,期待通過此次多元主題的報告與討論,為跨語言和大模型背景下的語言資源設計與基于開放共享的語言相關研究提供新的視角與合作契機。

香港理工大學李平教授和華東師范大學蔡清教授進行總結和閉幕發言
本次研討會在推動語言資源建設、方法論創新與跨學科交流方面取得了積極進展。會議加深了學界對語言能力普遍性與特異性認知機制的理解,強化了語言數據庫在理論建構與實證研究中的基礎地位。會議促進了語言科學、心理學、認知神經科學與人工智能等領域的交流合作,凸顯了豐富的人類行為數據和相關研究在揭示語言加工、習得與發展規律中的重要作用。此次會議不僅展示了前沿研究的廣度,也為未來語言與認知研究的國際協同奠定了堅實基礎。

跨語言數據庫與常模國際研討會合影
圖文、來源|心理與認知科學學院 編輯|毛宇彤 編審|郭文君