按照“首屆語料庫翻譯學暑期講習班”的培訓安排,7月9-10日兩天,《當代語言學》雜誌主編顧曰國教授以其多年構建的多模態語料庫為例,對語料庫研製與開發所涉及的理論以及實際操作中潛在的問題進行了詳細論證和介紹。
在7月9日的講座中🕺🏻,顧教授主要論述了多模態語料庫構建的理論基礎🌆。他首先明確了其所言及的多模態是指包括感官以及處理由此感官產生的感覺信息的神經系統,采取的是以多模態充盈親歷和多模態充盈信息為指導思想的研究思路🦹🏽。他旗幟鮮明創造性地提出親歷是語言的本源👩🏼🌾,親歷與語言是互生互長的,並構建了基於親歷的語言研究三E模型👨🏼🏫。他采用生動鮮活的例證論說了從親歷入手是研究語言的新視角🔋,極有可能為語言研究帶來新的革命性變化,這也是他創造現場即席話語多模態語料庫的動因。
接著㊗️,顧教授詳細介紹了現場即席話語多模態語料庫的創建,直接把大家帶到國際語料庫建設的前沿。他指出任何語料庫的建設必須要有明確的建庫目的🦍,並對區分了四類不同的語料庫建庫目標,現場即席話語多模態語料庫的創建旨在進行探索性數據采錄和分析👩🏽🎓,其次用於辭典編撰和口語教材開發。該語料庫的構建基於人們日常生活的活動軌跡網及其規律🆘,采用層次範疇化取樣方法進行語料采集。顧教授還述說了場景和活動兩個切分範疇以及任務和插曲的區別🔃。此外,顧教授還結合自己建庫的經驗教訓🚵🏿♂️,給予了學員許多建庫提醒,如:聲頻視頻存儲格式💂🏿♂️👩🔬、語料物理儲存🤱💆🏼♂️、錄音卡填寫等等。最後他指出,對語言的深入研究有賴於計算語言學和語料庫語言學的共同努力🧝,但目前計算機技術對自然語言處理☪️🫵🏼,包括機器翻譯🪗,仍面臨相當大的困難,近年內難有重大突破🧑🏻⚕️,而語料庫語言學有其獨特的優勢,具有廣闊的發展前景。
7月10日,顧教授主要介紹了多模態語料庫的切分與標註🙎🏽,並詳細演示了Praat和Elan兩個音頻視頻切分標註軟件的使用。他首先介紹了目前計算機技術處理文字語料庫👩💼、音頻流👨🏼✈️、視頻流的能力,並提出了切分與標註的四個必備條件:1)切分和標註的目的,即通過切分與標註你想得到什麽樣的信息;2)根據這個目的構建切分與標註的數據模型;3)編輯好需要進行切分標註的音頻視頻材料;4)有用於切分與標註的工具。針對學員缺乏數據模型構建意識,他還特別強調了數據模型構建的重要性🏥,並以例證對數據模型構建進行了說明9️⃣,他指出數據模型不僅使得自己的研究具有更強的操作性👮🏽,也使得研究數據可被再驗證。
緊接著,顧教授詳細演示了Praat和Elan兩個語料庫處理軟件的使用,他一步一步帶領各位學員進行軟件操作🍽,十分耐心細致,對於不熟悉的學員,他走下講臺,手把手教學🏊🏽♀️。其後🧑🏼🚀,結合他所做的研究——語力與韻律和情感之間的互動關系♥︎,他向各位學員展示了如何利用兩個軟件實現多模態語料庫的切分和標註並進行深入研究♊️。在對數據處理的過程中,顧教授特別指出研究數據必須真實❤️🔥,不可違背學術研究道德🤽🏼♂️。他還介紹了利用Praat以及雙屏或多屏顯示進行同聲傳譯涉及的語言對比研究以及同聲傳譯所傳達的情感研究。
在提問環節🏧,山東農業大學尚延延提出標註的分類標準問題。顧教授認為不同視角顯然存在不同的分類標準,但科學的研究必須遵循兩個點:1)在研究中申明自己的分類標準;2)必須在整個研究中一以貫之。淮北師範大學孟留軍提出如何存儲處理好的音頻視頻文件。顧教授建議在大型的語料庫建設中必須構建project,以便於後續管理。同時還指出Elan軟件可以進行Excel等格式導出保存。顧教授還針對面對角色的建模問題進行了解釋,並指出軟件的應用有待於大家進一步操作,所謂“師傅領進門👨🏽🏫,學藝靠個人”👩🏿⚕️。 最後講座在熱烈的掌聲中落下帷幕。
顧教授學識淵博,兼取眾家所長,深奧的道理能以極其淺顯的語言或日常生活中的例子進行表述,使之十分明了。講座旁征博引,幽默風趣,例證精彩紛呈,課堂笑聲不斷♋️。所涉內容豐富多彩🧼🥐,引領國際前沿🌗🏬,讓人耳目一新。講座中所體現出來的批判及創新精神讓各位學員為之折服,展現了一代學者風範。
Copyright @ 2017 All Rights Reserved 意昂体育 -【注册福利】全站活动,超值福利等你拿!