淡江大學高等教育深耕專區-活動花絮

日期：2022-11-18

點閱：97

參考檔案：

「教師跨領域研究社群」-AI技術應用交流餐會

SDGs：優質教育　夥伴關係　

報告者講解及師生專注聆聽的畫面。

報告內容：
主題：
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision介紹：
動機：
目前參數量最小的多模態Transformer方法。ViLT使用預訓練的ViT來初始化交互的transformer，這樣就可以直接利用interaction layer(交互層)來處理視覺特徵，不需要額外增加一個視覺encoder（如Faster-RCNN）。
貢獻：
第一個基於patch projection的多模態預訓練模型，也是第一個使用patch projection來做visual embedding的方法。
證明了可以將BERT的方法和Vison Transformer結合起來用於多模態(multimodal) transformer。
模型架構(word patch alignment)、(cont.)：
在預訓練期時，模型共有三種有預訓練任務：
• Image Text Matching (ITM)：
找出patch與文字是否有對應，輸出是True/False。
• Masked Language Modeling：把15%的詞做Masked, 預測Masked的詞。
• Word Patch Alignment：跟ITM一起, 先計算patch與文字的相似度，找出對應文字與patch配對。
下流任務介紹：
• Visual Question Answering
• Natural Language for Visual Reasoning.
• Image Text Retrieval
實驗結果：如簡報所呈現。
重點整理：
視覺和語言預訓練（VLP）提高了各種聯合視覺和語言下游任務的性能。在本文中提出了一個最小的 VLP 模型，視覺和語言轉換器 (ViLT)，在某種意義上說，使用無卷積方式簡化視覺輸入與文本輸入的處理。論文提出ViLT 比以前的 VLP 模型快數幾倍與具有競爭性或更好的下游任務性能。

報告結束，老師上台進行點評及補充。

報告開始的介紹及全神貫注的師生。

會議開始前老師的開場白。

計畫別：全球在地逐鹿萬里--研究茁壯群雄爭鋒

發佈單位：AI系

上一則：「教師跨領域研究社群」-Family Labor Supply Responses to Childhood Disabilities: Evidence from Taiwan
下一則：化學遊樂趣(化學車)五月份新北市巡迴活動 (牡丹國小&雙溪國小&上林國小)

活動花絮

「教師跨領域研究社群」-AI技術應用交流餐會

報告者講解及師生專注聆聽的畫面。

報告結束，老師上台進行點評及補充。

報告開始的介紹及全神貫注的師生。

會議開始前老師的開場白。

解析度/瀏覽器

網站建置/維護

其它資訊