活動花絮

日期:2022-11-18

點閱:97

參考檔案:

「教師跨領域研究社群」-AI技術應用交流餐會

SDGs:優質教育 夥伴關係 
報告者講解及師生專注聆聽的畫面。
報告者講解及師生專注聆聽的畫面。
報告內容:
主題:
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision介紹:
動機:
目前參數量最小的多模態Transformer方法。ViLT使用預訓練的ViT來初始化交互的transformer,這樣就可以直接利用interaction layer(交互層)來處理視覺特徵,不需要額外增加一個視覺encoder(如Faster-RCNN)。
貢獻:
第一個基於patch projection的多模態預訓練模型,也是第一個使用patch projection來做visual embedding的方法。
證明了可以將BERT的方法和Vison Transformer結合起來用於多模態(multimodal) transformer。
模型架構(word patch alignment)、(cont.):
在預訓練期時,模型共有三種有預訓練任務:
• Image Text Matching (ITM):
找出patch與文字是否有對應,輸出是True/False。
• Masked Language Modeling:把15%的詞做Masked, 預測Masked的詞。
• Word Patch Alignment:跟ITM一起, 先計算patch與文字的相似度,找出對應文字與patch配對。
下流任務介紹:
• Visual Question Answering
• Natural Language for Visual Reasoning.
• Image Text Retrieval
實驗結果:如簡報所呈現。
重點整理:
視覺和語言預訓練(VLP)提高了各種聯合視覺和語言下游任務的性能。在本文中提出了一個最小的 VLP 模型,視覺和語言轉換器 (ViLT),在某種意義上說,使用無卷積方式簡化視覺輸入與文本輸入的處理。論文提出ViLT 比以前的 VLP 模型快數幾倍與具有競爭性或更好的下游任務性能。
報告結束,老師上台進行點評及補充。
報告結束,老師上台進行點評及補充。
報告開始的介紹及全神貫注的師生。
報告開始的介紹及全神貫注的師生。
會議開始前老師的開場白。
會議開始前老師的開場白。