[Deep Learning Theory Team Seminar] Talk by Prof. Difan Zou (HKU) on Understanding the Working Mechanism of Transformers
イベント説明
Venue: Online and the Open Space at the RIKEN AIP Nihonbashi office
Language: English
Title: Understanding the Working Mechanism of Transformers: Model Depth and Multi-head Attention
Speaker: Prof. Difan Zou, HKU, https://difanzou.github.io/
Abstract:
In this talk, I will discuss our recent works on the working mechanism of the Transformer architecture, including the learning capabilities and limitations of model depth and the multi-head attention mechanism in different tasks. Specifically, in the first part of the talk, we designed a series of learning tasks based on actual sequences and systematically evaluated the performance and limitations of Transformers of different depths in terms of memory, reasoning, generalization, and context generalization capabilities. We have demonstrated that a Transformer with single-layer attention performs excellently in memory tasks but cannot complete more complex tasks. In addition, at least a two-layer Transformer is required to achieve reasoning and generalization capabilities, while context generalization capabilities may require a three-layer Transformer to be achieved.
In the second part of the talk, considering the sparse linear regression problem, we explored the role of the multi-head attention of the Transformer model (after training) and revealed the working mechanism of multi-head attention on different Transformer layers. Firstly, we found in experiments that each attention head in the first layer of the Transformer is very important for the final performance, while in subsequent Transformer layers usually only one attention head plays an important role. We further proposed a preprocess-then-optimize working mechanism and theoretically proved that a multi-layer Transformer (multiple heads in the first layer and only one head in subsequent layers) can implement this mechanism. Moreover, in the sparse linear regression problem, we further proved the superiority of this mechanism compared to the naive gradient descent and ridge regression algorithms, which is consistent with the experimental findings. These research results help to deeply understand the advantages of multi-head attention and the role of model depth, providing a new perspective for revealing more complex mechanisms inside the Transformer.
Bio: Dr.Difan Zou is an assistant professor in computer science department and institute of data science at HKU. He has received his PhD degree in Department of Computer Science, University of California, Los Angeles (UCLA). His research interests are broadly in machine learning, deep learning theory, graph learning, and interdisciplinary research between AI and other subjects. His research is published in top-tier machine learning conferences (ICML, NeurIPS, COLT, ICLR) and journal papers (IEEE Trans., Nature Comm., PNAS, etc.). He serves as an area chair/senior PC member for NeurIPS and AAAI, and PC members for ICML, ICLR, COLT, etc.
開催日
2024年11月20日14:00 ~ 2024年11月20日15:00
主催者・問い合わせ先
RIKEN AIP Public
開催場所
項目 | 内容 |
---|---|
場所 | 名称未設定 |
住所 | Online and the Open Space at the RIKEN AIP Nihonbashi office |
開催場所の地図
SNS・Bookmark
近隣のイベント
- 2020年12月29日 - 学生起業家による「学生起業の始め方セミナー」【無料】
- 2020年12月29日 - 【休日開催】初心者のIT業界の入り口~Linuxシェルスクリプト勉強会(if文編)~@池袋
- 2020年12月29日 - 【新宿・女性主催】働き続ける生活を変えたい人へ『初心者向けキャッシュフローゲーム会』
- 2020年12月29日 - 第21回 UPRUN府中多摩川風の道マラソン大会~年末特別ver~★計測チップ有り
- 2020年12月28日 - 学生起業家による「学生起業の始め方セミナー」【無料】
- 2020年12月28日 - 誰もでわかる「Webディレクター」入門
- 2020年12月28日 - 【新宿・女性主催】働き続ける生活を変えたい人へ『初心者向けキャッシュフローゲーム会』
- 2020年12月28日 - 12/28 12:00 5.5h ちゃんばど!
- 2020年12月28日 - IoT入門 Arduino(ESP8266,32),Raspberry Piで作るIoT,ダッシュボードシステム
近隣の場所 (直線距離)
- WITH HARAJUKU HALL (6.6km)
- MAMEHICO銀座 (1.2km)
- TKP東京駅カンファレンスセンター 8階 ホール8A (477m)
- コワーキング - コワーキングスペース茅場町 Co-Edo (801m)
- カナダ大使館 (4.3km)
- 東京都港区赤坂7-3-38 (4.3km)
- クラスメソッド株式会社 日比谷オフィス26階 カフェスペース (2.4km)
- 株式会社リクルート (787m)
- BasisTech 東京支社(定員10名) (2.7km)
- 産業技術総合研究所 臨海副都心センター 別館11階 (7.1km)
- 日経ホール&カンファレンスルーム (1.3km)
- テックジム東京本校 (3.1km)
- ITビジネススクール東京校 (6.4km)
- 東京タワー・芝公園周辺(集合場所:芝公園記念塔) (3.6km)
- テックジム株式会社 (3.1km)
- 市ヶ谷駅(外濠公園) (3.6km)
- 辰巳の森海浜公園 (5km)
- 東京体育館ティップネス(集合場所:東京体育館前) (5.7km)
- 堀切水辺公園(集合場所) (7.9km)