root layout

패스트캠퍼스

  1. 강의 질문
  2. AI TECH

Flash Attention 메모리 속도 최적화 실습 질문

2025.12.01 23:33 수정

안녕하세요 강의 잘 듣고 있습니다.


Part2. 파운데이션 모델 아키텍쳐 Chapter 2.모델 아키텍처 설계 3장 "FlashAttention - 메모리 속도 최적화"의 코드 기반으로

batch_size 8, 12 head를 8,16 로 변경하면서 테스트를 진행해 보았는데 설명 주신 것과 달리 Naive가 더 빠르게 나오던데 정상인지 문의 드립니다.


image.png

환경정보

image.png


GPU 정보

image.png


감사합니다.


답변 

연관 질문

커뮤니티 질문보기