462 0

Reliable Test Architecture for AI accelerators with test cost reduction

Title
Reliable Test Architecture for AI accelerators with test cost reduction
Other Titles
테스트 비용 절감이 가능한 인공지능 가속기의 고신뢰성 테스트 아키텍처
Author
이브테삼무하마드
Alternative Author(s)
이브테삼무하마드
Advisor(s)
Dr. Sungju Park
Issue Date
2022. 2
Publisher
한양대학교
Degree
Doctor
Abstract
Recent developments in machine learning and especially in deep neural networks (DNN) have achieved unprecedented results in different application areas. However, DNNs are compute intensive and cannot be run on traditional CPUs and GPUs, thus, necessitating development of application specific integrated circuits (ASICs). These ASICs have shown an improvement of 30× to 80× in throughput in comparison to GPU and CPU respectively. Systolic architecture has been extensively deployed to create such architectures, which removes the need to have high energy consumption memory reads and writes. These architectures come in different sizes, the largest encountered is Google’s TPU which has an array of 256×256 PEs. Total number of flip flops contained in such a large array may reach up to 6M depending upon the width of activations weights and summation registers. Furthermore, to conserve energy different implementation of architecture, such as weight stationary, output stationary and no local reuse, are employed. Due to enormous size of array, these accelerators are power hungry too. Different techniques, such as dynamic voltage scaling and near-threshold computing are used to reduce the energy but this comes with a performance loss and can result in accuracy drop. Razor flip flops are implemented to check such errors and propagate the correct value. This implementation of Razor technique also results in additional flip flops. To ensure the reliability of fabricated chips and quality assurance, these chips are tested at each production phase and in-field for mission critical applications. Structured DFT is a de facto methodology in industry because of its extensive development and availability in industrial DFT tools. The traditional DFT methodology for AI accelerators results in longer test times and tighter power constraints. Furthermore, mission critical application requires regular testing of its electronic components and AI accelerator is no exception. However, enormity of array size reduces the efficacy of traditional BIST mechanism on array level. Thus, there has been a growing need to develop test access mechanisms for such arrays, which does not only reduce test time but also resolve test power issues. Large power consumption leads to endangering IC’s reliability, by creating hotspots, and large peak power consumptions can lead to IR drop resulting in invalidation of tests, hence, yield loss. The study aims to develop such test mechanisms for different implementations of systolic arrays, which not only provide significant reduction in test times but also alleviates the test power problems as well. This is achieved by exploiting the regular nature of AI accelerator arrays, i.e., reusing existing data-paths and DFT insertion at register-transfer level. The results showed not only improvement in test time but also in power consumption, especially peak power consumption. The reduction in peak power ensures validity of testing and does not endanger the reliability of the accelerator. |머신 러닝, 특히 심층 신경망(DNN)의 최근 개발은 다양한 응용 분야에서 전례 없는 결과를 달성했습니다. 그러나 DNN은 컴퓨팅 집약적이며 기존 CPU 및 GPU에서 실행할 수 없으므로 ASIC(Application Specific Integrated Circuit) 개발이 필요합니다. 이러한 ASIC은 GPU 및 CPU에 비해 처리량이 각각 30배에서 80배 향상되었습니다. Systolic 아키텍처는 이러한 아키텍처를 만들기 위해 광범위하게 배포되어 에너지 소비가 높은 메모리 읽기 및 쓰기가 필요하지 않습니다. 이러한 아키텍처는 다양한 크기로 제공되며 가장 큰 것은 256×256 PE 어레이가 있는 Google의 TPU입니다. 이러한 대형 어레이에 포함된 플립플롭의 총 수는 활성화 가중치 및 합산 레지스터의 너비에 따라 최대 6M에 도달할 수 있습니다. 또한 에너지를 절약하기 위해 가중치 고정 방식, 출력 고정 방식 및 no-local reuse 방식과 같은 다양한 아키텍처가 구현에 사용됩니다. 어레이의 엄청난 크기로 인해 이러한 가속기 역시 전력 소모가 많습니다. 동적 전압 스케일링 및 near-threshold computing과 같은 다양한 기술이 에너지를 줄이는 데 사용되지만 이는 성능 손실과 함께 정확도가 떨어질 수 있습니다. 이러한 오류를 확인하고 올바른 값을 전파하기 위해 Razor 플립플롭이 구현되었습니다. Razor 기술의 이러한 구현은 또한 추가 플립플롭을 생성합니다. 가공된 칩의 신뢰성과 품질 보증을 보장하기 위해 이러한 칩은 각 생산 단계에서 그리고 미션 크리티컬 애플리케이션을 위해 현장에서 테스트됩니다. 구조적 DFT는 산업용 DFT 도구의 광범위한 개발 및 가용성으로 인해 업계에서 사실상의 방법론입니다. AI 가속기를 위한 기존 DFT 방법론은 테스트 시간이 더 길어지고 전력 제약이 더 엄격해집니다. 또한 미션 크리티컬 애플리케이션은 전자 부품에 대한 정기적인 테스트가 필요하며 AI 가속기도 예외는 아닙니다. 그러나 어레이 크기가 매우 크기 때문에 어레이 수준에서 기존 BIST 메커니즘의 효율성이 감소합니다. 따라서 테스트 시간을 단축할 뿐만 아니라 테스트 전원 문제를 해결하는 이러한 어레이에 대한 테스트 액세스 메커니즘을 개발할 필요성이 증가하고 있습니다. 소비 전력이 높으면 핫스팟이 발생하여 IC의 신뢰성이 위험해지고, 피크 전력 소비가 크면 IR이 저하되어 테스트가 무효화되어 수율이 손실될 수 있습니다. 이 연구는 systolic array의 다양한 구현을 위한 이러한 테스트 메커니즘을 개발하는 것을 목표로 하며, 이는 테스트 시간을 크게 단축할 뿐만 아니라 테스트 전력 문제도 완화합니다. 이는 AI 가속기 어레이의 일반 특성을 활용하여 달성됩니다. 즉, 레지스터 전송 수준에서 기존 데이터 경로 및 DFT 삽입을 재사용합니다. 그 결과 테스트 시간뿐만 아니라 소비 전력, 특히 피크 소비 전력도 개선되었습니다. 피크 전력의 감소는 테스트의 유효성을 보장하고 가속기의 신뢰성을 위협하지 않습니다.
URI
http://hanyang.dcollection.net/common/orgView/200000589527https://repository.hanyang.ac.kr/handle/20.500.11754/167530
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE & ENGINEERING(컴퓨터공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE