GPU'm ölüyor mu?


14

Bir NVIDIA K20m'de (düğümümdeki 0 cihazı) ECC bellek korumasını geçici olarak devre dışı bırakıyorum ve şimdi tekrar çalışmaya geri getiremiyorum. Bundan önce ECC etkin olarak düzgün çalışıyordu. İşte yaptığım şey: ECC'yi

nvidia-smi -i 0 --ecc-config=0

ve yeniden başlatıldı. Geldiğinde% 100 GPU kullanımı gösterdi ve herhangi bir çekirdek başlatmayacaktı (bağlamı oluştururken aslında zaten başarısız oldu). Nedeni çift bit hataydı. İle sıfırladım

nvidia-smi -i 0 --reset-ecc-errors=0

ve düğümü yeniden başlattı. Yeniden başlattıktan sonra cihaz kullanımı% 0 oldu ve her zamanki gibi işe başlayabilirim. Birkaç saat sonra cihaz tekrar% 100 GPU kullanımı gösterdi. Bu kez bir çift bit hatası bildirmedi (tek bir bit hatası bile değil). Ancak, herhangi bir işi çalıştıramadığım için düğümü yeniden başlattım ve% 100 GPU kullanımı ile geldi, kullanamıyorum, ancak bit hataları bildirmiyor. Bunun nesi var?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None

2
garip görünüyor; hiç böyle bir şey görmedim. Sorunu çözmeye yardımcı olmasa da, sürücülerinizi yeniden yüklemeyi deneyin, belki?
Ben Franchuk

Sanırım zaten her şeyi hurdaya çıkarmak ve yeniden yüklemek için bariz olanı denediniz mi? Yani, uhm, donanım hakkında çok az şey biliyorum, bu yüzden yaklaşımım her zaman yazılımın - anladığım şeyin - çalışması gerektiğinden kesinlikle emin olmaktır. Ve sonra muhtemelen daha bilgili bir görüşle çelişene kadar parçanın kırıldığını ilan edeceğim.
Ariane

Bu konuyu inceledim ve bu konuyu ve nedenlerini araştırmak için biraz zaman geçirdim. Görünüşe göre en iyi çözüm donanımı değiştirmek.
Adovi

1
CMOS'u zaten sıfırlamaya çalıştınız mı?
Sergei

Yanıtlar:


2

GPU'm ölüyor mu?

Zaten öldüğünü söylüyorum. Bunları algılayan şeyi kapattığınız için artık bit hataları bildirilmiyor . (ECC düzeltebileceğinden daha fazlasını algılar .) Bununla birlikte, karttaki (veya fiziksel kartın kendisinde) bir hata olan hafıza olabilir.

"Geri dönüşüm" kutusuna yerleştirmeden önce iki şüpheli daha var: soğutma ve güç kaynağı. Soğutma kontrol etmek yeterince kolaydır; çok değil.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.