dadv: (chuck)
Choose your future ([personal profile] dadv) wrote2014-03-04 05:31 am
Entry tags:

Power redundancy и питание от святого духа

Сегодня в пол-второго ночи одновременно испортились оба блока питания PWR-2700-AC в шасси Cisco 7606.
При этом супервизор сказал "у меня нет живых блоков питания, питания недостаточно для линейных карт, гашу их все".

#show power 
system power redundancy mode = redundant
system power redundancy operationally = non-redundant
system power total =     0 Watt
system power used =       744.66 Watts (17.73 Amps @ 42V)
system power available = 0 Watt
                        Power-Capacity PS-Fan Output Oper
PS   Type               Watts   A @42V Status Status State
---- ------------------ ------- ------ ------ ------ -----
1    PWR-2700-AC        2669.10 63.55  -      -      off
2    PWR-2700-AC        2669.10 63.55  -      -      off
                        Pwr-Allocated  Oper
Fan  Type               Watts   A @42V State
---- ------------------ ------- ------ -----
1    FAN-MOD-6HS         180.18  4.29  OK
                        Pwr-Requested  Pwr-Allocated  Admin Oper
Slot Card-Type          Watts   A @42V Watts   A @42V State State
---- ------------------ ------- ------ ------- ------ ----- -----
1    WS-X6724-SFP        125.16  2.98     -     -     on    off (FRU-power denied)
2    WS-X6748-SFP        254.94  6.07     -     -     on    off (FRU-power denied)
3    WS-X6748-GE-TX      325.50  7.75     -     -     on    off (FRU-power denied)
4    WS-X6704-10GE       295.26  7.03     -     -     on    off (FRU-power denied)
5    WS-SUP720-3B        282.24  6.72   282.24  6.72  on    on
6    WS-X6748-GE-TX      325.50  7.75   282.24  6.72  on    off (FRU-power denied)

Каждый из блоков питания получал ввод от мощного источника бесперебойного питания, один от APC8000, второй от General Electric. После сбоя оба стали индицировать OUTPUT FAIL, супервизор перезагрузился, выдав на консоль:

*Mar  3 06:43:23: %OIR-SP-6-INSPS: Power supply inserted in slot 1
*Mar  3 06:43:23: %C6KPWR-SP-2-PSFAIL: power supply 1 output failed.
*Mar  3 06:43:23: %C6K_POWER-SP-4-GLITCH: Recovered from glitch in system power supply.
*Mar  3 06:43:23: %OIR-SP-6-INSPS: Power supply inserted in slot 2
*Mar  3 06:43:23: %C6KPWR-SP-2-PSFAIL: power supply 2 output failed.
*Mar  3 06:43:23: %C6K_POWER-SP-4-GLITCH: Recovered from glitch in system power supply.
*Mar  3 06:43:26: %C6KPWR-SP-4-UNDERPOWERED: insufficient power to operate all FRUs in system.
*Mar  3 06:43:26: %C6KPWR-SP-2-INSUFFICIENTPOWER: Powering down all linecards as there is not enough power to operate all critical cards
*Mar  3 13:43:28: %SNMP-5-COLDSTART: SNMP agent on host M-19 is undergoing a cold start
*Mar  3 06:43:26: %C6KENV-SP-4-FANHIOUTPUT: Version 2 high-output fan-tray is in effect
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 1 power denied.
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 2 power denied.
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 3 power denied.
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 4 power denied.
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 6 power denied.


Поставили в шасси другой блок питания вместо сбойных и 7606 заработала. Полшестого утра, пойду посплю немного.

[identity profile] click0.livejournal.com 2014-03-03 10:40 pm (UTC)(link)
Повезло, что резерв был.

[identity profile] dmarck.livejournal.com 2014-03-03 10:52 pm (UTC)(link)
вот да

[identity profile] klepysik.livejournal.com 2014-03-04 07:50 pm (UTC)(link)
веселенькая ночка... я почему оба подохли? скачки напряжения?

[identity profile] dadv.livejournal.com 2014-03-05 08:34 am (UTC)(link)
> почему оба подохли? скачки напряжения?

Достоверно неизвестно. Предположительно, проглючил один из упсов, от чего один из двух БП сдох, 7606 мгновенно перекинула всю нагрузку на второй БП, который этого не выдержал. Оба БП в составе бандла были куплены новыми 9 лет назад и с тех пор не менялись.

[identity profile] click0.livejournal.com 2014-03-05 10:20 am (UTC)(link)
Вывод?
Раз в 3 месяца планово тестировать железо.
Поочередное отключение питания к каждому БП - одно из них.

Предусмотреть резервирование N+1, а отдельных узлов и железок до N+2.

[identity profile] klepysik.livejournal.com 2014-03-05 06:03 pm (UTC)(link)
ну как раз пришло время поменять... я знаю упсы каждые 5-7 лет меняют...

[identity profile] click0.livejournal.com 2014-03-19 10:47 am (UTC)(link)
Очень похоже на деградацию памяти в блоках питания!
Тут (http://forum.nag.ru/forum/index.php?showtopic=93115) целая дискуссия о проблеме.

[identity profile] dadv.livejournal.com 2014-03-19 05:10 pm (UTC)(link)
Память в блоках питания? Это шутка, я надеюсь.

[identity profile] denis avgoor (from livejournal.com) 2014-03-28 03:23 pm (UTC)(link)
Бывает, странно что одновременно.

У меня в 65ой так умирал фан-2, т.е. он не выключался, но шасси считало что он фан-1 и оба супа уходили в rommon. Забавняшка.