Entry tags:
Power redundancy и питание от святого духа
Сегодня в пол-второго ночи одновременно испортились оба блока питания PWR-2700-AC в шасси Cisco 7606.
При этом супервизор сказал "у меня нет живых блоков питания, питания недостаточно для линейных карт, гашу их все".
#show power system power redundancy mode = redundant system power redundancy operationally = non-redundant system power total = 0 Watt system power used = 744.66 Watts (17.73 Amps @ 42V) system power available = 0 Watt Power-Capacity PS-Fan Output Oper PS Type Watts A @42V Status Status State ---- ------------------ ------- ------ ------ ------ ----- 1 PWR-2700-AC 2669.10 63.55 - - off 2 PWR-2700-AC 2669.10 63.55 - - off Pwr-Allocated Oper Fan Type Watts A @42V State ---- ------------------ ------- ------ ----- 1 FAN-MOD-6HS 180.18 4.29 OK Pwr-Requested Pwr-Allocated Admin Oper Slot Card-Type Watts A @42V Watts A @42V State State ---- ------------------ ------- ------ ------- ------ ----- ----- 1 WS-X6724-SFP 125.16 2.98 - - on off (FRU-power denied) 2 WS-X6748-SFP 254.94 6.07 - - on off (FRU-power denied) 3 WS-X6748-GE-TX 325.50 7.75 - - on off (FRU-power denied) 4 WS-X6704-10GE 295.26 7.03 - - on off (FRU-power denied) 5 WS-SUP720-3B 282.24 6.72 282.24 6.72 on on 6 WS-X6748-GE-TX 325.50 7.75 282.24 6.72 on off (FRU-power denied)
Каждый из блоков питания получал ввод от мощного источника бесперебойного питания, один от APC8000, второй от General Electric. После сбоя оба стали индицировать OUTPUT FAIL, супервизор перезагрузился, выдав на консоль:
*Mar 3 06:43:23: %OIR-SP-6-INSPS: Power supply inserted in slot 1 *Mar 3 06:43:23: %C6KPWR-SP-2-PSFAIL: power supply 1 output failed. *Mar 3 06:43:23: %C6K_POWER-SP-4-GLITCH: Recovered from glitch in system power supply. *Mar 3 06:43:23: %OIR-SP-6-INSPS: Power supply inserted in slot 2 *Mar 3 06:43:23: %C6KPWR-SP-2-PSFAIL: power supply 2 output failed. *Mar 3 06:43:23: %C6K_POWER-SP-4-GLITCH: Recovered from glitch in system power supply. *Mar 3 06:43:26: %C6KPWR-SP-4-UNDERPOWERED: insufficient power to operate all FRUs in system. *Mar 3 06:43:26: %C6KPWR-SP-2-INSUFFICIENTPOWER: Powering down all linecards as there is not enough power to operate all critical cards *Mar 3 13:43:28: %SNMP-5-COLDSTART: SNMP agent on host M-19 is undergoing a cold start *Mar 3 06:43:26: %C6KENV-SP-4-FANHIOUTPUT: Version 2 high-output fan-tray is in effect *Mar 3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 1 power denied. *Mar 3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 2 power denied. *Mar 3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 3 power denied. *Mar 3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 4 power denied. *Mar 3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 6 power denied.
Поставили в шасси другой блок питания вместо сбойных и 7606 заработала. Полшестого утра, пойду посплю немного.
no subject
no subject
no subject
no subject
Достоверно неизвестно. Предположительно, проглючил один из упсов, от чего один из двух БП сдох, 7606 мгновенно перекинула всю нагрузку на второй БП, который этого не выдержал. Оба БП в составе бандла были куплены новыми 9 лет назад и с тех пор не менялись.
no subject
Раз в 3 месяца планово тестировать железо.
Поочередное отключение питания к каждому БП - одно из них.
Предусмотреть резервирование N+1, а отдельных узлов и железок до N+2.
no subject
no subject
Тут (http://forum.nag.ru/forum/index.php?showtopic=93115) целая дискуссия о проблеме.
no subject
no subject
У меня в 65ой так умирал фан-2, т.е. он не выключался, но шасси считало что он фан-1 и оба супа уходили в rommon. Забавняшка.