Pular para o conteúdo
Visualizando 10 posts - 1 até 10 (de 10 do total)
  • Autor
    Posts
  • #95049
    antonioDBA
    Participante

      Graça e Paz a Todos!

      Gostaria de compartilhar com vocês um problema que venho enfrentando há um certo tempo em meu ambiente Oracle RAC: HEARTBEAT.

      Ex.:

      WARNING: clssnmPollingThread: node orarac4 (4) at 50% heartbeat fatal, eviction in 13.740 seconds
      WARNING: clssnmPollingThread: node orarac1 (1) at 75% heartbeat fatal, eviction in 7.140 seconds
      WARNING: clssnmPollingThread: node orarac3 (3) at 75% heartbeat fatal, eviction in 7.470 seconds
      WARNING: clssnmPollingThread: node orarac1 (1) at 75% heartbeat fatal, eviction in 6.150 seconds
      WARNING: clssnmPollingThread: node orarac3 (3) at 75% heartbeat fatal, eviction in 6.480 seconds
      WARNING: clssnmPollingThread: node orarac4 (4) at 75% heartbeat fatal, eviction in 6.740 seconds

      – Vale ressaltar que este warning sempre é registrado no arquivo OCSSD.LOG após o reboot do nó.
      – Já abri chamado com o suporte da Oracle, entretanto, a 1 mês não deram seu diagnóstico sobre o ocorrido.
      – Entrei em contato com alguns Dba’s mais experientes, me sugeriram alterar os parâmetros disktimeout e misccount, entretanto, a oracle não recomanda o tal procedimento.
      – Suspeitamos que poderia ser algum problema com o S.O. (RH 5) ou Switch, agora é evidente que é um problema de comunicação entre os nós.

      Obs.:Só a título de conhecimento, o meu ambiente é constituído por:
      ORACLE RAC 11g (4 NÓS) + STORAGE DELL (ASM) + S.O.: RED HAT 5.4.

      * Então gostaria de saber se alguém já passou por este tipo de problema e como conseguiu sanar o mesmo?

      #95050
      vieri
      Participante

        Não existe nenhum problema com o heartbeat.

        Ele está fazendo seu trabalho que é verificar a integridade e comunicação com as instâncias com compoem o cluster, e graças a ele o seu node está reiniciando, ele poderia se corromper se não reiniciasse… isso é uma defesa do cluster que pede pro S.O dar um tiro na testa do node problemático.

        Esse “tiro” é chamado de “node eviction”, vc não tem que pesquisar como evitar do node reiniciar isso é apenas consequencia de um problema
        que está ocorrendo, o máximo que irá conseguir será prolongar o tempo que ele espera para dar o boot, e em outra config do S.O irá conseguir que ele não reinicie, mas não é nada recomendável.

        Para inicio de conversa, análise todos os log’s do servidor que é reiniciado e ve oque encontra de anormal.

        Log do S.O /var/messages
        Log da instância ALErt
        Log do ASM
        Log do Cluster

        E da um top ou sar, e verifique os wait’s na instância que reinicia,
        antes dele reiniciar.

        #95075
        vieri
        Participante

          postreply ?? where??
          rs..

          #95112
          antonioDBA
          Participante

            Vieri, inicialmente gostaria de lhe agradecer pela atenção e ajuda!

            • Em relação a sua posição sobre o problema: Na verdade o que me deixava intrigado é que todos os logs que você mencionou (Log do S.O, /var/messages, Log da instância Alert, Log do ASM, Log do Cluster) eu já havia analisado e os mesmos se encontravam sem logs de falha ou erros de banco. Como mencionei no post inicial, apenas o log do OCSSD.log que indicava um warning de Heartbeat.
            • Entretanto esta semana, começou a ser gerado um log no messages com o seguinte erro:

            Jul 19 08:09:01 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052452 should have started at 564052093
            Jul 19 08:09:01 orarac1 iscsid: connect to 192.168.131.102:3260 failed (No route to host) * IP DA STORAGE ASM
            Jul 19 08:09:01 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 400 ms (> 10 ms) (GSource: 0x39598c60)
            Jul 19 08:09:01 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request was delayed 3590 ms (> 500 ms) before being called (GSource: 0x396760b0)
            Jul 19 08:09:01 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052492 should have started at 564052133
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 400 ms (> 10 ms) (GSource: 0x396760b0)
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request was delayed 3580 ms (> 500 ms) before being called (GSource: 0x39676170)
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052532 should have started at 564052174
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 400 ms (> 10 ms) (GSource: 0x39676170)
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request was delayed 3580 ms (> 500 ms) before being called (GSource: 0x39676230)
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052572 should have started at 564052214
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 400 ms (> 10 ms) (GSource: 0x39676230)
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request was delayed 3580 ms (> 500 ms) before being called (GSource: 0x396762f0)
            Jul 19 08:09:02 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052612 should have started at 564052254
            Jul 19 08:09:03 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 410 ms (> 10 ms) (GSource: 0x396762f0)
            Jul 19 08:09:03 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for send local status was delayed 2830 ms (> 510 ms) before being called (GSource: 0x1ed323e0)
            Jul 19 08:09:03 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052653 should have started at 564052370
            Jul 19 08:09:03 orarac1 heartbeat: [5729]: ERROR: Message hist queue is filling up (500 messages in queue)

            • E no CRSD.LOG
              2010-07-19 08:15:25.391: [ OCRSRV][1253566784]th_select_handler: Retrieved procctx from ht. constr = [-1406092512] retval lht [1] Wait for disconnect processing to complete on prev client.
          • Os demais estão limpos.

          • Você já teve esse tipo de problema em seu ambiente? Alguma sugestão?

          • Muito obrigado!

          #95117
          vieri
          Participante

            Nunva vi esse erro mas me parece que o ASM perdeu conexão com
            a storage… pode ser problema físico.
            Oque aparece no alert e no log do asm dessa instance??

            #95123
            antonioDBA
            Participante

              Vieri, segue os log’s:

              NOTE: ASM client CAMP11:CAMP1 died unexpectedly.

              NOTE: Process state recorded in trace file /ora01/app/oracle/diag/asm/+asm/+ASM1/trace/+ASM1_ora_11363.trc

              Trace dumping is performing id=[cdmp_20100719080654]

              Starting background process ASMB

              ASMB started with pid=22, OS id=9533

              NOTE: ASMB process exiting due to lack of ASM file activity for 7 seconds

              • Log do Alert:

                LMD0 (ospid: 11325): terminating the instance due to error 482

                System state dump is made for local instance

                ORA-1092 : opitsk aborting process

                License high water mark = 24

                Termination issued to instance processes. Waiting for the processes to exit

                Instance termination failed to kill one or more processes

                Exception [type: SIGSEGV, Address not mapped to object] [ADDR:0x4CD0] [PC:0x44CAB0F, kewa_dump_time_diff()+157]

                Errors in file /ora01/app/oracle/diag/rdbms/camp1/CAMP11/trace/CAMP11_ora_8842.trc (incident=1118529):
                ORA-07445: exception encountered: core dump [kewa_dump_time_diff()+157] [SIGSEGV] [ADDR:0x4CD0] [PC:0x44CAB0F] [Address not mapped to object] []

              Você acredita que seja algum problema físico? Em qual componente?

              #95183
              vieri
              Participante

                /ora01/app/oracle/diag/asm/+asm/+ASM1/trace/+ASM1_ora_11363.trc

                verificou oque tem nesse trace?

                Componente de Rede:placas de redes do server, cabeamento, HBA.
                Pede para alguem de redes fazer um check desses componentes.

                #95209
                vieri
                Participante

                  E ai conseguiu resolver ?

                  #95234
                  antonioDBA
                  Participante

                    Então vieri, até agora a única coisa anormal que descobrimos é que a versão instalada do Heartbeat não é a indicada pela Red Hat. Iremos fazer a atualização e depois eu posto se sanou o problema.

                    Muito obrigado!

                    #95248
                    vieri
                    Participante

                      Dificil ser isso hein..rs

                      mas tudo bem!

                      Good luck!

                      []s

                      Visualizando 10 posts - 1 até 10 (de 10 do total)
                      • Você deve fazer login para responder a este tópico.