Pular para o conteúdo
Visualizando 14 posts - 1 até 14 (de 14 do total)
  • Autor
    Posts
  • #93958
    invoid
    Participante

      Pessoal, estou com um problema estranho.

      Ontem removi um nó do RAC segundo a documentação da Oracle. Começamos a notar problemas com o cluster. Depois de muito averiguar, descobri que, não sei pq, alguns diretórios foram removidos em todos os nós nesta operação. Peguei um Clusterware Home que ainda estava compactado lá e restaurei. Voltou ao ar.

      Porém hoje recebi uma ligação do cliente informando que os usuários estão com intermitência nas conexões com uma das instâncias que estão no RAC. A outra instância está ok.

      Nos meus testes, notei:

      Nó 1: conecta normalmente
      Nó 2: Apresenta o erro ORA-12545

      Alguém tem idéia do que seja?

      Aproveitando, alguém sabe como eu posso fazer para saber se o nó dois tenta redirecionar a conexão para o outro nó? Teria como eu traçar esse caminho aí?

      Abraços!

      #93961
      VitorLeandro
      Participante

        Amigo,

        Sempre tinha esse problema após fazer o restart de algum nó no RAC. Eu primeiramente efetuaria o restart do serviço que roda no nó 2.

        Restart do Listner.

        Se mesmo assim não funcionar, crie em uma maquina qualquer um alias no tnsnames apontando apenas para o nó 2, com o failover e load balance OFF. Daí vc tenta conectar utulizando esse alias..

        Verifique os servicos do cluster…
        crsctl -a

        • Restart do servico (Deve existir um servico que aponta apenas para esse nó?)
          srvctl stop service -d -s
          srvctl start service -d -s
        #93963
        invoid
        Participante

          Vitor, rolou !! Só o restart do serviço lsnr fez voltar ao normal (aparentemente). Agora, você já conseguiu algum indício do por que isto ocorre? Gostaria de desvendar este mistério. Para mim (e para o cliente) a causa é muito importante também!

          Abraços, e muito obrigado pelo apoio!

          André

          #93966
          VitorLeandro
          Participante

            Parece ser um problema na ordem de start dos serviços. Isso comigo ocorria em windows 2003, já em RAC, era fácil de arrumar com o oratab, criando uma rotina de start manualmente ou o Oracle Restart no caso do 11G.

            Qual a versão do banco e do S.O?

            #93967
            invoid
            Participante

              10.2.0.4 em SO RHEL 4

              Qual é a ordem correta? Verificarei aqui se está de acordo.

              Abraços!

              André

              #93969
              VitorLeandro
              Participante

                Eu faria da seguinte forma:

                1- Start do node apps (inclui Listner, VIP, gsd e ons)
                srvctl start nodeapps -n

                2- Start do ASM para cada nó…
                srvctl start asm -n

                3- Start das instancias..
                srvctl start instance -d -I

                4- Start do Service (TAF)
                srvctl start service -d -s
                “para todos os services ou .srv do crsstat”

                Nunca tive esse problema no 11G, devido ao Oracle Restart. Estude qual a maneira de start é a melhor para a sua situação (manual ou automatica)

                #93970
                invoid
                Participante

                  Alarme falso… O cliente me ligou informando que se enganaram, o problema continua ocorrendo. Já reiniciei alguns serviços, mas nada melhorou.

                  Alguma dica a mais?

                  #93971
                  VitorLeandro
                  Participante

                    Poste aí o resultado do crsstat…

                    #93972
                    invoid
                    Participante

                      O nó granada a instância está fora do ar propositadamente. Tenerife e Burela é quem devem estar on-line.

                      Tem abaixo alguns serviços offline, mas eles não estão sendo utilizados neste momento mesmo: mvhrsmrel, mvhrsmusr,mvheprel,mvhepusr.

                      A instancia ASM que está como “Unknown” eu não posso reiniciar agora. Porém, está funcionando bem, pois a instância mvhep4 está rodando normalmente.

                      Obs.: O problema só ocorre no banco mvhrsm, mvhep está tranquilíssimo!

                      Segue:

                      NAME=ora.burela.ASM3.asm
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.burela.LISTENER_BURELA.lsnr
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.burela.gsd
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.burela.ons
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.burela.vip
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.granada.ASM1.asm
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on granada

                      NAME=ora.granada.LISTENER_GRANADA.lsnr
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on granada

                      NAME=ora.granada.gsd
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on granada

                      NAME=ora.granada.ons
                      TYPE=application
                      TARGET=ONLINE
                      STATE=OFFLINE

                      NAME=ora.granada.vip
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on granada

                      NAME=ora.mvhep.db
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.mvhep.mvhep1.inst
                      TYPE=application
                      TARGET=OFFLINE
                      STATE=OFFLINE

                      NAME=ora.mvhep.mvhep3.inst
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.mvhep.mvhep4.inst
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on tenerife

                      NAME=ora.mvhep.mvheprel.cs
                      TYPE=application
                      TARGET=OFFLINE
                      STATE=OFFLINE

                      NAME=ora.mvhep.mvheprel.mvhep1.srv
                      TYPE=application
                      TARGET=OFFLINE
                      STATE=OFFLINE

                      NAME=ora.mvhep.mvhepusr.cs
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.mvhep.mvhepusr.mvhep3.srv
                      TYPE=application
                      TARGET=ONLINE
                      STATE=UNKNOWN on tenerife

                      NAME=ora.mvhep.mvhepusr.mvhep4.srv
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.mvhrsm.db
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.mvhrsm.mvhrsm1.inst
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on burela

                      NAME=ora.mvhrsm.mvhrsm2.inst
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on tenerife

                      NAME=ora.mvhrsm.mvhrsmusr.cs
                      TYPE=application
                      TARGET=OFFLINE
                      STATE=OFFLINE

                      NAME=ora.mvhrsm.mvhrsmusr.mvhrsm1.srv
                      TYPE=application
                      TARGET=OFFLINE
                      STATE=OFFLINE

                      NAME=ora.mvhrsm.mvhrsmusr.mvhrsm2.srv
                      TYPE=application
                      TARGET=OFFLINE
                      STATE=OFFLINE

                      NAME=ora.tenerife.ASM4.asm
                      TYPE=application
                      TARGET=ONLINE
                      STATE=UNKNOWN on tenerife

                      NAME=ora.tenerife.LISTENER_TENERIFE.lsnr
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on tenerife

                      NAME=ora.tenerife.gsd
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on tenerife

                      NAME=ora.tenerife.ons
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on tenerife

                      NAME=ora.tenerife.vip
                      TYPE=application
                      TARGET=ONLINE
                      STATE=ONLINE on tenerife

                      #93973
                      invoid
                      Participante

                        Esqueci de mencionar… O nó tenerife é que está “dando zica”.

                        Segue tb o resultado do lsnrctl status.

                        [oracle@tenerife ~]$ lsnrctl status

                        LSNRCTL for Linux: Version 10.2.0.4.0 – Production on 12-MAY-2010 12:23:32

                        Copyright (c) 1991, 2007, Oracle. All rights reserved.

                        Connecting to (ADDRESS=(PROTOCOL=tcp)(HOST=)(PORT=1521))

                        STATUS of the LISTENER

                        Alias LISTENER_TENERIFE
                        Version TNSLSNR for Linux: Version 10.2.0.4.0 – Production
                        Start Date 12-MAY-2010 10:32:06
                        Uptime 0 days 1 hr. 51 min. 26 sec
                        Trace Level off
                        Security ON: Local OS Authentication
                        SNMP OFF
                        Listener Parameter File /u01/db/oracle/product/10.2.0/db_1/network/admin/listener.ora
                        Listener Log File /u01/db/oracle/product/10.2.0/db_1/network/log/listener_tenerife.log
                        Listening Endpoints Summary…
                        (DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(KEY=EXTPROC1)))
                        (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=10.1.1.18)(PORT=1521)))
                        (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=10.1.1.11)(PORT=1521)))
                        Services Summary…
                        Service “+ASM” has 1 instance(s).
                        Instance “+ASM4”, status BLOCKED, has 1 handler(s) for this service…
                        Service “+ASM_XPT” has 1 instance(s).
                        Instance “+ASM4”, status BLOCKED, has 1 handler(s) for this service…
                        Service “PLSExtProc” has 1 instance(s).
                        Instance “PLSExtProc”, status UNKNOWN, has 1 handler(s) for this service…
                        Service “mvhep” has 2 instance(s).
                        Instance “mvhep3”, status READY, has 1 handler(s) for this service…
                        Instance “mvhep4”, status READY, has 2 handler(s) for this service…
                        Service “mvhep_XPT” has 2 instance(s).
                        Instance “mvhep3”, status READY, has 1 handler(s) for this service…
                        Instance “mvhep4”, status READY, has 2 handler(s) for this service…
                        Service “mvhepusr” has 1 instance(s).
                        Instance “mvhep3”, status READY, has 1 handler(s) for this service…
                        Service “mvhrsm” has 2 instance(s).
                        Instance “mvhrsm1”, status READY, has 1 handler(s) for this service…
                        Instance “mvhrsm2”, status READY, has 2 handler(s) for this service…
                        Service “mvhrsm_XPT” has 2 instance(s).
                        Instance “mvhrsm1”, status READY, has 1 handler(s) for this service…
                        Instance “mvhrsm2”, status READY, has 2 handler(s) for this service…
                        The command completed successfully

                        #93974
                        vieri
                        Participante

                          Eu uma vez realizei esse procedimento de remove node do metalink,
                          sinceramente acho que ai está o problema…
                          Esse procedimento executa diversos scripts que vc passa
                          apenas o node como parâmetro e remove diversas configs,
                          tanto do RAC como do seu node. O fato de vc voltar um backup
                          do home do seu cluster não garante que todas suas config’s deste node estejam corretas como antes.

                          Algum arquivo de config não está com o endereço Publico,vip ou privado
                          setado corretamente e/ou tnsnames.

                          12545, 00000, “Connect failed because target host or object does not exist”
                          // *Cause: The address specified is not valid, or the program being
                          // connected to does not exist.
                          // *Action: Ensure the ADDRESS parameters have been entered correctly; the
                          // most likely incorrect parameter is the node name. Ensure that the
                          // executable for the server exists (perhaps “oracle” is missing.)
                          // If the protocol is TCP/IP, edit the TNSNAMES.ORA file to change the
                          // host name to a numeric IP address and try again.

                          Pegue a documentação de criação desse Nó caso ela exista e faça uma revisão geral em todos arquivos de configuração do cluster,
                          pode fazer um batimento com os outros nodes também.
                          Eu seguiria essa linha, caso não resolvesse, removeria novamente esse nó, re-instalaria esse node problemático e adicionaria novamente no cluster.

                          #93975
                          VitorLeandro
                          Participante

                            É, bem complexo esse tanto de serviços não utilizados.

                            Por uma máquina qualquer, insira um alias no tnsnames.ora apntando para o sid do servidor mvhep3. Dessa forma, a conexão nao fará acesso via service, mas pelo sid da instancia. Daí vc vai ver se conecta ou nao!
                            ou
                            system@(DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=)(PORT=1521))(CONNECT_DATA =(SID =
                            sid do mvhep3))

                            Desse jeito, você conecta diretamente na instancia.

                            Reparei o serviço
                            ora.mvhep.mvhepusr.mvhep3.srv, que está UNKNOWN. Pode ser isso. Você pode desativar e ativar este serviço?

                            NAME=ora.mvhep.mvhepusr.mvhep3.srv TYPE=application TARGET=ONLINE STATE=UNKNOWN on tenerife

                            [/quote]

                            #93976
                            invoid
                            Participante

                              Eu já estou querendo partir para esta linha, vieri, de remover e reinserir os nós. O home que eu restaurei é antigo realmente, e não deve contemplar algumas alterações.

                              Estou tentando pelo menos dar uma estabilizada, mesmo que conectando em apenas um nó, para depois fazer este procedimento.

                              Vitor,

                              Eu preparei estes serviços para serem utilizados mas o cliente ainda não configurou o tnsnames.ora dos usuários para tal. Ninguém o utiliza ainda, mas provavelmente quando estabilizar estes problemas começarão a usá-lo.

                              Atualmente eu fiz esta alteração do tnsnames.ora para pelo menos acabar os telefonemas dos usuários até traçar uma estratégia. Percebi, inclusive, que desta forma ambos os nós funcionam bem!

                              #93977
                              invoid
                              Participante

                                Só complementando… Utilizei o parametro INSTANCE_NAME=mvhrsm1 para selecionar a instância. Funcionou legal até agora.

                              Visualizando 14 posts - 1 até 14 (de 14 do total)
                              • Você deve fazer login para responder a este tópico.