Re: Oracle home headscratcher

  • From: Chris Taylor <christopherdtaylor1994@xxxxxxxxx>
  • To: cjnewman@xxxxxxxxxxxxx
  • Date: Tue, 18 Feb 2020 21:32:06 -0600

1.  Check the mount options on the node where that home is bad vs other,
good homes (assuming the homes might be different filesystems)

2. Check the sticky bits on the binaries to verify that home matches
($OH/bin/oracle $OH/bin/tns* ) other home binaries

3. Check the IDs of the binaries against the Oracle id (look for mismatches
between group/owner IDs)

4. Do you use any kind of network authentication where groups come from
directory client or anything?

Chris


On Tue, Feb 18, 2020, 8:41 PM Newman, Christopher <cjnewman@xxxxxxxxxxxxx>
wrote:

Yes, that didn’t turn up much.  Unfortunately we’ve rebooted the server
(thankfully DEV) and the problem has gone away.



What we did notice is that the shutdown scripts, which include sqlplus
calls to shutdown each database, worked fine.  That script was called by
root of course, so now we’re thinking it’s something to do with the oracle
user and either a permission or resource issue.





*From:* William Beldman <wbeldma@xxxxxx>
*Sent:* Tuesday, February 18, 2020 8:17 PM
*To:* Newman, Christopher <cjnewman@xxxxxxxxxxxxx>; oracle-l@xxxxxxxxxxxxx
*Subject:* RE: Oracle home headscratcher



Can you run truss against sqlplus/tnsping/etc. to figure out what it’s
doing over the course of those 10 minutes?



*From:* oracle-l-bounce@xxxxxxxxxxxxx <oracle-l-bounce@xxxxxxxxxxxxx> *On
Behalf Of *Newman, Christopher
*Sent:* February 18, 2020 6:38 PM
*To:* oracle-l@xxxxxxxxxxxxx
*Subject:* Oracle home headscratcher



Hi All,



We’ve got multiple Oracle homes on a Solaris 11.4 server (T8 SPARC).  We
are having issues with a single home (12.2.0.1), while others are fine
(19.5, a different 12.2.0.1 home).  We haven’t seen this problem on any
other hosts, and no known modifications to the environment happened prior
to the behavior we’re seeing.



Sqlplus appears to hang, but does eventually connect (by eventually, I’m
talking 10+ minutes, and a local connection).

This behavior extends to tnsping (times out, we traced but didn’t get
much), but running opatch for example, is not affected.

Standby database on the system fall behind.

External connections to databases are not impacted; only attempting to run
the binaries locally from the problematic home exhibit the symptoms.



Our only clue on the host  is very high utilization of our /u01 mount
point, but so far our Unix crew hasn’t been able to isolate which process
is driving the IO.



Yesterday, on a whim we switched the problematic Oracle home permissions
to 755 (from 700), and things “magically” worked and IO plummeted instantly.



Today, we switched back to 700 to see if we could break thing again; we
did.  However in this second case, chmod’ing the problematic home back to
755 had zero effect and the hanging behavior persists.



Any thoughts on what to look at next?  Again, the problem is isolated to
just this single home.



Thanks- Chris

Other related posts: