c
       program pwave3
c
cc     pwave3.f  main program of 3-dimensional wave equtaion
c      modified leap-frog method  1991.12.14
       parameter(npe=2)
!xocl processor pe(npe)
       parameter(nx=100,ny=100,nz=100)
       parameter(nb=4,iip0=8,iiq0=1,iir0=1,last=4)
       parameter(nx1=nx+1,nx2=nx+2,ny1=ny+1,ny2=ny+2)
       parameter(nz1=nz+1,nz2=nz+2)
       parameter(n1=nx2,n2=n1*ny2,n3=n2*nz2,noinp=30)
       parameter(n4=n3*nb)
       parameter(thx=0.5,tam=0.5,vis0=0.10)
!xocl index partition ind=(pe,index=1:nz2,part=band)
!xocl index partition indo=(pe,index=1:nz2,part=band,overlap=(1,1))
c
       real*8 f(nx2,ny2,nz2,nb),u(nx2,ny2,nz2,nb)
       real*8 gf(nx2,ny2,nz2,nb),gu(nx2,ny2,nz2,nb)
       real*8 v(nx2,ny2,nz2,nb),p(nb)
       real*8 gv(nx2,ny2,nz2,nb)
       dimension ppin(10)
       real*8 zt0,zt1,zt2,zt
!xocl local f(:,:,/indo,:),u(:,:,/indo,:),v(:,:,/indo,:)
!xocl global gf,gu,gv
       equivalence (gf,f),(gu,u),(gv,v)
       common /blk/gf
c
c           ppin xl   yl   zl   dxl  dyl  dzl  dn  dv   9  10
       data ppin/62.0,62.0,62.0,10.0,10.0,10.0,1.0,0.0, 9, 10/
c
!xocl parallel region
c
       xl=ppin(1)
       yl=ppin(2)
       zl=ppin(3)
       dxl=ppin(4)
       dyl=ppin(5)
       dzl=ppin(6)
       dn=ppin(7)
       dv=ppin(8)
       vis=vis0
c
       hx=xl/float(nx1)
       hy=yl/float(ny1)
       hz=zl/float(nz1)
       t1=thx*hx
       dx1=0.5*t1/hx
       dy1=0.5*t1/hy
       dz1=0.5*t1/hz
       dx2=vis*0.50*(t1/hx)**2
       dy2=vis*0.50*(t1/hy)**2
       dz2=vis*0.50*(t1/hz)**2
c
c      initial parameters
c
       write(6,122) nx,ny,nz,last,nx2,ny2,nz2
       write(6,124) t1,hx,hy,hz,dx1,dy1,dz1
  122  format(1h ,10i8)
  124  format(1h ,8(1pe10.3))
c
c      initial conditions
       call ainit1(ppin)
c
c      start of calculation
       call clock(zt0)
c
       do 500 ii=1,last
       call clock(zt1)
       do 300 iir=1,iir0
       do 200 iiq=1,iiq0
       do 100 iip=1,iip0
!xocl overlapfix(f) (id)
!xocl movewait (id)
c
c      boundary conditions
c
       do 20 m=1,nb
!xocl spread do /ind
       do 24 k=2,nz1
       do 24 j=2,ny1
       f(1,j,k,m)=f(nx1,j,k,m)
       f(nx2,j,k,m)=f(2,j,k,m)
   24 continue
!xocl end spread
!xocl spread do /ind
       do 22 k=2,nz1
       do 22 i=1,nx2
       f(i,1,k,m)=f(i,ny1,k,m)
       f(i,ny2,k,m)=f(i,2,k,m)
   22  continue
!xocl end spread
!xocl spread move /indo,:,:
       do 26 k=1,1
       do 26 j=1,ny2
       do 26 i=1,nx2
c      f(i,j,1,m)=gf(i,j,nz1,m)
c      f(i,j,nz2,m)=gf(i,j,2,m)
       f(i,j,k,m)=gf(i,j,k+nz,m)
   26  continue
!xocl end spread(id)
!xocl movewait(id)
!xocl spread move /indo,:,:
       do 28 k=nz2,nz2
       do 28 j=1,ny2
       do 28 i=1,nx2
c      f(i,j,1,m)=gf(i,j,nz1,m)
c      f(i,j,nz2,m)=gf(i,j,2,m)
       f(i,j,k,m)=gf(i,j,k-nz,m)
   28  continue
!xocl end spread(id)
!xocl movewait(id)
   20  continue
c
!xocl overlapfix(f) (id)
!xocl movewait (id)
c
c      case of iip=1  2-step Lax-Wendroff method
       if(iip.eq.1) then
       t=0.5*t1
       dx=0.5*dx1
       dy=0.5*dy1
       dz=0.5*dz1
!xocl spread do /ind
       do 32 k=1,nz1
       do 32 m=1,nb
       do 32 j=1,ny1
       do 32 i=1,nx1
       u(i,j,k,m)=0.125*(f(i,j,k,m)+f(i+1,j,k,m)+
     1            f(i,j+1,k,m)+f(i+1,j+1,k,m)+
     2            f(i,j,k+1,m)+f(i+1,j,k+1,m)+
     3            f(i,j+1,k+1,m)+f(i+1,j+1,k+1,m))
   32  continue
!xocl end spread
c
       else
       t=t1
       dx=dx1
       dy=dy1
       dz=dz1
       endif
c
!xocl overlapfix(f,u) (id)
!xocl movewait (id)
c
c      first step
c
!xocl spread do /ind
       do 40 k=1,nz1
       do 40 j=1,ny1
       do 40 i=1,nx1
c
       p(1)=0.125*(f(i,j,k,1)+f(i+1,j,k,1)+
     1      f(i,j+1,k,1)+f(i+1,j+1,k,1)+
     2      f(i,j,k+1,1)+f(i+1,j,k+1,1)+
     3      f(i,j+1,k+1,1)+f(i+1,j+1,k+1,1))
       p(2)=0.125*(f(i,j,k,2)+f(i+1,j,k,2)+
     1      f(i,j+1,k,2)+f(i+1,j+1,k,2)+
     2      f(i,j,k+1,2)+f(i+1,j,k+1,2)+
     3      f(i,j+1,k+1,2)+f(i+1,j+1,k+1,2))
       p(3)=0.125*(f(i,j,k,3)+f(i+1,j,k,3)+
     1      f(i,j+1,k,3)+f(i+1,j+1,k,3)+
     2      f(i,j,k+1,3)+f(i+1,j,k+1,3)+
     3      f(i,j+1,k+1,3)+f(i+1,j+1,k+1,3))
       p(4)=0.125*(f(i,j,k,4)+f(i+1,j,k,4)+
     1      f(i,j+1,k,4)+f(i+1,j+1,k,4)+
     2      f(i,j,k+1,4)+f(i+1,j,k+1,4)+
     3      f(i,j+1,k+1,4)+f(i+1,j+1,k+1,4))
c
       u(i,j,k,1)=u(i,j,k,1)
     1   -dx*(f(i+1,j+1,k+1,2)+f(i+1,j,k+1,2)
     2       -f(i,j+1,k+1,2)-f(i,j,k+1,2)
     3       +f(i+1,j+1,k,2)+f(i+1,j,k,2)
     4       -f(i,j+1,k,2)-f(i,j,k,2))
     5   -dy*(f(i+1,j+1,k+1,3)-f(i+1,j,k+1,3)
     6       +f(i,j+1,k+1,3)-f(i,j,k+1,3)
     7       +f(i+1,j+1,k,3)-f(i+1,j,k,3)
     8       +f(i,j+1,k,3)-f(i,j,k,3))
     1   -dz*(f(i+1,j+1,k+1,4)+f(i+1,j,k+1,4)
     2       +f(i,j+1,k+1,4)+f(i,j,k+1,4)
     3       -f(i+1,j+1,k,4)-f(i+1,j,k,4)
     4       -f(i,j+1,k,4)-f(i,j,k,4))
       u(i,j,k,2)=u(i,j,k,2)
     1   -dx*(f(i+1,j+1,k+1,1)+f(i+1,j,k+1,1)
     2       -f(i,j+1,k+1,1)-f(i,j,k+1,1)
     3       +f(i+1,j+1,k,1)+f(i+1,j,k,1)
     4       -f(i,j+1,k,1)-f(i,j,k,1))
       u(i,j,k,3)=u(i,j,k,3)
     1   -dy*(f(i+1,j+1,k+1,1)-f(i+1,j,k+1,1)
     2       +f(i,j+1,k+1,1)-f(i,j,k+1,1)
     3       +f(i+1,j+1,k,1)-f(i+1,j,k,1)
     4       +f(i,j+1,k,1)-f(i,j,k,1))
       u(i,j,k,4)=u(i,j,k,4)
     1   -dz*(f(i+1,j+1,k+1,1)+f(i+1,j,k+1,1)
     2       +f(i,j+1,k+1,1)+f(i,j,k+1,1)
     3       +f(i+1,j+1,k,1)+f(i+1,j,k,1)
     4       +f(i,j+1,k,1)+f(i,j,k,1))
c
   40  continue
!xocl end spread
c
!xocl overlapfix(u) (id)
!xocl movewait (id)
c
c      preparation of second step
c      second step
c
!xocl spread do /ind
       do 62 k=1,nz2
       do 62 m=1,nb
       do 62 j=1,ny2
       do 62 i=1,nx2
       v(i,j,k,m)=f(i,j,k,m)
   62  continue
!xocl end spread
c
!xocl overlapfix(v) (id)
!xocl movewait (id)
c
!xocl spread do /ind
       do 60 k=2,nz1
       do 60 j=2,ny1
       do 60 i=2,nx1
c
       p(1)=0.125*(u(i,j,k,1)+u(i-1,j,k,1)+
     1      u(i,j-1,k,1)+u(i-1,j-1,k,1)+
     2      u(i,j,k-1,1)+u(i-1,j,k-1,1)+
     3      u(i,j-1,k-1,1)+u(i-1,j-1,k-1,1))
       p(2)=0.125*(u(i,j,k,2)+u(i-1,j,k,2)+
     1      u(i,j-1,k,2)+u(i-1,j-1,k,2)+
     2      u(i,j,k-1,2)+u(i-1,j,k-1,2)+
     3      u(i,j-1,k-1,2)+u(i-1,j-1,k-1,2))
       p(3)=0.125*(u(i,j,k,3)+u(i-1,j,k,3)+
     1      u(i,j-1,k,3)+u(i-1,j-1,k,3)+
     2      u(i,j,k-1,3)+u(i-1,j,k-1,3)+
     3      u(i,j-1,k-1,3)+u(i-1,j-1,k-1,3))
       p(4)=0.125*(u(i,j,k,4)+u(i-1,j,k,4)+
     1      u(i,j-1,k,4)+u(i-1,j-1,k,4)+
     2      u(i,j,k-1,4)+u(i-1,j,k-1,4)+
     3      u(i,j-1,k-1,4)+u(i-1,j-1,k-1,4))
c
       f(i,j,k,1)=f(i,j,k,1)
     1   -dx1*(u(i,j,k,2)+u(i,j-1,k,2)
     2        -u(i-1,j,k,2)-u(i-1,j-1,k,2)
     3        +u(i,j,k-1,2)+u(i,j-1,k-1,2)
     4        -u(i-1,j,k-1,2)-u(i-1,j-1,k-1,2))
     5   -dy1*(u(i,j,k,3)-u(i,j-1,k,3)
     6        +u(i-1,j,k,3)-u(i-1,j-1,k,3)
     7        +u(i,j,k-1,3)-u(i,j-1,k-1,3)
     8        +u(i-1,j,k-1,3)-u(i-1,j-1,k-1,3))
     1   -dz1*(u(i,j,k,4)+u(i,j-1,k,4)
     2        +u(i-1,j,k,4)+u(i-1,j-1,k,4)
     3        -u(i,j,k-1,4)-u(i,j-1,k-1,4)
     4        -u(i-1,j,k-1,4)-u(i-1,j-1,k-1,4))
     5   +dx2*(v(i-1,j,k,1)-2.0*v(i,j,k,1)+v(i+1,j,k,1))
     6   +dy2*(v(i,j+1,k,1)-2.0*v(i,j,k,1)+v(i,j-1,k,1))
     7   +dz2*(v(i,j,k+1,1)-2.0*v(i,j,k,1)+v(i,j,k-1,1))
       f(i,j,k,2)=f(i,j,k,2)
     1   -dx1*(u(i,j,k,1)+u(i,j-1,k,1)
     2        -u(i-1,j,k,1)-u(i-1,j-1,k,1)
     3        +u(i,j,k-1,1)+u(i,j-1,k-1,1)
     4        -u(i-1,j,k-1,1)-u(i-1,j-1,k-1,1))
     5   +dx2*(v(i-1,j,k,2)-2.0*v(i,j,k,2)+v(i+1,j,k,2))
     6   +dy2*(v(i,j+1,k,2)-2.0*v(i,j,k,2)+v(i,j-1,k,2))
     7   +dz2*(v(i,j,k+1,2)-2.0*v(i,j,k,2)+v(i,j,k-1,2))
       f(i,j,k,3)=f(i,j,k,3)
     1   -dy1*(u(i,j,k,1)-u(i,j-1,k,1)
     2        +u(i-1,j,k,1)-u(i-1,j-1,k,1)
     3        +u(i,j,k-1,1)-u(i,j-1,k-1,1)
     4        +u(i-1,j,k-1,1)-u(i-1,j-1,k-1,1))
     5   +dx2*(v(i-1,j,k,3)-2.0*v(i,j,k,3)+v(i+1,j,k,3))
     6   +dy2*(v(i,j+1,k,3)-2.0*v(i,j,k,3)+v(i,j-1,k,3))
     7   +dz2*(v(i,j,k+1,3)-2.0*v(i,j,k,3)+v(i,j,k-1,3))
       f(i,j,k,4)=f(i,j,k,4)
     1   -dz1*(u(i,j,k,1)+u(i,j-1,k,1)
     2        +u(i-1,j,k,1)+u(i-1,j-1,k,1)
     3        -u(i,j,k-1,1)-u(i,j-1,k-1,1)
     4        -u(i-1,j,k-1,1)-u(i-1,j-1,k-1,1))
     5   +dx2*(v(i-1,j,k,4)-2.0*v(i,j,k,4)+v(i+1,j,k,4))
     6   +dy2*(v(i,j+1,k,4)-2.0*v(i,j,k,4)+v(i,j-1,k,4))
     7   +dz2*(v(i,j,k+1,4)-2.0*v(i,j,k,4)+v(i,j,k-1,4))
c
   60  continue
!xocl end spread
c
c      end of 1 time step advance
c
  100  continue
  200  continue
  300  continue
c
       call clock(zt2)
       zt1=zt1-zt0
       zt2=zt2-zt0
       zt=zt2-zt1
       write(6,402) ii,zt0,zt1,zt2,zt
  402  format(1h , i6,1pe12.3,3(0pf12.5))
c
c      write the output data
c
  500  continue
    9  continue
!xocl end parallel
c
       stop
       end
       subroutine clock(ti)
       real*8 ti,ti1
       ti=1.0d0
       ti1=1.0d0
       call gettod(ti1)
       ti=1.0d-6*ti1
c      x=0.0
c      y=secnds(x)
c      ti=1.0d0*y
       return
       end
       subroutine ainit1(ppin)
       parameter(npe=2)
!xocl processor pe(npe)
!xocl subprocessor pes(npe)=pe(1:npe)
       parameter(nx=100,ny=100,nz=100)
       parameter(nb=4,iip0=8,iiq0=1,iir0=1,last=4)
       parameter(nx1=nx+1,nx2=nx+2,ny1=ny+1,ny2=ny+2)
       parameter(nz1=nz+1,nz2=nz+2)
       parameter(n1=nx2,n2=n1*ny2,n3=n2*nz2,noinp=30)
       parameter(n4=n3*nb)
!xocl index partition ind=(pes,index=1:nz2,part=band)
!xocl index partition indo=(pes,index=1:nz2,part=band,overlap=(1,1))
c
       real*8 f(nx2,ny2,nz2,nb)
       real*8 gf(nx2,ny2,nz2,nb)
       dimension ppin(10)
!xocl local f(:,:,/indo,:)
!xocl global gf
       equivalence (gf,f)
       common /blk/gf
c
!xocl overlapfix(f) (id)
!xocl movewait (id)
c
       xl=ppin(1)
       yl=ppin(2)
       zl=ppin(3)
       dxl=ppin(4)
       dyl=ppin(5)
       dzl=ppin(6)
       dn=ppin(7)
       dv=ppin(8)
       hx=xl/float(nx1)
       hy=yl/float(ny1)
       hz=zl/float(nz1)
c
!xocl spread do /ind
       do 10 k=1,nz2
       z=0.5*hz*(2*k-nz2-1)
       do 10 j=1,ny2
       y=0.5*hy*(2*j-ny2-1)
       do 10 i=1,nx2
       x=0.5*hx*(2*i-nx2-1)
       dn1=0.0
       dv1=0.0
       ax1=sqrt(x*x+y*y+z*z)
       if(ax1.le.dxl) dn1=dn
       f(i,j,k,1)=dn1
       f(i,j,k,2)=0.0
       f(i,j,k,3)=0.0
       f(i,j,k,4)=0.0
   10  continue
!xocl end spread
       return
       end