docs/html.1.3.x/BGQ_2fopr__Wilson__General__impl__thread_8cpp_source.html

 #include "fopr_Wilson_General_impl.h"


 #include "threadManager_OpenMP.h"


 #if defined USE_GROUP_SU3

 #include "fopr_Wilson_impl_SU3.inc"

 #elif defined USE_GROUP_SU2

 #include "fopr_Wilson_impl_SU2.inc"

 #elif defined USE_GROUP_SU_N

 #include "fopr_Wilson_impl_SU_N.inc"

 #endif


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::setup_thread()

 {

   m_Nthread = ThreadManager_OpenMP::get_num_threads_available();


   // The following setup corresponds to unifirm division of volume.

   if (m_Nthread <= m_Nt) {

     m_Ntask_t = m_Nthread;

   } else if (m_Nthread <= m_Nz * m_Nt) {

     m_Ntask_t = m_Nt;

   } else {

     vout.crucial(m_vl, "  Too large Nthread: %d\n", m_Nthread);

     exit(EXIT_FAILURE);

   }

   m_Ntask_z = m_Nthread / m_Ntask_t;

   if (m_Ntask_z * m_Ntask_t != m_Nthread) {

     vout.crucial(m_vl, "  Nz(%d) and Nt(%d) do not mach Nthread: %d\n",

                  m_Nz, m_Nt, m_Nthread);

     exit(EXIT_FAILURE);

   }

   m_Ntask = m_Ntask_t * m_Ntask_z;

   m_Mz    = m_Nz / m_Ntask_z;

   m_Mt    = m_Nt / m_Ntask_t;


   // The following setup is not monotonic division, and requires

   // barrier at the beginning and end of mult (D and gamma5).

   //                                    [H.Matsufuru 22 Oct 2013]

   //  if(m_Nthread >= 64){

   //    m_Ntask_z = 8;

   //  }else if(m_Nthread >= 16){

   //    m_Ntask_z = 4;

   //  }else if(m_Nthread >= 4){

   //    m_Ntask_z = 2;

   //  }else{

   //    m_Ntask_z = 1;

   //  }

   //  m_Ntask_t = m_Nthread/m_Ntask_z;

   //  m_Ntask = m_Ntask_t * m_Ntask_z;

   //  m_Mz = m_Nz/m_Ntask_z;

   //  m_Mt = m_Nt/m_Ntask_t;


   vout.general(m_vl, "  Nthread = %d\n", m_Nthread);

   vout.general(m_vl, "  Ntask   = %d\n", m_Ntask);

   vout.general(m_vl, "  Ntask_z = %d  Ntask_t = %d\n", m_Ntask_z, m_Ntask_t);

   vout.general(m_vl, "  Mz      = %d  Mt      = %d\n", m_Mz, m_Mt);


   // setup of arguments

   int Nxy = m_Nx * m_Ny;

   m_arg.resize(m_Ntask);

   for (int ith_t = 0; ith_t < m_Ntask_t; ++ith_t) {

     for (int ith_z = 0; ith_z < m_Ntask_z; ++ith_z) {

       int itask = ith_z + m_Ntask_z * ith_t;


       m_arg[itask].isite = (ith_z * m_Mz + ith_t * (m_Nz * m_Mt)) * Nxy;


       m_arg[itask].kt0 = 0;

       m_arg[itask].kt1 = 0;

       m_arg[itask].kz0 = 0;

       m_arg[itask].kz1 = 0;

       if (ith_t == 0) m_arg[itask].kt0 = 1;

       if (ith_z == 0) m_arg[itask].kz0 = 1;

       if (ith_t == m_Ntask_t - 1) m_arg[itask].kt1 = 1;

       if (ith_z == m_Ntask_z - 1) m_arg[itask].kz1 = 1;


       m_arg[itask].isite_cpx = itask * m_Mz * m_Mt * m_Ny;

       m_arg[itask].isite_cpy = itask * m_Mz * m_Mt * m_Nx;

       m_arg[itask].isite_cpz = ith_t * m_Mt * Nxy;

       m_arg[itask].isite_cpt = ith_z * m_Mz * Nxy;

     }

   }


   // setup for async data transfer

   int Nc    = CommonParameters::Nc();

   int Nd    = CommonParameters::Nd();

   int Nvcd2 = 2 * Nc * Nd / 2;


   std::vector<int> destid(m_Ntask);

   std::vector<int> offset(m_Ntask);

   std::vector<int> datasize(m_Ntask);

   std::vector<int> offset_up(m_Ntask);

   std::vector<int> offset_lw(m_Ntask);

   std::vector<int> datasize_up(m_Ntask);

   std::vector<int> datasize_lw(m_Ntask);


   int imu = 0;

   for (int ith_t = 0; ith_t < m_Ntask_t; ++ith_t) {

     for (int ith_z = 0; ith_z < m_Ntask_z; ++ith_z) {

       int itask    = ith_z + ith_t * m_Ntask_z;

       int isite_cp = itask * m_Mz * m_Mt * m_Ny;

       destid[itask]   = itask;

       offset[itask]   = sizeof(double) * Nvcd2 * isite_cp;

       datasize[itask] = sizeof(double) * Nvcd2 * m_Mz * m_Mt * m_Ny;

     }

   }

   m_bw_send[imu]->set_thread(m_Ntask, destid, offset, datasize);

   m_fw_send[imu]->set_thread(m_Ntask, destid, offset, datasize);

   m_bw_recv[imu]->set_thread(m_Ntask, destid, offset, datasize);

   m_fw_recv[imu]->set_thread(m_Ntask, destid, offset, datasize);


   imu = 1;

   for (int ith_t = 0; ith_t < m_Ntask_t; ++ith_t) {

     for (int ith_z = 0; ith_z < m_Ntask_z; ++ith_z) {

       int itask    = ith_z + ith_t * m_Ntask_z;

       int isite_cp = itask * m_Mz * m_Mt * m_Nx;

       destid[itask]   = itask;

       offset[itask]   = sizeof(double) * Nvcd2 * isite_cp;

       datasize[itask] = sizeof(double) * Nvcd2 * m_Mz * m_Mt * m_Nx;

     }

   }

   m_bw_send[imu]->set_thread(m_Ntask, destid, offset, datasize);

   m_fw_send[imu]->set_thread(m_Ntask, destid, offset, datasize);

   m_bw_recv[imu]->set_thread(m_Ntask, destid, offset, datasize);

   m_fw_recv[imu]->set_thread(m_Ntask, destid, offset, datasize);


   imu = 2;

   for (int ith_t = 0; ith_t < m_Ntask_t; ++ith_t) {

     for (int ith_z = 0; ith_z < m_Ntask_z; ++ith_z) {

       int itask = ith_z + m_Ntask_z * ith_t;

       destid[itask]      = -1;

       offset_up[itask]   = 0;

       offset_lw[itask]   = 0;

       datasize_up[itask] = 0;

       datasize_lw[itask] = 0;

       if (ith_z == 0) {

         destid[itask]      = (m_Ntask_z - 1) + ith_t * m_Ntask_z;

         offset_lw[itask]   = sizeof(double) * Nvcd2 * ith_t * m_Mt * m_Nx * m_Ny;

         datasize_lw[itask] = sizeof(double) * Nvcd2 * m_Mt * m_Nx * m_Ny;

       }

       if (ith_z == m_Ntask_z - 1) {

         destid[itask]      = ith_t * m_Ntask_z;

         offset_up[itask]   = sizeof(double) * Nvcd2 * ith_t * m_Mt * m_Nx * m_Ny;

         datasize_up[itask] = sizeof(double) * Nvcd2 * m_Mt * m_Nx * m_Ny;

       }

     }

   }

   m_bw_send[imu]->set_thread(m_Ntask, destid, offset_lw, datasize_lw);

   m_bw_recv[imu]->set_thread(m_Ntask, destid, offset_up, datasize_up);

   m_fw_send[imu]->set_thread(m_Ntask, destid, offset_up, datasize_up);

   m_fw_recv[imu]->set_thread(m_Ntask, destid, offset_lw, datasize_lw);


   imu = 3;

   for (int ith_t = 0; ith_t < m_Ntask_t; ++ith_t) {

     for (int ith_z = 0; ith_z < m_Ntask_z; ++ith_z) {

       int itask = ith_z + m_Ntask_z * ith_t;

       destid[itask]      = -1;

       offset_up[itask]   = 0;

       offset_lw[itask]   = 0;

       datasize_up[itask] = 0;

       datasize_lw[itask] = 0;

       if (ith_t == 0) {

         destid[itask]      = ith_z + (m_Ntask_t - 1) * m_Ntask_z;

         offset_lw[itask]   = sizeof(double) * Nvcd2 * ith_z * m_Mz * m_Nx * m_Ny;

         datasize_lw[itask] = sizeof(double) * Nvcd2 * m_Mz * m_Nx * m_Ny;

       }

       if (ith_t == m_Ntask_t - 1) {

         destid[itask]      = ith_z;

         offset_up[itask]   = sizeof(double) * Nvcd2 * ith_z * m_Mz * m_Nx * m_Ny;

         datasize_up[itask] = sizeof(double) * Nvcd2 * m_Mz * m_Nx * m_Ny;

       }

     }

   }

   m_bw_send[imu]->set_thread(m_Ntask, destid, offset_lw, datasize_lw);

   m_bw_recv[imu]->set_thread(m_Ntask, destid, offset_up, datasize_up);

   m_fw_send[imu]->set_thread(m_Ntask, destid, offset_up, datasize_up);

   m_fw_recv[imu]->set_thread(m_Ntask, destid, offset_lw, datasize_lw);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::daypx_thread(

   int itask, double *v2, double fac, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;

   int Nvxy = Nvcd * m_Nx * m_Ny;


   int isite = m_arg[itask].isite;


   const double *w1 = &v1[Nvcd * isite];

   double       *w2 = &v2[Nvcd * isite];


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ivxy = 0; ivxy < Nvxy; ++ivxy) {

         int iv = ivxy + Nvxy * (iz + m_Nz * it);

         w2[iv] = fac * w2[iv] + w1[iv];

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::clear_thread(int itask,

                                                                  double *v2)

 {

   int Nvcd = m_Nvc * m_Nd;

   int Nvxy = Nvcd * m_Nx * m_Ny;


   int    isite = m_arg[itask].isite;

   double *w2   = &v2[Nvcd * isite];


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ivxy = 0; ivxy < Nvxy; ++ivxy) {

         int iv = ivxy + Nvxy * (iz + m_Nz * it);

         w2[iv] = 0.0;

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xp1_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int    idir = 0;

   double bc2  = m_boundary2[idir];


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpx;


   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   const double *w1 = &v1[Nvcd * isite];

   double       *w2

     = (double *)m_bw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);


   int ix = 0;


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int iy = 0; iy < m_Ny; ++iy) {

         int is  = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

         int is2 = iy + m_Ny * (iz + m_Mz * it);

         int in  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           w2[2 * ic + ix1]     = bc2 * (w1[2 * ic + id1 + in] - w1[2 * ic + 1 + id4 + in]);

           w2[2 * ic + 1 + ix1] = bc2 * (w1[2 * ic + 1 + id1 + in] + w1[2 * ic + id4 + in]);

           w2[2 * ic + ix2]     = bc2 * (w1[2 * ic + id2 + in] - w1[2 * ic + 1 + id3 + in]);

           w2[2 * ic + 1 + ix2] = bc2 * (w1[2 * ic + 1 + id2 + in] + w1[2 * ic + id3 + in]);

         }

       }

     }

   }


   m_bw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xp2_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 0;


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpx;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_bw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *u = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   m_bw_recv[idir]->wait_thread(itask);


   int ix = m_Nx - 1;

   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int iy = 0; iy < m_Ny; ++iy) {

         int is  = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

         int is2 = iy + m_Ny * (iz + m_Mz * it);

         int iv  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = ic * m_Nvc;


           wt1r = mult_uv_r(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt1i = mult_uv_i(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt2r = mult_uv_r(&u[ic2 + ig], &w1[ix2], m_Nc);

           wt2i = mult_uv_i(&u[ic2 + ig], &w1[ix2], m_Nc);


           w2[2 * ic + id1 + iv]     += wt1r;

           w2[2 * ic + 1 + id1 + iv] += wt1i;

           w2[2 * ic + id2 + iv]     += wt2r;

           w2[2 * ic + 1 + id2 + iv] += wt2i;

           w2[2 * ic + id3 + iv]     += wt2i;

           w2[2 * ic + 1 + id3 + iv] += -wt2r;

           w2[2 * ic + id4 + iv]     += wt1i;

           w2[2 * ic + 1 + id4 + iv] += -wt1r;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xpb_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 0;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   const double *w1 = &v1[Nvcd * isite];

   double       *w2 = &v2[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int iy = 0; iy < m_Ny; ++iy) {

         for (int ix = 0; ix < m_Nx - 1; ++ix) {

           int is = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

           int iv = Nvcd * is;

           int in = Nvcd * (is + 1);

           int ig = m_Ndf * is;


           for (int ic = 0; ic < m_Nc; ++ic) {

             vt1[2 * ic]     = w1[2 * ic + id1 + in] - w1[2 * ic + 1 + id4 + in];

             vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] + w1[2 * ic + id4 + in];

             vt2[2 * ic]     = w1[2 * ic + id2 + in] - w1[2 * ic + 1 + id3 + in];

             vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] + w1[2 * ic + id3 + in];

           }


           for (int ic = 0; ic < m_Nc; ++ic) {

             int ic2 = ic * m_Nvc;


             wt1r = mult_uv_r(&u[ic2 + ig], vt1, m_Nc);

             wt1i = mult_uv_i(&u[ic2 + ig], vt1, m_Nc);

             wt2r = mult_uv_r(&u[ic2 + ig], vt2, m_Nc);

             wt2i = mult_uv_i(&u[ic2 + ig], vt2, m_Nc);


             w2[2 * ic + id1 + iv]     += wt1r;

             w2[2 * ic + 1 + id1 + iv] += wt1i;

             w2[2 * ic + id2 + iv]     += wt2r;

             w2[2 * ic + 1 + id2 + iv] += wt2i;

             w2[2 * ic + id3 + iv]     += wt2i;

             w2[2 * ic + 1 + id3 + iv] += -wt2r;

             w2[2 * ic + id4 + iv]     += wt1i;

             w2[2 * ic + 1 + id4 + iv] += -wt1r;

           }

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xm1_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 0;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpx;


   const double *w1 = &v1[Nvcd * isite];

   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_fw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *u = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   double vt1[m_Nvc], vt2[m_Nvc];


   int ix = m_Nx - 1;


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int iy = 0; iy < m_Ny; ++iy) {

         int is  = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

         int is2 = iy + m_Ny * (iz + m_Mz * it);

         int in  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = w1[2 * ic + id1 + in] + w1[2 * ic + 1 + id4 + in];

           vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] - w1[2 * ic + id4 + in];

           vt2[2 * ic]     = w1[2 * ic + id2 + in] + w1[2 * ic + 1 + id3 + in];

           vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] - w1[2 * ic + id3 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           w2[icr + ix1]     = mult_udagv_r(&u[icr + ig], vt1, m_Nc);

           w2[icr + 1 + ix1] = mult_udagv_i(&u[icr + ig], vt1, m_Nc);

           w2[icr + ix2]     = mult_udagv_r(&u[icr + ig], vt2, m_Nc);

           w2[icr + 1 + ix2] = mult_udagv_i(&u[icr + ig], vt2, m_Nc);

         }

       }

     }

   }


   m_fw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xm2_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int    idir = 0;

   double bc2  = m_boundary2[idir];


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpx;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_fw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);


   m_fw_recv[idir]->wait_thread(itask);


   int ix = 0;

   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int iy = 0; iy < m_Ny; ++iy) {

         int is  = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

         int is2 = iy + m_Ny * (iz + m_Mz * it);

         int iv  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           int ici = 2 * ic + 1;

           w2[icr + id1 + iv] += bc2 * w1[icr + ix1];

           w2[ici + id1 + iv] += bc2 * w1[ici + ix1];

           w2[icr + id2 + iv] += bc2 * w1[icr + ix2];

           w2[ici + id2 + iv] += bc2 * w1[ici + ix2];

           w2[icr + id3 + iv] += -bc2 * w1[ici + ix2];

           w2[ici + id3 + iv] += +bc2 * w1[icr + ix2];

           w2[icr + id4 + iv] += -bc2 * w1[ici + ix1];

           w2[ici + id4 + iv] += +bc2 * w1[icr + ix1];

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xmb_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 0;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   const double *w1 = &v1[Nvcd * isite];

   double       *w2 = &v2[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int iy = 0; iy < m_Ny; ++iy) {

         for (int ix = 1; ix < m_Nx; ++ix) {

           int is = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

           int iv = Nvcd * is;

           int in = Nvcd * (is - 1);

           int ig = m_Ndf * (is - 1);


           for (int ic = 0; ic < m_Nc; ++ic) {

             vt1[2 * ic]     = w1[2 * ic + id1 + in] + w1[2 * ic + 1 + id4 + in];

             vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] - w1[2 * ic + id4 + in];

             vt2[2 * ic]     = w1[2 * ic + id2 + in] + w1[2 * ic + 1 + id3 + in];

             vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] - w1[2 * ic + id3 + in];

           }


           for (int ic = 0; ic < m_Nc; ++ic) {

             int ic2 = 2 * ic;


             wt1r = mult_udagv_r(&u[ic2 + ig], vt1, m_Nc);

             wt1i = mult_udagv_i(&u[ic2 + ig], vt1, m_Nc);

             wt2r = mult_udagv_r(&u[ic2 + ig], vt2, m_Nc);

             wt2i = mult_udagv_i(&u[ic2 + ig], vt2, m_Nc);


             w2[2 * ic + id1 + iv]     += wt1r;

             w2[2 * ic + 1 + id1 + iv] += wt1i;

             w2[2 * ic + id2 + iv]     += wt2r;

             w2[2 * ic + 1 + id2 + iv] += wt2i;

             w2[2 * ic + id3 + iv]     += -wt2i;

             w2[2 * ic + 1 + id3 + iv] += +wt2r;

             w2[2 * ic + id4 + iv]     += -wt1i;

             w2[2 * ic + 1 + id4 + iv] += +wt1r;

           }

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_yp1_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpy;


   int    idir = 1;

   double bc2  = m_boundary2[idir];


   const double *w1 = &v1[Nvcd * isite];

   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_bw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);


   int iy = 0;


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ix = 0; ix < m_Nx; ++ix) {

         int is  = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

         int is2 = ix + m_Nx * (iz + m_Mz * it);

         int in  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           w2[2 * ic + ix1]     = bc2 * (w1[2 * ic + id1 + in] + w1[2 * ic + id4 + in]);

           w2[2 * ic + 1 + ix1] = bc2 * (w1[2 * ic + 1 + id1 + in] + w1[2 * ic + 1 + id4 + in]);

           w2[2 * ic + ix2]     = bc2 * (w1[2 * ic + id2 + in] - w1[2 * ic + id3 + in]);

           w2[2 * ic + 1 + ix2] = bc2 * (w1[2 * ic + 1 + id2 + in] - w1[2 * ic + 1 + id3 + in]);

         }

       }

     }

   }


   m_bw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_yp2_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 1;


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpy;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_bw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *u = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   m_bw_recv[idir]->wait_thread(itask);


   int iy = m_Ny - 1;

   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ix = 0; ix < m_Nx; ++ix) {

         int is  = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

         int is2 = ix + m_Nx * (iz + m_Mz * it);

         int iv  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = ic * m_Nvc;


           wt1r = mult_uv_r(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt1i = mult_uv_i(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt2r = mult_uv_r(&u[ic2 + ig], &w1[ix2], m_Nc);

           wt2i = mult_uv_i(&u[ic2 + ig], &w1[ix2], m_Nc);


           w2[2 * ic + id1 + iv]     += wt1r;

           w2[2 * ic + 1 + id1 + iv] += wt1i;

           w2[2 * ic + id2 + iv]     += wt2r;

           w2[2 * ic + 1 + id2 + iv] += wt2i;

           w2[2 * ic + id3 + iv]     += -wt2r;

           w2[2 * ic + 1 + id3 + iv] += -wt2i;

           w2[2 * ic + id4 + iv]     += wt1r;

           w2[2 * ic + 1 + id4 + iv] += wt1i;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_ypb_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 1;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   double       *w2 = &v2[Nvcd * isite];

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int iy = 0; iy < m_Ny - 1; ++iy) {

         for (int ix = 0; ix < m_Nx; ++ix) {

           int is = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

           int iv = Nvcd * is;

           int in = Nvcd * (is + m_Nx);

           int ig = m_Ndf * is;


           for (int ic = 0; ic < m_Nc; ++ic) {

             vt1[2 * ic]     = w1[2 * ic + id1 + in] + w1[2 * ic + id4 + in];

             vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] + w1[2 * ic + 1 + id4 + in];

             vt2[2 * ic]     = w1[2 * ic + id2 + in] - w1[2 * ic + id3 + in];

             vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] - w1[2 * ic + 1 + id3 + in];

           }


           for (int ic = 0; ic < m_Nc; ++ic) {

             int ic2 = ic * m_Nvc;


             wt1r = mult_uv_r(&u[ic2 + ig], vt1, m_Nc);

             wt1i = mult_uv_i(&u[ic2 + ig], vt1, m_Nc);

             wt2r = mult_uv_r(&u[ic2 + ig], vt2, m_Nc);

             wt2i = mult_uv_i(&u[ic2 + ig], vt2, m_Nc);


             w2[2 * ic + id1 + iv]     += wt1r;

             w2[2 * ic + 1 + id1 + iv] += wt1i;

             w2[2 * ic + id2 + iv]     += wt2r;

             w2[2 * ic + 1 + id2 + iv] += wt2i;

             w2[2 * ic + id3 + iv]     += -wt2r;

             w2[2 * ic + 1 + id3 + iv] += -wt2i;

             w2[2 * ic + id4 + iv]     += wt1r;

             w2[2 * ic + 1 + id4 + iv] += wt1i;

           }

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_ym1_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 1;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpy;


   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_fw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);


   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   double vt1[m_Nvc], vt2[m_Nvc];


   int iy = m_Ny - 1;


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ix = 0; ix < m_Nx; ++ix) {

         int is  = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

         int is2 = ix + m_Nx * (iz + m_Mz * it);

         int in  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = w1[2 * ic + id1 + in] - w1[2 * ic + id4 + in];

           vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] - w1[2 * ic + 1 + id4 + in];

           vt2[2 * ic]     = w1[2 * ic + id2 + in] + w1[2 * ic + id3 + in];

           vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] + w1[2 * ic + 1 + id3 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           w2[icr + ix1]     = mult_udagv_r(&u[icr + ig], vt1, m_Nc);

           w2[icr + 1 + ix1] = mult_udagv_i(&u[icr + ig], vt1, m_Nc);

           w2[icr + ix2]     = mult_udagv_r(&u[icr + ig], vt2, m_Nc);

           w2[icr + 1 + ix2] = mult_udagv_i(&u[icr + ig], vt2, m_Nc);

         }

       }

     }

   }


   m_fw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_ym2_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int    idir = 1;

   double bc2  = m_boundary2[idir];


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpy;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_fw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);


   m_fw_recv[idir]->wait_thread(itask);


   int iy = 0;

   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ix = 0; ix < m_Nx; ++ix) {

         int is  = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

         int is2 = ix + m_Nx * (iz + m_Mz * it);

         int iv  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           int ici = 2 * ic + 1;

           w2[icr + id1 + iv] += bc2 * w1[icr + ix1];

           w2[ici + id1 + iv] += bc2 * w1[ici + ix1];

           w2[icr + id2 + iv] += bc2 * w1[icr + ix2];

           w2[ici + id2 + iv] += bc2 * w1[ici + ix2];

           w2[icr + id3 + iv] += bc2 * w1[icr + ix2];

           w2[ici + id3 + iv] += bc2 * w1[ici + ix2];

           w2[icr + id4 + iv] += -bc2 * w1[icr + ix1];

           w2[ici + id4 + iv] += -bc2 * w1[ici + ix1];

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_ymb_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 1;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   double       *w2 = &v2[Nvcd * isite];

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int iy = 1; iy < m_Ny; ++iy) {

         for (int ix = 0; ix < m_Nx; ++ix) {

           int is = ix + m_Nx * (iy + m_Ny * (iz + m_Nz * it));

           int iv = Nvcd * is;

           int in = Nvcd * (is - m_Nx);

           int ig = m_Ndf * (is - m_Nx);


           for (int ic = 0; ic < m_Nc; ++ic) {

             vt1[2 * ic]     = w1[2 * ic + id1 + in] - w1[2 * ic + id4 + in];

             vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] - w1[2 * ic + 1 + id4 + in];

             vt2[2 * ic]     = w1[2 * ic + id2 + in] + w1[2 * ic + id3 + in];

             vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] + w1[2 * ic + 1 + id3 + in];

           }


           for (int ic = 0; ic < m_Nc; ++ic) {

             int ic2 = 2 * ic;

             wt1r = mult_udagv_r(&u[ic2 + ig], vt1, m_Nc);

             wt1i = mult_udagv_i(&u[ic2 + ig], vt1, m_Nc);

             wt2r = mult_udagv_r(&u[ic2 + ig], vt2, m_Nc);

             wt2i = mult_udagv_i(&u[ic2 + ig], vt2, m_Nc);


             w2[ic2 + id1 + iv]     += wt1r;

             w2[ic2 + 1 + id1 + iv] += wt1i;

             w2[ic2 + id2 + iv]     += wt2r;

             w2[ic2 + 1 + id2 + iv] += wt2i;

             w2[ic2 + id3 + iv]     += wt2r;

             w2[ic2 + 1 + id3 + iv] += wt2i;

             w2[ic2 + id4 + iv]     += -wt1r;

             w2[ic2 + 1 + id4 + iv] += -wt1i;

           }

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zp1_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpz;


   int    idir = 2;

   double bc2  = m_boundary2[idir];


   //   double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_bw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *w1 = &v1[Nvcd * isite];


   if (m_arg[itask].kz0 == 1) {

     int Nxy = m_Nx * m_Ny;

     int iz  = 0;

     for (int it = 0; it < m_Mt; ++it) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * it;


         int in  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           w2[2 * ic + ix1]     = bc2 * (w1[2 * ic + id1 + in] - w1[2 * ic + 1 + id3 + in]);

           w2[2 * ic + 1 + ix1] = bc2 * (w1[2 * ic + 1 + id1 + in] + w1[2 * ic + id3 + in]);

           w2[2 * ic + ix2]     = bc2 * (w1[2 * ic + id2 + in] + w1[2 * ic + 1 + id4 + in]);

           w2[2 * ic + 1 + ix2] = bc2 * (w1[2 * ic + 1 + id2 + in] - w1[2 * ic + id4 + in]);

         }

       }

     }

   }


   m_bw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zp2_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 2;


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpz;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_bw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *u = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   m_bw_recv[idir]->wait_thread(itask);


   if (m_arg[itask].kz1 == 1) {

     int Nxy = m_Nx * m_Ny;

     int iz  = m_Mz - 1;

     for (int it = 0; it < m_Mt; ++it) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * it;

         int iv  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = ic * m_Nvc;


           wt1r = mult_uv_r(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt1i = mult_uv_i(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt2r = mult_uv_r(&u[ic2 + ig], &w1[ix2], m_Nc);

           wt2i = mult_uv_i(&u[ic2 + ig], &w1[ix2], m_Nc);


           w2[2 * ic + id1 + iv]     += wt1r;

           w2[2 * ic + 1 + id1 + iv] += wt1i;

           w2[2 * ic + id2 + iv]     += wt2r;

           w2[2 * ic + 1 + id2 + iv] += wt2i;

           w2[2 * ic + id3 + iv]     += wt1i;

           w2[2 * ic + 1 + id3 + iv] += -wt1r;

           w2[2 * ic + id4 + iv]     += -wt2i;

           w2[2 * ic + 1 + id4 + iv] += wt2r;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zpb_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 2;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   double       *w2 = &v2[Nvcd * isite];

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   int kz1 = m_arg[itask].kz1;

   int Nxy = m_Nx * m_Ny;


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz - kz1; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is = ixy + Nxy * (iz + m_Nz * it);

         int iv = Nvcd * is;

         int in = Nvcd * (is + Nxy);

         int ig = m_Ndf * is;


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = w1[2 * ic + id1 + in] - w1[2 * ic + 1 + id3 + in];

           vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] + w1[2 * ic + id3 + in];

           vt2[2 * ic]     = w1[2 * ic + id2 + in] + w1[2 * ic + 1 + id4 + in];

           vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] - w1[2 * ic + id4 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = ic * m_Nvc;


           wt1r = mult_uv_r(&u[ic2 + ig], vt1, m_Nc);

           wt1i = mult_uv_i(&u[ic2 + ig], vt1, m_Nc);

           wt2r = mult_uv_r(&u[ic2 + ig], vt2, m_Nc);

           wt2i = mult_uv_i(&u[ic2 + ig], vt2, m_Nc);


           w2[2 * ic + id1 + iv]     += wt1r;

           w2[2 * ic + 1 + id1 + iv] += wt1i;

           w2[2 * ic + id2 + iv]     += wt2r;

           w2[2 * ic + 1 + id2 + iv] += wt2i;

           w2[2 * ic + id3 + iv]     += wt1i;

           w2[2 * ic + 1 + id3 + iv] += -wt1r;

           w2[2 * ic + id4 + iv]     += -wt2i;

           w2[2 * ic + 1 + id4 + iv] += wt2r;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zm1_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 2;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpz;


   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_fw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   double vt1[m_Nvc], vt2[m_Nvc];


   if (m_arg[itask].kz1 == 1) {

     int Nxy = m_Nx * m_Ny;

     int iz  = m_Mz - 1;

     for (int it = 0; it < m_Mt; ++it) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * it;

         int in  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = w1[2 * ic + id1 + in] + w1[2 * ic + 1 + id3 + in];

           vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] - w1[2 * ic + id3 + in];

           vt2[2 * ic]     = w1[2 * ic + id2 + in] - w1[2 * ic + 1 + id4 + in];

           vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] + w1[2 * ic + id4 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           w2[icr + ix1]     = mult_udagv_r(&u[icr + ig], vt1, m_Nc);

           w2[icr + 1 + ix1] = mult_udagv_i(&u[icr + ig], vt1, m_Nc);

           w2[icr + ix2]     = mult_udagv_r(&u[icr + ig], vt2, m_Nc);

           w2[icr + 1 + ix2] = mult_udagv_i(&u[icr + ig], vt2, m_Nc);

         }

       }

     }

   }


   m_fw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zm2_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int    idir = 2;

   double bc2  = m_boundary2[idir];


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpz;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_fw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);


   m_fw_recv[idir]->wait_thread(itask);


   if (m_arg[itask].kz0 == 1) {

     int Nxy = m_Nx * m_Ny;


     int iz = 0;

     for (int it = 0; it < m_Mt; ++it) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * it;

         int iv  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           int ici = 2 * ic + 1;

           w2[icr + id1 + iv] += bc2 * w1[icr + ix1];

           w2[ici + id1 + iv] += bc2 * w1[ici + ix1];

           w2[icr + id2 + iv] += bc2 * w1[icr + ix2];

           w2[ici + id2 + iv] += bc2 * w1[ici + ix2];

           w2[icr + id3 + iv] += -bc2 * w1[ici + ix1];

           w2[ici + id3 + iv] += bc2 * w1[icr + ix1];

           w2[icr + id4 + iv] += bc2 * w1[ici + ix2];

           w2[ici + id4 + iv] += -bc2 * w1[icr + ix2];

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zmb_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 2;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   double       *w2 = &v2[Nvcd * isite];

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   int kz0 = m_arg[itask].kz0;

   int Nxy = m_Nx * m_Ny;


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = kz0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is = ixy + Nxy * (iz + m_Nz * it);

         int iv = Nvcd * is;

         int in = Nvcd * (is - Nxy);

         int ig = m_Ndf * (is - Nxy);


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = w1[2 * ic + id1 + in] + w1[2 * ic + 1 + id3 + in];

           vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] - w1[2 * ic + id3 + in];

           vt2[2 * ic]     = w1[2 * ic + id2 + in] - w1[2 * ic + 1 + id4 + in];

           vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] + w1[2 * ic + id4 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = 2 * ic;

           wt1r = mult_udagv_r(&u[ic2 + ig], vt1, m_Nc);

           wt1i = mult_udagv_i(&u[ic2 + ig], vt1, m_Nc);

           wt2r = mult_udagv_r(&u[ic2 + ig], vt2, m_Nc);

           wt2i = mult_udagv_i(&u[ic2 + ig], vt2, m_Nc);


           w2[ic2 + id1 + iv]     += wt1r;

           w2[ic2 + 1 + id1 + iv] += wt1i;

           w2[ic2 + id2 + iv]     += wt2r;

           w2[ic2 + 1 + id2 + iv] += wt2i;

           w2[ic2 + id3 + iv]     += -wt1i;

           w2[ic2 + 1 + id3 + iv] += wt1r;

           w2[ic2 + id4 + iv]     += wt2i;

           w2[ic2 + 1 + id4 + iv] += -wt2r;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tp1_dirac_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpt;


   int    idir = 3;

   double bc2  = m_boundary2[idir];


   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_bw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *w1 = &v1[Nvcd * isite];


   if (m_arg[itask].kt0 == 1) {

     int Nxy = m_Nx * m_Ny;

     int it  = 0;

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * iz;


         int in  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           w2[2 * ic + ix1]     = 2.0 * bc2 * w1[2 * ic + id3 + in];

           w2[2 * ic + 1 + ix1] = 2.0 * bc2 * w1[2 * ic + 1 + id3 + in];

           w2[2 * ic + ix2]     = 2.0 * bc2 * w1[2 * ic + id4 + in];

           w2[2 * ic + 1 + ix2] = 2.0 * bc2 * w1[2 * ic + 1 + id4 + in];

         }

       }

     }

   }


   m_bw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tp2_dirac_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 3;


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpt;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_bw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *u = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   m_bw_recv[idir]->wait_thread(itask);


   if (m_arg[itask].kt1 == 1) {

     int Nxy = m_Nx * m_Ny;

     int it  = m_Mt - 1;

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * iz;

         int iv  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = ic * m_Nvc;


           wt1r = mult_uv_r(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt1i = mult_uv_i(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt2r = mult_uv_r(&u[ic2 + ig], &w1[ix2], m_Nc);

           wt2i = mult_uv_i(&u[ic2 + ig], &w1[ix2], m_Nc);


           w2[2 * ic + id3 + iv]     += wt1r;

           w2[2 * ic + 1 + id3 + iv] += wt1i;

           w2[2 * ic + id4 + iv]     += wt2r;

           w2[2 * ic + 1 + id4 + iv] += wt2i;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tpb_dirac_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 3;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   double       *w2 = &v2[Nvcd * isite];

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   int kt1  = m_arg[itask].kt1;

   int Nxy  = m_Nx * m_Ny;

   int Nxyz = Nxy * m_Nz;


   for (int it = 0; it < m_Mt - kt1; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is = ixy + Nxy * (iz + m_Nz * it);

         int iv = Nvcd * is;

         int in = Nvcd * (is + Nxyz);

         int ig = m_Ndf * is;


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = 2.0 * w1[2 * ic + id3 + in];

           vt1[2 * ic + 1] = 2.0 * w1[2 * ic + 1 + id3 + in];

           vt2[2 * ic]     = 2.0 * w1[2 * ic + id4 + in];

           vt2[2 * ic + 1] = 2.0 * w1[2 * ic + 1 + id4 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = ic * m_Nvc;


           wt1r = mult_uv_r(&u[ic2 + ig], vt1, m_Nc);

           wt1i = mult_uv_i(&u[ic2 + ig], vt1, m_Nc);

           wt2r = mult_uv_r(&u[ic2 + ig], vt2, m_Nc);

           wt2i = mult_uv_i(&u[ic2 + ig], vt2, m_Nc);


           w2[2 * ic + id3 + iv]     += wt1r;

           w2[2 * ic + 1 + id3 + iv] += wt1i;

           w2[2 * ic + id4 + iv]     += wt2r;

           w2[2 * ic + 1 + id4 + iv] += wt2i;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tm1_dirac_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 3;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpt;


   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_fw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   double vt1[m_Nvc], vt2[m_Nvc];


   if (m_arg[itask].kt1 == 1) {

     int Nxy = m_Nx * m_Ny;

     int it  = m_Mt - 1;

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * iz;

         int in  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = 2.0 * w1[2 * ic + id1 + in];

           vt1[2 * ic + 1] = 2.0 * w1[2 * ic + 1 + id1 + in];

           vt2[2 * ic]     = 2.0 * w1[2 * ic + id2 + in];

           vt2[2 * ic + 1] = 2.0 * w1[2 * ic + 1 + id2 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           w2[icr + ix1]     = mult_udagv_r(&u[icr + ig], vt1, m_Nc);

           w2[icr + 1 + ix1] = mult_udagv_i(&u[icr + ig], vt1, m_Nc);

           w2[icr + ix2]     = mult_udagv_r(&u[icr + ig], vt2, m_Nc);

           w2[icr + 1 + ix2] = mult_udagv_i(&u[icr + ig], vt2, m_Nc);

         }

       }

     }

   }


   m_fw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tm2_dirac_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int    idir = 3;

   double bc2  = m_boundary2[idir];


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpt;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_fw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);


   m_fw_recv[idir]->wait_thread(itask);


   if (m_arg[itask].kt0 == 1) {

     int Nxy = m_Nx * m_Ny;

     int it  = 0;

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * iz;

         int iv  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           int ici = 2 * ic + 1;

           w2[icr + id1 + iv] += bc2 * w1[icr + ix1];

           w2[ici + id1 + iv] += bc2 * w1[ici + ix1];

           w2[icr + id2 + iv] += bc2 * w1[icr + ix2];

           w2[ici + id2 + iv] += bc2 * w1[ici + ix2];

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tmb_dirac_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 3;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   double       *w2 = &v2[Nvcd * isite];

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   int kt0  = m_arg[itask].kt0;

   int Nxy  = m_Nx * m_Ny;

   int Nxyz = Nxy * m_Nz;


   for (int it = kt0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is = ixy + Nxy * (iz + m_Nz * it);

         int iv = Nvcd * is;

         int in = Nvcd * (is - Nxyz);

         int ig = m_Ndf * (is - Nxyz);


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = 2.0 * w1[2 * ic + id1 + in];

           vt1[2 * ic + 1] = 2.0 * w1[2 * ic + 1 + id1 + in];

           vt2[2 * ic]     = 2.0 * w1[2 * ic + id2 + in];

           vt2[2 * ic + 1] = 2.0 * w1[2 * ic + 1 + id2 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = 2 * ic;

           wt1r = mult_udagv_r(&u[ic2 + ig], vt1, m_Nc);

           wt1i = mult_udagv_i(&u[ic2 + ig], vt1, m_Nc);

           wt2r = mult_udagv_r(&u[ic2 + ig], vt2, m_Nc);

           wt2i = mult_udagv_i(&u[ic2 + ig], vt2, m_Nc);


           w2[ic2 + id1 + iv]     += wt1r;

           w2[ic2 + 1 + id1 + iv] += wt1i;

           w2[ic2 + id2 + iv]     += wt2r;

           w2[ic2 + 1 + id2 + iv] += wt2i;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tp1_chiral_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpt;


   int    idir = 3;

   double bc2  = m_boundary2[idir];


   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_bw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *w1 = &v1[Nvcd * isite];


   if (m_arg[itask].kt0 == 1) {

     int Nxy = m_Nx * m_Ny;

     int it  = 0;

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * iz;


         int in  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           w2[2 * ic + ix1]     = bc2 * (w1[2 * ic + id1 + in] + w1[2 * ic + id3 + in]);

           w2[2 * ic + 1 + ix1] = bc2 * (w1[2 * ic + 1 + id1 + in] + w1[2 * ic + 1 + id3 + in]);

           w2[2 * ic + ix2]     = bc2 * (w1[2 * ic + id2 + in] + w1[2 * ic + id4 + in]);

           w2[2 * ic + 1 + ix2] = bc2 * (w1[2 * ic + 1 + id2 + in] + w1[2 * ic + 1 + id4 + in]);

         }

       }

     }

   }


   m_bw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tp2_chiral_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 3;


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpt;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_bw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *u = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   m_bw_recv[idir]->wait_thread(itask);


   if (m_arg[itask].kt1 == 1) {

     int Nxy = m_Nx * m_Ny;

     int it  = m_Mt - 1;

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * iz;

         int iv  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = ic * m_Nvc;


           wt1r = mult_uv_r(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt1i = mult_uv_i(&u[ic2 + ig], &w1[ix1], m_Nc);

           wt2r = mult_uv_r(&u[ic2 + ig], &w1[ix2], m_Nc);

           wt2i = mult_uv_i(&u[ic2 + ig], &w1[ix2], m_Nc);


           w2[2 * ic + id1 + iv]     += wt1r;

           w2[2 * ic + 1 + id1 + iv] += wt1i;

           w2[2 * ic + id2 + iv]     += wt2r;

           w2[2 * ic + 1 + id2 + iv] += wt2i;

           w2[2 * ic + id3 + iv]     += wt1r;

           w2[2 * ic + 1 + id3 + iv] += wt1i;

           w2[2 * ic + id4 + iv]     += wt2r;

           w2[2 * ic + 1 + id4 + iv] += wt2i;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tpb_chiral_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 3;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   double       *w2 = &v2[Nvcd * isite];

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   int kt1  = m_arg[itask].kt1;

   int Nxy  = m_Nx * m_Ny;

   int Nxyz = Nxy * m_Nz;


   for (int it = 0; it < m_Mt - kt1; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is = ixy + Nxy * (iz + m_Nz * it);

         int iv = Nvcd * is;

         int in = Nvcd * (is + Nxyz);

         int ig = m_Ndf * is;


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = w1[2 * ic + id1 + in] + w1[2 * ic + id3 + in];

           vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] + w1[2 * ic + 1 + id3 + in];

           vt2[2 * ic]     = w1[2 * ic + id2 + in] + w1[2 * ic + id4 + in];

           vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] + w1[2 * ic + 1 + id4 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = ic * m_Nvc;


           wt1r = mult_uv_r(&u[ic2 + ig], vt1, m_Nc);

           wt1i = mult_uv_i(&u[ic2 + ig], vt1, m_Nc);

           wt2r = mult_uv_r(&u[ic2 + ig], vt2, m_Nc);

           wt2i = mult_uv_i(&u[ic2 + ig], vt2, m_Nc);


           w2[2 * ic + id1 + iv]     += wt1r;

           w2[2 * ic + 1 + id1 + iv] += wt1i;

           w2[2 * ic + id2 + iv]     += wt2r;

           w2[2 * ic + 1 + id2 + iv] += wt2i;

           w2[2 * ic + id3 + iv]     += wt1r;

           w2[2 * ic + 1 + id3 + iv] += wt1i;

           w2[2 * ic + id4 + iv]     += wt2r;

           w2[2 * ic + 1 + id4 + iv] += wt2i;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tm1_chiral_thread(

   int itask, double *vcp1, const double *v1)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 3;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpt;


   //  double* w2 = &vcp1[Nvcd2*isite_cp];

   double *w2

     = (double *)m_fw_send[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   double vt1[m_Nvc], vt2[m_Nvc];


   if (m_arg[itask].kt1 == 1) {

     int Nxy = m_Nx * m_Ny;

     int it  = m_Mt - 1;

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * iz;

         int in  = Nvcd * is;

         int ig  = m_Ndf * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = w1[2 * ic + id1 + in] - w1[2 * ic + id3 + in];

           vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] - w1[2 * ic + 1 + id3 + in];

           vt2[2 * ic]     = w1[2 * ic + id2 + in] - w1[2 * ic + id4 + in];

           vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] - w1[2 * ic + 1 + id4 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           w2[icr + ix1]     = mult_udagv_r(&u[icr + ig], vt1, m_Nc);

           w2[icr + 1 + ix1] = mult_udagv_i(&u[icr + ig], vt1, m_Nc);

           w2[icr + ix2]     = mult_udagv_r(&u[icr + ig], vt2, m_Nc);

           w2[icr + 1 + ix2] = mult_udagv_i(&u[icr + ig], vt2, m_Nc);

         }

       }

     }

   }


   m_fw_send[idir]->start_thread(itask);

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tm2_chiral_thread(

   int itask, double *v2, const double *vcp2)

 {

   int Nvc2  = 2 * m_Nvc;

   int Nvcd  = m_Nvc * m_Nd;

   int Nvcd2 = Nvcd / 2;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int    idir = 3;

   double bc2  = m_boundary2[idir];


   double wt1r, wt1i, wt2r, wt2i;


   int isite    = m_arg[itask].isite;

   int isite_cp = m_arg[itask].isite_cpt;


   double *w2 = &v2[Nvcd * isite];

   //  double* w1 = &vcp2[Nvcd2*isite_cp];

   const double *w1

     = (double *)m_fw_recv[idir]->ptr(sizeof(double) * Nvcd2 * isite_cp);


   m_fw_recv[idir]->wait_thread(itask);


   if (m_arg[itask].kt0 == 1) {

     int Nxy = m_Nx * m_Ny;

     int it  = 0;

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is  = ixy + Nxy * (iz + m_Nz * it);

         int is2 = ixy + Nxy * iz;

         int iv  = Nvcd * is;

         int ix1 = Nvc2 * is2;

         int ix2 = ix1 + m_Nvc;


         for (int ic = 0; ic < m_Nc; ++ic) {

           int icr = 2 * ic;

           int ici = 2 * ic + 1;

           w2[icr + id1 + iv] += bc2 * w1[icr + ix1];

           w2[ici + id1 + iv] += bc2 * w1[ici + ix1];

           w2[icr + id2 + iv] += bc2 * w1[icr + ix2];

           w2[ici + id2 + iv] += bc2 * w1[ici + ix2];

           w2[icr + id3 + iv] -= bc2 * w1[icr + ix1];

           w2[ici + id3 + iv] -= bc2 * w1[ici + ix1];

           w2[icr + id4 + iv] -= bc2 * w1[icr + ix2];

           w2[ici + id4 + iv] -= bc2 * w1[ici + ix2];

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tmb_chiral_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int idir = 3;


   double vt1[m_Nvc], vt2[m_Nvc];

   double wt1r, wt1i, wt2r, wt2i;


   int isite = m_arg[itask].isite;


   double       *w2 = &v2[Nvcd * isite];

   const double *w1 = &v1[Nvcd * isite];

   const double *u  = m_U->ptr(m_Ndf * (isite + idir * m_Nvol));


   int kt0  = m_arg[itask].kt0;

   int Nxy  = m_Nx * m_Ny;

   int Nxyz = Nxy * m_Nz;


   for (int it = kt0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int is = ixy + Nxy * (iz + m_Nz * it);

         int iv = Nvcd * is;

         int in = Nvcd * (is - Nxyz);

         int ig = m_Ndf * (is - Nxyz);


         for (int ic = 0; ic < m_Nc; ++ic) {

           vt1[2 * ic]     = w1[2 * ic + id1 + in] - w1[2 * ic + id3 + in];

           vt1[2 * ic + 1] = w1[2 * ic + 1 + id1 + in] - w1[2 * ic + 1 + id3 + in];

           vt2[2 * ic]     = w1[2 * ic + id2 + in] - w1[2 * ic + id4 + in];

           vt2[2 * ic + 1] = w1[2 * ic + 1 + id2 + in] - w1[2 * ic + 1 + id4 + in];

         }


         for (int ic = 0; ic < m_Nc; ++ic) {

           int ic2 = 2 * ic;

           wt1r = mult_udagv_r(&u[ic2 + ig], vt1, m_Nc);

           wt1i = mult_udagv_i(&u[ic2 + ig], vt1, m_Nc);

           wt2r = mult_udagv_r(&u[ic2 + ig], vt2, m_Nc);

           wt2i = mult_udagv_i(&u[ic2 + ig], vt2, m_Nc);


           w2[ic2 + id1 + iv]     += wt1r;

           w2[ic2 + 1 + id1 + iv] += wt1i;

           w2[ic2 + id2 + iv]     += wt2r;

           w2[ic2 + 1 + id2 + iv] += wt2i;

           w2[ic2 + id3 + iv]     -= wt1r;

           w2[ic2 + 1 + id3 + iv] -= wt1i;

           w2[ic2 + id4 + iv]     -= wt2r;

           w2[ic2 + 1 + id4 + iv] -= wt2i;

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::gm5_dirac_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;

   int Nxy  = m_Nx * m_Ny;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int          isite = m_arg[itask].isite;

   double       *w2   = &v2[Nvcd * isite];

   const double *w1   = &v1[Nvcd * isite];


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int iv = Nvcd * (ixy + Nxy * (iz + m_Nz * it));

         for (int ivc = 0; ivc < m_Nvc; ++ivc) {

           w2[ivc + id1 + iv] = w1[ivc + id3 + iv];

           w2[ivc + id2 + iv] = w1[ivc + id4 + iv];

           w2[ivc + id3 + iv] = w1[ivc + id1 + iv];

           w2[ivc + id4 + iv] = w1[ivc + id2 + iv];

         }

       }

     }

   }

 }


 //====================================================================

 void Fopr_Wilson_General::Fopr_Wilson_General_impl::gm5_chiral_thread(

   int itask, double *v2, const double *v1)

 {

   int Nvcd = m_Nvc * m_Nd;

   int Nxy  = m_Nx * m_Ny;


   int id1 = 0;

   int id2 = m_Nvc;

   int id3 = m_Nvc * 2;

   int id4 = m_Nvc * 3;


   int          isite = m_arg[itask].isite;

   double       *w2   = &v2[Nvcd * isite];

   const double *w1   = &v1[Nvcd * isite];


   for (int it = 0; it < m_Mt; ++it) {

     for (int iz = 0; iz < m_Mz; ++iz) {

       for (int ixy = 0; ixy < Nxy; ++ixy) {

         int iv = Nvcd * (ixy + Nxy * (iz + m_Nz * it));

         for (int ivc = 0; ivc < m_Nvc; ++ivc) {

           w2[ivc + id1 + iv] = w1[ivc + id1 + iv];

           w2[ivc + id2 + iv] = w1[ivc + id2 + iv];

           w2[ivc + id3 + iv] = -w1[ivc + id3 + iv];

           w2[ivc + id4 + iv] = -w1[ivc + id4 + iv];

         }

       }

     }

   }

 }


 //====================================================================

 //============================================================END=====

CommonParameters::Nd
static int Nd()
Definition: commonParameters.h:108

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_ym2_thread
void mult_ym2_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:826

CommonParameters::Nc
static int Nc()
Definition: commonParameters.h:107

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Ntask
int m_Ntask
Definition: fopr_Wilson_General_impl.h:215

Bridge::vout
BridgeIO vout
Definition: bridgeIO.cpp:278

threadManager_OpenMP.h

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_fw_recv
std::vector< Channel * > m_fw_recv
Definition: fopr_Wilson_General_impl.h:78

Fopr_Wilson_General::Fopr_Wilson_General_impl::clear_thread
void clear_thread(int, double *)
Definition: fopr_Wilson_General_impl_thread.cpp:181

Bridge::BridgeIO::general
void general(const char *format,...)
Definition: bridgeIO.cpp:65

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zmb_thread
void mult_zmb_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1237

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_fw_send
std::vector< Channel * > m_fw_send
Definition: fopr_Wilson_General_impl.h:77

Fopr_Wilson_General::Fopr_Wilson_General_impl::gm5_dirac_thread
void gm5_dirac_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:2153

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Nthread
int m_Nthread
Definition: fopr_Wilson_General_impl.h:215

Fopr_Wilson_General::Fopr_Wilson_General_impl::setup_thread
void setup_thread()
Definition: fopr_Wilson_General_impl_thread.cpp:27

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tmb_dirac_thread
void mult_tmb_dirac_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1581

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tm2_dirac_thread
void mult_tm2_dirac_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1528

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tm2_chiral_thread
void mult_tm2_chiral_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1877

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xp1_thread
void mult_xp1_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:240

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_ymb_thread
void mult_ymb_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:882

Fopr_Wilson_General::Fopr_Wilson_General_impl::daypx_thread
void daypx_thread(int, double *, double, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:138

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zp1_thread
void mult_zp1_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:943

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Nz
int m_Nz
Definition: fopr_Wilson_General_impl.h:44

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zm1_thread
void mult_zm1_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1119

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_ypb_thread
void mult_ypb_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:703

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tp2_chiral_thread
void mult_tp2_chiral_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1690

Fopr_Wilson_General::Fopr_Wilson_General_impl::gm5_chiral_thread
void gm5_chiral_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:2186

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_bw_recv
std::vector< Channel * > m_bw_recv
Definition: fopr_Wilson_General_impl.h:80

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Ntask_z
int m_Ntask_z
Definition: fopr_Wilson_General_impl.h:216

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Nx
int m_Nx
Definition: fopr_Wilson_General_impl.h:44

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xp2_thread
void mult_xp2_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:289

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tp1_chiral_thread
void mult_tp1_chiral_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1640

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tm1_dirac_thread
void mult_tm1_dirac_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1468

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_yp1_thread
void mult_yp1_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:591

fopr_Wilson_General_impl.h

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Ny
int m_Ny
Definition: fopr_Wilson_General_impl.h:44

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Nt
int m_Nt
Definition: fopr_Wilson_General_impl.h:44

ThreadManager_OpenMP::get_num_threads_available
static int get_num_threads_available()
returns number of threads (works outside of parallel region).
Definition: threadManager_OpenMP.h:61

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xm2_thread
void mult_xm2_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:473

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tmb_chiral_thread
void mult_tmb_chiral_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1934

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xm1_thread
void mult_xm1_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:413

Bridge::BridgeIO::crucial
void crucial(const char *format,...)
Definition: bridgeIO.cpp:48

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Mt
int m_Mt
Definition: fopr_Wilson_General_impl.h:214

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zp2_thread
void mult_zp2_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:993

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_ym1_thread
void mult_ym1_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:765

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_bw_send
std::vector< Channel * > m_bw_send
Definition: fopr_Wilson_General_impl.h:79

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xpb_thread
void mult_xpb_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:351

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tpb_dirac_thread
void mult_tpb_dirac_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1408

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zm2_thread
void mult_zm2_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1179

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tm1_chiral_thread
void mult_tm1_chiral_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1817

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tp1_dirac_thread
void mult_tp1_dirac_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1299

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_yp2_thread
void mult_yp2_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:641

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_vl
Bridge::VerboseLevel m_vl
Definition: fopr_Wilson_General_impl.h:56

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_zpb_thread
void mult_zpb_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1056

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tpb_chiral_thread
void mult_tpb_chiral_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1753

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_tp2_dirac_thread
void mult_tp2_dirac_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:1349

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Mz
int m_Mz
Definition: fopr_Wilson_General_impl.h:214

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_Ntask_t
int m_Ntask_t
Definition: fopr_Wilson_General_impl.h:216

Fopr_Wilson_General::Fopr_Wilson_General_impl::mult_xmb_thread
void mult_xmb_thread(int, double *, const double *)
Definition: fopr_Wilson_General_impl_thread.cpp:529

Fopr_Wilson_General::Fopr_Wilson_General_impl::m_arg
std::vector< mult_arg > m_arg
Definition: fopr_Wilson_General_impl.h:224