Merge tag 'misc-fixes-pull-request' of https://gitlab.com/berrange/qemu into staging

[mirror_qemu.git] / target / loongarch / vec_helper.c
diff --git a/target/loongarch/vec_helper.c b/target/loongarch/vec_helper.c

index 56d13331f6477789842008364e30b71bf947d9b1..3faf52cbc4602d556f821497a0af75324da69364 100644 (file)
--- a/target/loongarch/vec_helper.c
+++ b/target/loongarch/vec_helper.c
@@ -15,9 +15,6 @@
  #include "vec.h"
  #include "tcg/tcg-gvec-desc.h"
  
-#define DO_ADD(a, b)  (a + b)
-#define DO_SUB(a, b)  (a - b)
-
  #define DO_ODD_EVEN(NAME, BIT, E1, E2, DO_OP)                        \
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc)       \
  {                                                                    \
@@ -347,9 +344,6 @@ DO_ODD_U_S(vaddwod_h_bu_b, 16, H, UH, B, UB, DO_ADD)
  DO_ODD_U_S(vaddwod_w_hu_h, 32, W, UW, H, UH, DO_ADD)
  DO_ODD_U_S(vaddwod_d_wu_w, 64, D, UD, W, UW, DO_ADD)
  
-#define DO_VAVG(a, b)  ((a >> 1) + (b >> 1) + (a & b & 1))
-#define DO_VAVGR(a, b) ((a >> 1) + (b >> 1) + ((a | b) & 1))
-
  #define DO_3OP(NAME, BIT, E, DO_OP)                            \
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
  {                                                              \
@@ -381,8 +375,6 @@ DO_3OP(vavgr_hu, 16, UH, DO_VAVGR)
  DO_3OP(vavgr_wu, 32, UW, DO_VAVGR)
  DO_3OP(vavgr_du, 64, UD, DO_VAVGR)
  
-#define DO_VABSD(a, b)  ((a > b) ? (a -b) : (b-a))
-
  DO_3OP(vabsd_b, 8, B, DO_VABSD)
  DO_3OP(vabsd_h, 16, H, DO_VABSD)
  DO_3OP(vabsd_w, 32, W, DO_VABSD)
@@ -392,8 +384,6 @@ DO_3OP(vabsd_hu, 16, UH, DO_VABSD)
  DO_3OP(vabsd_wu, 32, UW, DO_VABSD)
  DO_3OP(vabsd_du, 64, UD, DO_VABSD)
  
-#define DO_VABS(a)  ((a < 0) ? (-a) : (a))
-
  #define DO_VADDA(NAME, BIT, E)                                 \
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
  {                                                              \
@@ -413,9 +403,6 @@ DO_VADDA(vadda_h, 16, H)
  DO_VADDA(vadda_w, 32, W)
  DO_VADDA(vadda_d, 64, D)
  
-#define DO_MIN(a, b) (a < b ? a : b)
-#define DO_MAX(a, b) (a > b ? a : b)
-
  #define VMINMAXI(NAME, BIT, E, DO_OP)                              \
  void HELPER(NAME)(void *vd, void *vj, uint64_t imm, uint32_t desc) \
  {                                                                  \
@@ -500,8 +487,6 @@ DO_VMUH(vmuh_bu, 8, UH, UB, DO_MUH)
  DO_VMUH(vmuh_hu, 16, UW, UH, DO_MUH)
  DO_VMUH(vmuh_wu, 32, UD, UW, DO_MUH)
  
-#define DO_MUL(a, b) (a * b)
-
  DO_EVEN(vmulwev_h_b, 16, H, B, DO_MUL)
  DO_EVEN(vmulwev_w_h, 32, W, H, DO_MUL)
  DO_EVEN(vmulwev_d_w, 64, D, W, DO_MUL)
@@ -526,9 +511,6 @@ DO_ODD_U_S(vmulwod_h_bu_b, 16, H, UH, B, UB, DO_MUL)
  DO_ODD_U_S(vmulwod_w_hu_h, 32, W, UW, H, UH, DO_MUL)
  DO_ODD_U_S(vmulwod_d_wu_w, 64, D, UD, W, UW, DO_MUL)
  
-#define DO_MADD(a, b, c)  (a + b * c)
-#define DO_MSUB(a, b, c)  (a - b * c)
-
  #define VMADDSUB(NAME, BIT, E, DO_OP)                          \
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
  {                                                              \
@@ -639,13 +621,6 @@ VMADDWOD_U_S(vmaddwod_h_bu_b, 16, H, UH, B, UB, DO_MUL)
  VMADDWOD_U_S(vmaddwod_w_hu_h, 32, W, UW, H, UH, DO_MUL)
  VMADDWOD_U_S(vmaddwod_d_wu_w, 64, D, UD, W, UW, DO_MUL)
  
-#define DO_DIVU(N, M) (unlikely(M == 0) ? 0 : N / M)
-#define DO_REMU(N, M) (unlikely(M == 0) ? 0 : N % M)
-#define DO_DIV(N, M)  (unlikely(M == 0) ? 0 :\
-        unlikely((N == -N) && (M == (__typeof(N))(-1))) ? N : N / M)
-#define DO_REM(N, M)  (unlikely(M == 0) ? 0 :\
-        unlikely((N == -N) && (M == (__typeof(N))(-1))) ? 0 : N % M)
-
  #define VDIV(NAME, BIT, E, DO_OP)                              \
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
  {                                                              \
@@ -791,8 +766,6 @@ VEXT2XV(vext2xv_wu_hu, 32, UW, UH)
  VEXT2XV(vext2xv_du_hu, 64, UD, UH)
  VEXT2XV(vext2xv_du_wu, 64, UD, UW)
  
-#define DO_SIGNCOV(a, b)  (a == 0 ? 0 : a < 0 ? -b : b)
-
  DO_3OP(vsigncov_b, 8, B, DO_SIGNCOV)
  DO_3OP(vsigncov_h, 16, H, DO_SIGNCOV)
  DO_3OP(vsigncov_w, 32, W, DO_SIGNCOV)
@@ -1107,8 +1080,6 @@ VSRARI(vsrari_h, 16, H)
  VSRARI(vsrari_w, 32, W)
  VSRARI(vsrari_d, 64, D)
  
-#define R_SHIFT(a, b) (a >> b)
-
  #define VSRLN(NAME, BIT, E1, E2)                                          \
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc)            \
  {                                                                         \
@@ -2272,15 +2243,6 @@ void HELPER(NAME)(void *vd, void *vj, uint32_t desc) \
      }                                                \
  }
  
-#define DO_CLO_B(N)  (clz32(~N & 0xff) - 24)
-#define DO_CLO_H(N)  (clz32(~N & 0xffff) - 16)
-#define DO_CLO_W(N)  (clz32(~N))
-#define DO_CLO_D(N)  (clz64(~N))
-#define DO_CLZ_B(N)  (clz32(N) - 24)
-#define DO_CLZ_H(N)  (clz32(N) - 16)
-#define DO_CLZ_W(N)  (clz32(N))
-#define DO_CLZ_D(N)  (clz64(N))
-
  DO_2OP(vclo_b, 8, UB, DO_CLO_B)
  DO_2OP(vclo_h, 16, UH, DO_CLO_H)
  DO_2OP(vclo_w, 32, UW, DO_CLO_W)
@@ -2309,10 +2271,6 @@ VPCNT(vpcnt_h, 16, UH, ctpop16)
  VPCNT(vpcnt_w, 32, UW, ctpop32)
  VPCNT(vpcnt_d, 64, UD, ctpop64)
  
-#define DO_BITCLR(a, bit) (a & ~(1ull << bit))
-#define DO_BITSET(a, bit) (a | 1ull << bit)
-#define DO_BITREV(a, bit) (a ^ (1ull << bit))
-
  #define DO_BIT(NAME, BIT, E, DO_OP)                            \
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
  {                                                              \
@@ -2624,14 +2582,19 @@ static uint32_t float64_cvt_float32(uint64_t d, float_status *status)
  void HELPER(vfcvtl_s_h)(void *vd, void *vj,
                          CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 32;
      vec_clear_cause(env);
-    for (i = 0; i < LSX_LEN/32; i++) {
-        temp.UW(i) = float16_cvt_float32(Vj->UH(i), &env->fp_status);
+    for (i = 0; i < oprsz / 16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.UW(j + ofs * i) =float16_cvt_float32(Vj->UH(j + ofs * 2 * i),
+                                                      &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
@@ -2640,14 +2603,19 @@ void HELPER(vfcvtl_s_h)(void *vd, void *vj,
  void HELPER(vfcvtl_d_s)(void *vd, void *vj,
                          CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 64;
      vec_clear_cause(env);
-    for (i = 0; i < LSX_LEN/64; i++) {
-        temp.UD(i) = float32_cvt_float64(Vj->UW(i), &env->fp_status);
+    for (i = 0; i < oprsz / 16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.UD(j + ofs * i) = float32_cvt_float64(Vj->UW(j + ofs * 2 * i),
+                                                       &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
@@ -2656,14 +2624,19 @@ void HELPER(vfcvtl_d_s)(void *vd, void *vj,
  void HELPER(vfcvth_s_h)(void *vd, void *vj,
                          CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 32;
      vec_clear_cause(env);
-    for (i = 0; i < LSX_LEN/32; i++) {
-        temp.UW(i) = float16_cvt_float32(Vj->UH(i + 4), &env->fp_status);
+    for (i = 0; i < oprsz / 16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.UW(j + ofs * i) = float16_cvt_float32(Vj->UH(j + ofs * (2 * i + 1)),
+                                                       &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
@@ -2672,14 +2645,19 @@ void HELPER(vfcvth_s_h)(void *vd, void *vj,
  void HELPER(vfcvth_d_s)(void *vd, void *vj,
                          CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 64;
      vec_clear_cause(env);
-    for (i = 0; i < LSX_LEN/64; i++) {
-        temp.UD(i) = float32_cvt_float64(Vj->UW(i + 2), &env->fp_status);
+    for (i = 0; i < oprsz / 16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.UD(j + ofs * i) = float32_cvt_float64(Vj->UW(j + ofs * (2 * i + 1)),
+                                                        &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
@@ -2688,16 +2666,22 @@ void HELPER(vfcvth_d_s)(void *vd, void *vj,
  void HELPER(vfcvt_h_s)(void *vd, void *vj, void *vk,
                         CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
      VReg *Vk = (VReg *)vk;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 32;
      vec_clear_cause(env);
-    for(i = 0; i < LSX_LEN/32; i++) {
-        temp.UH(i + 4) = float32_cvt_float16(Vj->UW(i), &env->fp_status);
-        temp.UH(i)  = float32_cvt_float16(Vk->UW(i), &env->fp_status);
+    for(i = 0; i < oprsz / 16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.UH(j + ofs * (2 * i + 1)) = float32_cvt_float16(Vj->UW(j + ofs * i),
+                                                                 &env->fp_status);
+            temp.UH(j + ofs * 2 * i) = float32_cvt_float16(Vk->UW(j + ofs * i),
+                                                           &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
@@ -2706,16 +2690,22 @@ void HELPER(vfcvt_h_s)(void *vd, void *vj, void *vk,
  void HELPER(vfcvt_s_d)(void *vd, void *vj, void *vk,
                         CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
      VReg *Vk = (VReg *)vk;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 64;
      vec_clear_cause(env);
-    for(i = 0; i < LSX_LEN/64; i++) {
-        temp.UW(i + 2) = float64_cvt_float32(Vj->UD(i), &env->fp_status);
-        temp.UW(i)  = float64_cvt_float32(Vk->UD(i), &env->fp_status);
+    for(i = 0; i < oprsz / 16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.UW(j + ofs * (2 * i + 1)) = float64_cvt_float32(Vj->UD(j + ofs * i),
+                                                                 &env->fp_status);
+            temp.UW(j + ofs * 2 * i) = float64_cvt_float32(Vk->UD(j + ofs * i),
+                                                           &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
@@ -2727,9 +2717,10 @@ void HELPER(vfrint_s)(void *vd, void *vj,
      int i;
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
  
      vec_clear_cause(env);
-    for (i = 0; i < 4; i++) {
+    for (i = 0; i < oprsz / 4; i++) {
          Vd->W(i) = float32_round_to_int(Vj->UW(i), &env->fp_status);
          vec_update_fcsr0(env, GETPC());
      }
@@ -2741,9 +2732,10 @@ void HELPER(vfrint_d)(void *vd, void *vj,
      int i;
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
  
      vec_clear_cause(env);
-    for (i = 0; i < 2; i++) {
+    for (i = 0; i < oprsz / 8; i++) {
          Vd->D(i) = float64_round_to_int(Vj->UD(i), &env->fp_status);
          vec_update_fcsr0(env, GETPC());
      }
@@ -2756,9 +2748,10 @@ void HELPER(NAME)(void *vd, void *vj,                                       \
      int i;                                                                  \
      VReg *Vd = (VReg *)vd;                                                  \
      VReg *Vj = (VReg *)vj;                                                  \
+    int oprsz = simd_oprsz(desc);                                           \
                                                                              \
      vec_clear_cause(env);                                                   \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                                     \
+    for (i = 0; i < oprsz / (BIT / 8); i++) {                               \
          FloatRoundMode old_mode = get_float_rounding_mode(&env->fp_status); \
          set_float_rounding_mode(MODE, &env->fp_status);                     \
          Vd->E(i) = float## BIT ## _round_to_int(Vj->E(i), &env->fp_status); \
@@ -2843,22 +2836,26 @@ FTINT(rp_w_d, float64, int32, uint64_t, uint32_t, float_round_up)
  FTINT(rz_w_d, float64, int32, uint64_t, uint32_t, float_round_to_zero)
  FTINT(rne_w_d, float64, int32, uint64_t, uint32_t, float_round_nearest_even)
  
-#define FTINT_W_D(NAME, FN)                              \
-void HELPER(NAME)(void *vd, void *vj, void *vk,          \
-                  CPULoongArchState *env, uint32_t desc) \
-{                                                        \
-    int i;                                               \
-    VReg temp;                                           \
-    VReg *Vd = (VReg *)vd;                               \
-    VReg *Vj = (VReg *)vj;                               \
-    VReg *Vk = (VReg *)vk;                               \
-                                                         \
-    vec_clear_cause(env);                                \
-    for (i = 0; i < 2; i++) {                            \
-        temp.W(i + 2) = FN(env, Vj->UD(i));              \
-        temp.W(i) = FN(env, Vk->UD(i));                  \
-    }                                                    \
-    *Vd = temp;                                          \
+#define FTINT_W_D(NAME, FN)                                               \
+void HELPER(NAME)(void *vd, void *vj, void *vk,                           \
+                  CPULoongArchState *env, uint32_t desc)                  \
+{                                                                         \
+    int i, j, ofs;                                                        \
+    VReg temp = {};                                                       \
+    VReg *Vd = (VReg *)vd;                                                \
+    VReg *Vj = (VReg *)vj;                                                \
+    VReg *Vk = (VReg *)vk;                                                \
+    int oprsz = simd_oprsz(desc);                                         \
+                                                                          \
+    ofs = LSX_LEN / 64;                                                   \
+    vec_clear_cause(env);                                                 \
+    for (i = 0; i < oprsz / 16; i++) {                                    \
+        for (j = 0; j < ofs; j++) {                                       \
+            temp.W(j + ofs * (2 * i + 1)) = FN(env, Vj->UD(j + ofs * i)); \
+            temp.W(j + ofs * 2 * i) = FN(env, Vk->UD(j + ofs * i));       \
+        }                                                                 \
+    }                                                                     \
+    *Vd = temp;                                                           \
  }
  
  FTINT_W_D(vftint_w_d, do_float64_to_int32)
@@ -2876,20 +2873,24 @@ FTINT(rph_l_s, float32, int64, uint32_t, uint64_t, float_round_up)
  FTINT(rzh_l_s, float32, int64, uint32_t, uint64_t, float_round_to_zero)
  FTINT(rneh_l_s, float32, int64, uint32_t, uint64_t, float_round_nearest_even)
  
-#define FTINTL_L_S(NAME, FN)                             \
-void HELPER(NAME)(void *vd, void *vj,                    \
-                  CPULoongArchState *env, uint32_t desc) \
-{                                                        \
-    int i;                                               \
-    VReg temp;                                           \
-    VReg *Vd = (VReg *)vd;                               \
-    VReg *Vj = (VReg *)vj;                               \
-                                                         \
-    vec_clear_cause(env);                                \
-    for (i = 0; i < 2; i++) {                            \
-        temp.D(i) = FN(env, Vj->UW(i));                  \
-    }                                                    \
-    *Vd = temp;                                          \
+#define FTINTL_L_S(NAME, FN)                                        \
+void HELPER(NAME)(void *vd, void *vj,                               \
+                  CPULoongArchState *env, uint32_t desc)            \
+{                                                                   \
+    int i, j, ofs;                                                  \
+    VReg temp;                                                      \
+    VReg *Vd = (VReg *)vd;                                          \
+    VReg *Vj = (VReg *)vj;                                          \
+    int oprsz = simd_oprsz(desc);                                   \
+                                                                    \
+    ofs = LSX_LEN / 64;                                             \
+    vec_clear_cause(env);                                           \
+    for (i = 0; i < oprsz / 16; i++) {                              \
+        for (j = 0; j < ofs; j++) {                                 \
+            temp.D(j + ofs * i) = FN(env, Vj->UW(j + ofs * 2 * i)); \
+        }                                                           \
+    }                                                               \
+    *Vd = temp;                                                     \
  }
  
  FTINTL_L_S(vftintl_l_s, do_float32_to_int64)
@@ -2898,20 +2899,24 @@ FTINTL_L_S(vftintrpl_l_s, do_ftintrpl_l_s)
  FTINTL_L_S(vftintrzl_l_s, do_ftintrzl_l_s)
  FTINTL_L_S(vftintrnel_l_s, do_ftintrnel_l_s)
  
-#define FTINTH_L_S(NAME, FN)                             \
-void HELPER(NAME)(void *vd, void *vj,                    \
-                  CPULoongArchState *env, uint32_t desc) \
-{                                                        \
-    int i;                                               \
-    VReg temp;                                           \
-    VReg *Vd = (VReg *)vd;                               \
-    VReg *Vj = (VReg *)vj;                               \
-                                                         \
-    vec_clear_cause(env);                                \
-    for (i = 0; i < 2; i++) {                            \
-        temp.D(i) = FN(env, Vj->UW(i + 2));              \
-    }                                                    \
-    *Vd = temp;                                          \
+#define FTINTH_L_S(NAME, FN)                                              \
+void HELPER(NAME)(void *vd, void *vj,                                     \
+                  CPULoongArchState *env, uint32_t desc)                  \
+{                                                                         \
+    int i, j, ofs;                                                        \
+    VReg temp = {};                                                       \
+    VReg *Vd = (VReg *)vd;                                                \
+    VReg *Vj = (VReg *)vj;                                                \
+    int oprsz = simd_oprsz(desc);                                         \
+                                                                          \
+    ofs = LSX_LEN / 64;                                                   \
+    vec_clear_cause(env);                                                 \
+    for (i = 0; i < oprsz / 16; i++) {                                    \
+        for (j = 0; j < ofs; j++) {                                       \
+            temp.D(j + ofs * i) = FN(env, Vj->UW(j + ofs * (2 * i + 1))); \
+        }                                                                 \
+    }                                                                     \
+    *Vd = temp;                                                           \
  }
  
  FTINTH_L_S(vftinth_l_s, do_float32_to_int64)
@@ -2943,14 +2948,19 @@ DO_2OP_F(vffint_d_lu, 64, UD, do_ffint_d_lu)
  void HELPER(vffintl_d_w)(void *vd, void *vj,
                           CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 64;
      vec_clear_cause(env);
-    for (i = 0; i < 2; i++) {
-        temp.D(i) = int32_to_float64(Vj->W(i), &env->fp_status);
+    for (i = 0; i < oprsz / 16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.D(j + ofs * i) = int32_to_float64(Vj->W(j + ofs * 2 * i),
+                                                   &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
@@ -2959,14 +2969,19 @@ void HELPER(vffintl_d_w)(void *vd, void *vj,
  void HELPER(vffinth_d_w)(void *vd, void *vj,
                           CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 64;
      vec_clear_cause(env);
-    for (i = 0; i < 2; i++) {
-        temp.D(i) = int32_to_float64(Vj->W(i + 2), &env->fp_status);
+    for (i = 0; i < oprsz /16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.D(j + ofs * i) = int32_to_float64(Vj->W(j + ofs * (2 * i + 1)),
+                                                   &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
@@ -2975,36 +2990,39 @@ void HELPER(vffinth_d_w)(void *vd, void *vj,
  void HELPER(vffint_s_l)(void *vd, void *vj, void *vk,
                          CPULoongArchState *env, uint32_t desc)
  {
-    int i;
-    VReg temp;
+    int i, j, ofs;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
      VReg *Vk = (VReg *)vk;
+    int oprsz = simd_oprsz(desc);
  
+    ofs = LSX_LEN / 64;
      vec_clear_cause(env);
-    for (i = 0; i < 2; i++) {
-        temp.W(i + 2) = int64_to_float32(Vj->D(i), &env->fp_status);
-        temp.W(i) = int64_to_float32(Vk->D(i), &env->fp_status);
+    for (i = 0; i < oprsz / 16; i++) {
+        for (j = 0; j < ofs; j++) {
+            temp.W(j + ofs * (2 * i + 1)) = int64_to_float32(Vj->D(j + ofs * i),
+                                                             &env->fp_status);
+            temp.W(j + ofs * 2 * i) = int64_to_float32(Vk->D(j + ofs * i),
+                                                       &env->fp_status);
+        }
          vec_update_fcsr0(env, GETPC());
      }
      *Vd = temp;
  }
  
-#define VSEQ(a, b) (a == b ? -1 : 0)
-#define VSLE(a, b) (a <= b ? -1 : 0)
-#define VSLT(a, b) (a < b ? -1 : 0)
-
-#define VCMPI(NAME, BIT, E, DO_OP)                              \
-void HELPER(NAME)(void *vd, void *vj, uint64_t imm, uint32_t v) \
-{                                                               \
-    int i;                                                      \
-    VReg *Vd = (VReg *)vd;                                      \
-    VReg *Vj = (VReg *)vj;                                      \
-    typedef __typeof(Vd->E(0)) TD;                              \
-                                                                \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                         \
-        Vd->E(i) = DO_OP(Vj->E(i), (TD)imm);                    \
-    }                                                           \
+#define VCMPI(NAME, BIT, E, DO_OP)                                 \
+void HELPER(NAME)(void *vd, void *vj, uint64_t imm, uint32_t desc) \
+{                                                                  \
+    int i;                                                         \
+    VReg *Vd = (VReg *)vd;                                         \
+    VReg *Vj = (VReg *)vj;                                         \
+    typedef __typeof(Vd->E(0)) TD;                                 \
+    int oprsz = simd_oprsz(desc);                                  \
+                                                                   \
+    for (i = 0; i < oprsz / (BIT / 8); i++) {                      \
+        Vd->E(i) = DO_OP(Vj->E(i), (TD)imm);                       \
+    }                                                              \
  }
  
  VCMPI(vseqi_b, 8, B, VSEQ)
@@ -3058,7 +3076,7 @@ static uint64_t vfcmp_common(CPULoongArchState *env,
  }
  
  #define VFCMP(NAME, BIT, E, FN)                                          \
-void HELPER(NAME)(CPULoongArchState *env,                                \
+void HELPER(NAME)(CPULoongArchState *env, uint32_t oprsz,                \
                    uint32_t vd, uint32_t vj, uint32_t vk, uint32_t flags) \
  {                                                                        \
      int i;                                                               \
@@ -3068,7 +3086,7 @@ void HELPER(NAME)(CPULoongArchState *env,                                \
      VReg *Vk = &(env->fpr[vk].vreg);                                     \
                                                                           \
      vec_clear_cause(env);                                                \
-    for (i = 0; i < LSX_LEN/BIT ; i++) {                                 \
+    for (i = 0; i < oprsz / (BIT / 8); i++) {                            \
          FloatRelation cmp;                                               \
          cmp = FN(Vj->E(i), Vk->E(i), &env->fp_status);                   \
          t.E(i) = vfcmp_common(env, cmp, flags);                          \
@@ -3082,13 +3100,13 @@ VFCMP(vfcmp_s_s, 32, UW, float32_compare)
  VFCMP(vfcmp_c_d, 64, UD, float64_compare_quiet)
  VFCMP(vfcmp_s_d, 64, UD, float64_compare)
  
-void HELPER(vbitseli_b)(void *vd, void *vj,  uint64_t imm, uint32_t v)
+void HELPER(vbitseli_b)(void *vd, void *vj,  uint64_t imm, uint32_t desc)
  {
      int i;
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
  
-    for (i = 0; i < 16; i++) {
+    for (i = 0; i < simd_oprsz(desc); i++) {
          Vd->B(i) = (~Vd->B(i) & Vj->B(i)) | (Vd->B(i) & imm);
      }
  }
@@ -3096,7 +3114,7 @@ void HELPER(vbitseli_b)(void *vd, void *vj,  uint64_t imm, uint32_t v)
  /* Copy from target/arm/tcg/sve_helper.c */
  static inline bool do_match2(uint64_t n, uint64_t m0, uint64_t m1, int esz)
  {
-    uint64_t bits = 8 << esz;
+    int bits = 8 << esz;
      uint64_t ones = dup_const(esz, 1);
      uint64_t signs = ones << (bits - 1);
      uint64_t cmp0, cmp1;
@@ -3109,40 +3127,81 @@ static inline bool do_match2(uint64_t n, uint64_t m0, uint64_t m1, int esz)
      return (cmp0 | cmp1) & signs;
  }
  
-#define SETANYEQZ(NAME, MO)                                         \
-void HELPER(NAME)(CPULoongArchState *env, uint32_t cd, uint32_t vj) \
-{                                                                   \
-    VReg *Vj = &(env->fpr[vj].vreg);                                \
-                                                                    \
-    env->cf[cd & 0x7] = do_match2(0, Vj->D(0), Vj->D(1), MO);       \
+#define SETANYEQZ(NAME, MO)                                       \
+void HELPER(NAME)(CPULoongArchState *env,                         \
+                  uint32_t oprsz, uint32_t cd, uint32_t vj)       \
+{                                                                 \
+    VReg *Vj = &(env->fpr[vj].vreg);                              \
+                                                                  \
+    env->cf[cd & 0x7] = do_match2(0, Vj->D(0), Vj->D(1), MO);     \
+    if (oprsz == 32) {                                            \
+        env->cf[cd & 0x7] = env->cf[cd & 0x7] ||                  \
+                            do_match2(0, Vj->D(2), Vj->D(3), MO); \
+    }                                                             \
  }
+
  SETANYEQZ(vsetanyeqz_b, MO_8)
  SETANYEQZ(vsetanyeqz_h, MO_16)
  SETANYEQZ(vsetanyeqz_w, MO_32)
  SETANYEQZ(vsetanyeqz_d, MO_64)
  
-#define SETALLNEZ(NAME, MO)                                         \
-void HELPER(NAME)(CPULoongArchState *env, uint32_t cd, uint32_t vj) \
-{                                                                   \
-    VReg *Vj = &(env->fpr[vj].vreg);                                \
-                                                                    \
-    env->cf[cd & 0x7]= !do_match2(0, Vj->D(0), Vj->D(1), MO);       \
+#define SETALLNEZ(NAME, MO)                                        \
+void HELPER(NAME)(CPULoongArchState *env,                          \
+                  uint32_t oprsz, uint32_t cd, uint32_t vj)        \
+{                                                                  \
+    VReg *Vj = &(env->fpr[vj].vreg);                               \
+                                                                   \
+    env->cf[cd & 0x7]= !do_match2(0, Vj->D(0), Vj->D(1), MO);      \
+    if (oprsz == 32) {                                             \
+        env->cf[cd & 0x7] = env->cf[cd & 0x7] &&                   \
+                            !do_match2(0, Vj->D(2), Vj->D(3), MO); \
+    }                                                              \
  }
+
  SETALLNEZ(vsetallnez_b, MO_8)
  SETALLNEZ(vsetallnez_h, MO_16)
  SETALLNEZ(vsetallnez_w, MO_32)
  SETALLNEZ(vsetallnez_d, MO_64)
  
+#define XVINSVE0(NAME, E, MASK)                                    \
+void HELPER(NAME)(void *vd, void *vj, uint64_t imm, uint32_t desc) \
+{                                                                  \
+    VReg *Vd = (VReg *)vd;                                         \
+    VReg *Vj = (VReg *)vj;                                         \
+    Vd->E(imm & MASK) = Vj->E(0);                                  \
+}
+
+XVINSVE0(xvinsve0_w, W, 0x7)
+XVINSVE0(xvinsve0_d, D, 0x3)
+
+#define XVPICKVE(NAME, E, BIT, MASK)                               \
+void HELPER(NAME)(void *vd, void *vj, uint64_t imm, uint32_t desc) \
+{                                                                  \
+    int i;                                                         \
+    VReg *Vd = (VReg *)vd;                                         \
+    VReg *Vj = (VReg *)vj;                                         \
+    int oprsz = simd_oprsz(desc);                                  \
+                                                                   \
+    Vd->E(0) = Vj->E(imm & MASK);                                  \
+    for (i = 1; i < oprsz / (BIT / 8); i++) {                      \
+        Vd->E(i) = 0;                                              \
+    }                                                              \
+}
+
+XVPICKVE(xvpickve_w, W, 32, 0x7)
+XVPICKVE(xvpickve_d, D, 64, 0x3)
+
  #define VPACKEV(NAME, BIT, E)                                  \
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
  {                                                              \
      int i;                                                     \
-    VReg temp;                                                 \
+    VReg temp = {};                                            \
      VReg *Vd = (VReg *)vd;                                     \
      VReg *Vj = (VReg *)vj;                                     \
      VReg *Vk = (VReg *)vk;                                     \
+    int oprsz = simd_oprsz(desc);                              \
                                                                 \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                        \
+    for (i = 0; i < oprsz / (BIT / 8); i++) {                  \
          temp.E(2 * i + 1) = Vj->E(2 * i);                      \
          temp.E(2 *i) = Vk->E(2 * i);                           \
      }                                                          \
@@ -3158,12 +3217,13 @@ VPACKEV(vpackev_d, 128, D)
  void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
  {                                                              \
      int i;                                                     \
-    VReg temp;                                                 \
+    VReg temp = {};                                            \
      VReg *Vd = (VReg *)vd;                                     \
      VReg *Vj = (VReg *)vj;                                     \
      VReg *Vk = (VReg *)vk;                                     \
+    int oprsz = simd_oprsz(desc);                              \
                                                                 \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                        \
+    for (i = 0; i < oprsz / (BIT / 8); i++) {                 \
          temp.E(2 * i + 1) = Vj->E(2 * i + 1);                  \
          temp.E(2 * i) = Vk->E(2 * i + 1);                      \
      }                                                          \
@@ -3175,20 +3235,24 @@ VPACKOD(vpackod_h, 32, H)
  VPACKOD(vpackod_w, 64, W)
  VPACKOD(vpackod_d, 128, D)
  
-#define VPICKEV(NAME, BIT, E)                                  \
-void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
-{                                                              \
-    int i;                                                     \
-    VReg temp;                                                 \
-    VReg *Vd = (VReg *)vd;                                     \
-    VReg *Vj = (VReg *)vj;                                     \
-    VReg *Vk = (VReg *)vk;                                     \
-                                                               \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                        \
-        temp.E(i + LSX_LEN/BIT) = Vj->E(2 * i);                \
-        temp.E(i) = Vk->E(2 * i);                              \
-    }                                                          \
-    *Vd = temp;                                                \
+#define VPICKEV(NAME, BIT, E)                                         \
+void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc)        \
+{                                                                     \
+    int i, j, ofs;                                                    \
+    VReg temp = {};                                                   \
+    VReg *Vd = (VReg *)vd;                                            \
+    VReg *Vj = (VReg *)vj;                                            \
+    VReg *Vk = (VReg *)vk;                                            \
+    int oprsz = simd_oprsz(desc);                                     \
+                                                                      \
+    ofs = LSX_LEN / BIT;                                              \
+    for (i = 0; i < oprsz / 16; i++) {                                \
+        for (j = 0; j < ofs; j++) {                                   \
+            temp.E(j + ofs * (2 * i + 1)) = Vj->E(2 * (j + ofs * i)); \
+            temp.E(j + ofs * 2 * i) = Vk->E(2 * (j + ofs * i));       \
+        }                                                             \
+    }                                                                 \
+    *Vd = temp;                                                       \
  }
  
  VPICKEV(vpickev_b, 16, B)
@@ -3196,20 +3260,24 @@ VPICKEV(vpickev_h, 32, H)
  VPICKEV(vpickev_w, 64, W)
  VPICKEV(vpickev_d, 128, D)
  
-#define VPICKOD(NAME, BIT, E)                                  \
-void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
-{                                                              \
-    int i;                                                     \
-    VReg temp;                                                 \
-    VReg *Vd = (VReg *)vd;                                     \
-    VReg *Vj = (VReg *)vj;                                     \
-    VReg *Vk = (VReg *)vk;                                     \
-                                                               \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                        \
-        temp.E(i + LSX_LEN/BIT) = Vj->E(2 * i + 1);            \
-        temp.E(i) = Vk->E(2 * i + 1);                          \
-    }                                                          \
-    *Vd = temp;                                                \
+#define VPICKOD(NAME, BIT, E)                                             \
+void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc)            \
+{                                                                         \
+    int i, j, ofs;                                                        \
+    VReg temp = {};                                                       \
+    VReg *Vd = (VReg *)vd;                                                \
+    VReg *Vj = (VReg *)vj;                                                \
+    VReg *Vk = (VReg *)vk;                                                \
+    int oprsz = simd_oprsz(desc);                                         \
+                                                                          \
+    ofs = LSX_LEN / BIT;                                                  \
+    for (i = 0; i < oprsz / 16; i++) {                                    \
+        for (j = 0; j < ofs; j++) {                                       \
+            temp.E(j + ofs * (2 * i + 1)) = Vj->E(2 * (j + ofs * i) + 1); \
+            temp.E(j + ofs * 2 * i) = Vk->E(2 * (j + ofs * i) + 1);       \
+        }                                                                 \
+    }                                                                     \
+    *Vd = temp;                                                           \
  }
  
  VPICKOD(vpickod_b, 16, B)
@@ -3217,20 +3285,24 @@ VPICKOD(vpickod_h, 32, H)
  VPICKOD(vpickod_w, 64, W)
  VPICKOD(vpickod_d, 128, D)
  
-#define VILVL(NAME, BIT, E)                                    \
-void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
-{                                                              \
-    int i;                                                     \
-    VReg temp;                                                 \
-    VReg *Vd = (VReg *)vd;                                     \
-    VReg *Vj = (VReg *)vj;                                     \
-    VReg *Vk = (VReg *)vk;                                     \
-                                                               \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                        \
-        temp.E(2 * i + 1) = Vj->E(i);                          \
-        temp.E(2 * i) = Vk->E(i);                              \
-    }                                                          \
-    *Vd = temp;                                                \
+#define VILVL(NAME, BIT, E)                                         \
+void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc)      \
+{                                                                   \
+    int i, j, ofs;                                                  \
+    VReg temp = {};                                                 \
+    VReg *Vd = (VReg *)vd;                                          \
+    VReg *Vj = (VReg *)vj;                                          \
+    VReg *Vk = (VReg *)vk;                                          \
+    int oprsz = simd_oprsz(desc);                                   \
+                                                                    \
+    ofs = LSX_LEN / BIT;                                            \
+    for (i = 0; i < oprsz / 16; i++) {                              \
+        for (j = 0; j < ofs; j++) {                                 \
+            temp.E(2 * (j + ofs * i) + 1) = Vj->E(j + ofs * 2 * i); \
+            temp.E(2 * (j + ofs * i)) = Vk->E(j + ofs * 2 * i);     \
+        }                                                           \
+    }                                                               \
+    *Vd = temp;                                                     \
  }
  
  VILVL(vilvl_b, 16, B)
@@ -3238,20 +3310,24 @@ VILVL(vilvl_h, 32, H)
  VILVL(vilvl_w, 64, W)
  VILVL(vilvl_d, 128, D)
  
-#define VILVH(NAME, BIT, E)                                    \
-void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
-{                                                              \
-    int i;                                                     \
-    VReg temp;                                                 \
-    VReg *Vd = (VReg *)vd;                                     \
-    VReg *Vj = (VReg *)vj;                                     \
-    VReg *Vk = (VReg *)vk;                                     \
-                                                               \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                        \
-        temp.E(2 * i + 1) = Vj->E(i + LSX_LEN/BIT);            \
-        temp.E(2 * i) = Vk->E(i + LSX_LEN/BIT);                \
-    }                                                          \
-    *Vd = temp;                                                \
+#define VILVH(NAME, BIT, E)                                               \
+void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc)            \
+{                                                                         \
+    int i, j, ofs;                                                        \
+    VReg temp = {};                                                       \
+    VReg *Vd = (VReg *)vd;                                                \
+    VReg *Vj = (VReg *)vj;                                                \
+    VReg *Vk = (VReg *)vk;                                                \
+    int oprsz = simd_oprsz(desc);                                         \
+                                                                          \
+    ofs = LSX_LEN / BIT;                                                  \
+    for (i = 0; i < oprsz / 16; i++) {                                    \
+        for (j = 0; j < ofs; j++) {                                       \
+            temp.E(2 * (j + ofs * i) + 1) = Vj->E(j + ofs * (2 * i + 1)); \
+            temp.E(2 * (j + ofs * i)) = Vk->E(j + ofs * (2 * i + 1));     \
+        }                                                                 \
+    }                                                                     \
+    *Vd = temp;                                                           \
  }
  
  VILVH(vilvh_b, 16, B)
@@ -3261,55 +3337,61 @@ VILVH(vilvh_d, 128, D)
  
  void HELPER(vshuf_b)(void *vd, void *vj, void *vk, void *va, uint32_t desc)
  {
-    int i, m;
-    VReg temp;
+    int i, j, m;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
      VReg *Vk = (VReg *)vk;
      VReg *Va = (VReg *)va;
+    int oprsz = simd_oprsz(desc);
  
-    m = LSX_LEN/8;
-    for (i = 0; i < m ; i++) {
+    m = LSX_LEN / 8;
+    for (i = 0; i < (oprsz / 16) * m; i++) {
+        j = i < m ? 0 : 1;
          uint64_t k = (uint8_t)Va->B(i) % (2 * m);
-        temp.B(i) = k < m ? Vk->B(k) : Vj->B(k - m);
+        temp.B(i) = k < m ? Vk->B(k + j * m): Vj->B(k + (j - 1) * m);
      }
      *Vd = temp;
  }
  
-#define VSHUF(NAME, BIT, E)                                    \
-void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc) \
-{                                                              \
-    int i, m;                                                  \
-    VReg temp;                                                 \
-    VReg *Vd = (VReg *)vd;                                     \
-    VReg *Vj = (VReg *)vj;                                     \
-    VReg *Vk = (VReg *)vk;                                     \
-                                                               \
-    m = LSX_LEN/BIT;                                           \
-    for (i = 0; i < m; i++) {                                  \
-        uint64_t k  = ((uint8_t) Vd->E(i)) % (2 * m);          \
-        temp.E(i) = k < m ? Vk->E(k) : Vj->E(k - m);           \
-    }                                                          \
-    *Vd = temp;                                                \
+#define VSHUF(NAME, BIT, E)                                            \
+void HELPER(NAME)(void *vd, void *vj, void *vk, uint32_t desc)         \
+{                                                                      \
+    int i, j, m;                                                       \
+    VReg temp = {};                                                    \
+    VReg *Vd = (VReg *)vd;                                             \
+    VReg *Vj = (VReg *)vj;                                             \
+    VReg *Vk = (VReg *)vk;                                             \
+    int oprsz = simd_oprsz(desc);                                      \
+                                                                       \
+    m = LSX_LEN / BIT;                                                 \
+    for (i = 0; i < (oprsz / 16) * m; i++) {                           \
+        j = i < m ? 0 : 1;                                             \
+        uint64_t k  = ((uint8_t)Vd->E(i)) % (2 * m);                   \
+        temp.E(i) = k < m ? Vk->E(k + j * m) : Vj->E(k + (j - 1) * m); \
+    }                                                                  \
+    *Vd = temp;                                                        \
  }
  
  VSHUF(vshuf_h, 16, H)
  VSHUF(vshuf_w, 32, W)
  VSHUF(vshuf_d, 64, D)
  
-#define VSHUF4I(NAME, BIT, E)                                      \
-void HELPER(NAME)(void *vd, void *vj, uint64_t imm, uint32_t desc) \
-{                                                                  \
-    int i;                                                         \
-    VReg temp;                                                     \
-    VReg *Vd = (VReg *)vd;                                         \
-    VReg *Vj = (VReg *)vj;                                         \
-                                                                   \
-    for (i = 0; i < LSX_LEN/BIT; i++) {                            \
-         temp.E(i) = Vj->E(((i) & 0xfc) + (((imm) >>               \
-                           (2 * ((i) & 0x03))) & 0x03));           \
-    }                                                              \
-    *Vd = temp;                                                    \
+#define VSHUF4I(NAME, BIT, E)                                               \
+void HELPER(NAME)(void *vd, void *vj, uint64_t imm, uint32_t desc)          \
+{                                                                           \
+    int i, j, max;                                                          \
+    VReg temp = {};                                                         \
+    VReg *Vd = (VReg *)vd;                                                  \
+    VReg *Vj = (VReg *)vj;                                                  \
+    int oprsz = simd_oprsz(desc);                                           \
+                                                                            \
+    max = LSX_LEN / BIT;                                                    \
+    for (i = 0; i < oprsz / (BIT / 8); i++) {                               \
+        j = i < max ? 1 : 2;                                                \
+        temp.E(i) = Vj->E(SHF_POS(i - ((j -1)* max), imm) + (j - 1) * max); \
+    }                                                                       \
+    *Vd = temp;                                                             \
  }
  
  VSHUF4I(vshuf4i_b, 8, B)
@@ -3318,38 +3400,92 @@ VSHUF4I(vshuf4i_w, 32, W)
  
  void HELPER(vshuf4i_d)(void *vd, void *vj, uint64_t imm, uint32_t desc)
  {
+    int i;
+    VReg temp = {};
+    VReg *Vd = (VReg *)vd;
+    VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
+
+    for (i = 0; i < oprsz / 16; i++) {
+        temp.D(2 * i) = (imm & 2 ? Vj : Vd)->D((imm & 1) + 2 * i);
+        temp.D(2 * i + 1) = (imm & 8 ? Vj : Vd)->D(((imm >> 2) & 1) + 2 * i);
+    }
+    *Vd = temp;
+}
+
+void HELPER(vperm_w)(void *vd, void *vj, void *vk, uint32_t desc)
+{
+    int i, m;
+    VReg temp = {};
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
+    VReg *Vk = (VReg *)vk;
  
-    VReg temp;
-    temp.D(0) = (imm & 2 ? Vj : Vd)->D(imm & 1);
-    temp.D(1) = (imm & 8 ? Vj : Vd)->D((imm >> 2) & 1);
+    m = LASX_LEN / 32;
+    for (i = 0; i < m ; i++) {
+        uint64_t k = (uint8_t)Vk->W(i) % 8;
+        temp.W(i) = Vj->W(k);
+    }
      *Vd = temp;
  }
  
  void HELPER(vpermi_w)(void *vd, void *vj, uint64_t imm, uint32_t desc)
  {
+    int i;
+    VReg temp = {};
+    VReg *Vd = (VReg *)vd;
+    VReg *Vj = (VReg *)vj;
+    int oprsz = simd_oprsz(desc);
+
+    for (i = 0; i < oprsz / 16; i++) {
+        temp.W(4 * i) = Vj->W((imm & 0x3) + 4 * i);
+        temp.W(4 * i + 1) = Vj->W(((imm >> 2) & 0x3) + 4 * i);
+        temp.W(4 * i + 2) = Vd->W(((imm >> 4) & 0x3) + 4 * i);
+        temp.W(4 * i + 3) = Vd->W(((imm >> 6) & 0x3) + 4 * i);
+    }
+    *Vd = temp;
+}
+
+void HELPER(vpermi_d)(void *vd, void *vj, uint64_t imm, uint32_t desc)
+{
+    VReg temp = {};
+    VReg *Vd = (VReg *)vd;
+    VReg *Vj = (VReg *)vj;
+
+    temp.D(0) = Vj->D(imm & 0x3);
+    temp.D(1) = Vj->D((imm >> 2) & 0x3);
+    temp.D(2) = Vj->D((imm >> 4) & 0x3);
+    temp.D(3) = Vj->D((imm >> 6) & 0x3);
+    *Vd = temp;
+}
+
+void HELPER(vpermi_q)(void *vd, void *vj, uint64_t imm, uint32_t desc)
+{
+    int i;
      VReg temp;
      VReg *Vd = (VReg *)vd;
      VReg *Vj = (VReg *)vj;
  
-    temp.W(0) = Vj->W(imm & 0x3);
-    temp.W(1) = Vj->W((imm >> 2) & 0x3);
-    temp.W(2) = Vd->W((imm >> 4) & 0x3);
-    temp.W(3) = Vd->W((imm >> 6) & 0x3);
+    for (i = 0; i < 2; i++, imm >>= 4) {
+        temp.Q(i) = (imm & 2 ? Vd: Vj)->Q(imm & 1);
+    }
      *Vd = temp;
  }
  
  #define VEXTRINS(NAME, BIT, E, MASK)                               \
  void HELPER(NAME)(void *vd, void *vj, uint64_t imm, uint32_t desc) \
  {                                                                  \
-    int ins, extr;                                                 \
+    int i, ins, extr, max;                                         \
      VReg *Vd = (VReg *)vd;                                         \
      VReg *Vj = (VReg *)vj;                                         \
+    int oprsz = simd_oprsz(desc);                                  \
                                                                     \
+    max = LSX_LEN / BIT;                                           \
      ins = (imm >> 4) & MASK;                                       \
      extr = imm & MASK;                                             \
-    Vd->E(ins) = Vj->E(extr);                                      \
+    for (i = 0; i < oprsz / 16; i++) {                             \
+        Vd->E(ins + i * max) = Vj->E(extr + i * max);              \
+    }                                                              \
  }
  
  VEXTRINS(vextrins_b, 8, B, 0xf)