target-arm/translate-a64.c

   1 /*
   2  *  AArch64 translation
   3  *
   4  *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
   5  *
   6  * This library is free software; you can redistribute it and/or
   7  * modify it under the terms of the GNU Lesser General Public
   8  * License as published by the Free Software Foundation; either
   9  * version 2 of the License, or (at your option) any later version.
  10  *
  11  * This library is distributed in the hope that it will be useful,
  12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14  * Lesser General Public License for more details.
  15  *
  16  * You should have received a copy of the GNU Lesser General Public
  17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
  18  */
  19 #include <stdarg.h>
  20 #include <stdlib.h>
  21 #include <stdio.h>
  22 #include <string.h>
  23 #include <inttypes.h>
  24
  25 #include "cpu.h"
  26 #include "tcg-op.h"
  27 #include "qemu/log.h"
  28 #include "arm_ldst.h"
  29 #include "translate.h"
  30 #include "internals.h"
  31 #include "qemu/host-utils.h"
  32
  33 #include "exec/gen-icount.h"
  34
  35 #include "exec/helper-proto.h"
  36 #include "exec/helper-gen.h"
  37
  38 static TCGv_i64 cpu_X[32];
  39 static TCGv_i64 cpu_pc;
  40 static TCGv_i32 cpu_NF, cpu_ZF, cpu_CF, cpu_VF;
  41
  42 /* Load/store exclusive handling */
  43 static TCGv_i64 cpu_exclusive_addr;
  44 static TCGv_i64 cpu_exclusive_val;
  45 static TCGv_i64 cpu_exclusive_high;
  46 #ifdef CONFIG_USER_ONLY
  47 static TCGv_i64 cpu_exclusive_test;
  48 static TCGv_i32 cpu_exclusive_info;
  49 #endif
  50
  51 static const char *regnames[] = {
  52     "x0", "x1", "x2", "x3", "x4", "x5", "x6", "x7",
  53     "x8", "x9", "x10", "x11", "x12", "x13", "x14", "x15",
  54     "x16", "x17", "x18", "x19", "x20", "x21", "x22", "x23",
  55     "x24", "x25", "x26", "x27", "x28", "x29", "lr", "sp"
  56 };
  57
  58 enum a64_shift_type {
  59     A64_SHIFT_TYPE_LSL = 0,
  60     A64_SHIFT_TYPE_LSR = 1,
  61     A64_SHIFT_TYPE_ASR = 2,
  62     A64_SHIFT_TYPE_ROR = 3
  63 };
  64
  65 /* Table based decoder typedefs - used when the relevant bits for decode
  66  * are too awkwardly scattered across the instruction (eg SIMD).
  67  */
  68 typedef void AArch64DecodeFn(DisasContext *s, uint32_t insn);
  69
  70 typedef struct AArch64DecodeTable {
  71     uint32_t pattern;
  72     uint32_t mask;
  73     AArch64DecodeFn *disas_fn;
  74 } AArch64DecodeTable;
  75
  76 /* Function prototype for gen_ functions for calling Neon helpers */
  77 typedef void NeonGenOneOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32);
  78 typedef void NeonGenTwoOpFn(TCGv_i32, TCGv_i32, TCGv_i32);
  79 typedef void NeonGenTwoOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32, TCGv_i32);
  80 typedef void NeonGenTwo64OpFn(TCGv_i64, TCGv_i64, TCGv_i64);
  81 typedef void NeonGenTwo64OpEnvFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i64);
  82 typedef void NeonGenNarrowFn(TCGv_i32, TCGv_i64);
  83 typedef void NeonGenNarrowEnvFn(TCGv_i32, TCGv_ptr, TCGv_i64);
  84 typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
  85 typedef void NeonGenTwoSingleOPFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
  86 typedef void NeonGenTwoDoubleOPFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
  87 typedef void NeonGenOneOpFn(TCGv_i64, TCGv_i64);
  88 typedef void CryptoThreeOpEnvFn(TCGv_ptr, TCGv_i32, TCGv_i32, TCGv_i32);
  89
  90 /* initialize TCG globals.  */
  91 void a64_translate_init(void)
  92 {
  93     int i;
  94
  95     cpu_pc = tcg_global_mem_new_i64(TCG_AREG0,
  96                                     offsetof(CPUARMState, pc),
  97                                     "pc");
  98     for (i = 0; i < 32; i++) {
  99         cpu_X[i] = tcg_global_mem_new_i64(TCG_AREG0,
 100                                           offsetof(CPUARMState, xregs[i]),
 101                                           regnames[i]);
 102     }
 103
 104     cpu_NF = tcg_global_mem_new_i32(TCG_AREG0, offsetof(CPUARMState, NF), "NF");
 105     cpu_ZF = tcg_global_mem_new_i32(TCG_AREG0, offsetof(CPUARMState, ZF), "ZF");
 106     cpu_CF = tcg_global_mem_new_i32(TCG_AREG0, offsetof(CPUARMState, CF), "CF");
 107     cpu_VF = tcg_global_mem_new_i32(TCG_AREG0, offsetof(CPUARMState, VF), "VF");
 108
 109     cpu_exclusive_addr = tcg_global_mem_new_i64(TCG_AREG0,
 110         offsetof(CPUARMState, exclusive_addr), "exclusive_addr");
 111     cpu_exclusive_val = tcg_global_mem_new_i64(TCG_AREG0,
 112         offsetof(CPUARMState, exclusive_val), "exclusive_val");
 113     cpu_exclusive_high = tcg_global_mem_new_i64(TCG_AREG0,
 114         offsetof(CPUARMState, exclusive_high), "exclusive_high");
 115 #ifdef CONFIG_USER_ONLY
 116     cpu_exclusive_test = tcg_global_mem_new_i64(TCG_AREG0,
 117         offsetof(CPUARMState, exclusive_test), "exclusive_test");
 118     cpu_exclusive_info = tcg_global_mem_new_i32(TCG_AREG0,
 119         offsetof(CPUARMState, exclusive_info), "exclusive_info");
 120 #endif
 121 }
 122
 123 void aarch64_cpu_dump_state(CPUState *cs, FILE *f,
 124                             fprintf_function cpu_fprintf, int flags)
 125 {
 126     ARMCPU *cpu = ARM_CPU(cs);
 127     CPUARMState *env = &cpu->env;
 128     uint32_t psr = pstate_read(env);
 129     int i;
 130
 131     cpu_fprintf(f, "PC=%016"PRIx64"  SP=%016"PRIx64"\n",
 132             env->pc, env->xregs[31]);
 133     for (i = 0; i < 31; i++) {
 134         cpu_fprintf(f, "X%02d=%016"PRIx64, i, env->xregs[i]);
 135         if ((i % 4) == 3) {
 136             cpu_fprintf(f, "\n");
 137         } else {
 138             cpu_fprintf(f, " ");
 139         }
 140     }
 141     cpu_fprintf(f, "PSTATE=%08x (flags %c%c%c%c)\n",
 142                 psr,
 143                 psr & PSTATE_N ? 'N' : '-',
 144                 psr & PSTATE_Z ? 'Z' : '-',
 145                 psr & PSTATE_C ? 'C' : '-',
 146                 psr & PSTATE_V ? 'V' : '-');
 147     cpu_fprintf(f, "\n");
 148
 149     if (flags & CPU_DUMP_FPU) {
 150         int numvfpregs = 32;
 151         for (i = 0; i < numvfpregs; i += 2) {
 152             uint64_t vlo = float64_val(env->vfp.regs[i * 2]);
 153             uint64_t vhi = float64_val(env->vfp.regs[(i * 2) + 1]);
 154             cpu_fprintf(f, "q%02d=%016" PRIx64 ":%016" PRIx64 " ",
 155                         i, vhi, vlo);
 156             vlo = float64_val(env->vfp.regs[(i + 1) * 2]);
 157             vhi = float64_val(env->vfp.regs[((i + 1) * 2) + 1]);
 158             cpu_fprintf(f, "q%02d=%016" PRIx64 ":%016" PRIx64 "\n",
 159                         i + 1, vhi, vlo);
 160         }
 161         cpu_fprintf(f, "FPCR: %08x  FPSR: %08x\n",
 162                     vfp_get_fpcr(env), vfp_get_fpsr(env));
 163     }
 164 }
 165
 166 void gen_a64_set_pc_im(uint64_t val)
 167 {
 168     tcg_gen_movi_i64(cpu_pc, val);
 169 }
 170
 171 static void gen_exception_internal(int excp)
 172 {
 173     TCGv_i32 tcg_excp = tcg_const_i32(excp);
 174
 175     assert(excp_is_internal(excp));
 176     gen_helper_exception_internal(cpu_env, tcg_excp);
 177     tcg_temp_free_i32(tcg_excp);
 178 }
 179
 180 static void gen_exception(int excp, uint32_t syndrome)
 181 {
 182     TCGv_i32 tcg_excp = tcg_const_i32(excp);
 183     TCGv_i32 tcg_syn = tcg_const_i32(syndrome);
 184
 185     gen_helper_exception_with_syndrome(cpu_env, tcg_excp, tcg_syn);
 186     tcg_temp_free_i32(tcg_syn);
 187     tcg_temp_free_i32(tcg_excp);
 188 }
 189
 190 static void gen_exception_internal_insn(DisasContext *s, int offset, int excp)
 191 {
 192     gen_a64_set_pc_im(s->pc - offset);
 193     gen_exception_internal(excp);
 194     s->is_jmp = DISAS_EXC;
 195 }
 196
 197 static void gen_exception_insn(DisasContext *s, int offset, int excp,
 198                                uint32_t syndrome)
 199 {
 200     gen_a64_set_pc_im(s->pc - offset);
 201     gen_exception(excp, syndrome);
 202     s->is_jmp = DISAS_EXC;
 203 }
 204
 205 static inline bool use_goto_tb(DisasContext *s, int n, uint64_t dest)
 206 {
 207     /* No direct tb linking with singlestep or deterministic io */
 208     if (s->singlestep_enabled || (s->tb->cflags & CF_LAST_IO)) {
 209         return false;
 210     }
 211
 212     /* Only link tbs from inside the same guest page */
 213     if ((s->tb->pc & TARGET_PAGE_MASK) != (dest & TARGET_PAGE_MASK)) {
 214         return false;
 215     }
 216
 217     return true;
 218 }
 219
 220 static inline void gen_goto_tb(DisasContext *s, int n, uint64_t dest)
 221 {
 222     TranslationBlock *tb;
 223
 224     tb = s->tb;
 225     if (use_goto_tb(s, n, dest)) {
 226         tcg_gen_goto_tb(n);
 227         gen_a64_set_pc_im(dest);
 228         tcg_gen_exit_tb((intptr_t)tb + n);
 229         s->is_jmp = DISAS_TB_JUMP;
 230     } else {
 231         gen_a64_set_pc_im(dest);
 232         if (s->singlestep_enabled) {
 233             gen_exception_internal(EXCP_DEBUG);
 234         }
 235         tcg_gen_exit_tb(0);
 236         s->is_jmp = DISAS_JUMP;
 237     }
 238 }
 239
 240 static void unallocated_encoding(DisasContext *s)
 241 {
 242     /* Unallocated and reserved encodings are uncategorized */
 243     gen_exception_insn(s, 4, EXCP_UDEF, syn_uncategorized());
 244 }
 245
 246 #define unsupported_encoding(s, insn)                                    \
 247     do {                                                                 \
 248         qemu_log_mask(LOG_UNIMP,                                         \
 249                       "%s:%d: unsupported instruction encoding 0x%08x "  \
 250                       "at pc=%016" PRIx64 "\n",                          \
 251                       __FILE__, __LINE__, insn, s->pc - 4);              \
 252         unallocated_encoding(s);                                         \
 253     } while (0);
 254
 255 static void init_tmp_a64_array(DisasContext *s)
 256 {
 257 #ifdef CONFIG_DEBUG_TCG
 258     int i;
 259     for (i = 0; i < ARRAY_SIZE(s->tmp_a64); i++) {
 260         TCGV_UNUSED_I64(s->tmp_a64[i]);
 261     }
 262 #endif
 263     s->tmp_a64_count = 0;
 264 }
 265
 266 static void free_tmp_a64(DisasContext *s)
 267 {
 268     int i;
 269     for (i = 0; i < s->tmp_a64_count; i++) {
 270         tcg_temp_free_i64(s->tmp_a64[i]);
 271     }
 272     init_tmp_a64_array(s);
 273 }
 274
 275 static TCGv_i64 new_tmp_a64(DisasContext *s)
 276 {
 277     assert(s->tmp_a64_count < TMP_A64_MAX);
 278     return s->tmp_a64[s->tmp_a64_count++] = tcg_temp_new_i64();
 279 }
 280
 281 static TCGv_i64 new_tmp_a64_zero(DisasContext *s)
 282 {
 283     TCGv_i64 t = new_tmp_a64(s);
 284     tcg_gen_movi_i64(t, 0);
 285     return t;
 286 }
 287
 288 /*
 289  * Register access functions
 290  *
 291  * These functions are used for directly accessing a register in where
 292  * changes to the final register value are likely to be made. If you
 293  * need to use a register for temporary calculation (e.g. index type
 294  * operations) use the read_* form.
 295  *
 296  * B1.2.1 Register mappings
 297  *
 298  * In instruction register encoding 31 can refer to ZR (zero register) or
 299  * the SP (stack pointer) depending on context. In QEMU's case we map SP
 300  * to cpu_X[31] and ZR accesses to a temporary which can be discarded.
 301  * This is the point of the _sp forms.
 302  */
 303 static TCGv_i64 cpu_reg(DisasContext *s, int reg)
 304 {
 305     if (reg == 31) {
 306         return new_tmp_a64_zero(s);
 307     } else {
 308         return cpu_X[reg];
 309     }
 310 }
 311
 312 /* register access for when 31 == SP */
 313 static TCGv_i64 cpu_reg_sp(DisasContext *s, int reg)
 314 {
 315     return cpu_X[reg];
 316 }
 317
 318 /* read a cpu register in 32bit/64bit mode. Returns a TCGv_i64
 319  * representing the register contents. This TCGv is an auto-freed
 320  * temporary so it need not be explicitly freed, and may be modified.
 321  */
 322 static TCGv_i64 read_cpu_reg(DisasContext *s, int reg, int sf)
 323 {
 324     TCGv_i64 v = new_tmp_a64(s);
 325     if (reg != 31) {
 326         if (sf) {
 327             tcg_gen_mov_i64(v, cpu_X[reg]);
 328         } else {
 329             tcg_gen_ext32u_i64(v, cpu_X[reg]);
 330         }
 331     } else {
 332         tcg_gen_movi_i64(v, 0);
 333     }
 334     return v;
 335 }
 336
 337 static TCGv_i64 read_cpu_reg_sp(DisasContext *s, int reg, int sf)
 338 {
 339     TCGv_i64 v = new_tmp_a64(s);
 340     if (sf) {
 341         tcg_gen_mov_i64(v, cpu_X[reg]);
 342     } else {
 343         tcg_gen_ext32u_i64(v, cpu_X[reg]);
 344     }
 345     return v;
 346 }
 347
 348 /* We should have at some point before trying to access an FP register
 349  * done the necessary access check, so assert that
 350  * (a) we did the check and
 351  * (b) we didn't then just plough ahead anyway if it failed.
 352  * Print the instruction pattern in the abort message so we can figure
 353  * out what we need to fix if a user encounters this problem in the wild.
 354  */
 355 static inline void assert_fp_access_checked(DisasContext *s)
 356 {
 357 #ifdef CONFIG_DEBUG_TCG
 358     if (unlikely(!s->fp_access_checked || !s->cpacr_fpen)) {
 359         fprintf(stderr, "target-arm: FP access check missing for "
 360                 "instruction 0x%08x\n", s->insn);
 361         abort();
 362     }
 363 #endif
 364 }
 365
 366 /* Return the offset into CPUARMState of an element of specified
 367  * size, 'element' places in from the least significant end of
 368  * the FP/vector register Qn.
 369  */
 370 static inline int vec_reg_offset(DisasContext *s, int regno,
 371                                  int element, TCGMemOp size)
 372 {
 373     int offs = offsetof(CPUARMState, vfp.regs[regno * 2]);
 374 #ifdef HOST_WORDS_BIGENDIAN
 375     /* This is complicated slightly because vfp.regs[2n] is
 376      * still the low half and  vfp.regs[2n+1] the high half
 377      * of the 128 bit vector, even on big endian systems.
 378      * Calculate the offset assuming a fully bigendian 128 bits,
 379      * then XOR to account for the order of the two 64 bit halves.
 380      */
 381     offs += (16 - ((element + 1) * (1 << size)));
 382     offs ^= 8;
 383 #else
 384     offs += element * (1 << size);
 385 #endif
 386     assert_fp_access_checked(s);
 387     return offs;
 388 }
 389
 390 /* Return the offset into CPUARMState of a slice (from
 391  * the least significant end) of FP register Qn (ie
 392  * Dn, Sn, Hn or Bn).
 393  * (Note that this is not the same mapping as for A32; see cpu.h)
 394  */
 395 static inline int fp_reg_offset(DisasContext *s, int regno, TCGMemOp size)
 396 {
 397     int offs = offsetof(CPUARMState, vfp.regs[regno * 2]);
 398 #ifdef HOST_WORDS_BIGENDIAN
 399     offs += (8 - (1 << size));
 400 #endif
 401     assert_fp_access_checked(s);
 402     return offs;
 403 }
 404
 405 /* Offset of the high half of the 128 bit vector Qn */
 406 static inline int fp_reg_hi_offset(DisasContext *s, int regno)
 407 {
 408     assert_fp_access_checked(s);
 409     return offsetof(CPUARMState, vfp.regs[regno * 2 + 1]);
 410 }
 411
 412 /* Convenience accessors for reading and writing single and double
 413  * FP registers. Writing clears the upper parts of the associated
 414  * 128 bit vector register, as required by the architecture.
 415  * Note that unlike the GP register accessors, the values returned
 416  * by the read functions must be manually freed.
 417  */
 418 static TCGv_i64 read_fp_dreg(DisasContext *s, int reg)
 419 {
 420     TCGv_i64 v = tcg_temp_new_i64();
 421
 422     tcg_gen_ld_i64(v, cpu_env, fp_reg_offset(s, reg, MO_64));
 423     return v;
 424 }
 425
 426 static TCGv_i32 read_fp_sreg(DisasContext *s, int reg)
 427 {
 428     TCGv_i32 v = tcg_temp_new_i32();
 429
 430     tcg_gen_ld_i32(v, cpu_env, fp_reg_offset(s, reg, MO_32));
 431     return v;
 432 }
 433
 434 static void write_fp_dreg(DisasContext *s, int reg, TCGv_i64 v)
 435 {
 436     TCGv_i64 tcg_zero = tcg_const_i64(0);
 437
 438     tcg_gen_st_i64(v, cpu_env, fp_reg_offset(s, reg, MO_64));
 439     tcg_gen_st_i64(tcg_zero, cpu_env, fp_reg_hi_offset(s, reg));
 440     tcg_temp_free_i64(tcg_zero);
 441 }
 442
 443 static void write_fp_sreg(DisasContext *s, int reg, TCGv_i32 v)
 444 {
 445     TCGv_i64 tmp = tcg_temp_new_i64();
 446
 447     tcg_gen_extu_i32_i64(tmp, v);
 448     write_fp_dreg(s, reg, tmp);
 449     tcg_temp_free_i64(tmp);
 450 }
 451
 452 static TCGv_ptr get_fpstatus_ptr(void)
 453 {
 454     TCGv_ptr statusptr = tcg_temp_new_ptr();
 455     int offset;
 456
 457     /* In A64 all instructions (both FP and Neon) use the FPCR;
 458      * there is no equivalent of the A32 Neon "standard FPSCR value"
 459      * and all operations use vfp.fp_status.
 460      */
 461     offset = offsetof(CPUARMState, vfp.fp_status);
 462     tcg_gen_addi_ptr(statusptr, cpu_env, offset);
 463     return statusptr;
 464 }
 465
 466 /* Set ZF and NF based on a 64 bit result. This is alas fiddlier
 467  * than the 32 bit equivalent.
 468  */
 469 static inline void gen_set_NZ64(TCGv_i64 result)
 470 {
 471     TCGv_i64 flag = tcg_temp_new_i64();
 472
 473     tcg_gen_setcondi_i64(TCG_COND_NE, flag, result, 0);
 474     tcg_gen_trunc_i64_i32(cpu_ZF, flag);
 475     tcg_gen_shri_i64(flag, result, 32);
 476     tcg_gen_trunc_i64_i32(cpu_NF, flag);
 477     tcg_temp_free_i64(flag);
 478 }
 479
 480 /* Set NZCV as for a logical operation: NZ as per result, CV cleared. */
 481 static inline void gen_logic_CC(int sf, TCGv_i64 result)
 482 {
 483     if (sf) {
 484         gen_set_NZ64(result);
 485     } else {
 486         tcg_gen_trunc_i64_i32(cpu_ZF, result);
 487         tcg_gen_trunc_i64_i32(cpu_NF, result);
 488     }
 489     tcg_gen_movi_i32(cpu_CF, 0);
 490     tcg_gen_movi_i32(cpu_VF, 0);
 491 }
 492
 493 /* dest = T0 + T1; compute C, N, V and Z flags */
 494 static void gen_add_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 495 {
 496     if (sf) {
 497         TCGv_i64 result, flag, tmp;
 498         result = tcg_temp_new_i64();
 499         flag = tcg_temp_new_i64();
 500         tmp = tcg_temp_new_i64();
 501
 502         tcg_gen_movi_i64(tmp, 0);
 503         tcg_gen_add2_i64(result, flag, t0, tmp, t1, tmp);
 504
 505         tcg_gen_trunc_i64_i32(cpu_CF, flag);
 506
 507         gen_set_NZ64(result);
 508
 509         tcg_gen_xor_i64(flag, result, t0);
 510         tcg_gen_xor_i64(tmp, t0, t1);
 511         tcg_gen_andc_i64(flag, flag, tmp);
 512         tcg_temp_free_i64(tmp);
 513         tcg_gen_shri_i64(flag, flag, 32);
 514         tcg_gen_trunc_i64_i32(cpu_VF, flag);
 515
 516         tcg_gen_mov_i64(dest, result);
 517         tcg_temp_free_i64(result);
 518         tcg_temp_free_i64(flag);
 519     } else {
 520         /* 32 bit arithmetic */
 521         TCGv_i32 t0_32 = tcg_temp_new_i32();
 522         TCGv_i32 t1_32 = tcg_temp_new_i32();
 523         TCGv_i32 tmp = tcg_temp_new_i32();
 524
 525         tcg_gen_movi_i32(tmp, 0);
 526         tcg_gen_trunc_i64_i32(t0_32, t0);
 527         tcg_gen_trunc_i64_i32(t1_32, t1);
 528         tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, t1_32, tmp);
 529         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 530         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 531         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 532         tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
 533         tcg_gen_extu_i32_i64(dest, cpu_NF);
 534
 535         tcg_temp_free_i32(tmp);
 536         tcg_temp_free_i32(t0_32);
 537         tcg_temp_free_i32(t1_32);
 538     }
 539 }
 540
 541 /* dest = T0 - T1; compute C, N, V and Z flags */
 542 static void gen_sub_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 543 {
 544     if (sf) {
 545         /* 64 bit arithmetic */
 546         TCGv_i64 result, flag, tmp;
 547
 548         result = tcg_temp_new_i64();
 549         flag = tcg_temp_new_i64();
 550         tcg_gen_sub_i64(result, t0, t1);
 551
 552         gen_set_NZ64(result);
 553
 554         tcg_gen_setcond_i64(TCG_COND_GEU, flag, t0, t1);
 555         tcg_gen_trunc_i64_i32(cpu_CF, flag);
 556
 557         tcg_gen_xor_i64(flag, result, t0);
 558         tmp = tcg_temp_new_i64();
 559         tcg_gen_xor_i64(tmp, t0, t1);
 560         tcg_gen_and_i64(flag, flag, tmp);
 561         tcg_temp_free_i64(tmp);
 562         tcg_gen_shri_i64(flag, flag, 32);
 563         tcg_gen_trunc_i64_i32(cpu_VF, flag);
 564         tcg_gen_mov_i64(dest, result);
 565         tcg_temp_free_i64(flag);
 566         tcg_temp_free_i64(result);
 567     } else {
 568         /* 32 bit arithmetic */
 569         TCGv_i32 t0_32 = tcg_temp_new_i32();
 570         TCGv_i32 t1_32 = tcg_temp_new_i32();
 571         TCGv_i32 tmp;
 572
 573         tcg_gen_trunc_i64_i32(t0_32, t0);
 574         tcg_gen_trunc_i64_i32(t1_32, t1);
 575         tcg_gen_sub_i32(cpu_NF, t0_32, t1_32);
 576         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 577         tcg_gen_setcond_i32(TCG_COND_GEU, cpu_CF, t0_32, t1_32);
 578         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 579         tmp = tcg_temp_new_i32();
 580         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 581         tcg_temp_free_i32(t0_32);
 582         tcg_temp_free_i32(t1_32);
 583         tcg_gen_and_i32(cpu_VF, cpu_VF, tmp);
 584         tcg_temp_free_i32(tmp);
 585         tcg_gen_extu_i32_i64(dest, cpu_NF);
 586     }
 587 }
 588
 589 /* dest = T0 + T1 + CF; do not compute flags. */
 590 static void gen_adc(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 591 {
 592     TCGv_i64 flag = tcg_temp_new_i64();
 593     tcg_gen_extu_i32_i64(flag, cpu_CF);
 594     tcg_gen_add_i64(dest, t0, t1);
 595     tcg_gen_add_i64(dest, dest, flag);
 596     tcg_temp_free_i64(flag);
 597
 598     if (!sf) {
 599         tcg_gen_ext32u_i64(dest, dest);
 600     }
 601 }
 602
 603 /* dest = T0 + T1 + CF; compute C, N, V and Z flags. */
 604 static void gen_adc_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 605 {
 606     if (sf) {
 607         TCGv_i64 result, cf_64, vf_64, tmp;
 608         result = tcg_temp_new_i64();
 609         cf_64 = tcg_temp_new_i64();
 610         vf_64 = tcg_temp_new_i64();
 611         tmp = tcg_const_i64(0);
 612
 613         tcg_gen_extu_i32_i64(cf_64, cpu_CF);
 614         tcg_gen_add2_i64(result, cf_64, t0, tmp, cf_64, tmp);
 615         tcg_gen_add2_i64(result, cf_64, result, cf_64, t1, tmp);
 616         tcg_gen_trunc_i64_i32(cpu_CF, cf_64);
 617         gen_set_NZ64(result);
 618
 619         tcg_gen_xor_i64(vf_64, result, t0);
 620         tcg_gen_xor_i64(tmp, t0, t1);
 621         tcg_gen_andc_i64(vf_64, vf_64, tmp);
 622         tcg_gen_shri_i64(vf_64, vf_64, 32);
 623         tcg_gen_trunc_i64_i32(cpu_VF, vf_64);
 624
 625         tcg_gen_mov_i64(dest, result);
 626
 627         tcg_temp_free_i64(tmp);
 628         tcg_temp_free_i64(vf_64);
 629         tcg_temp_free_i64(cf_64);
 630         tcg_temp_free_i64(result);
 631     } else {
 632         TCGv_i32 t0_32, t1_32, tmp;
 633         t0_32 = tcg_temp_new_i32();
 634         t1_32 = tcg_temp_new_i32();
 635         tmp = tcg_const_i32(0);
 636
 637         tcg_gen_trunc_i64_i32(t0_32, t0);
 638         tcg_gen_trunc_i64_i32(t1_32, t1);
 639         tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, cpu_CF, tmp);
 640         tcg_gen_add2_i32(cpu_NF, cpu_CF, cpu_NF, cpu_CF, t1_32, tmp);
 641
 642         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 643         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 644         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 645         tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
 646         tcg_gen_extu_i32_i64(dest, cpu_NF);
 647
 648         tcg_temp_free_i32(tmp);
 649         tcg_temp_free_i32(t1_32);
 650         tcg_temp_free_i32(t0_32);
 651     }
 652 }
 653
 654 /*
 655  * Load/Store generators
 656  */
 657
 658 /*
 659  * Store from GPR register to memory.
 660  */
 661 static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
 662                              TCGv_i64 tcg_addr, int size, int memidx)
 663 {
 664     g_assert(size <= 3);
 665     tcg_gen_qemu_st_i64(source, tcg_addr, memidx, MO_TE + size);
 666 }
 667
 668 static void do_gpr_st(DisasContext *s, TCGv_i64 source,
 669                       TCGv_i64 tcg_addr, int size)
 670 {
 671     do_gpr_st_memidx(s, source, tcg_addr, size, get_mem_index(s));
 672 }
 673
 674 /*
 675  * Load from memory to GPR register
 676  */
 677 static void do_gpr_ld_memidx(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 678                              int size, bool is_signed, bool extend, int memidx)
 679 {
 680     TCGMemOp memop = MO_TE + size;
 681
 682     g_assert(size <= 3);
 683
 684     if (is_signed) {
 685         memop += MO_SIGN;
 686     }
 687
 688     tcg_gen_qemu_ld_i64(dest, tcg_addr, memidx, memop);
 689
 690     if (extend && is_signed) {
 691         g_assert(size < 3);
 692         tcg_gen_ext32u_i64(dest, dest);
 693     }
 694 }
 695
 696 static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 697                       int size, bool is_signed, bool extend)
 698 {
 699     do_gpr_ld_memidx(s, dest, tcg_addr, size, is_signed, extend,
 700                      get_mem_index(s));
 701 }
 702
 703 /*
 704  * Store from FP register to memory
 705  */
 706 static void do_fp_st(DisasContext *s, int srcidx, TCGv_i64 tcg_addr, int size)
 707 {
 708     /* This writes the bottom N bits of a 128 bit wide vector to memory */
 709     TCGv_i64 tmp = tcg_temp_new_i64();
 710     tcg_gen_ld_i64(tmp, cpu_env, fp_reg_offset(s, srcidx, MO_64));
 711     if (size < 4) {
 712         tcg_gen_qemu_st_i64(tmp, tcg_addr, get_mem_index(s), MO_TE + size);
 713     } else {
 714         TCGv_i64 tcg_hiaddr = tcg_temp_new_i64();
 715         tcg_gen_qemu_st_i64(tmp, tcg_addr, get_mem_index(s), MO_TEQ);
 716         tcg_gen_qemu_st64(tmp, tcg_addr, get_mem_index(s));
 717         tcg_gen_ld_i64(tmp, cpu_env, fp_reg_hi_offset(s, srcidx));
 718         tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
 719         tcg_gen_qemu_st_i64(tmp, tcg_hiaddr, get_mem_index(s), MO_TEQ);
 720         tcg_temp_free_i64(tcg_hiaddr);
 721     }
 722
 723     tcg_temp_free_i64(tmp);
 724 }
 725
 726 /*
 727  * Load from memory to FP register
 728  */
 729 static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
 730 {
 731     /* This always zero-extends and writes to a full 128 bit wide vector */
 732     TCGv_i64 tmplo = tcg_temp_new_i64();
 733     TCGv_i64 tmphi;
 734
 735     if (size < 4) {
 736         TCGMemOp memop = MO_TE + size;
 737         tmphi = tcg_const_i64(0);
 738         tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), memop);
 739     } else {
 740         TCGv_i64 tcg_hiaddr;
 741         tmphi = tcg_temp_new_i64();
 742         tcg_hiaddr = tcg_temp_new_i64();
 743
 744         tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), MO_TEQ);
 745         tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
 746         tcg_gen_qemu_ld_i64(tmphi, tcg_hiaddr, get_mem_index(s), MO_TEQ);
 747         tcg_temp_free_i64(tcg_hiaddr);
 748     }
 749
 750     tcg_gen_st_i64(tmplo, cpu_env, fp_reg_offset(s, destidx, MO_64));
 751     tcg_gen_st_i64(tmphi, cpu_env, fp_reg_hi_offset(s, destidx));
 752
 753     tcg_temp_free_i64(tmplo);
 754     tcg_temp_free_i64(tmphi);
 755 }
 756
 757 /*
 758  * Vector load/store helpers.
 759  *
 760  * The principal difference between this and a FP load is that we don't
 761  * zero extend as we are filling a partial chunk of the vector register.
 762  * These functions don't support 128 bit loads/stores, which would be
 763  * normal load/store operations.
 764  *
 765  * The _i32 versions are useful when operating on 32 bit quantities
 766  * (eg for floating point single or using Neon helper functions).
 767  */
 768
 769 /* Get value of an element within a vector register */
 770 static void read_vec_element(DisasContext *s, TCGv_i64 tcg_dest, int srcidx,
 771                              int element, TCGMemOp memop)
 772 {
 773     int vect_off = vec_reg_offset(s, srcidx, element, memop & MO_SIZE);
 774     switch (memop) {
 775     case MO_8:
 776         tcg_gen_ld8u_i64(tcg_dest, cpu_env, vect_off);
 777         break;
 778     case MO_16:
 779         tcg_gen_ld16u_i64(tcg_dest, cpu_env, vect_off);
 780         break;
 781     case MO_32:
 782         tcg_gen_ld32u_i64(tcg_dest, cpu_env, vect_off);
 783         break;
 784     case MO_8|MO_SIGN:
 785         tcg_gen_ld8s_i64(tcg_dest, cpu_env, vect_off);
 786         break;
 787     case MO_16|MO_SIGN:
 788         tcg_gen_ld16s_i64(tcg_dest, cpu_env, vect_off);
 789         break;
 790     case MO_32|MO_SIGN:
 791         tcg_gen_ld32s_i64(tcg_dest, cpu_env, vect_off);
 792         break;
 793     case MO_64:
 794     case MO_64|MO_SIGN:
 795         tcg_gen_ld_i64(tcg_dest, cpu_env, vect_off);
 796         break;
 797     default:
 798         g_assert_not_reached();
 799     }
 800 }
 801
 802 static void read_vec_element_i32(DisasContext *s, TCGv_i32 tcg_dest, int srcidx,
 803                                  int element, TCGMemOp memop)
 804 {
 805     int vect_off = vec_reg_offset(s, srcidx, element, memop & MO_SIZE);
 806     switch (memop) {
 807     case MO_8:
 808         tcg_gen_ld8u_i32(tcg_dest, cpu_env, vect_off);
 809         break;
 810     case MO_16:
 811         tcg_gen_ld16u_i32(tcg_dest, cpu_env, vect_off);
 812         break;
 813     case MO_8|MO_SIGN:
 814         tcg_gen_ld8s_i32(tcg_dest, cpu_env, vect_off);
 815         break;
 816     case MO_16|MO_SIGN:
 817         tcg_gen_ld16s_i32(tcg_dest, cpu_env, vect_off);
 818         break;
 819     case MO_32:
 820     case MO_32|MO_SIGN:
 821         tcg_gen_ld_i32(tcg_dest, cpu_env, vect_off);
 822         break;
 823     default:
 824         g_assert_not_reached();
 825     }
 826 }
 827
 828 /* Set value of an element within a vector register */
 829 static void write_vec_element(DisasContext *s, TCGv_i64 tcg_src, int destidx,
 830                               int element, TCGMemOp memop)
 831 {
 832     int vect_off = vec_reg_offset(s, destidx, element, memop & MO_SIZE);
 833     switch (memop) {
 834     case MO_8:
 835         tcg_gen_st8_i64(tcg_src, cpu_env, vect_off);
 836         break;
 837     case MO_16:
 838         tcg_gen_st16_i64(tcg_src, cpu_env, vect_off);
 839         break;
 840     case MO_32:
 841         tcg_gen_st32_i64(tcg_src, cpu_env, vect_off);
 842         break;
 843     case MO_64:
 844         tcg_gen_st_i64(tcg_src, cpu_env, vect_off);
 845         break;
 846     default:
 847         g_assert_not_reached();
 848     }
 849 }
 850
 851 static void write_vec_element_i32(DisasContext *s, TCGv_i32 tcg_src,
 852                                   int destidx, int element, TCGMemOp memop)
 853 {
 854     int vect_off = vec_reg_offset(s, destidx, element, memop & MO_SIZE);
 855     switch (memop) {
 856     case MO_8:
 857         tcg_gen_st8_i32(tcg_src, cpu_env, vect_off);
 858         break;
 859     case MO_16:
 860         tcg_gen_st16_i32(tcg_src, cpu_env, vect_off);
 861         break;
 862     case MO_32:
 863         tcg_gen_st_i32(tcg_src, cpu_env, vect_off);
 864         break;
 865     default:
 866         g_assert_not_reached();
 867     }
 868 }
 869
 870 /* Clear the high 64 bits of a 128 bit vector (in general non-quad
 871  * vector ops all need to do this).
 872  */
 873 static void clear_vec_high(DisasContext *s, int rd)
 874 {
 875     TCGv_i64 tcg_zero = tcg_const_i64(0);
 876
 877     write_vec_element(s, tcg_zero, rd, 1, MO_64);
 878     tcg_temp_free_i64(tcg_zero);
 879 }
 880
 881 /* Store from vector register to memory */
 882 static void do_vec_st(DisasContext *s, int srcidx, int element,
 883                       TCGv_i64 tcg_addr, int size)
 884 {
 885     TCGMemOp memop = MO_TE + size;
 886     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 887
 888     read_vec_element(s, tcg_tmp, srcidx, element, size);
 889     tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), memop);
 890
 891     tcg_temp_free_i64(tcg_tmp);
 892 }
 893
 894 /* Load from memory to vector register */
 895 static void do_vec_ld(DisasContext *s, int destidx, int element,
 896                       TCGv_i64 tcg_addr, int size)
 897 {
 898     TCGMemOp memop = MO_TE + size;
 899     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 900
 901     tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), memop);
 902     write_vec_element(s, tcg_tmp, destidx, element, size);
 903
 904     tcg_temp_free_i64(tcg_tmp);
 905 }
 906
 907 /* Check that FP/Neon access is enabled. If it is, return
 908  * true. If not, emit code to generate an appropriate exception,
 909  * and return false; the caller should not emit any code for
 910  * the instruction. Note that this check must happen after all
 911  * unallocated-encoding checks (otherwise the syndrome information
 912  * for the resulting exception will be incorrect).
 913  */
 914 static inline bool fp_access_check(DisasContext *s)
 915 {
 916     assert(!s->fp_access_checked);
 917     s->fp_access_checked = true;
 918
 919     if (s->cpacr_fpen) {
 920         return true;
 921     }
 922
 923     gen_exception_insn(s, 4, EXCP_UDEF, syn_fp_access_trap(1, 0xe, false));
 924     return false;
 925 }
 926
 927 /*
 928  * This utility function is for doing register extension with an
 929  * optional shift. You will likely want to pass a temporary for the
 930  * destination register. See DecodeRegExtend() in the ARM ARM.
 931  */
 932 static void ext_and_shift_reg(TCGv_i64 tcg_out, TCGv_i64 tcg_in,
 933                               int option, unsigned int shift)
 934 {
 935     int extsize = extract32(option, 0, 2);
 936     bool is_signed = extract32(option, 2, 1);
 937
 938     if (is_signed) {
 939         switch (extsize) {
 940         case 0:
 941             tcg_gen_ext8s_i64(tcg_out, tcg_in);
 942             break;
 943         case 1:
 944             tcg_gen_ext16s_i64(tcg_out, tcg_in);
 945             break;
 946         case 2:
 947             tcg_gen_ext32s_i64(tcg_out, tcg_in);
 948             break;
 949         case 3:
 950             tcg_gen_mov_i64(tcg_out, tcg_in);
 951             break;
 952         }
 953     } else {
 954         switch (extsize) {
 955         case 0:
 956             tcg_gen_ext8u_i64(tcg_out, tcg_in);
 957             break;
 958         case 1:
 959             tcg_gen_ext16u_i64(tcg_out, tcg_in);
 960             break;
 961         case 2:
 962             tcg_gen_ext32u_i64(tcg_out, tcg_in);
 963             break;
 964         case 3:
 965             tcg_gen_mov_i64(tcg_out, tcg_in);
 966             break;
 967         }
 968     }
 969
 970     if (shift) {
 971         tcg_gen_shli_i64(tcg_out, tcg_out, shift);
 972     }
 973 }
 974
 975 static inline void gen_check_sp_alignment(DisasContext *s)
 976 {
 977     /* The AArch64 architecture mandates that (if enabled via PSTATE
 978      * or SCTLR bits) there is a check that SP is 16-aligned on every
 979      * SP-relative load or store (with an exception generated if it is not).
 980      * In line with general QEMU practice regarding misaligned accesses,
 981      * we omit these checks for the sake of guest program performance.
 982      * This function is provided as a hook so we can more easily add these
 983      * checks in future (possibly as a "favour catching guest program bugs
 984      * over speed" user selectable option).
 985      */
 986 }
 987
 988 /*
 989  * This provides a simple table based table lookup decoder. It is
 990  * intended to be used when the relevant bits for decode are too
 991  * awkwardly placed and switch/if based logic would be confusing and
 992  * deeply nested. Since it's a linear search through the table, tables
 993  * should be kept small.
 994  *
 995  * It returns the first handler where insn & mask == pattern, or
 996  * NULL if there is no match.
 997  * The table is terminated by an empty mask (i.e. 0)
 998  */
 999 static inline AArch64DecodeFn *lookup_disas_fn(const AArch64DecodeTable *table,
1000                                                uint32_t insn)
1001 {
1002     const AArch64DecodeTable *tptr = table;
1003
1004     while (tptr->mask) {
1005         if ((insn & tptr->mask) == tptr->pattern) {
1006             return tptr->disas_fn;
1007         }
1008         tptr++;
1009     }
1010     return NULL;
1011 }
1012
1013 /*
1014  * the instruction disassembly implemented here matches
1015  * the instruction encoding classifications in chapter 3 (C3)
1016  * of the ARM Architecture Reference Manual (DDI0487A_a)
1017  */
1018
1019 /* C3.2.7 Unconditional branch (immediate)
1020  *   31  30       26 25                                  0
1021  * +----+-----------+-------------------------------------+
1022  * | op | 0 0 1 0 1 |                 imm26               |
1023  * +----+-----------+-------------------------------------+
1024  */
1025 static void disas_uncond_b_imm(DisasContext *s, uint32_t insn)
1026 {
1027     uint64_t addr = s->pc + sextract32(insn, 0, 26) * 4 - 4;
1028
1029     if (insn & (1 << 31)) {
1030         /* C5.6.26 BL Branch with link */
1031         tcg_gen_movi_i64(cpu_reg(s, 30), s->pc);
1032     }
1033
1034     /* C5.6.20 B Branch / C5.6.26 BL Branch with link */
1035     gen_goto_tb(s, 0, addr);
1036 }
1037
1038 /* C3.2.1 Compare & branch (immediate)
1039  *   31  30         25  24  23                  5 4      0
1040  * +----+-------------+----+---------------------+--------+
1041  * | sf | 0 1 1 0 1 0 | op |         imm19       |   Rt   |
1042  * +----+-------------+----+---------------------+--------+
1043  */
1044 static void disas_comp_b_imm(DisasContext *s, uint32_t insn)
1045 {
1046     unsigned int sf, op, rt;
1047     uint64_t addr;
1048     int label_match;
1049     TCGv_i64 tcg_cmp;
1050
1051     sf = extract32(insn, 31, 1);
1052     op = extract32(insn, 24, 1); /* 0: CBZ; 1: CBNZ */
1053     rt = extract32(insn, 0, 5);
1054     addr = s->pc + sextract32(insn, 5, 19) * 4 - 4;
1055
1056     tcg_cmp = read_cpu_reg(s, rt, sf);
1057     label_match = gen_new_label();
1058
1059     tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
1060                         tcg_cmp, 0, label_match);
1061
1062     gen_goto_tb(s, 0, s->pc);
1063     gen_set_label(label_match);
1064     gen_goto_tb(s, 1, addr);
1065 }
1066
1067 /* C3.2.5 Test & branch (immediate)
1068  *   31  30         25  24  23   19 18          5 4    0
1069  * +----+-------------+----+-------+-------------+------+
1070  * | b5 | 0 1 1 0 1 1 | op |  b40  |    imm14    |  Rt  |
1071  * +----+-------------+----+-------+-------------+------+
1072  */
1073 static void disas_test_b_imm(DisasContext *s, uint32_t insn)
1074 {
1075     unsigned int bit_pos, op, rt;
1076     uint64_t addr;
1077     int label_match;
1078     TCGv_i64 tcg_cmp;
1079
1080     bit_pos = (extract32(insn, 31, 1) << 5) | extract32(insn, 19, 5);
1081     op = extract32(insn, 24, 1); /* 0: TBZ; 1: TBNZ */
1082     addr = s->pc + sextract32(insn, 5, 14) * 4 - 4;
1083     rt = extract32(insn, 0, 5);
1084
1085     tcg_cmp = tcg_temp_new_i64();
1086     tcg_gen_andi_i64(tcg_cmp, cpu_reg(s, rt), (1ULL << bit_pos));
1087     label_match = gen_new_label();
1088     tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
1089                         tcg_cmp, 0, label_match);
1090     tcg_temp_free_i64(tcg_cmp);
1091     gen_goto_tb(s, 0, s->pc);
1092     gen_set_label(label_match);
1093     gen_goto_tb(s, 1, addr);
1094 }
1095
1096 /* C3.2.2 / C5.6.19 Conditional branch (immediate)
1097  *  31           25  24  23                  5   4  3    0
1098  * +---------------+----+---------------------+----+------+
1099  * | 0 1 0 1 0 1 0 | o1 |         imm19       | o0 | cond |
1100  * +---------------+----+---------------------+----+------+
1101  */
1102 static void disas_cond_b_imm(DisasContext *s, uint32_t insn)
1103 {
1104     unsigned int cond;
1105     uint64_t addr;
1106
1107     if ((insn & (1 << 4)) || (insn & (1 << 24))) {
1108         unallocated_encoding(s);
1109         return;
1110     }
1111     addr = s->pc + sextract32(insn, 5, 19) * 4 - 4;
1112     cond = extract32(insn, 0, 4);
1113
1114     if (cond < 0x0e) {
1115         /* genuinely conditional branches */
1116         int label_match = gen_new_label();
1117         arm_gen_test_cc(cond, label_match);
1118         gen_goto_tb(s, 0, s->pc);
1119         gen_set_label(label_match);
1120         gen_goto_tb(s, 1, addr);
1121     } else {
1122         /* 0xe and 0xf are both "always" conditions */
1123         gen_goto_tb(s, 0, addr);
1124     }
1125 }
1126
1127 /* C5.6.68 HINT */
1128 static void handle_hint(DisasContext *s, uint32_t insn,
1129                         unsigned int op1, unsigned int op2, unsigned int crm)
1130 {
1131     unsigned int selector = crm << 3 | op2;
1132
1133     if (op1 != 3) {
1134         unallocated_encoding(s);
1135         return;
1136     }
1137
1138     switch (selector) {
1139     case 0: /* NOP */
1140         return;
1141     case 3: /* WFI */
1142         s->is_jmp = DISAS_WFI;
1143         return;
1144     case 1: /* YIELD */
1145     case 2: /* WFE */
1146         s->is_jmp = DISAS_WFE;
1147         return;
1148     case 4: /* SEV */
1149     case 5: /* SEVL */
1150         /* we treat all as NOP at least for now */
1151         return;
1152     default:
1153         /* default specified as NOP equivalent */
1154         return;
1155     }
1156 }
1157
1158 static void gen_clrex(DisasContext *s, uint32_t insn)
1159 {
1160     tcg_gen_movi_i64(cpu_exclusive_addr, -1);
1161 }
1162
1163 /* CLREX, DSB, DMB, ISB */
1164 static void handle_sync(DisasContext *s, uint32_t insn,
1165                         unsigned int op1, unsigned int op2, unsigned int crm)
1166 {
1167     if (op1 != 3) {
1168         unallocated_encoding(s);
1169         return;
1170     }
1171
1172     switch (op2) {
1173     case 2: /* CLREX */
1174         gen_clrex(s, insn);
1175         return;
1176     case 4: /* DSB */
1177     case 5: /* DMB */
1178     case 6: /* ISB */
1179         /* We don't emulate caches so barriers are no-ops */
1180         return;
1181     default:
1182         unallocated_encoding(s);
1183         return;
1184     }
1185 }
1186
1187 /* C5.6.130 MSR (immediate) - move immediate to processor state field */
1188 static void handle_msr_i(DisasContext *s, uint32_t insn,
1189                          unsigned int op1, unsigned int op2, unsigned int crm)
1190 {
1191     int op = op1 << 3 | op2;
1192     switch (op) {
1193     case 0x05: /* SPSel */
1194         if (s->current_pl == 0) {
1195             unallocated_encoding(s);
1196             return;
1197         }
1198         /* fall through */
1199     case 0x1e: /* DAIFSet */
1200     case 0x1f: /* DAIFClear */
1201     {
1202         TCGv_i32 tcg_imm = tcg_const_i32(crm);
1203         TCGv_i32 tcg_op = tcg_const_i32(op);
1204         gen_a64_set_pc_im(s->pc - 4);
1205         gen_helper_msr_i_pstate(cpu_env, tcg_op, tcg_imm);
1206         tcg_temp_free_i32(tcg_imm);
1207         tcg_temp_free_i32(tcg_op);
1208         s->is_jmp = DISAS_UPDATE;
1209         break;
1210     }
1211     default:
1212         unallocated_encoding(s);
1213         return;
1214     }
1215 }
1216
1217 static void gen_get_nzcv(TCGv_i64 tcg_rt)
1218 {
1219     TCGv_i32 tmp = tcg_temp_new_i32();
1220     TCGv_i32 nzcv = tcg_temp_new_i32();
1221
1222     /* build bit 31, N */
1223     tcg_gen_andi_i32(nzcv, cpu_NF, (1 << 31));
1224     /* build bit 30, Z */
1225     tcg_gen_setcondi_i32(TCG_COND_EQ, tmp, cpu_ZF, 0);
1226     tcg_gen_deposit_i32(nzcv, nzcv, tmp, 30, 1);
1227     /* build bit 29, C */
1228     tcg_gen_deposit_i32(nzcv, nzcv, cpu_CF, 29, 1);
1229     /* build bit 28, V */
1230     tcg_gen_shri_i32(tmp, cpu_VF, 31);
1231     tcg_gen_deposit_i32(nzcv, nzcv, tmp, 28, 1);
1232     /* generate result */
1233     tcg_gen_extu_i32_i64(tcg_rt, nzcv);
1234
1235     tcg_temp_free_i32(nzcv);
1236     tcg_temp_free_i32(tmp);
1237 }
1238
1239 static void gen_set_nzcv(TCGv_i64 tcg_rt)
1240
1241 {
1242     TCGv_i32 nzcv = tcg_temp_new_i32();
1243
1244     /* take NZCV from R[t] */
1245     tcg_gen_trunc_i64_i32(nzcv, tcg_rt);
1246
1247     /* bit 31, N */
1248     tcg_gen_andi_i32(cpu_NF, nzcv, (1 << 31));
1249     /* bit 30, Z */
1250     tcg_gen_andi_i32(cpu_ZF, nzcv, (1 << 30));
1251     tcg_gen_setcondi_i32(TCG_COND_EQ, cpu_ZF, cpu_ZF, 0);
1252     /* bit 29, C */
1253     tcg_gen_andi_i32(cpu_CF, nzcv, (1 << 29));
1254     tcg_gen_shri_i32(cpu_CF, cpu_CF, 29);
1255     /* bit 28, V */
1256     tcg_gen_andi_i32(cpu_VF, nzcv, (1 << 28));
1257     tcg_gen_shli_i32(cpu_VF, cpu_VF, 3);
1258     tcg_temp_free_i32(nzcv);
1259 }
1260
1261 /* C5.6.129 MRS - move from system register
1262  * C5.6.131 MSR (register) - move to system register
1263  * C5.6.204 SYS
1264  * C5.6.205 SYSL
1265  * These are all essentially the same insn in 'read' and 'write'
1266  * versions, with varying op0 fields.
1267  */
1268 static void handle_sys(DisasContext *s, uint32_t insn, bool isread,
1269                        unsigned int op0, unsigned int op1, unsigned int op2,
1270                        unsigned int crn, unsigned int crm, unsigned int rt)
1271 {
1272     const ARMCPRegInfo *ri;
1273     TCGv_i64 tcg_rt;
1274
1275     ri = get_arm_cp_reginfo(s->cp_regs,
1276                             ENCODE_AA64_CP_REG(CP_REG_ARM64_SYSREG_CP,
1277                                                crn, crm, op0, op1, op2));
1278
1279     if (!ri) {
1280         /* Unknown register; this might be a guest error or a QEMU
1281          * unimplemented feature.
1282          */
1283         qemu_log_mask(LOG_UNIMP, "%s access to unsupported AArch64 "
1284                       "system register op0:%d op1:%d crn:%d crm:%d op2:%d\n",
1285                       isread ? "read" : "write", op0, op1, crn, crm, op2);
1286         unallocated_encoding(s);
1287         return;
1288     }
1289
1290     /* Check access permissions */
1291     if (!cp_access_ok(s->current_pl, ri, isread)) {
1292         unallocated_encoding(s);
1293         return;
1294     }
1295
1296     if (ri->accessfn) {
1297         /* Emit code to perform further access permissions checks at
1298          * runtime; this may result in an exception.
1299          */
1300         TCGv_ptr tmpptr;
1301         TCGv_i32 tcg_syn;
1302         uint32_t syndrome;
1303
1304         gen_a64_set_pc_im(s->pc - 4);
1305         tmpptr = tcg_const_ptr(ri);
1306         syndrome = syn_aa64_sysregtrap(op0, op1, op2, crn, crm, rt, isread);
1307         tcg_syn = tcg_const_i32(syndrome);
1308         gen_helper_access_check_cp_reg(cpu_env, tmpptr, tcg_syn);
1309         tcg_temp_free_ptr(tmpptr);
1310         tcg_temp_free_i32(tcg_syn);
1311     }
1312
1313     /* Handle special cases first */
1314     switch (ri->type & ~(ARM_CP_FLAG_MASK & ~ARM_CP_SPECIAL)) {
1315     case ARM_CP_NOP:
1316         return;
1317     case ARM_CP_NZCV:
1318         tcg_rt = cpu_reg(s, rt);
1319         if (isread) {
1320             gen_get_nzcv(tcg_rt);
1321         } else {
1322             gen_set_nzcv(tcg_rt);
1323         }
1324         return;
1325     case ARM_CP_CURRENTEL:
1326         /* Reads as current EL value from pstate, which is
1327          * guaranteed to be constant by the tb flags.
1328          */
1329         tcg_rt = cpu_reg(s, rt);
1330         tcg_gen_movi_i64(tcg_rt, s->current_pl << 2);
1331         return;
1332     case ARM_CP_DC_ZVA:
1333         /* Writes clear the aligned block of memory which rt points into. */
1334         tcg_rt = cpu_reg(s, rt);
1335         gen_helper_dc_zva(cpu_env, tcg_rt);
1336         return;
1337     default:
1338         break;
1339     }
1340
1341     if (use_icount && (ri->type & ARM_CP_IO)) {
1342         gen_io_start();
1343     }
1344
1345     tcg_rt = cpu_reg(s, rt);
1346
1347     if (isread) {
1348         if (ri->type & ARM_CP_CONST) {
1349             tcg_gen_movi_i64(tcg_rt, ri->resetvalue);
1350         } else if (ri->readfn) {
1351             TCGv_ptr tmpptr;
1352             tmpptr = tcg_const_ptr(ri);
1353             gen_helper_get_cp_reg64(tcg_rt, cpu_env, tmpptr);
1354             tcg_temp_free_ptr(tmpptr);
1355         } else {
1356             tcg_gen_ld_i64(tcg_rt, cpu_env, ri->fieldoffset);
1357         }
1358     } else {
1359         if (ri->type & ARM_CP_CONST) {
1360             /* If not forbidden by access permissions, treat as WI */
1361             return;
1362         } else if (ri->writefn) {
1363             TCGv_ptr tmpptr;
1364             tmpptr = tcg_const_ptr(ri);
1365             gen_helper_set_cp_reg64(cpu_env, tmpptr, tcg_rt);
1366             tcg_temp_free_ptr(tmpptr);
1367         } else {
1368             tcg_gen_st_i64(tcg_rt, cpu_env, ri->fieldoffset);
1369         }
1370     }
1371
1372     if (use_icount && (ri->type & ARM_CP_IO)) {
1373         /* I/O operations must end the TB here (whether read or write) */
1374         gen_io_end();
1375         s->is_jmp = DISAS_UPDATE;
1376     } else if (!isread && !(ri->type & ARM_CP_SUPPRESS_TB_END)) {
1377         /* We default to ending the TB on a coprocessor register write,
1378          * but allow this to be suppressed by the register definition
1379          * (usually only necessary to work around guest bugs).
1380          */
1381         s->is_jmp = DISAS_UPDATE;
1382     }
1383 }
1384
1385 /* C3.2.4 System
1386  *  31                 22 21  20 19 18 16 15   12 11    8 7   5 4    0
1387  * +---------------------+---+-----+-----+-------+-------+-----+------+
1388  * | 1 1 0 1 0 1 0 1 0 0 | L | op0 | op1 |  CRn  |  CRm  | op2 |  Rt  |
1389  * +---------------------+---+-----+-----+-------+-------+-----+------+
1390  */
1391 static void disas_system(DisasContext *s, uint32_t insn)
1392 {
1393     unsigned int l, op0, op1, crn, crm, op2, rt;
1394     l = extract32(insn, 21, 1);
1395     op0 = extract32(insn, 19, 2);
1396     op1 = extract32(insn, 16, 3);
1397     crn = extract32(insn, 12, 4);
1398     crm = extract32(insn, 8, 4);
1399     op2 = extract32(insn, 5, 3);
1400     rt = extract32(insn, 0, 5);
1401
1402     if (op0 == 0) {
1403         if (l || rt != 31) {
1404             unallocated_encoding(s);
1405             return;
1406         }
1407         switch (crn) {
1408         case 2: /* C5.6.68 HINT */
1409             handle_hint(s, insn, op1, op2, crm);
1410             break;
1411         case 3: /* CLREX, DSB, DMB, ISB */
1412             handle_sync(s, insn, op1, op2, crm);
1413             break;
1414         case 4: /* C5.6.130 MSR (immediate) */
1415             handle_msr_i(s, insn, op1, op2, crm);
1416             break;
1417         default:
1418             unallocated_encoding(s);
1419             break;
1420         }
1421         return;
1422     }
1423     handle_sys(s, insn, l, op0, op1, op2, crn, crm, rt);
1424 }
1425
1426 /* C3.2.3 Exception generation
1427  *
1428  *  31             24 23 21 20                     5 4   2 1  0
1429  * +-----------------+-----+------------------------+-----+----+
1430  * | 1 1 0 1 0 1 0 0 | opc |          imm16         | op2 | LL |
1431  * +-----------------------+------------------------+----------+
1432  */
1433 static void disas_exc(DisasContext *s, uint32_t insn)
1434 {
1435     int opc = extract32(insn, 21, 3);
1436     int op2_ll = extract32(insn, 0, 5);
1437     int imm16 = extract32(insn, 5, 16);
1438
1439     switch (opc) {
1440     case 0:
1441         /* SVC, HVC, SMC; since we don't support the Virtualization
1442          * or TrustZone extensions these all UNDEF except SVC.
1443          */
1444         if (op2_ll != 1) {
1445             unallocated_encoding(s);
1446             break;
1447         }
1448         gen_exception_insn(s, 0, EXCP_SWI, syn_aa64_svc(imm16));
1449         break;
1450     case 1:
1451         if (op2_ll != 0) {
1452             unallocated_encoding(s);
1453             break;
1454         }
1455         /* BRK */
1456         gen_exception_insn(s, 0, EXCP_BKPT, syn_aa64_bkpt(imm16));
1457         break;
1458     case 2:
1459         if (op2_ll != 0) {
1460             unallocated_encoding(s);
1461             break;
1462         }
1463         /* HLT */
1464         unsupported_encoding(s, insn);
1465         break;
1466     case 5:
1467         if (op2_ll < 1 || op2_ll > 3) {
1468             unallocated_encoding(s);
1469             break;
1470         }
1471         /* DCPS1, DCPS2, DCPS3 */
1472         unsupported_encoding(s, insn);
1473         break;
1474     default:
1475         unallocated_encoding(s);
1476         break;
1477     }
1478 }
1479
1480 /* C3.2.7 Unconditional branch (register)
1481  *  31           25 24   21 20   16 15   10 9    5 4     0
1482  * +---------------+-------+-------+-------+------+-------+
1483  * | 1 1 0 1 0 1 1 |  opc  |  op2  |  op3  |  Rn  |  op4  |
1484  * +---------------+-------+-------+-------+------+-------+
1485  */
1486 static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
1487 {
1488     unsigned int opc, op2, op3, rn, op4;
1489
1490     opc = extract32(insn, 21, 4);
1491     op2 = extract32(insn, 16, 5);
1492     op3 = extract32(insn, 10, 6);
1493     rn = extract32(insn, 5, 5);
1494     op4 = extract32(insn, 0, 5);
1495
1496     if (op4 != 0x0 || op3 != 0x0 || op2 != 0x1f) {
1497         unallocated_encoding(s);
1498         return;
1499     }
1500
1501     switch (opc) {
1502     case 0: /* BR */
1503     case 2: /* RET */
1504         tcg_gen_mov_i64(cpu_pc, cpu_reg(s, rn));
1505         break;
1506     case 1: /* BLR */
1507         tcg_gen_mov_i64(cpu_pc, cpu_reg(s, rn));
1508         tcg_gen_movi_i64(cpu_reg(s, 30), s->pc);
1509         break;
1510     case 4: /* ERET */
1511         if (s->current_pl == 0) {
1512             unallocated_encoding(s);
1513             return;
1514         }
1515         gen_helper_exception_return(cpu_env);
1516         s->is_jmp = DISAS_JUMP;
1517         return;
1518     case 5: /* DRPS */
1519         if (rn != 0x1f) {
1520             unallocated_encoding(s);
1521         } else {
1522             unsupported_encoding(s, insn);
1523         }
1524         return;
1525     default:
1526         unallocated_encoding(s);
1527         return;
1528     }
1529
1530     s->is_jmp = DISAS_JUMP;
1531 }
1532
1533 /* C3.2 Branches, exception generating and system instructions */
1534 static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
1535 {
1536     switch (extract32(insn, 25, 7)) {
1537     case 0x0a: case 0x0b:
1538     case 0x4a: case 0x4b: /* Unconditional branch (immediate) */
1539         disas_uncond_b_imm(s, insn);
1540         break;
1541     case 0x1a: case 0x5a: /* Compare & branch (immediate) */
1542         disas_comp_b_imm(s, insn);
1543         break;
1544     case 0x1b: case 0x5b: /* Test & branch (immediate) */
1545         disas_test_b_imm(s, insn);
1546         break;
1547     case 0x2a: /* Conditional branch (immediate) */
1548         disas_cond_b_imm(s, insn);
1549         break;
1550     case 0x6a: /* Exception generation / System */
1551         if (insn & (1 << 24)) {
1552             disas_system(s, insn);
1553         } else {
1554             disas_exc(s, insn);
1555         }
1556         break;
1557     case 0x6b: /* Unconditional branch (register) */
1558         disas_uncond_b_reg(s, insn);
1559         break;
1560     default:
1561         unallocated_encoding(s);
1562         break;
1563     }
1564 }
1565
1566 /*
1567  * Load/Store exclusive instructions are implemented by remembering
1568  * the value/address loaded, and seeing if these are the same
1569  * when the store is performed. This is not actually the architecturally
1570  * mandated semantics, but it works for typical guest code sequences
1571  * and avoids having to monitor regular stores.
1572  *
1573  * In system emulation mode only one CPU will be running at once, so
1574  * this sequence is effectively atomic.  In user emulation mode we
1575  * throw an exception and handle the atomic operation elsewhere.
1576  */
1577 static void gen_load_exclusive(DisasContext *s, int rt, int rt2,
1578                                TCGv_i64 addr, int size, bool is_pair)
1579 {
1580     TCGv_i64 tmp = tcg_temp_new_i64();
1581     TCGMemOp memop = MO_TE + size;
1582
1583     g_assert(size <= 3);
1584     tcg_gen_qemu_ld_i64(tmp, addr, get_mem_index(s), memop);
1585
1586     if (is_pair) {
1587         TCGv_i64 addr2 = tcg_temp_new_i64();
1588         TCGv_i64 hitmp = tcg_temp_new_i64();
1589
1590         g_assert(size >= 2);
1591         tcg_gen_addi_i64(addr2, addr, 1 << size);
1592         tcg_gen_qemu_ld_i64(hitmp, addr2, get_mem_index(s), memop);
1593         tcg_temp_free_i64(addr2);
1594         tcg_gen_mov_i64(cpu_exclusive_high, hitmp);
1595         tcg_gen_mov_i64(cpu_reg(s, rt2), hitmp);
1596         tcg_temp_free_i64(hitmp);
1597     }
1598
1599     tcg_gen_mov_i64(cpu_exclusive_val, tmp);
1600     tcg_gen_mov_i64(cpu_reg(s, rt), tmp);
1601
1602     tcg_temp_free_i64(tmp);
1603     tcg_gen_mov_i64(cpu_exclusive_addr, addr);
1604 }
1605
1606 #ifdef CONFIG_USER_ONLY
1607 static void gen_store_exclusive(DisasContext *s, int rd, int rt, int rt2,
1608                                 TCGv_i64 addr, int size, int is_pair)
1609 {
1610     tcg_gen_mov_i64(cpu_exclusive_test, addr);
1611     tcg_gen_movi_i32(cpu_exclusive_info,
1612                      size | is_pair << 2 | (rd << 4) | (rt << 9) | (rt2 << 14));
1613     gen_exception_internal_insn(s, 4, EXCP_STREX);
1614 }
1615 #else
1616 static void gen_store_exclusive(DisasContext *s, int rd, int rt, int rt2,
1617                                 TCGv_i64 inaddr, int size, int is_pair)
1618 {
1619     /* if (env->exclusive_addr == addr && env->exclusive_val == [addr]
1620      *     && (!is_pair || env->exclusive_high == [addr + datasize])) {
1621      *     [addr] = {Rt};
1622      *     if (is_pair) {
1623      *         [addr + datasize] = {Rt2};
1624      *     }
1625      *     {Rd} = 0;
1626      * } else {
1627      *     {Rd} = 1;
1628      * }
1629      * env->exclusive_addr = -1;
1630      */
1631     int fail_label = gen_new_label();
1632     int done_label = gen_new_label();
1633     TCGv_i64 addr = tcg_temp_local_new_i64();
1634     TCGv_i64 tmp;
1635
1636     /* Copy input into a local temp so it is not trashed when the
1637      * basic block ends at the branch insn.
1638      */
1639     tcg_gen_mov_i64(addr, inaddr);
1640     tcg_gen_brcond_i64(TCG_COND_NE, addr, cpu_exclusive_addr, fail_label);
1641
1642     tmp = tcg_temp_new_i64();
1643     tcg_gen_qemu_ld_i64(tmp, addr, get_mem_index(s), MO_TE + size);
1644     tcg_gen_brcond_i64(TCG_COND_NE, tmp, cpu_exclusive_val, fail_label);
1645     tcg_temp_free_i64(tmp);
1646
1647     if (is_pair) {
1648         TCGv_i64 addrhi = tcg_temp_new_i64();
1649         TCGv_i64 tmphi = tcg_temp_new_i64();
1650
1651         tcg_gen_addi_i64(addrhi, addr, 1 << size);
1652         tcg_gen_qemu_ld_i64(tmphi, addrhi, get_mem_index(s), MO_TE + size);
1653         tcg_gen_brcond_i64(TCG_COND_NE, tmphi, cpu_exclusive_high, fail_label);
1654
1655         tcg_temp_free_i64(tmphi);
1656         tcg_temp_free_i64(addrhi);
1657     }
1658
1659     /* We seem to still have the exclusive monitor, so do the store */
1660     tcg_gen_qemu_st_i64(cpu_reg(s, rt), addr, get_mem_index(s), MO_TE + size);
1661     if (is_pair) {
1662         TCGv_i64 addrhi = tcg_temp_new_i64();
1663
1664         tcg_gen_addi_i64(addrhi, addr, 1 << size);
1665         tcg_gen_qemu_st_i64(cpu_reg(s, rt2), addrhi,
1666                             get_mem_index(s), MO_TE + size);
1667         tcg_temp_free_i64(addrhi);
1668     }
1669
1670     tcg_temp_free_i64(addr);
1671
1672     tcg_gen_movi_i64(cpu_reg(s, rd), 0);
1673     tcg_gen_br(done_label);
1674     gen_set_label(fail_label);
1675     tcg_gen_movi_i64(cpu_reg(s, rd), 1);
1676     gen_set_label(done_label);
1677     tcg_gen_movi_i64(cpu_exclusive_addr, -1);
1678
1679 }
1680 #endif
1681
1682 /* C3.3.6 Load/store exclusive
1683  *
1684  *  31 30 29         24  23  22   21  20  16  15  14   10 9    5 4    0
1685  * +-----+-------------+----+---+----+------+----+-------+------+------+
1686  * | sz  | 0 0 1 0 0 0 | o2 | L | o1 |  Rs  | o0 |  Rt2  |  Rn  | Rt   |
1687  * +-----+-------------+----+---+----+------+----+-------+------+------+
1688  *
1689  *  sz: 00 -> 8 bit, 01 -> 16 bit, 10 -> 32 bit, 11 -> 64 bit
1690  *   L: 0 -> store, 1 -> load
1691  *  o2: 0 -> exclusive, 1 -> not
1692  *  o1: 0 -> single register, 1 -> register pair
1693  *  o0: 1 -> load-acquire/store-release, 0 -> not
1694  *
1695  *  o0 == 0 AND o2 == 1 is un-allocated
1696  *  o1 == 1 is un-allocated except for 32 and 64 bit sizes
1697  */
1698 static void disas_ldst_excl(DisasContext *s, uint32_t insn)
1699 {
1700     int rt = extract32(insn, 0, 5);
1701     int rn = extract32(insn, 5, 5);
1702     int rt2 = extract32(insn, 10, 5);
1703     int is_lasr = extract32(insn, 15, 1);
1704     int rs = extract32(insn, 16, 5);
1705     int is_pair = extract32(insn, 21, 1);
1706     int is_store = !extract32(insn, 22, 1);
1707     int is_excl = !extract32(insn, 23, 1);
1708     int size = extract32(insn, 30, 2);
1709     TCGv_i64 tcg_addr;
1710
1711     if ((!is_excl && !is_lasr) ||
1712         (is_pair && size < 2)) {
1713         unallocated_encoding(s);
1714         return;
1715     }
1716
1717     if (rn == 31) {
1718         gen_check_sp_alignment(s);
1719     }
1720     tcg_addr = read_cpu_reg_sp(s, rn, 1);
1721
1722     /* Note that since TCG is single threaded load-acquire/store-release
1723      * semantics require no extra if (is_lasr) { ... } handling.
1724      */
1725
1726     if (is_excl) {
1727         if (!is_store) {
1728             gen_load_exclusive(s, rt, rt2, tcg_addr, size, is_pair);
1729         } else {
1730             gen_store_exclusive(s, rs, rt, rt2, tcg_addr, size, is_pair);
1731         }
1732     } else {
1733         TCGv_i64 tcg_rt = cpu_reg(s, rt);
1734         if (is_store) {
1735             do_gpr_st(s, tcg_rt, tcg_addr, size);
1736         } else {
1737             do_gpr_ld(s, tcg_rt, tcg_addr, size, false, false);
1738         }
1739         if (is_pair) {
1740             TCGv_i64 tcg_rt2 = cpu_reg(s, rt);
1741             tcg_gen_addi_i64(tcg_addr, tcg_addr, 1 << size);
1742             if (is_store) {
1743                 do_gpr_st(s, tcg_rt2, tcg_addr, size);
1744             } else {
1745                 do_gpr_ld(s, tcg_rt2, tcg_addr, size, false, false);
1746             }
1747         }
1748     }
1749 }
1750
1751 /*
1752  * C3.3.5 Load register (literal)
1753  *
1754  *  31 30 29   27  26 25 24 23                5 4     0
1755  * +-----+-------+---+-----+-------------------+-------+
1756  * | opc | 0 1 1 | V | 0 0 |     imm19         |  Rt   |
1757  * +-----+-------+---+-----+-------------------+-------+
1758  *
1759  * V: 1 -> vector (simd/fp)
1760  * opc (non-vector): 00 -> 32 bit, 01 -> 64 bit,
1761  *                   10-> 32 bit signed, 11 -> prefetch
1762  * opc (vector): 00 -> 32 bit, 01 -> 64 bit, 10 -> 128 bit (11 unallocated)
1763  */
1764 static void disas_ld_lit(DisasContext *s, uint32_t insn)
1765 {
1766     int rt = extract32(insn, 0, 5);
1767     int64_t imm = sextract32(insn, 5, 19) << 2;
1768     bool is_vector = extract32(insn, 26, 1);
1769     int opc = extract32(insn, 30, 2);
1770     bool is_signed = false;
1771     int size = 2;
1772     TCGv_i64 tcg_rt, tcg_addr;
1773
1774     if (is_vector) {
1775         if (opc == 3) {
1776             unallocated_encoding(s);
1777             return;
1778         }
1779         size = 2 + opc;
1780         if (!fp_access_check(s)) {
1781             return;
1782         }
1783     } else {
1784         if (opc == 3) {
1785             /* PRFM (literal) : prefetch */
1786             return;
1787         }
1788         size = 2 + extract32(opc, 0, 1);
1789         is_signed = extract32(opc, 1, 1);
1790     }
1791
1792     tcg_rt = cpu_reg(s, rt);
1793
1794     tcg_addr = tcg_const_i64((s->pc - 4) + imm);
1795     if (is_vector) {
1796         do_fp_ld(s, rt, tcg_addr, size);
1797     } else {
1798         do_gpr_ld(s, tcg_rt, tcg_addr, size, is_signed, false);
1799     }
1800     tcg_temp_free_i64(tcg_addr);
1801 }
1802
1803 /*
1804  * C5.6.80 LDNP (Load Pair - non-temporal hint)
1805  * C5.6.81 LDP (Load Pair - non vector)
1806  * C5.6.82 LDPSW (Load Pair Signed Word - non vector)
1807  * C5.6.176 STNP (Store Pair - non-temporal hint)
1808  * C5.6.177 STP (Store Pair - non vector)
1809  * C6.3.165 LDNP (Load Pair of SIMD&FP - non-temporal hint)
1810  * C6.3.165 LDP (Load Pair of SIMD&FP)
1811  * C6.3.284 STNP (Store Pair of SIMD&FP - non-temporal hint)
1812  * C6.3.284 STP (Store Pair of SIMD&FP)
1813  *
1814  *  31 30 29   27  26  25 24   23  22 21   15 14   10 9    5 4    0
1815  * +-----+-------+---+---+-------+---+-----------------------------+
1816  * | opc | 1 0 1 | V | 0 | index | L |  imm7 |  Rt2  |  Rn  | Rt   |
1817  * +-----+-------+---+---+-------+---+-------+-------+------+------+
1818  *
1819  * opc: LDP/STP/LDNP/STNP        00 -> 32 bit, 10 -> 64 bit
1820  *      LDPSW                    01
1821  *      LDP/STP/LDNP/STNP (SIMD) 00 -> 32 bit, 01 -> 64 bit, 10 -> 128 bit
1822  *   V: 0 -> GPR, 1 -> Vector
1823  * idx: 00 -> signed offset with non-temporal hint, 01 -> post-index,
1824  *      10 -> signed offset, 11 -> pre-index
1825  *   L: 0 -> Store 1 -> Load
1826  *
1827  * Rt, Rt2 = GPR or SIMD registers to be stored
1828  * Rn = general purpose register containing address
1829  * imm7 = signed offset (multiple of 4 or 8 depending on size)
1830  */
1831 static void disas_ldst_pair(DisasContext *s, uint32_t insn)
1832 {
1833     int rt = extract32(insn, 0, 5);
1834     int rn = extract32(insn, 5, 5);
1835     int rt2 = extract32(insn, 10, 5);
1836     int64_t offset = sextract32(insn, 15, 7);
1837     int index = extract32(insn, 23, 2);
1838     bool is_vector = extract32(insn, 26, 1);
1839     bool is_load = extract32(insn, 22, 1);
1840     int opc = extract32(insn, 30, 2);
1841
1842     bool is_signed = false;
1843     bool postindex = false;
1844     bool wback = false;
1845
1846     TCGv_i64 tcg_addr; /* calculated address */
1847     int size;
1848
1849     if (opc == 3) {
1850         unallocated_encoding(s);
1851         return;
1852     }
1853
1854     if (is_vector) {
1855         size = 2 + opc;
1856     } else {
1857         size = 2 + extract32(opc, 1, 1);
1858         is_signed = extract32(opc, 0, 1);
1859         if (!is_load && is_signed) {
1860             unallocated_encoding(s);
1861             return;
1862         }
1863     }
1864
1865     switch (index) {
1866     case 1: /* post-index */
1867         postindex = true;
1868         wback = true;
1869         break;
1870     case 0:
1871         /* signed offset with "non-temporal" hint. Since we don't emulate
1872          * caches we don't care about hints to the cache system about
1873          * data access patterns, and handle this identically to plain
1874          * signed offset.
1875          */
1876         if (is_signed) {
1877             /* There is no non-temporal-hint version of LDPSW */
1878             unallocated_encoding(s);
1879             return;
1880         }
1881         postindex = false;
1882         break;
1883     case 2: /* signed offset, rn not updated */
1884         postindex = false;
1885         break;
1886     case 3: /* pre-index */
1887         postindex = false;
1888         wback = true;
1889         break;
1890     }
1891
1892     if (is_vector && !fp_access_check(s)) {
1893         return;
1894     }
1895
1896     offset <<= size;
1897
1898     if (rn == 31) {
1899         gen_check_sp_alignment(s);
1900     }
1901
1902     tcg_addr = read_cpu_reg_sp(s, rn, 1);
1903
1904     if (!postindex) {
1905         tcg_gen_addi_i64(tcg_addr, tcg_addr, offset);
1906     }
1907
1908     if (is_vector) {
1909         if (is_load) {
1910             do_fp_ld(s, rt, tcg_addr, size);
1911         } else {
1912             do_fp_st(s, rt, tcg_addr, size);
1913         }
1914     } else {
1915         TCGv_i64 tcg_rt = cpu_reg(s, rt);
1916         if (is_load) {
1917             do_gpr_ld(s, tcg_rt, tcg_addr, size, is_signed, false);
1918         } else {
1919             do_gpr_st(s, tcg_rt, tcg_addr, size);
1920         }
1921     }
1922     tcg_gen_addi_i64(tcg_addr, tcg_addr, 1 << size);
1923     if (is_vector) {
1924         if (is_load) {
1925             do_fp_ld(s, rt2, tcg_addr, size);
1926         } else {
1927             do_fp_st(s, rt2, tcg_addr, size);
1928         }
1929     } else {
1930         TCGv_i64 tcg_rt2 = cpu_reg(s, rt2);
1931         if (is_load) {
1932             do_gpr_ld(s, tcg_rt2, tcg_addr, size, is_signed, false);
1933         } else {
1934             do_gpr_st(s, tcg_rt2, tcg_addr, size);
1935         }
1936     }
1937
1938     if (wback) {
1939         if (postindex) {
1940             tcg_gen_addi_i64(tcg_addr, tcg_addr, offset - (1 << size));
1941         } else {
1942             tcg_gen_subi_i64(tcg_addr, tcg_addr, 1 << size);
1943         }
1944         tcg_gen_mov_i64(cpu_reg_sp(s, rn), tcg_addr);
1945     }
1946 }
1947
1948 /*
1949  * C3.3.8 Load/store (immediate post-indexed)
1950  * C3.3.9 Load/store (immediate pre-indexed)
1951  * C3.3.12 Load/store (unscaled immediate)
1952  *
1953  * 31 30 29   27  26 25 24 23 22 21  20    12 11 10 9    5 4    0
1954  * +----+-------+---+-----+-----+---+--------+-----+------+------+
1955  * |size| 1 1 1 | V | 0 0 | opc | 0 |  imm9  | idx |  Rn  |  Rt  |
1956  * +----+-------+---+-----+-----+---+--------+-----+------+------+
1957  *
1958  * idx = 01 -> post-indexed, 11 pre-indexed, 00 unscaled imm. (no writeback)
1959          10 -> unprivileged
1960  * V = 0 -> non-vector
1961  * size: 00 -> 8 bit, 01 -> 16 bit, 10 -> 32 bit, 11 -> 64bit
1962  * opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
1963  */
1964 static void disas_ldst_reg_imm9(DisasContext *s, uint32_t insn)
1965 {
1966     int rt = extract32(insn, 0, 5);
1967     int rn = extract32(insn, 5, 5);
1968     int imm9 = sextract32(insn, 12, 9);
1969     int opc = extract32(insn, 22, 2);
1970     int size = extract32(insn, 30, 2);
1971     int idx = extract32(insn, 10, 2);
1972     bool is_signed = false;
1973     bool is_store = false;
1974     bool is_extended = false;
1975     bool is_unpriv = (idx == 2);
1976     bool is_vector = extract32(insn, 26, 1);
1977     bool post_index;
1978     bool writeback;
1979
1980     TCGv_i64 tcg_addr;
1981
1982     if (is_vector) {
1983         size |= (opc & 2) << 1;
1984         if (size > 4 || is_unpriv) {
1985             unallocated_encoding(s);
1986             return;
1987         }
1988         is_store = ((opc & 1) == 0);
1989         if (!fp_access_check(s)) {
1990             return;
1991         }
1992     } else {
1993         if (size == 3 && opc == 2) {
1994             /* PRFM - prefetch */
1995             if (is_unpriv) {
1996                 unallocated_encoding(s);
1997                 return;
1998             }
1999             return;
2000         }
2001         if (opc == 3 && size > 1) {
2002             unallocated_encoding(s);
2003             return;
2004         }
2005         is_store = (opc == 0);
2006         is_signed = opc & (1<<1);
2007         is_extended = (size < 3) && (opc & 1);
2008     }
2009
2010     switch (idx) {
2011     case 0:
2012     case 2:
2013         post_index = false;
2014         writeback = false;
2015         break;
2016     case 1:
2017         post_index = true;
2018         writeback = true;
2019         break;
2020     case 3:
2021         post_index = false;
2022         writeback = true;
2023         break;
2024     }
2025
2026     if (rn == 31) {
2027         gen_check_sp_alignment(s);
2028     }
2029     tcg_addr = read_cpu_reg_sp(s, rn, 1);
2030
2031     if (!post_index) {
2032         tcg_gen_addi_i64(tcg_addr, tcg_addr, imm9);
2033     }
2034
2035     if (is_vector) {
2036         if (is_store) {
2037             do_fp_st(s, rt, tcg_addr, size);
2038         } else {
2039             do_fp_ld(s, rt, tcg_addr, size);
2040         }
2041     } else {
2042         TCGv_i64 tcg_rt = cpu_reg(s, rt);
2043         int memidx = is_unpriv ? 1 : get_mem_index(s);
2044
2045         if (is_store) {
2046             do_gpr_st_memidx(s, tcg_rt, tcg_addr, size, memidx);
2047         } else {
2048             do_gpr_ld_memidx(s, tcg_rt, tcg_addr, size,
2049                              is_signed, is_extended, memidx);
2050         }
2051     }
2052
2053     if (writeback) {
2054         TCGv_i64 tcg_rn = cpu_reg_sp(s, rn);
2055         if (post_index) {
2056             tcg_gen_addi_i64(tcg_addr, tcg_addr, imm9);
2057         }
2058         tcg_gen_mov_i64(tcg_rn, tcg_addr);
2059     }
2060 }
2061
2062 /*
2063  * C3.3.10 Load/store (register offset)
2064  *
2065  * 31 30 29   27  26 25 24 23 22 21  20  16 15 13 12 11 10 9  5 4  0
2066  * +----+-------+---+-----+-----+---+------+-----+--+-----+----+----+
2067  * |size| 1 1 1 | V | 0 0 | opc | 1 |  Rm  | opt | S| 1 0 | Rn | Rt |
2068  * +----+-------+---+-----+-----+---+------+-----+--+-----+----+----+
2069  *
2070  * For non-vector:
2071  *   size: 00-> byte, 01 -> 16 bit, 10 -> 32bit, 11 -> 64bit
2072  *   opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
2073  * For vector:
2074  *   size is opc<1>:size<1:0> so 100 -> 128 bit; 110 and 111 unallocated
2075  *   opc<0>: 0 -> store, 1 -> load
2076  * V: 1 -> vector/simd
2077  * opt: extend encoding (see DecodeRegExtend)
2078  * S: if S=1 then scale (essentially index by sizeof(size))
2079  * Rt: register to transfer into/out of
2080  * Rn: address register or SP for base
2081  * Rm: offset register or ZR for offset
2082  */
2083 static void disas_ldst_reg_roffset(DisasContext *s, uint32_t insn)
2084 {
2085     int rt = extract32(insn, 0, 5);
2086     int rn = extract32(insn, 5, 5);
2087     int shift = extract32(insn, 12, 1);
2088     int rm = extract32(insn, 16, 5);
2089     int opc = extract32(insn, 22, 2);
2090     int opt = extract32(insn, 13, 3);
2091     int size = extract32(insn, 30, 2);
2092     bool is_signed = false;
2093     bool is_store = false;
2094     bool is_extended = false;
2095     bool is_vector = extract32(insn, 26, 1);
2096
2097     TCGv_i64 tcg_rm;
2098     TCGv_i64 tcg_addr;
2099
2100     if (extract32(opt, 1, 1) == 0) {
2101         unallocated_encoding(s);
2102         return;
2103     }
2104
2105     if (is_vector) {
2106         size |= (opc & 2) << 1;
2107         if (size > 4) {
2108             unallocated_encoding(s);
2109             return;
2110         }
2111         is_store = !extract32(opc, 0, 1);
2112         if (!fp_access_check(s)) {
2113             return;
2114         }
2115     } else {
2116         if (size == 3 && opc == 2) {
2117             /* PRFM - prefetch */
2118             return;
2119         }
2120         if (opc == 3 && size > 1) {
2121             unallocated_encoding(s);
2122             return;
2123         }
2124         is_store = (opc == 0);
2125         is_signed = extract32(opc, 1, 1);
2126         is_extended = (size < 3) && extract32(opc, 0, 1);
2127     }
2128
2129     if (rn == 31) {
2130         gen_check_sp_alignment(s);
2131     }
2132     tcg_addr = read_cpu_reg_sp(s, rn, 1);
2133
2134     tcg_rm = read_cpu_reg(s, rm, 1);
2135     ext_and_shift_reg(tcg_rm, tcg_rm, opt, shift ? size : 0);
2136
2137     tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_rm);
2138
2139     if (is_vector) {
2140         if (is_store) {
2141             do_fp_st(s, rt, tcg_addr, size);
2142         } else {
2143             do_fp_ld(s, rt, tcg_addr, size);
2144         }
2145     } else {
2146         TCGv_i64 tcg_rt = cpu_reg(s, rt);
2147         if (is_store) {
2148             do_gpr_st(s, tcg_rt, tcg_addr, size);
2149         } else {
2150             do_gpr_ld(s, tcg_rt, tcg_addr, size, is_signed, is_extended);
2151         }
2152     }
2153 }
2154
2155 /*
2156  * C3.3.13 Load/store (unsigned immediate)
2157  *
2158  * 31 30 29   27  26 25 24 23 22 21        10 9     5
2159  * +----+-------+---+-----+-----+------------+-------+------+
2160  * |size| 1 1 1 | V | 0 1 | opc |   imm12    |  Rn   |  Rt  |
2161  * +----+-------+---+-----+-----+------------+-------+------+
2162  *
2163  * For non-vector:
2164  *   size: 00-> byte, 01 -> 16 bit, 10 -> 32bit, 11 -> 64bit
2165  *   opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
2166  * For vector:
2167  *   size is opc<1>:size<1:0> so 100 -> 128 bit; 110 and 111 unallocated
2168  *   opc<0>: 0 -> store, 1 -> load
2169  * Rn: base address register (inc SP)
2170  * Rt: target register
2171  */
2172 static void disas_ldst_reg_unsigned_imm(DisasContext *s, uint32_t insn)
2173 {
2174     int rt = extract32(insn, 0, 5);
2175     int rn = extract32(insn, 5, 5);
2176     unsigned int imm12 = extract32(insn, 10, 12);
2177     bool is_vector = extract32(insn, 26, 1);
2178     int size = extract32(insn, 30, 2);
2179     int opc = extract32(insn, 22, 2);
2180     unsigned int offset;
2181
2182     TCGv_i64 tcg_addr;
2183
2184     bool is_store;
2185     bool is_signed = false;
2186     bool is_extended = false;
2187
2188     if (is_vector) {
2189         size |= (opc & 2) << 1;
2190         if (size > 4) {
2191             unallocated_encoding(s);
2192             return;
2193         }
2194         is_store = !extract32(opc, 0, 1);
2195         if (!fp_access_check(s)) {
2196             return;
2197         }
2198     } else {
2199         if (size == 3 && opc == 2) {
2200             /* PRFM - prefetch */
2201             return;
2202         }
2203         if (opc == 3 && size > 1) {
2204             unallocated_encoding(s);
2205             return;
2206         }
2207         is_store = (opc == 0);
2208         is_signed = extract32(opc, 1, 1);
2209         is_extended = (size < 3) && extract32(opc, 0, 1);
2210     }
2211
2212     if (rn == 31) {
2213         gen_check_sp_alignment(s);
2214     }
2215     tcg_addr = read_cpu_reg_sp(s, rn, 1);
2216     offset = imm12 << size;
2217     tcg_gen_addi_i64(tcg_addr, tcg_addr, offset);
2218
2219     if (is_vector) {
2220         if (is_store) {
2221             do_fp_st(s, rt, tcg_addr, size);
2222         } else {
2223             do_fp_ld(s, rt, tcg_addr, size);
2224         }
2225     } else {
2226         TCGv_i64 tcg_rt = cpu_reg(s, rt);
2227         if (is_store) {
2228             do_gpr_st(s, tcg_rt, tcg_addr, size);
2229         } else {
2230             do_gpr_ld(s, tcg_rt, tcg_addr, size, is_signed, is_extended);
2231         }
2232     }
2233 }
2234
2235 /* Load/store register (all forms) */
2236 static void disas_ldst_reg(DisasContext *s, uint32_t insn)
2237 {
2238     switch (extract32(insn, 24, 2)) {
2239     case 0:
2240         if (extract32(insn, 21, 1) == 1 && extract32(insn, 10, 2) == 2) {
2241             disas_ldst_reg_roffset(s, insn);
2242         } else {
2243             /* Load/store register (unscaled immediate)
2244              * Load/store immediate pre/post-indexed
2245              * Load/store register unprivileged
2246              */
2247             disas_ldst_reg_imm9(s, insn);
2248         }
2249         break;
2250     case 1:
2251         disas_ldst_reg_unsigned_imm(s, insn);
2252         break;
2253     default:
2254         unallocated_encoding(s);
2255         break;
2256     }
2257 }
2258
2259 /* C3.3.1 AdvSIMD load/store multiple structures
2260  *
2261  *  31  30  29           23 22  21         16 15    12 11  10 9    5 4    0
2262  * +---+---+---------------+---+-------------+--------+------+------+------+
2263  * | 0 | Q | 0 0 1 1 0 0 0 | L | 0 0 0 0 0 0 | opcode | size |  Rn  |  Rt  |
2264  * +---+---+---------------+---+-------------+--------+------+------+------+
2265  *
2266  * C3.3.2 AdvSIMD load/store multiple structures (post-indexed)
2267  *
2268  *  31  30  29           23 22  21  20     16 15    12 11  10 9    5 4    0
2269  * +---+---+---------------+---+---+---------+--------+------+------+------+
2270  * | 0 | Q | 0 0 1 1 0 0 1 | L | 0 |   Rm    | opcode | size |  Rn  |  Rt  |
2271  * +---+---+---------------+---+---+---------+--------+------+------+------+
2272  *
2273  * Rt: first (or only) SIMD&FP register to be transferred
2274  * Rn: base address or SP
2275  * Rm (post-index only): post-index register (when !31) or size dependent #imm
2276  */
2277 static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
2278 {
2279     int rt = extract32(insn, 0, 5);
2280     int rn = extract32(insn, 5, 5);
2281     int size = extract32(insn, 10, 2);
2282     int opcode = extract32(insn, 12, 4);
2283     bool is_store = !extract32(insn, 22, 1);
2284     bool is_postidx = extract32(insn, 23, 1);
2285     bool is_q = extract32(insn, 30, 1);
2286     TCGv_i64 tcg_addr, tcg_rn;
2287
2288     int ebytes = 1 << size;
2289     int elements = (is_q ? 128 : 64) / (8 << size);
2290     int rpt;    /* num iterations */
2291     int selem;  /* structure elements */
2292     int r;
2293
2294     if (extract32(insn, 31, 1) || extract32(insn, 21, 1)) {
2295         unallocated_encoding(s);
2296         return;
2297     }
2298
2299     /* From the shared decode logic */
2300     switch (opcode) {
2301     case 0x0:
2302         rpt = 1;
2303         selem = 4;
2304         break;
2305     case 0x2:
2306         rpt = 4;
2307         selem = 1;
2308         break;
2309     case 0x4:
2310         rpt = 1;
2311         selem = 3;
2312         break;
2313     case 0x6:
2314         rpt = 3;
2315         selem = 1;
2316         break;
2317     case 0x7:
2318         rpt = 1;
2319         selem = 1;
2320         break;
2321     case 0x8:
2322         rpt = 1;
2323         selem = 2;
2324         break;
2325     case 0xa:
2326         rpt = 2;
2327         selem = 1;
2328         break;
2329     default:
2330         unallocated_encoding(s);
2331         return;
2332     }
2333
2334     if (size == 3 && !is_q && selem != 1) {
2335         /* reserved */
2336         unallocated_encoding(s);
2337         return;
2338     }
2339
2340     if (!fp_access_check(s)) {
2341         return;
2342     }
2343
2344     if (rn == 31) {
2345         gen_check_sp_alignment(s);
2346     }
2347
2348     tcg_rn = cpu_reg_sp(s, rn);
2349     tcg_addr = tcg_temp_new_i64();
2350     tcg_gen_mov_i64(tcg_addr, tcg_rn);
2351
2352     for (r = 0; r < rpt; r++) {
2353         int e;
2354         for (e = 0; e < elements; e++) {
2355             int tt = (rt + r) % 32;
2356             int xs;
2357             for (xs = 0; xs < selem; xs++) {
2358                 if (is_store) {
2359                     do_vec_st(s, tt, e, tcg_addr, size);
2360                 } else {
2361                     do_vec_ld(s, tt, e, tcg_addr, size);
2362
2363                     /* For non-quad operations, setting a slice of the low
2364                      * 64 bits of the register clears the high 64 bits (in
2365                      * the ARM ARM pseudocode this is implicit in the fact
2366                      * that 'rval' is a 64 bit wide variable). We optimize
2367                      * by noticing that we only need to do this the first
2368                      * time we touch a register.
2369                      */
2370                     if (!is_q && e == 0 && (r == 0 || xs == selem - 1)) {
2371                         clear_vec_high(s, tt);
2372                     }
2373                 }
2374                 tcg_gen_addi_i64(tcg_addr, tcg_addr, ebytes);
2375                 tt = (tt + 1) % 32;
2376             }
2377         }
2378     }
2379
2380     if (is_postidx) {
2381         int rm = extract32(insn, 16, 5);
2382         if (rm == 31) {
2383             tcg_gen_mov_i64(tcg_rn, tcg_addr);
2384         } else {
2385             tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
2386         }
2387     }
2388     tcg_temp_free_i64(tcg_addr);
2389 }
2390
2391 /* C3.3.3 AdvSIMD load/store single structure
2392  *
2393  *  31  30  29           23 22 21 20       16 15 13 12  11  10 9    5 4    0
2394  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
2395  * | 0 | Q | 0 0 1 1 0 1 0 | L R | 0 0 0 0 0 | opc | S | size |  Rn  |  Rt  |
2396  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
2397  *
2398  * C3.3.4 AdvSIMD load/store single structure (post-indexed)
2399  *
2400  *  31  30  29           23 22 21 20       16 15 13 12  11  10 9    5 4    0
2401  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
2402  * | 0 | Q | 0 0 1 1 0 1 1 | L R |     Rm    | opc | S | size |  Rn  |  Rt  |
2403  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
2404  *
2405  * Rt: first (or only) SIMD&FP register to be transferred
2406  * Rn: base address or SP
2407  * Rm (post-index only): post-index register (when !31) or size dependent #imm
2408  * index = encoded in Q:S:size dependent on size
2409  *
2410  * lane_size = encoded in R, opc
2411  * transfer width = encoded in opc, S, size
2412  */
2413 static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
2414 {
2415     int rt = extract32(insn, 0, 5);
2416     int rn = extract32(insn, 5, 5);
2417     int size = extract32(insn, 10, 2);
2418     int S = extract32(insn, 12, 1);
2419     int opc = extract32(insn, 13, 3);
2420     int R = extract32(insn, 21, 1);
2421     int is_load = extract32(insn, 22, 1);
2422     int is_postidx = extract32(insn, 23, 1);
2423     int is_q = extract32(insn, 30, 1);
2424
2425     int scale = extract32(opc, 1, 2);
2426     int selem = (extract32(opc, 0, 1) << 1 | R) + 1;
2427     bool replicate = false;
2428     int index = is_q << 3 | S << 2 | size;
2429     int ebytes, xs;
2430     TCGv_i64 tcg_addr, tcg_rn;
2431
2432     switch (scale) {
2433     case 3:
2434         if (!is_load || S) {
2435             unallocated_encoding(s);
2436             return;
2437         }
2438         scale = size;
2439         replicate = true;
2440         break;
2441     case 0:
2442         break;
2443     case 1:
2444         if (extract32(size, 0, 1)) {
2445             unallocated_encoding(s);
2446             return;
2447         }
2448         index >>= 1;
2449         break;
2450     case 2:
2451         if (extract32(size, 1, 1)) {
2452             unallocated_encoding(s);
2453             return;
2454         }
2455         if (!extract32(size, 0, 1)) {
2456             index >>= 2;
2457         } else {
2458             if (S) {
2459                 unallocated_encoding(s);
2460                 return;
2461             }
2462             index >>= 3;
2463             scale = 3;
2464         }
2465         break;
2466     default:
2467         g_assert_not_reached();
2468     }
2469
2470     if (!fp_access_check(s)) {
2471         return;
2472     }
2473
2474     ebytes = 1 << scale;
2475
2476     if (rn == 31) {
2477         gen_check_sp_alignment(s);
2478     }
2479
2480     tcg_rn = cpu_reg_sp(s, rn);
2481     tcg_addr = tcg_temp_new_i64();
2482     tcg_gen_mov_i64(tcg_addr, tcg_rn);
2483
2484     for (xs = 0; xs < selem; xs++) {
2485         if (replicate) {
2486             /* Load and replicate to all elements */
2487             uint64_t mulconst;
2488             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
2489
2490             tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr,
2491                                 get_mem_index(s), MO_TE + scale);
2492             switch (scale) {
2493             case 0:
2494                 mulconst = 0x0101010101010101ULL;
2495                 break;
2496             case 1:
2497                 mulconst = 0x0001000100010001ULL;
2498                 break;
2499             case 2:
2500                 mulconst = 0x0000000100000001ULL;
2501                 break;
2502             case 3:
2503                 mulconst = 0;
2504                 break;
2505             default:
2506                 g_assert_not_reached();
2507             }
2508             if (mulconst) {
2509                 tcg_gen_muli_i64(tcg_tmp, tcg_tmp, mulconst);
2510             }
2511             write_vec_element(s, tcg_tmp, rt, 0, MO_64);
2512             if (is_q) {
2513                 write_vec_element(s, tcg_tmp, rt, 1, MO_64);
2514             } else {
2515                 clear_vec_high(s, rt);
2516             }
2517             tcg_temp_free_i64(tcg_tmp);
2518         } else {
2519             /* Load/store one element per register */
2520             if (is_load) {
2521                 do_vec_ld(s, rt, index, tcg_addr, MO_TE + scale);
2522             } else {
2523                 do_vec_st(s, rt, index, tcg_addr, MO_TE + scale);
2524             }
2525         }
2526         tcg_gen_addi_i64(tcg_addr, tcg_addr, ebytes);
2527         rt = (rt + 1) % 32;
2528     }
2529
2530     if (is_postidx) {
2531         int rm = extract32(insn, 16, 5);
2532         if (rm == 31) {
2533             tcg_gen_mov_i64(tcg_rn, tcg_addr);
2534         } else {
2535             tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
2536         }
2537     }
2538     tcg_temp_free_i64(tcg_addr);
2539 }
2540
2541 /* C3.3 Loads and stores */
2542 static void disas_ldst(DisasContext *s, uint32_t insn)
2543 {
2544     switch (extract32(insn, 24, 6)) {
2545     case 0x08: /* Load/store exclusive */
2546         disas_ldst_excl(s, insn);
2547         break;
2548     case 0x18: case 0x1c: /* Load register (literal) */
2549         disas_ld_lit(s, insn);
2550         break;
2551     case 0x28: case 0x29:
2552     case 0x2c: case 0x2d: /* Load/store pair (all forms) */
2553         disas_ldst_pair(s, insn);
2554         break;
2555     case 0x38: case 0x39:
2556     case 0x3c: case 0x3d: /* Load/store register (all forms) */
2557         disas_ldst_reg(s, insn);
2558         break;
2559     case 0x0c: /* AdvSIMD load/store multiple structures */
2560         disas_ldst_multiple_struct(s, insn);
2561         break;
2562     case 0x0d: /* AdvSIMD load/store single structure */
2563         disas_ldst_single_struct(s, insn);
2564         break;
2565     default:
2566         unallocated_encoding(s);
2567         break;
2568     }
2569 }
2570
2571 /* C3.4.6 PC-rel. addressing
2572  *   31  30   29 28       24 23                5 4    0
2573  * +----+-------+-----------+-------------------+------+
2574  * | op | immlo | 1 0 0 0 0 |       immhi       |  Rd  |
2575  * +----+-------+-----------+-------------------+------+
2576  */
2577 static void disas_pc_rel_adr(DisasContext *s, uint32_t insn)
2578 {
2579     unsigned int page, rd;
2580     uint64_t base;
2581     int64_t offset;
2582
2583     page = extract32(insn, 31, 1);
2584     /* SignExtend(immhi:immlo) -> offset */
2585     offset = ((int64_t)sextract32(insn, 5, 19) << 2) | extract32(insn, 29, 2);
2586     rd = extract32(insn, 0, 5);
2587     base = s->pc - 4;
2588
2589     if (page) {
2590         /* ADRP (page based) */
2591         base &= ~0xfff;
2592         offset <<= 12;
2593     }
2594
2595     tcg_gen_movi_i64(cpu_reg(s, rd), base + offset);
2596 }
2597
2598 /*
2599  * C3.4.1 Add/subtract (immediate)
2600  *
2601  *  31 30 29 28       24 23 22 21         10 9   5 4   0
2602  * +--+--+--+-----------+-----+-------------+-----+-----+
2603  * |sf|op| S| 1 0 0 0 1 |shift|    imm12    |  Rn | Rd  |
2604  * +--+--+--+-----------+-----+-------------+-----+-----+
2605  *
2606  *    sf: 0 -> 32bit, 1 -> 64bit
2607  *    op: 0 -> add  , 1 -> sub
2608  *     S: 1 -> set flags
2609  * shift: 00 -> LSL imm by 0, 01 -> LSL imm by 12
2610  */
2611 static void disas_add_sub_imm(DisasContext *s, uint32_t insn)
2612 {
2613     int rd = extract32(insn, 0, 5);
2614     int rn = extract32(insn, 5, 5);
2615     uint64_t imm = extract32(insn, 10, 12);
2616     int shift = extract32(insn, 22, 2);
2617     bool setflags = extract32(insn, 29, 1);
2618     bool sub_op = extract32(insn, 30, 1);
2619     bool is_64bit = extract32(insn, 31, 1);
2620
2621     TCGv_i64 tcg_rn = cpu_reg_sp(s, rn);
2622     TCGv_i64 tcg_rd = setflags ? cpu_reg(s, rd) : cpu_reg_sp(s, rd);
2623     TCGv_i64 tcg_result;
2624
2625     switch (shift) {
2626     case 0x0:
2627         break;
2628     case 0x1:
2629         imm <<= 12;
2630         break;
2631     default:
2632         unallocated_encoding(s);
2633         return;
2634     }
2635
2636     tcg_result = tcg_temp_new_i64();
2637     if (!setflags) {
2638         if (sub_op) {
2639             tcg_gen_subi_i64(tcg_result, tcg_rn, imm);
2640         } else {
2641             tcg_gen_addi_i64(tcg_result, tcg_rn, imm);
2642         }
2643     } else {
2644         TCGv_i64 tcg_imm = tcg_const_i64(imm);
2645         if (sub_op) {
2646             gen_sub_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
2647         } else {
2648             gen_add_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
2649         }
2650         tcg_temp_free_i64(tcg_imm);
2651     }
2652
2653     if (is_64bit) {
2654         tcg_gen_mov_i64(tcg_rd, tcg_result);
2655     } else {
2656         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
2657     }
2658
2659     tcg_temp_free_i64(tcg_result);
2660 }
2661
2662 /* The input should be a value in the bottom e bits (with higher
2663  * bits zero); returns that value replicated into every element
2664  * of size e in a 64 bit integer.
2665  */
2666 static uint64_t bitfield_replicate(uint64_t mask, unsigned int e)
2667 {
2668     assert(e != 0);
2669     while (e < 64) {
2670         mask |= mask << e;
2671         e *= 2;
2672     }
2673     return mask;
2674 }
2675
2676 /* Return a value with the bottom len bits set (where 0 < len <= 64) */
2677 static inline uint64_t bitmask64(unsigned int length)
2678 {
2679     assert(length > 0 && length <= 64);
2680     return ~0ULL >> (64 - length);
2681 }
2682
2683 /* Simplified variant of pseudocode DecodeBitMasks() for the case where we
2684  * only require the wmask. Returns false if the imms/immr/immn are a reserved
2685  * value (ie should cause a guest UNDEF exception), and true if they are
2686  * valid, in which case the decoded bit pattern is written to result.
2687  */
2688 static bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
2689                                    unsigned int imms, unsigned int immr)
2690 {
2691     uint64_t mask;
2692     unsigned e, levels, s, r;
2693     int len;
2694
2695     assert(immn < 2 && imms < 64 && immr < 64);
2696
2697     /* The bit patterns we create here are 64 bit patterns which
2698      * are vectors of identical elements of size e = 2, 4, 8, 16, 32 or
2699      * 64 bits each. Each element contains the same value: a run
2700      * of between 1 and e-1 non-zero bits, rotated within the
2701      * element by between 0 and e-1 bits.
2702      *
2703      * The element size and run length are encoded into immn (1 bit)
2704      * and imms (6 bits) as follows:
2705      * 64 bit elements: immn = 1, imms = <length of run - 1>
2706      * 32 bit elements: immn = 0, imms = 0 : <length of run - 1>
2707      * 16 bit elements: immn = 0, imms = 10 : <length of run - 1>
2708      *  8 bit elements: immn = 0, imms = 110 : <length of run - 1>
2709      *  4 bit elements: immn = 0, imms = 1110 : <length of run - 1>
2710      *  2 bit elements: immn = 0, imms = 11110 : <length of run - 1>
2711      * Notice that immn = 0, imms = 11111x is the only combination
2712      * not covered by one of the above options; this is reserved.
2713      * Further, <length of run - 1> all-ones is a reserved pattern.
2714      *
2715      * In all cases the rotation is by immr % e (and immr is 6 bits).
2716      */
2717
2718     /* First determine the element size */
2719     len = 31 - clz32((immn << 6) | (~imms & 0x3f));
2720     if (len < 1) {
2721         /* This is the immn == 0, imms == 0x11111x case */
2722         return false;
2723     }
2724     e = 1 << len;
2725
2726     levels = e - 1;
2727     s = imms & levels;
2728     r = immr & levels;
2729
2730     if (s == levels) {
2731         /* <length of run - 1> mustn't be all-ones. */
2732         return false;
2733     }
2734
2735     /* Create the value of one element: s+1 set bits rotated
2736      * by r within the element (which is e bits wide)...
2737      */
2738     mask = bitmask64(s + 1);
2739     mask = (mask >> r) | (mask << (e - r));
2740     /* ...then replicate the element over the whole 64 bit value */
2741     mask = bitfield_replicate(mask, e);
2742     *result = mask;
2743     return true;
2744 }
2745
2746 /* C3.4.4 Logical (immediate)
2747  *   31  30 29 28         23 22  21  16 15  10 9    5 4    0
2748  * +----+-----+-------------+---+------+------+------+------+
2749  * | sf | opc | 1 0 0 1 0 0 | N | immr | imms |  Rn  |  Rd  |
2750  * +----+-----+-------------+---+------+------+------+------+
2751  */
2752 static void disas_logic_imm(DisasContext *s, uint32_t insn)
2753 {
2754     unsigned int sf, opc, is_n, immr, imms, rn, rd;
2755     TCGv_i64 tcg_rd, tcg_rn;
2756     uint64_t wmask;
2757     bool is_and = false;
2758
2759     sf = extract32(insn, 31, 1);
2760     opc = extract32(insn, 29, 2);
2761     is_n = extract32(insn, 22, 1);
2762     immr = extract32(insn, 16, 6);
2763     imms = extract32(insn, 10, 6);
2764     rn = extract32(insn, 5, 5);
2765     rd = extract32(insn, 0, 5);
2766
2767     if (!sf && is_n) {
2768         unallocated_encoding(s);
2769         return;
2770     }
2771
2772     if (opc == 0x3) { /* ANDS */
2773         tcg_rd = cpu_reg(s, rd);
2774     } else {
2775         tcg_rd = cpu_reg_sp(s, rd);
2776     }
2777     tcg_rn = cpu_reg(s, rn);
2778
2779     if (!logic_imm_decode_wmask(&wmask, is_n, imms, immr)) {
2780         /* some immediate field values are reserved */
2781         unallocated_encoding(s);
2782         return;
2783     }
2784
2785     if (!sf) {
2786         wmask &= 0xffffffff;
2787     }
2788
2789     switch (opc) {
2790     case 0x3: /* ANDS */
2791     case 0x0: /* AND */
2792         tcg_gen_andi_i64(tcg_rd, tcg_rn, wmask);
2793         is_and = true;
2794         break;
2795     case 0x1: /* ORR */
2796         tcg_gen_ori_i64(tcg_rd, tcg_rn, wmask);
2797         break;
2798     case 0x2: /* EOR */
2799         tcg_gen_xori_i64(tcg_rd, tcg_rn, wmask);
2800         break;
2801     default:
2802         assert(FALSE); /* must handle all above */
2803         break;
2804     }
2805
2806     if (!sf && !is_and) {
2807         /* zero extend final result; we know we can skip this for AND
2808          * since the immediate had the high 32 bits clear.
2809          */
2810         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
2811     }
2812
2813     if (opc == 3) { /* ANDS */
2814         gen_logic_CC(sf, tcg_rd);
2815     }
2816 }
2817
2818 /*
2819  * C3.4.5 Move wide (immediate)
2820  *
2821  *  31 30 29 28         23 22 21 20             5 4    0
2822  * +--+-----+-------------+-----+----------------+------+
2823  * |sf| opc | 1 0 0 1 0 1 |  hw |  imm16         |  Rd  |
2824  * +--+-----+-------------+-----+----------------+------+
2825  *
2826  * sf: 0 -> 32 bit, 1 -> 64 bit
2827  * opc: 00 -> N, 10 -> Z, 11 -> K
2828  * hw: shift/16 (0,16, and sf only 32, 48)
2829  */
2830 static void disas_movw_imm(DisasContext *s, uint32_t insn)
2831 {
2832     int rd = extract32(insn, 0, 5);
2833     uint64_t imm = extract32(insn, 5, 16);
2834     int sf = extract32(insn, 31, 1);
2835     int opc = extract32(insn, 29, 2);
2836     int pos = extract32(insn, 21, 2) << 4;
2837     TCGv_i64 tcg_rd = cpu_reg(s, rd);
2838     TCGv_i64 tcg_imm;
2839
2840     if (!sf && (pos >= 32)) {
2841         unallocated_encoding(s);
2842         return;
2843     }
2844
2845     switch (opc) {
2846     case 0: /* MOVN */
2847     case 2: /* MOVZ */
2848         imm <<= pos;
2849         if (opc == 0) {
2850             imm = ~imm;
2851         }
2852         if (!sf) {
2853             imm &= 0xffffffffu;
2854         }
2855         tcg_gen_movi_i64(tcg_rd, imm);
2856         break;
2857     case 3: /* MOVK */
2858         tcg_imm = tcg_const_i64(imm);
2859         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_imm, pos, 16);
2860         tcg_temp_free_i64(tcg_imm);
2861         if (!sf) {
2862             tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
2863         }
2864         break;
2865     default:
2866         unallocated_encoding(s);
2867         break;
2868     }
2869 }
2870
2871 /* C3.4.2 Bitfield
2872  *   31  30 29 28         23 22  21  16 15  10 9    5 4    0
2873  * +----+-----+-------------+---+------+------+------+------+
2874  * | sf | opc | 1 0 0 1 1 0 | N | immr | imms |  Rn  |  Rd  |
2875  * +----+-----+-------------+---+------+------+------+------+
2876  */
2877 static void disas_bitfield(DisasContext *s, uint32_t insn)
2878 {
2879     unsigned int sf, n, opc, ri, si, rn, rd, bitsize, pos, len;
2880     TCGv_i64 tcg_rd, tcg_tmp;
2881
2882     sf = extract32(insn, 31, 1);
2883     opc = extract32(insn, 29, 2);
2884     n = extract32(insn, 22, 1);
2885     ri = extract32(insn, 16, 6);
2886     si = extract32(insn, 10, 6);
2887     rn = extract32(insn, 5, 5);
2888     rd = extract32(insn, 0, 5);
2889     bitsize = sf ? 64 : 32;
2890
2891     if (sf != n || ri >= bitsize || si >= bitsize || opc > 2) {
2892         unallocated_encoding(s);
2893         return;
2894     }
2895
2896     tcg_rd = cpu_reg(s, rd);
2897     tcg_tmp = read_cpu_reg(s, rn, sf);
2898
2899     /* OPTME: probably worth recognizing common cases of ext{8,16,32}{u,s} */
2900
2901     if (opc != 1) { /* SBFM or UBFM */
2902         tcg_gen_movi_i64(tcg_rd, 0);
2903     }
2904
2905     /* do the bit move operation */
2906     if (si >= ri) {
2907         /* Wd<s-r:0> = Wn<s:r> */
2908         tcg_gen_shri_i64(tcg_tmp, tcg_tmp, ri);
2909         pos = 0;
2910         len = (si - ri) + 1;
2911     } else {
2912         /* Wd<32+s-r,32-r> = Wn<s:0> */
2913         pos = bitsize - ri;
2914         len = si + 1;
2915     }
2916
2917     tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_tmp, pos, len);
2918
2919     if (opc == 0) { /* SBFM - sign extend the destination field */
2920         tcg_gen_shli_i64(tcg_rd, tcg_rd, 64 - (pos + len));
2921         tcg_gen_sari_i64(tcg_rd, tcg_rd, 64 - (pos + len));
2922     }
2923
2924     if (!sf) { /* zero extend final result */
2925         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
2926     }
2927 }
2928
2929 /* C3.4.3 Extract
2930  *   31  30  29 28         23 22   21  20  16 15    10 9    5 4    0
2931  * +----+------+-------------+---+----+------+--------+------+------+
2932  * | sf | op21 | 1 0 0 1 1 1 | N | o0 |  Rm  |  imms  |  Rn  |  Rd  |
2933  * +----+------+-------------+---+----+------+--------+------+------+
2934  */
2935 static void disas_extract(DisasContext *s, uint32_t insn)
2936 {
2937     unsigned int sf, n, rm, imm, rn, rd, bitsize, op21, op0;
2938
2939     sf = extract32(insn, 31, 1);
2940     n = extract32(insn, 22, 1);
2941     rm = extract32(insn, 16, 5);
2942     imm = extract32(insn, 10, 6);
2943     rn = extract32(insn, 5, 5);
2944     rd = extract32(insn, 0, 5);
2945     op21 = extract32(insn, 29, 2);
2946     op0 = extract32(insn, 21, 1);
2947     bitsize = sf ? 64 : 32;
2948
2949     if (sf != n || op21 || op0 || imm >= bitsize) {
2950         unallocated_encoding(s);
2951     } else {
2952         TCGv_i64 tcg_rd, tcg_rm, tcg_rn;
2953
2954         tcg_rd = cpu_reg(s, rd);
2955
2956         if (imm) {
2957             /* OPTME: we can special case rm==rn as a rotate */
2958             tcg_rm = read_cpu_reg(s, rm, sf);
2959             tcg_rn = read_cpu_reg(s, rn, sf);
2960             tcg_gen_shri_i64(tcg_rm, tcg_rm, imm);
2961             tcg_gen_shli_i64(tcg_rn, tcg_rn, bitsize - imm);
2962             tcg_gen_or_i64(tcg_rd, tcg_rm, tcg_rn);
2963             if (!sf) {
2964                 tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
2965             }
2966         } else {
2967             /* tcg shl_i32/shl_i64 is undefined for 32/64 bit shifts,
2968              * so an extract from bit 0 is a special case.
2969              */
2970             if (sf) {
2971                 tcg_gen_mov_i64(tcg_rd, cpu_reg(s, rm));
2972             } else {
2973                 tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rm));
2974             }
2975         }
2976
2977     }
2978 }
2979
2980 /* C3.4 Data processing - immediate */
2981 static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
2982 {
2983     switch (extract32(insn, 23, 6)) {
2984     case 0x20: case 0x21: /* PC-rel. addressing */
2985         disas_pc_rel_adr(s, insn);
2986         break;
2987     case 0x22: case 0x23: /* Add/subtract (immediate) */
2988         disas_add_sub_imm(s, insn);
2989         break;
2990     case 0x24: /* Logical (immediate) */
2991         disas_logic_imm(s, insn);
2992         break;
2993     case 0x25: /* Move wide (immediate) */
2994         disas_movw_imm(s, insn);
2995         break;
2996     case 0x26: /* Bitfield */
2997         disas_bitfield(s, insn);
2998         break;
2999     case 0x27: /* Extract */
3000         disas_extract(s, insn);
3001         break;
3002     default:
3003         unallocated_encoding(s);
3004         break;
3005     }
3006 }
3007
3008 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
3009  * Note that it is the caller's responsibility to ensure that the
3010  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
3011  * mandated semantics for out of range shifts.
3012  */
3013 static void shift_reg(TCGv_i64 dst, TCGv_i64 src, int sf,
3014                       enum a64_shift_type shift_type, TCGv_i64 shift_amount)
3015 {
3016     switch (shift_type) {
3017     case A64_SHIFT_TYPE_LSL:
3018         tcg_gen_shl_i64(dst, src, shift_amount);
3019         break;
3020     case A64_SHIFT_TYPE_LSR:
3021         tcg_gen_shr_i64(dst, src, shift_amount);
3022         break;
3023     case A64_SHIFT_TYPE_ASR:
3024         if (!sf) {
3025             tcg_gen_ext32s_i64(dst, src);
3026         }
3027         tcg_gen_sar_i64(dst, sf ? src : dst, shift_amount);
3028         break;
3029     case A64_SHIFT_TYPE_ROR:
3030         if (sf) {
3031             tcg_gen_rotr_i64(dst, src, shift_amount);
3032         } else {
3033             TCGv_i32 t0, t1;
3034             t0 = tcg_temp_new_i32();
3035             t1 = tcg_temp_new_i32();
3036             tcg_gen_trunc_i64_i32(t0, src);
3037             tcg_gen_trunc_i64_i32(t1, shift_amount);
3038             tcg_gen_rotr_i32(t0, t0, t1);
3039             tcg_gen_extu_i32_i64(dst, t0);
3040             tcg_temp_free_i32(t0);
3041             tcg_temp_free_i32(t1);
3042         }
3043         break;
3044     default:
3045         assert(FALSE); /* all shift types should be handled */
3046         break;
3047     }
3048
3049     if (!sf) { /* zero extend final result */
3050         tcg_gen_ext32u_i64(dst, dst);
3051     }
3052 }
3053
3054 /* Shift a TCGv src by immediate, put result in dst.
3055  * The shift amount must be in range (this should always be true as the
3056  * relevant instructions will UNDEF on bad shift immediates).
3057  */
3058 static void shift_reg_imm(TCGv_i64 dst, TCGv_i64 src, int sf,
3059                           enum a64_shift_type shift_type, unsigned int shift_i)
3060 {
3061     assert(shift_i < (sf ? 64 : 32));
3062
3063     if (shift_i == 0) {
3064         tcg_gen_mov_i64(dst, src);
3065     } else {
3066         TCGv_i64 shift_const;
3067
3068         shift_const = tcg_const_i64(shift_i);
3069         shift_reg(dst, src, sf, shift_type, shift_const);
3070         tcg_temp_free_i64(shift_const);
3071     }
3072 }
3073
3074 /* C3.5.10 Logical (shifted register)
3075  *   31  30 29 28       24 23   22 21  20  16 15    10 9    5 4    0
3076  * +----+-----+-----------+-------+---+------+--------+------+------+
3077  * | sf | opc | 0 1 0 1 0 | shift | N |  Rm  |  imm6  |  Rn  |  Rd  |
3078  * +----+-----+-----------+-------+---+------+--------+------+------+
3079  */
3080 static void disas_logic_reg(DisasContext *s, uint32_t insn)
3081 {
3082     TCGv_i64 tcg_rd, tcg_rn, tcg_rm;
3083     unsigned int sf, opc, shift_type, invert, rm, shift_amount, rn, rd;
3084
3085     sf = extract32(insn, 31, 1);
3086     opc = extract32(insn, 29, 2);
3087     shift_type = extract32(insn, 22, 2);
3088     invert = extract32(insn, 21, 1);
3089     rm = extract32(insn, 16, 5);
3090     shift_amount = extract32(insn, 10, 6);
3091     rn = extract32(insn, 5, 5);
3092     rd = extract32(insn, 0, 5);
3093
3094     if (!sf && (shift_amount & (1 << 5))) {
3095         unallocated_encoding(s);
3096         return;
3097     }
3098
3099     tcg_rd = cpu_reg(s, rd);
3100
3101     if (opc == 1 && shift_amount == 0 && shift_type == 0 && rn == 31) {
3102         /* Unshifted ORR and ORN with WZR/XZR is the standard encoding for
3103          * register-register MOV and MVN, so it is worth special casing.
3104          */
3105         tcg_rm = cpu_reg(s, rm);
3106         if (invert) {
3107             tcg_gen_not_i64(tcg_rd, tcg_rm);
3108             if (!sf) {
3109                 tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
3110             }
3111         } else {
3112             if (sf) {
3113                 tcg_gen_mov_i64(tcg_rd, tcg_rm);
3114             } else {
3115                 tcg_gen_ext32u_i64(tcg_rd, tcg_rm);
3116             }
3117         }
3118         return;
3119     }
3120
3121     tcg_rm = read_cpu_reg(s, rm, sf);
3122
3123     if (shift_amount) {
3124         shift_reg_imm(tcg_rm, tcg_rm, sf, shift_type, shift_amount);
3125     }
3126
3127     tcg_rn = cpu_reg(s, rn);
3128
3129     switch (opc | (invert << 2)) {
3130     case 0: /* AND */
3131     case 3: /* ANDS */
3132         tcg_gen_and_i64(tcg_rd, tcg_rn, tcg_rm);
3133         break;
3134     case 1: /* ORR */
3135         tcg_gen_or_i64(tcg_rd, tcg_rn, tcg_rm);
3136         break;
3137     case 2: /* EOR */
3138         tcg_gen_xor_i64(tcg_rd, tcg_rn, tcg_rm);
3139         break;
3140     case 4: /* BIC */
3141     case 7: /* BICS */
3142         tcg_gen_andc_i64(tcg_rd, tcg_rn, tcg_rm);
3143         break;
3144     case 5: /* ORN */
3145         tcg_gen_orc_i64(tcg_rd, tcg_rn, tcg_rm);
3146         break;
3147     case 6: /* EON */
3148         tcg_gen_eqv_i64(tcg_rd, tcg_rn, tcg_rm);
3149         break;
3150     default:
3151         assert(FALSE);
3152         break;
3153     }
3154
3155     if (!sf) {
3156         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
3157     }
3158
3159     if (opc == 3) {
3160         gen_logic_CC(sf, tcg_rd);
3161     }
3162 }
3163
3164 /*
3165  * C3.5.1 Add/subtract (extended register)
3166  *
3167  *  31|30|29|28       24|23 22|21|20   16|15  13|12  10|9  5|4  0|
3168  * +--+--+--+-----------+-----+--+-------+------+------+----+----+
3169  * |sf|op| S| 0 1 0 1 1 | opt | 1|  Rm   |option| imm3 | Rn | Rd |
3170  * +--+--+--+-----------+-----+--+-------+------+------+----+----+
3171  *
3172  *  sf: 0 -> 32bit, 1 -> 64bit
3173  *  op: 0 -> add  , 1 -> sub
3174  *   S: 1 -> set flags
3175  * opt: 00
3176  * option: extension type (see DecodeRegExtend)
3177  * imm3: optional shift to Rm
3178  *
3179  * Rd = Rn + LSL(extend(Rm), amount)
3180  */
3181 static void disas_add_sub_ext_reg(DisasContext *s, uint32_t insn)
3182 {
3183     int rd = extract32(insn, 0, 5);
3184     int rn = extract32(insn, 5, 5);
3185     int imm3 = extract32(insn, 10, 3);
3186     int option = extract32(insn, 13, 3);
3187     int rm = extract32(insn, 16, 5);
3188     bool setflags = extract32(insn, 29, 1);
3189     bool sub_op = extract32(insn, 30, 1);
3190     bool sf = extract32(insn, 31, 1);
3191
3192     TCGv_i64 tcg_rm, tcg_rn; /* temps */
3193     TCGv_i64 tcg_rd;
3194     TCGv_i64 tcg_result;
3195
3196     if (imm3 > 4) {
3197         unallocated_encoding(s);
3198         return;
3199     }
3200
3201     /* non-flag setting ops may use SP */
3202     if (!setflags) {
3203         tcg_rd = cpu_reg_sp(s, rd);
3204     } else {
3205         tcg_rd = cpu_reg(s, rd);
3206     }
3207     tcg_rn = read_cpu_reg_sp(s, rn, sf);
3208
3209     tcg_rm = read_cpu_reg(s, rm, sf);
3210     ext_and_shift_reg(tcg_rm, tcg_rm, option, imm3);
3211
3212     tcg_result = tcg_temp_new_i64();
3213
3214     if (!setflags) {
3215         if (sub_op) {
3216             tcg_gen_sub_i64(tcg_result, tcg_rn, tcg_rm);
3217         } else {
3218             tcg_gen_add_i64(tcg_result, tcg_rn, tcg_rm);
3219         }
3220     } else {
3221         if (sub_op) {
3222             gen_sub_CC(sf, tcg_result, tcg_rn, tcg_rm);
3223         } else {
3224             gen_add_CC(sf, tcg_result, tcg_rn, tcg_rm);
3225         }
3226     }
3227
3228     if (sf) {
3229         tcg_gen_mov_i64(tcg_rd, tcg_result);
3230     } else {
3231         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
3232     }
3233
3234     tcg_temp_free_i64(tcg_result);
3235 }
3236
3237 /*
3238  * C3.5.2 Add/subtract (shifted register)
3239  *
3240  *  31 30 29 28       24 23 22 21 20   16 15     10 9    5 4    0
3241  * +--+--+--+-----------+-----+--+-------+---------+------+------+
3242  * |sf|op| S| 0 1 0 1 1 |shift| 0|  Rm   |  imm6   |  Rn  |  Rd  |
3243  * +--+--+--+-----------+-----+--+-------+---------+------+------+
3244  *
3245  *    sf: 0 -> 32bit, 1 -> 64bit
3246  *    op: 0 -> add  , 1 -> sub
3247  *     S: 1 -> set flags
3248  * shift: 00 -> LSL, 01 -> LSR, 10 -> ASR, 11 -> RESERVED
3249  *  imm6: Shift amount to apply to Rm before the add/sub
3250  */
3251 static void disas_add_sub_reg(DisasContext *s, uint32_t insn)
3252 {
3253     int rd = extract32(insn, 0, 5);
3254     int rn = extract32(insn, 5, 5);
3255     int imm6 = extract32(insn, 10, 6);
3256     int rm = extract32(insn, 16, 5);
3257     int shift_type = extract32(insn, 22, 2);
3258     bool setflags = extract32(insn, 29, 1);
3259     bool sub_op = extract32(insn, 30, 1);
3260     bool sf = extract32(insn, 31, 1);
3261
3262     TCGv_i64 tcg_rd = cpu_reg(s, rd);
3263     TCGv_i64 tcg_rn, tcg_rm;
3264     TCGv_i64 tcg_result;
3265
3266     if ((shift_type == 3) || (!sf && (imm6 > 31))) {
3267         unallocated_encoding(s);
3268         return;
3269     }
3270
3271     tcg_rn = read_cpu_reg(s, rn, sf);
3272     tcg_rm = read_cpu_reg(s, rm, sf);
3273
3274     shift_reg_imm(tcg_rm, tcg_rm, sf, shift_type, imm6);
3275
3276     tcg_result = tcg_temp_new_i64();
3277
3278     if (!setflags) {
3279         if (sub_op) {
3280             tcg_gen_sub_i64(tcg_result, tcg_rn, tcg_rm);
3281         } else {
3282             tcg_gen_add_i64(tcg_result, tcg_rn, tcg_rm);
3283         }
3284     } else {
3285         if (sub_op) {
3286             gen_sub_CC(sf, tcg_result, tcg_rn, tcg_rm);
3287         } else {
3288             gen_add_CC(sf, tcg_result, tcg_rn, tcg_rm);
3289         }
3290     }
3291
3292     if (sf) {
3293         tcg_gen_mov_i64(tcg_rd, tcg_result);
3294     } else {
3295         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
3296     }
3297
3298     tcg_temp_free_i64(tcg_result);
3299 }
3300
3301 /* C3.5.9 Data-processing (3 source)
3302
3303    31 30  29 28       24 23 21  20  16  15  14  10 9    5 4    0
3304   +--+------+-----------+------+------+----+------+------+------+
3305   |sf| op54 | 1 1 0 1 1 | op31 |  Rm  | o0 |  Ra  |  Rn  |  Rd  |
3306   +--+------+-----------+------+------+----+------+------+------+
3307
3308  */
3309 static void disas_data_proc_3src(DisasContext *s, uint32_t insn)
3310 {
3311     int rd = extract32(insn, 0, 5);
3312     int rn = extract32(insn, 5, 5);
3313     int ra = extract32(insn, 10, 5);
3314     int rm = extract32(insn, 16, 5);
3315     int op_id = (extract32(insn, 29, 3) << 4) |
3316         (extract32(insn, 21, 3) << 1) |
3317         extract32(insn, 15, 1);
3318     bool sf = extract32(insn, 31, 1);
3319     bool is_sub = extract32(op_id, 0, 1);
3320     bool is_high = extract32(op_id, 2, 1);
3321     bool is_signed = false;
3322     TCGv_i64 tcg_op1;
3323     TCGv_i64 tcg_op2;
3324     TCGv_i64 tcg_tmp;
3325
3326     /* Note that op_id is sf:op54:op31:o0 so it includes the 32/64 size flag */
3327     switch (op_id) {
3328     case 0x42: /* SMADDL */
3329     case 0x43: /* SMSUBL */
3330     case 0x44: /* SMULH */
3331         is_signed = true;
3332         break;
3333     case 0x0: /* MADD (32bit) */
3334     case 0x1: /* MSUB (32bit) */
3335     case 0x40: /* MADD (64bit) */
3336     case 0x41: /* MSUB (64bit) */
3337     case 0x4a: /* UMADDL */
3338     case 0x4b: /* UMSUBL */
3339     case 0x4c: /* UMULH */
3340         break;
3341     default:
3342         unallocated_encoding(s);
3343         return;
3344     }
3345
3346     if (is_high) {
3347         TCGv_i64 low_bits = tcg_temp_new_i64(); /* low bits discarded */
3348         TCGv_i64 tcg_rd = cpu_reg(s, rd);
3349         TCGv_i64 tcg_rn = cpu_reg(s, rn);
3350         TCGv_i64 tcg_rm = cpu_reg(s, rm);
3351
3352         if (is_signed) {
3353             tcg_gen_muls2_i64(low_bits, tcg_rd, tcg_rn, tcg_rm);
3354         } else {
3355             tcg_gen_mulu2_i64(low_bits, tcg_rd, tcg_rn, tcg_rm);
3356         }
3357
3358         tcg_temp_free_i64(low_bits);
3359         return;
3360     }
3361
3362     tcg_op1 = tcg_temp_new_i64();
3363     tcg_op2 = tcg_temp_new_i64();
3364     tcg_tmp = tcg_temp_new_i64();
3365
3366     if (op_id < 0x42) {
3367         tcg_gen_mov_i64(tcg_op1, cpu_reg(s, rn));
3368         tcg_gen_mov_i64(tcg_op2, cpu_reg(s, rm));
3369     } else {
3370         if (is_signed) {
3371             tcg_gen_ext32s_i64(tcg_op1, cpu_reg(s, rn));
3372             tcg_gen_ext32s_i64(tcg_op2, cpu_reg(s, rm));
3373         } else {
3374             tcg_gen_ext32u_i64(tcg_op1, cpu_reg(s, rn));
3375             tcg_gen_ext32u_i64(tcg_op2, cpu_reg(s, rm));
3376         }
3377     }
3378
3379     if (ra == 31 && !is_sub) {
3380         /* Special-case MADD with rA == XZR; it is the standard MUL alias */
3381         tcg_gen_mul_i64(cpu_reg(s, rd), tcg_op1, tcg_op2);
3382     } else {
3383         tcg_gen_mul_i64(tcg_tmp, tcg_op1, tcg_op2);
3384         if (is_sub) {
3385             tcg_gen_sub_i64(cpu_reg(s, rd), cpu_reg(s, ra), tcg_tmp);
3386         } else {
3387             tcg_gen_add_i64(cpu_reg(s, rd), cpu_reg(s, ra), tcg_tmp);
3388         }
3389     }
3390
3391     if (!sf) {
3392         tcg_gen_ext32u_i64(cpu_reg(s, rd), cpu_reg(s, rd));
3393     }
3394
3395     tcg_temp_free_i64(tcg_op1);
3396     tcg_temp_free_i64(tcg_op2);
3397     tcg_temp_free_i64(tcg_tmp);
3398 }
3399
3400 /* C3.5.3 - Add/subtract (with carry)
3401  *  31 30 29 28 27 26 25 24 23 22 21  20  16  15   10  9    5 4   0
3402  * +--+--+--+------------------------+------+---------+------+-----+
3403  * |sf|op| S| 1  1  0  1  0  0  0  0 |  rm  | opcode2 |  Rn  |  Rd |
3404  * +--+--+--+------------------------+------+---------+------+-----+
3405  *                                            [000000]
3406  */
3407
3408 static void disas_adc_sbc(DisasContext *s, uint32_t insn)
3409 {
3410     unsigned int sf, op, setflags, rm, rn, rd;
3411     TCGv_i64 tcg_y, tcg_rn, tcg_rd;
3412
3413     if (extract32(insn, 10, 6) != 0) {
3414         unallocated_encoding(s);
3415         return;
3416     }
3417
3418     sf = extract32(insn, 31, 1);
3419     op = extract32(insn, 30, 1);
3420     setflags = extract32(insn, 29, 1);
3421     rm = extract32(insn, 16, 5);
3422     rn = extract32(insn, 5, 5);
3423     rd = extract32(insn, 0, 5);
3424
3425     tcg_rd = cpu_reg(s, rd);
3426     tcg_rn = cpu_reg(s, rn);
3427
3428     if (op) {
3429         tcg_y = new_tmp_a64(s);
3430         tcg_gen_not_i64(tcg_y, cpu_reg(s, rm));
3431     } else {
3432         tcg_y = cpu_reg(s, rm);
3433     }
3434
3435     if (setflags) {
3436         gen_adc_CC(sf, tcg_rd, tcg_rn, tcg_y);
3437     } else {
3438         gen_adc(sf, tcg_rd, tcg_rn, tcg_y);
3439     }
3440 }
3441
3442 /* C3.5.4 - C3.5.5 Conditional compare (immediate / register)
3443  *  31 30 29 28 27 26 25 24 23 22 21  20    16 15  12  11  10  9   5  4 3   0
3444  * +--+--+--+------------------------+--------+------+----+--+------+--+-----+
3445  * |sf|op| S| 1  1  0  1  0  0  1  0 |imm5/rm | cond |i/r |o2|  Rn  |o3|nzcv |
3446  * +--+--+--+------------------------+--------+------+----+--+------+--+-----+
3447  *        [1]                             y                [0]       [0]
3448  */
3449 static void disas_cc(DisasContext *s, uint32_t insn)
3450 {
3451     unsigned int sf, op, y, cond, rn, nzcv, is_imm;
3452     int label_continue = -1;
3453     TCGv_i64 tcg_tmp, tcg_y, tcg_rn;
3454
3455     if (!extract32(insn, 29, 1)) {
3456         unallocated_encoding(s);
3457         return;
3458     }
3459     if (insn & (1 << 10 | 1 << 4)) {
3460         unallocated_encoding(s);
3461         return;
3462     }
3463     sf = extract32(insn, 31, 1);
3464     op = extract32(insn, 30, 1);
3465     is_imm = extract32(insn, 11, 1);
3466     y = extract32(insn, 16, 5); /* y = rm (reg) or imm5 (imm) */
3467     cond = extract32(insn, 12, 4);
3468     rn = extract32(insn, 5, 5);
3469     nzcv = extract32(insn, 0, 4);
3470
3471     if (cond < 0x0e) { /* not always */
3472         int label_match = gen_new_label();
3473         label_continue = gen_new_label();
3474         arm_gen_test_cc(cond, label_match);
3475         /* nomatch: */
3476         tcg_tmp = tcg_temp_new_i64();
3477         tcg_gen_movi_i64(tcg_tmp, nzcv << 28);
3478         gen_set_nzcv(tcg_tmp);
3479         tcg_temp_free_i64(tcg_tmp);
3480         tcg_gen_br(label_continue);
3481         gen_set_label(label_match);
3482     }
3483     /* match, or condition is always */
3484     if (is_imm) {
3485         tcg_y = new_tmp_a64(s);
3486         tcg_gen_movi_i64(tcg_y, y);
3487     } else {
3488         tcg_y = cpu_reg(s, y);
3489     }
3490     tcg_rn = cpu_reg(s, rn);
3491
3492     tcg_tmp = tcg_temp_new_i64();
3493     if (op) {
3494         gen_sub_CC(sf, tcg_tmp, tcg_rn, tcg_y);
3495     } else {
3496         gen_add_CC(sf, tcg_tmp, tcg_rn, tcg_y);
3497     }
3498     tcg_temp_free_i64(tcg_tmp);
3499
3500     if (cond < 0x0e) { /* continue */
3501         gen_set_label(label_continue);
3502     }
3503 }
3504
3505 /* C3.5.6 Conditional select
3506  *   31   30  29  28             21 20  16 15  12 11 10 9    5 4    0
3507  * +----+----+---+-----------------+------+------+-----+------+------+
3508  * | sf | op | S | 1 1 0 1 0 1 0 0 |  Rm  | cond | op2 |  Rn  |  Rd  |
3509  * +----+----+---+-----------------+------+------+-----+------+------+
3510  */
3511 static void disas_cond_select(DisasContext *s, uint32_t insn)
3512 {
3513     unsigned int sf, else_inv, rm, cond, else_inc, rn, rd;
3514     TCGv_i64 tcg_rd, tcg_src;
3515
3516     if (extract32(insn, 29, 1) || extract32(insn, 11, 1)) {
3517         /* S == 1 or op2<1> == 1 */
3518         unallocated_encoding(s);
3519         return;
3520     }
3521     sf = extract32(insn, 31, 1);
3522     else_inv = extract32(insn, 30, 1);
3523     rm = extract32(insn, 16, 5);
3524     cond = extract32(insn, 12, 4);
3525     else_inc = extract32(insn, 10, 1);
3526     rn = extract32(insn, 5, 5);
3527     rd = extract32(insn, 0, 5);
3528
3529     if (rd == 31) {
3530         /* silly no-op write; until we use movcond we must special-case
3531          * this to avoid a dead temporary across basic blocks.
3532          */
3533         return;
3534     }
3535
3536     tcg_rd = cpu_reg(s, rd);
3537
3538     if (cond >= 0x0e) { /* condition "always" */
3539         tcg_src = read_cpu_reg(s, rn, sf);
3540         tcg_gen_mov_i64(tcg_rd, tcg_src);
3541     } else {
3542         /* OPTME: we could use movcond here, at the cost of duplicating
3543          * a lot of the arm_gen_test_cc() logic.
3544          */
3545         int label_match = gen_new_label();
3546         int label_continue = gen_new_label();
3547
3548         arm_gen_test_cc(cond, label_match);
3549         /* nomatch: */
3550         tcg_src = cpu_reg(s, rm);
3551
3552         if (else_inv && else_inc) {
3553             tcg_gen_neg_i64(tcg_rd, tcg_src);
3554         } else if (else_inv) {
3555             tcg_gen_not_i64(tcg_rd, tcg_src);
3556         } else if (else_inc) {
3557             tcg_gen_addi_i64(tcg_rd, tcg_src, 1);
3558         } else {
3559             tcg_gen_mov_i64(tcg_rd, tcg_src);
3560         }
3561         if (!sf) {
3562             tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
3563         }
3564         tcg_gen_br(label_continue);
3565         /* match: */
3566         gen_set_label(label_match);
3567         tcg_src = read_cpu_reg(s, rn, sf);
3568         tcg_gen_mov_i64(tcg_rd, tcg_src);
3569         /* continue: */
3570         gen_set_label(label_continue);
3571     }
3572 }
3573
3574 static void handle_clz(DisasContext *s, unsigned int sf,
3575                        unsigned int rn, unsigned int rd)
3576 {
3577     TCGv_i64 tcg_rd, tcg_rn;
3578     tcg_rd = cpu_reg(s, rd);
3579     tcg_rn = cpu_reg(s, rn);
3580
3581     if (sf) {
3582         gen_helper_clz64(tcg_rd, tcg_rn);
3583     } else {
3584         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
3585         tcg_gen_trunc_i64_i32(tcg_tmp32, tcg_rn);
3586         gen_helper_clz(tcg_tmp32, tcg_tmp32);
3587         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
3588         tcg_temp_free_i32(tcg_tmp32);
3589     }
3590 }
3591
3592 static void handle_cls(DisasContext *s, unsigned int sf,
3593                        unsigned int rn, unsigned int rd)
3594 {
3595     TCGv_i64 tcg_rd, tcg_rn;
3596     tcg_rd = cpu_reg(s, rd);
3597     tcg_rn = cpu_reg(s, rn);
3598
3599     if (sf) {
3600         gen_helper_cls64(tcg_rd, tcg_rn);
3601     } else {
3602         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
3603         tcg_gen_trunc_i64_i32(tcg_tmp32, tcg_rn);
3604         gen_helper_cls32(tcg_tmp32, tcg_tmp32);
3605         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
3606         tcg_temp_free_i32(tcg_tmp32);
3607     }
3608 }
3609
3610 static void handle_rbit(DisasContext *s, unsigned int sf,
3611                         unsigned int rn, unsigned int rd)
3612 {
3613     TCGv_i64 tcg_rd, tcg_rn;
3614     tcg_rd = cpu_reg(s, rd);
3615     tcg_rn = cpu_reg(s, rn);
3616
3617     if (sf) {
3618         gen_helper_rbit64(tcg_rd, tcg_rn);
3619     } else {
3620         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
3621         tcg_gen_trunc_i64_i32(tcg_tmp32, tcg_rn);
3622         gen_helper_rbit(tcg_tmp32, tcg_tmp32);
3623         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
3624         tcg_temp_free_i32(tcg_tmp32);
3625     }
3626 }
3627
3628 /* C5.6.149 REV with sf==1, opcode==3 ("REV64") */
3629 static void handle_rev64(DisasContext *s, unsigned int sf,
3630                          unsigned int rn, unsigned int rd)
3631 {
3632     if (!sf) {
3633         unallocated_encoding(s);
3634         return;
3635     }
3636     tcg_gen_bswap64_i64(cpu_reg(s, rd), cpu_reg(s, rn));
3637 }
3638
3639 /* C5.6.149 REV with sf==0, opcode==2
3640  * C5.6.151 REV32 (sf==1, opcode==2)
3641  */
3642 static void handle_rev32(DisasContext *s, unsigned int sf,
3643                          unsigned int rn, unsigned int rd)
3644 {
3645     TCGv_i64 tcg_rd = cpu_reg(s, rd);
3646
3647     if (sf) {
3648         TCGv_i64 tcg_tmp = tcg_temp_new_i64();
3649         TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
3650
3651         /* bswap32_i64 requires zero high word */
3652         tcg_gen_ext32u_i64(tcg_tmp, tcg_rn);
3653         tcg_gen_bswap32_i64(tcg_rd, tcg_tmp);
3654         tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
3655         tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
3656         tcg_gen_concat32_i64(tcg_rd, tcg_rd, tcg_tmp);
3657
3658         tcg_temp_free_i64(tcg_tmp);
3659     } else {
3660         tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rn));
3661         tcg_gen_bswap32_i64(tcg_rd, tcg_rd);
3662     }
3663 }
3664
3665 /* C5.6.150 REV16 (opcode==1) */
3666 static void handle_rev16(DisasContext *s, unsigned int sf,
3667                          unsigned int rn, unsigned int rd)
3668 {
3669     TCGv_i64 tcg_rd = cpu_reg(s, rd);
3670     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
3671     TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
3672
3673     tcg_gen_andi_i64(tcg_tmp, tcg_rn, 0xffff);
3674     tcg_gen_bswap16_i64(tcg_rd, tcg_tmp);
3675
3676     tcg_gen_shri_i64(tcg_tmp, tcg_rn, 16);
3677     tcg_gen_andi_i64(tcg_tmp, tcg_tmp, 0xffff);
3678     tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp);
3679     tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_tmp, 16, 16);
3680
3681     if (sf) {
3682         tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
3683         tcg_gen_andi_i64(tcg_tmp, tcg_tmp, 0xffff);
3684         tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp);
3685         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_tmp, 32, 16);
3686
3687         tcg_gen_shri_i64(tcg_tmp, tcg_rn, 48);
3688         tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp);
3689         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_tmp, 48, 16);
3690     }
3691
3692     tcg_temp_free_i64(tcg_tmp);
3693 }
3694
3695 /* C3.5.7 Data-processing (1 source)
3696  *   31  30  29  28             21 20     16 15    10 9    5 4    0
3697  * +----+---+---+-----------------+---------+--------+------+------+
3698  * | sf | 1 | S | 1 1 0 1 0 1 1 0 | opcode2 | opcode |  Rn  |  Rd  |
3699  * +----+---+---+-----------------+---------+--------+------+------+
3700  */
3701 static void disas_data_proc_1src(DisasContext *s, uint32_t insn)
3702 {
3703     unsigned int sf, opcode, rn, rd;
3704
3705     if (extract32(insn, 29, 1) || extract32(insn, 16, 5)) {
3706         unallocated_encoding(s);
3707         return;
3708     }
3709
3710     sf = extract32(insn, 31, 1);
3711     opcode = extract32(insn, 10, 6);
3712     rn = extract32(insn, 5, 5);
3713     rd = extract32(insn, 0, 5);
3714
3715     switch (opcode) {
3716     case 0: /* RBIT */
3717         handle_rbit(s, sf, rn, rd);
3718         break;
3719     case 1: /* REV16 */
3720         handle_rev16(s, sf, rn, rd);
3721         break;
3722     case 2: /* REV32 */
3723         handle_rev32(s, sf, rn, rd);
3724         break;
3725     case 3: /* REV64 */
3726         handle_rev64(s, sf, rn, rd);
3727         break;
3728     case 4: /* CLZ */
3729         handle_clz(s, sf, rn, rd);
3730         break;
3731     case 5: /* CLS */
3732         handle_cls(s, sf, rn, rd);
3733         break;
3734     }
3735 }
3736
3737 static void handle_div(DisasContext *s, bool is_signed, unsigned int sf,
3738                        unsigned int rm, unsigned int rn, unsigned int rd)
3739 {
3740     TCGv_i64 tcg_n, tcg_m, tcg_rd;
3741     tcg_rd = cpu_reg(s, rd);
3742
3743     if (!sf && is_signed) {
3744         tcg_n = new_tmp_a64(s);
3745         tcg_m = new_tmp_a64(s);
3746         tcg_gen_ext32s_i64(tcg_n, cpu_reg(s, rn));
3747         tcg_gen_ext32s_i64(tcg_m, cpu_reg(s, rm));
3748     } else {
3749         tcg_n = read_cpu_reg(s, rn, sf);
3750         tcg_m = read_cpu_reg(s, rm, sf);
3751     }
3752
3753     if (is_signed) {
3754         gen_helper_sdiv64(tcg_rd, tcg_n, tcg_m);
3755     } else {
3756         gen_helper_udiv64(tcg_rd, tcg_n, tcg_m);
3757     }
3758
3759     if (!sf) { /* zero extend final result */
3760         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
3761     }
3762 }
3763
3764 /* C5.6.115 LSLV, C5.6.118 LSRV, C5.6.17 ASRV, C5.6.154 RORV */
3765 static void handle_shift_reg(DisasContext *s,
3766                              enum a64_shift_type shift_type, unsigned int sf,
3767                              unsigned int rm, unsigned int rn, unsigned int rd)
3768 {
3769     TCGv_i64 tcg_shift = tcg_temp_new_i64();
3770     TCGv_i64 tcg_rd = cpu_reg(s, rd);
3771     TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
3772
3773     tcg_gen_andi_i64(tcg_shift, cpu_reg(s, rm), sf ? 63 : 31);
3774     shift_reg(tcg_rd, tcg_rn, sf, shift_type, tcg_shift);
3775     tcg_temp_free_i64(tcg_shift);
3776 }
3777
3778 /* CRC32[BHWX], CRC32C[BHWX] */
3779 static void handle_crc32(DisasContext *s,
3780                          unsigned int sf, unsigned int sz, bool crc32c,
3781                          unsigned int rm, unsigned int rn, unsigned int rd)
3782 {
3783     TCGv_i64 tcg_acc, tcg_val;
3784     TCGv_i32 tcg_bytes;
3785
3786     if (!arm_dc_feature(s, ARM_FEATURE_CRC)
3787         || (sf == 1 && sz != 3)
3788         || (sf == 0 && sz == 3)) {
3789         unallocated_encoding(s);
3790         return;
3791     }
3792
3793     if (sz == 3) {
3794         tcg_val = cpu_reg(s, rm);
3795     } else {
3796         uint64_t mask;
3797         switch (sz) {
3798         case 0:
3799             mask = 0xFF;
3800             break;
3801         case 1:
3802             mask = 0xFFFF;
3803             break;
3804         case 2:
3805             mask = 0xFFFFFFFF;
3806             break;
3807         default:
3808             g_assert_not_reached();
3809         }
3810         tcg_val = new_tmp_a64(s);
3811         tcg_gen_andi_i64(tcg_val, cpu_reg(s, rm), mask);
3812     }
3813
3814     tcg_acc = cpu_reg(s, rn);
3815     tcg_bytes = tcg_const_i32(1 << sz);
3816
3817     if (crc32c) {
3818         gen_helper_crc32c_64(cpu_reg(s, rd), tcg_acc, tcg_val, tcg_bytes);
3819     } else {
3820         gen_helper_crc32_64(cpu_reg(s, rd), tcg_acc, tcg_val, tcg_bytes);
3821     }
3822
3823     tcg_temp_free_i32(tcg_bytes);
3824 }
3825
3826 /* C3.5.8 Data-processing (2 source)
3827  *   31   30  29 28             21 20  16 15    10 9    5 4    0
3828  * +----+---+---+-----------------+------+--------+------+------+
3829  * | sf | 0 | S | 1 1 0 1 0 1 1 0 |  Rm  | opcode |  Rn  |  Rd  |
3830  * +----+---+---+-----------------+------+--------+------+------+
3831  */
3832 static void disas_data_proc_2src(DisasContext *s, uint32_t insn)
3833 {
3834     unsigned int sf, rm, opcode, rn, rd;
3835     sf = extract32(insn, 31, 1);
3836     rm = extract32(insn, 16, 5);
3837     opcode = extract32(insn, 10, 6);
3838     rn = extract32(insn, 5, 5);
3839     rd = extract32(insn, 0, 5);
3840
3841     if (extract32(insn, 29, 1)) {
3842         unallocated_encoding(s);
3843         return;
3844     }
3845
3846     switch (opcode) {
3847     case 2: /* UDIV */
3848         handle_div(s, false, sf, rm, rn, rd);
3849         break;
3850     case 3: /* SDIV */
3851         handle_div(s, true, sf, rm, rn, rd);
3852         break;
3853     case 8: /* LSLV */
3854         handle_shift_reg(s, A64_SHIFT_TYPE_LSL, sf, rm, rn, rd);
3855         break;
3856     case 9: /* LSRV */
3857         handle_shift_reg(s, A64_SHIFT_TYPE_LSR, sf, rm, rn, rd);
3858         break;
3859     case 10: /* ASRV */
3860         handle_shift_reg(s, A64_SHIFT_TYPE_ASR, sf, rm, rn, rd);
3861         break;
3862     case 11: /* RORV */
3863         handle_shift_reg(s, A64_SHIFT_TYPE_ROR, sf, rm, rn, rd);
3864         break;
3865     case 16:
3866     case 17:
3867     case 18:
3868     case 19:
3869     case 20:
3870     case 21:
3871     case 22:
3872     case 23: /* CRC32 */
3873     {
3874         int sz = extract32(opcode, 0, 2);
3875         bool crc32c = extract32(opcode, 2, 1);
3876         handle_crc32(s, sf, sz, crc32c, rm, rn, rd);
3877         break;
3878     }
3879     default:
3880         unallocated_encoding(s);
3881         break;
3882     }
3883 }
3884
3885 /* C3.5 Data processing - register */
3886 static void disas_data_proc_reg(DisasContext *s, uint32_t insn)
3887 {
3888     switch (extract32(insn, 24, 5)) {
3889     case 0x0a: /* Logical (shifted register) */
3890         disas_logic_reg(s, insn);
3891         break;
3892     case 0x0b: /* Add/subtract */
3893         if (insn & (1 << 21)) { /* (extended register) */
3894             disas_add_sub_ext_reg(s, insn);
3895         } else {
3896             disas_add_sub_reg(s, insn);
3897         }
3898         break;
3899     case 0x1b: /* Data-processing (3 source) */
3900         disas_data_proc_3src(s, insn);
3901         break;
3902     case 0x1a:
3903         switch (extract32(insn, 21, 3)) {
3904         case 0x0: /* Add/subtract (with carry) */
3905             disas_adc_sbc(s, insn);
3906             break;
3907         case 0x2: /* Conditional compare */
3908             disas_cc(s, insn); /* both imm and reg forms */
3909             break;
3910         case 0x4: /* Conditional select */
3911             disas_cond_select(s, insn);
3912             break;
3913         case 0x6: /* Data-processing */
3914             if (insn & (1 << 30)) { /* (1 source) */
3915                 disas_data_proc_1src(s, insn);
3916             } else {            /* (2 source) */
3917                 disas_data_proc_2src(s, insn);
3918             }
3919             break;
3920         default:
3921             unallocated_encoding(s);
3922             break;
3923         }
3924         break;
3925     default:
3926         unallocated_encoding(s);
3927         break;
3928     }
3929 }
3930
3931 static void handle_fp_compare(DisasContext *s, bool is_double,
3932                               unsigned int rn, unsigned int rm,
3933                               bool cmp_with_zero, bool signal_all_nans)
3934 {
3935     TCGv_i64 tcg_flags = tcg_temp_new_i64();
3936     TCGv_ptr fpst = get_fpstatus_ptr();
3937
3938     if (is_double) {
3939         TCGv_i64 tcg_vn, tcg_vm;
3940
3941         tcg_vn = read_fp_dreg(s, rn);
3942         if (cmp_with_zero) {
3943             tcg_vm = tcg_const_i64(0);
3944         } else {
3945             tcg_vm = read_fp_dreg(s, rm);
3946         }
3947         if (signal_all_nans) {
3948             gen_helper_vfp_cmped_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
3949         } else {
3950             gen_helper_vfp_cmpd_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
3951         }
3952         tcg_temp_free_i64(tcg_vn);
3953         tcg_temp_free_i64(tcg_vm);
3954     } else {
3955         TCGv_i32 tcg_vn, tcg_vm;
3956
3957         tcg_vn = read_fp_sreg(s, rn);
3958         if (cmp_with_zero) {
3959             tcg_vm = tcg_const_i32(0);
3960         } else {
3961             tcg_vm = read_fp_sreg(s, rm);
3962         }
3963         if (signal_all_nans) {
3964             gen_helper_vfp_cmpes_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
3965         } else {
3966             gen_helper_vfp_cmps_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
3967         }
3968         tcg_temp_free_i32(tcg_vn);
3969         tcg_temp_free_i32(tcg_vm);
3970     }
3971
3972     tcg_temp_free_ptr(fpst);
3973
3974     gen_set_nzcv(tcg_flags);
3975
3976     tcg_temp_free_i64(tcg_flags);
3977 }
3978
3979 /* C3.6.22 Floating point compare
3980  *   31  30  29 28       24 23  22  21 20  16 15 14 13  10    9    5 4     0
3981  * +---+---+---+-----------+------+---+------+-----+---------+------+-------+
3982  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | op  | 1 0 0 0 |  Rn  |  op2  |
3983  * +---+---+---+-----------+------+---+------+-----+---------+------+-------+
3984  */
3985 static void disas_fp_compare(DisasContext *s, uint32_t insn)
3986 {
3987     unsigned int mos, type, rm, op, rn, opc, op2r;
3988
3989     mos = extract32(insn, 29, 3);
3990     type = extract32(insn, 22, 2); /* 0 = single, 1 = double */
3991     rm = extract32(insn, 16, 5);
3992     op = extract32(insn, 14, 2);
3993     rn = extract32(insn, 5, 5);
3994     opc = extract32(insn, 3, 2);
3995     op2r = extract32(insn, 0, 3);
3996
3997     if (mos || op || op2r || type > 1) {
3998         unallocated_encoding(s);
3999         return;
4000     }
4001
4002     if (!fp_access_check(s)) {
4003         return;
4004     }
4005
4006     handle_fp_compare(s, type, rn, rm, opc & 1, opc & 2);
4007 }
4008
4009 /* C3.6.23 Floating point conditional compare
4010  *   31  30  29 28       24 23  22  21 20  16 15  12 11 10 9    5  4   3    0
4011  * +---+---+---+-----------+------+---+------+------+-----+------+----+------+
4012  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | cond | 0 1 |  Rn  | op | nzcv |
4013  * +---+---+---+-----------+------+---+------+------+-----+------+----+------+
4014  */
4015 static void disas_fp_ccomp(DisasContext *s, uint32_t insn)
4016 {
4017     unsigned int mos, type, rm, cond, rn, op, nzcv;
4018     TCGv_i64 tcg_flags;
4019     int label_continue = -1;
4020
4021     mos = extract32(insn, 29, 3);
4022     type = extract32(insn, 22, 2); /* 0 = single, 1 = double */
4023     rm = extract32(insn, 16, 5);
4024     cond = extract32(insn, 12, 4);
4025     rn = extract32(insn, 5, 5);
4026     op = extract32(insn, 4, 1);
4027     nzcv = extract32(insn, 0, 4);
4028
4029     if (mos || type > 1) {
4030         unallocated_encoding(s);
4031         return;
4032     }
4033
4034     if (!fp_access_check(s)) {
4035         return;
4036     }
4037
4038     if (cond < 0x0e) { /* not always */
4039         int label_match = gen_new_label();
4040         label_continue = gen_new_label();
4041         arm_gen_test_cc(cond, label_match);
4042         /* nomatch: */
4043         tcg_flags = tcg_const_i64(nzcv << 28);
4044         gen_set_nzcv(tcg_flags);
4045         tcg_temp_free_i64(tcg_flags);
4046         tcg_gen_br(label_continue);
4047         gen_set_label(label_match);
4048     }
4049
4050     handle_fp_compare(s, type, rn, rm, false, op);
4051
4052     if (cond < 0x0e) {
4053         gen_set_label(label_continue);
4054     }
4055 }
4056
4057 /* copy src FP register to dst FP register; type specifies single or double */
4058 static void gen_mov_fp2fp(DisasContext *s, int type, int dst, int src)
4059 {
4060     if (type) {
4061         TCGv_i64 v = read_fp_dreg(s, src);
4062         write_fp_dreg(s, dst, v);
4063         tcg_temp_free_i64(v);
4064     } else {
4065         TCGv_i32 v = read_fp_sreg(s, src);
4066         write_fp_sreg(s, dst, v);
4067         tcg_temp_free_i32(v);
4068     }
4069 }
4070
4071 /* C3.6.24 Floating point conditional select
4072  *   31  30  29 28       24 23  22  21 20  16 15  12 11 10 9    5 4    0
4073  * +---+---+---+-----------+------+---+------+------+-----+------+------+
4074  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | cond | 1 1 |  Rn  |  Rd  |
4075  * +---+---+---+-----------+------+---+------+------+-----+------+------+
4076  */
4077 static void disas_fp_csel(DisasContext *s, uint32_t insn)
4078 {
4079     unsigned int mos, type, rm, cond, rn, rd;
4080     int label_continue = -1;
4081
4082     mos = extract32(insn, 29, 3);
4083     type = extract32(insn, 22, 2); /* 0 = single, 1 = double */
4084     rm = extract32(insn, 16, 5);
4085     cond = extract32(insn, 12, 4);
4086     rn = extract32(insn, 5, 5);
4087     rd = extract32(insn, 0, 5);
4088
4089     if (mos || type > 1) {
4090         unallocated_encoding(s);
4091         return;
4092     }
4093
4094     if (!fp_access_check(s)) {
4095         return;
4096     }
4097
4098     if (cond < 0x0e) { /* not always */
4099         int label_match = gen_new_label();
4100         label_continue = gen_new_label();
4101         arm_gen_test_cc(cond, label_match);
4102         /* nomatch: */
4103         gen_mov_fp2fp(s, type, rd, rm);
4104         tcg_gen_br(label_continue);
4105         gen_set_label(label_match);
4106     }
4107
4108     gen_mov_fp2fp(s, type, rd, rn);
4109
4110     if (cond < 0x0e) { /* continue */
4111         gen_set_label(label_continue);
4112     }
4113 }
4114
4115 /* C3.6.25 Floating-point data-processing (1 source) - single precision */
4116 static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
4117 {
4118     TCGv_ptr fpst;
4119     TCGv_i32 tcg_op;
4120     TCGv_i32 tcg_res;
4121
4122     fpst = get_fpstatus_ptr();
4123     tcg_op = read_fp_sreg(s, rn);
4124     tcg_res = tcg_temp_new_i32();
4125
4126     switch (opcode) {
4127     case 0x0: /* FMOV */
4128         tcg_gen_mov_i32(tcg_res, tcg_op);
4129         break;
4130     case 0x1: /* FABS */
4131         gen_helper_vfp_abss(tcg_res, tcg_op);
4132         break;
4133     case 0x2: /* FNEG */
4134         gen_helper_vfp_negs(tcg_res, tcg_op);
4135         break;
4136     case 0x3: /* FSQRT */
4137         gen_helper_vfp_sqrts(tcg_res, tcg_op, cpu_env);
4138         break;
4139     case 0x8: /* FRINTN */
4140     case 0x9: /* FRINTP */
4141     case 0xa: /* FRINTM */
4142     case 0xb: /* FRINTZ */
4143     case 0xc: /* FRINTA */
4144     {
4145         TCGv_i32 tcg_rmode = tcg_const_i32(arm_rmode_to_sf(opcode & 7));
4146
4147         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
4148         gen_helper_rints(tcg_res, tcg_op, fpst);
4149
4150         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
4151         tcg_temp_free_i32(tcg_rmode);
4152         break;
4153     }
4154     case 0xe: /* FRINTX */
4155         gen_helper_rints_exact(tcg_res, tcg_op, fpst);
4156         break;
4157     case 0xf: /* FRINTI */
4158         gen_helper_rints(tcg_res, tcg_op, fpst);
4159         break;
4160     default:
4161         abort();
4162     }
4163
4164     write_fp_sreg(s, rd, tcg_res);
4165
4166     tcg_temp_free_ptr(fpst);
4167     tcg_temp_free_i32(tcg_op);
4168     tcg_temp_free_i32(tcg_res);
4169 }
4170
4171 /* C3.6.25 Floating-point data-processing (1 source) - double precision */
4172 static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
4173 {
4174     TCGv_ptr fpst;
4175     TCGv_i64 tcg_op;
4176     TCGv_i64 tcg_res;
4177
4178     fpst = get_fpstatus_ptr();
4179     tcg_op = read_fp_dreg(s, rn);
4180     tcg_res = tcg_temp_new_i64();
4181
4182     switch (opcode) {
4183     case 0x0: /* FMOV */
4184         tcg_gen_mov_i64(tcg_res, tcg_op);
4185         break;
4186     case 0x1: /* FABS */
4187         gen_helper_vfp_absd(tcg_res, tcg_op);
4188         break;
4189     case 0x2: /* FNEG */
4190         gen_helper_vfp_negd(tcg_res, tcg_op);
4191         break;
4192     case 0x3: /* FSQRT */
4193         gen_helper_vfp_sqrtd(tcg_res, tcg_op, cpu_env);
4194         break;
4195     case 0x8: /* FRINTN */
4196     case 0x9: /* FRINTP */
4197     case 0xa: /* FRINTM */
4198     case 0xb: /* FRINTZ */
4199     case 0xc: /* FRINTA */
4200     {
4201         TCGv_i32 tcg_rmode = tcg_const_i32(arm_rmode_to_sf(opcode & 7));
4202
4203         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
4204         gen_helper_rintd(tcg_res, tcg_op, fpst);
4205
4206         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
4207         tcg_temp_free_i32(tcg_rmode);
4208         break;
4209     }
4210     case 0xe: /* FRINTX */
4211         gen_helper_rintd_exact(tcg_res, tcg_op, fpst);
4212         break;
4213     case 0xf: /* FRINTI */
4214         gen_helper_rintd(tcg_res, tcg_op, fpst);
4215         break;
4216     default:
4217         abort();
4218     }
4219
4220     write_fp_dreg(s, rd, tcg_res);
4221
4222     tcg_temp_free_ptr(fpst);
4223     tcg_temp_free_i64(tcg_op);
4224     tcg_temp_free_i64(tcg_res);
4225 }
4226
4227 static void handle_fp_fcvt(DisasContext *s, int opcode,
4228                            int rd, int rn, int dtype, int ntype)
4229 {
4230     switch (ntype) {
4231     case 0x0:
4232     {
4233         TCGv_i32 tcg_rn = read_fp_sreg(s, rn);
4234         if (dtype == 1) {
4235             /* Single to double */
4236             TCGv_i64 tcg_rd = tcg_temp_new_i64();
4237             gen_helper_vfp_fcvtds(tcg_rd, tcg_rn, cpu_env);
4238             write_fp_dreg(s, rd, tcg_rd);
4239             tcg_temp_free_i64(tcg_rd);
4240         } else {
4241             /* Single to half */
4242             TCGv_i32 tcg_rd = tcg_temp_new_i32();
4243             gen_helper_vfp_fcvt_f32_to_f16(tcg_rd, tcg_rn, cpu_env);
4244             /* write_fp_sreg is OK here because top half of tcg_rd is zero */
4245             write_fp_sreg(s, rd, tcg_rd);
4246             tcg_temp_free_i32(tcg_rd);
4247         }
4248         tcg_temp_free_i32(tcg_rn);
4249         break;
4250     }
4251     case 0x1:
4252     {
4253         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
4254         TCGv_i32 tcg_rd = tcg_temp_new_i32();
4255         if (dtype == 0) {
4256             /* Double to single */
4257             gen_helper_vfp_fcvtsd(tcg_rd, tcg_rn, cpu_env);
4258         } else {
4259             /* Double to half */
4260             gen_helper_vfp_fcvt_f64_to_f16(tcg_rd, tcg_rn, cpu_env);
4261             /* write_fp_sreg is OK here because top half of tcg_rd is zero */
4262         }
4263         write_fp_sreg(s, rd, tcg_rd);
4264         tcg_temp_free_i32(tcg_rd);
4265         tcg_temp_free_i64(tcg_rn);
4266         break;
4267     }
4268     case 0x3:
4269     {
4270         TCGv_i32 tcg_rn = read_fp_sreg(s, rn);
4271         tcg_gen_ext16u_i32(tcg_rn, tcg_rn);
4272         if (dtype == 0) {
4273             /* Half to single */
4274             TCGv_i32 tcg_rd = tcg_temp_new_i32();
4275             gen_helper_vfp_fcvt_f16_to_f32(tcg_rd, tcg_rn, cpu_env);
4276             write_fp_sreg(s, rd, tcg_rd);
4277             tcg_temp_free_i32(tcg_rd);
4278         } else {
4279             /* Half to double */
4280             TCGv_i64 tcg_rd = tcg_temp_new_i64();
4281             gen_helper_vfp_fcvt_f16_to_f64(tcg_rd, tcg_rn, cpu_env);
4282             write_fp_dreg(s, rd, tcg_rd);
4283             tcg_temp_free_i64(tcg_rd);
4284         }
4285         tcg_temp_free_i32(tcg_rn);
4286         break;
4287     }
4288     default:
4289         abort();
4290     }
4291 }
4292
4293 /* C3.6.25 Floating point data-processing (1 source)
4294  *   31  30  29 28       24 23  22  21 20    15 14       10 9    5 4    0
4295  * +---+---+---+-----------+------+---+--------+-----------+------+------+
4296  * | M | 0 | S | 1 1 1 1 0 | type | 1 | opcode | 1 0 0 0 0 |  Rn  |  Rd  |
4297  * +---+---+---+-----------+------+---+--------+-----------+------+------+
4298  */
4299 static void disas_fp_1src(DisasContext *s, uint32_t insn)
4300 {
4301     int type = extract32(insn, 22, 2);
4302     int opcode = extract32(insn, 15, 6);
4303     int rn = extract32(insn, 5, 5);
4304     int rd = extract32(insn, 0, 5);
4305
4306     switch (opcode) {
4307     case 0x4: case 0x5: case 0x7:
4308     {
4309         /* FCVT between half, single and double precision */
4310         int dtype = extract32(opcode, 0, 2);
4311         if (type == 2 || dtype == type) {
4312             unallocated_encoding(s);
4313             return;
4314         }
4315         if (!fp_access_check(s)) {
4316             return;
4317         }
4318
4319         handle_fp_fcvt(s, opcode, rd, rn, dtype, type);
4320         break;
4321     }
4322     case 0x0 ... 0x3:
4323     case 0x8 ... 0xc:
4324     case 0xe ... 0xf:
4325         /* 32-to-32 and 64-to-64 ops */
4326         switch (type) {
4327         case 0:
4328             if (!fp_access_check(s)) {
4329                 return;
4330             }
4331
4332             handle_fp_1src_single(s, opcode, rd, rn);
4333             break;
4334         case 1:
4335             if (!fp_access_check(s)) {
4336                 return;
4337             }
4338
4339             handle_fp_1src_double(s, opcode, rd, rn);
4340             break;
4341         default:
4342             unallocated_encoding(s);
4343         }
4344         break;
4345     default:
4346         unallocated_encoding(s);
4347         break;
4348     }
4349 }
4350
4351 /* C3.6.26 Floating-point data-processing (2 source) - single precision */
4352 static void handle_fp_2src_single(DisasContext *s, int opcode,
4353                                   int rd, int rn, int rm)
4354 {
4355     TCGv_i32 tcg_op1;
4356     TCGv_i32 tcg_op2;
4357     TCGv_i32 tcg_res;
4358     TCGv_ptr fpst;
4359
4360     tcg_res = tcg_temp_new_i32();
4361     fpst = get_fpstatus_ptr();
4362     tcg_op1 = read_fp_sreg(s, rn);
4363     tcg_op2 = read_fp_sreg(s, rm);
4364
4365     switch (opcode) {
4366     case 0x0: /* FMUL */
4367         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
4368         break;
4369     case 0x1: /* FDIV */
4370         gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
4371         break;
4372     case 0x2: /* FADD */
4373         gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
4374         break;
4375     case 0x3: /* FSUB */
4376         gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
4377         break;
4378     case 0x4: /* FMAX */
4379         gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
4380         break;
4381     case 0x5: /* FMIN */
4382         gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
4383         break;
4384     case 0x6: /* FMAXNM */
4385         gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
4386         break;
4387     case 0x7: /* FMINNM */
4388         gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
4389         break;
4390     case 0x8: /* FNMUL */
4391         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
4392         gen_helper_vfp_negs(tcg_res, tcg_res);
4393         break;
4394     }
4395
4396     write_fp_sreg(s, rd, tcg_res);
4397
4398     tcg_temp_free_ptr(fpst);
4399     tcg_temp_free_i32(tcg_op1);
4400     tcg_temp_free_i32(tcg_op2);
4401     tcg_temp_free_i32(tcg_res);
4402 }
4403
4404 /* C3.6.26 Floating-point data-processing (2 source) - double precision */
4405 static void handle_fp_2src_double(DisasContext *s, int opcode,
4406                                   int rd, int rn, int rm)
4407 {
4408     TCGv_i64 tcg_op1;
4409     TCGv_i64 tcg_op2;
4410     TCGv_i64 tcg_res;
4411     TCGv_ptr fpst;
4412
4413     tcg_res = tcg_temp_new_i64();
4414     fpst = get_fpstatus_ptr();
4415     tcg_op1 = read_fp_dreg(s, rn);
4416     tcg_op2 = read_fp_dreg(s, rm);
4417
4418     switch (opcode) {
4419     case 0x0: /* FMUL */
4420         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
4421         break;
4422     case 0x1: /* FDIV */
4423         gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
4424         break;
4425     case 0x2: /* FADD */
4426         gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
4427         break;
4428     case 0x3: /* FSUB */
4429         gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
4430         break;
4431     case 0x4: /* FMAX */
4432         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
4433         break;
4434     case 0x5: /* FMIN */
4435         gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
4436         break;
4437     case 0x6: /* FMAXNM */
4438         gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
4439         break;
4440     case 0x7: /* FMINNM */
4441         gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
4442         break;
4443     case 0x8: /* FNMUL */
4444         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
4445         gen_helper_vfp_negd(tcg_res, tcg_res);
4446         break;
4447     }
4448
4449     write_fp_dreg(s, rd, tcg_res);
4450
4451     tcg_temp_free_ptr(fpst);
4452     tcg_temp_free_i64(tcg_op1);
4453     tcg_temp_free_i64(tcg_op2);
4454     tcg_temp_free_i64(tcg_res);
4455 }
4456
4457 /* C3.6.26 Floating point data-processing (2 source)
4458  *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
4459  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
4460  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | opcode | 1 0 |  Rn  |  Rd  |
4461  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
4462  */
4463 static void disas_fp_2src(DisasContext *s, uint32_t insn)
4464 {
4465     int type = extract32(insn, 22, 2);
4466     int rd = extract32(insn, 0, 5);
4467     int rn = extract32(insn, 5, 5);
4468     int rm = extract32(insn, 16, 5);
4469     int opcode = extract32(insn, 12, 4);
4470
4471     if (opcode > 8) {
4472         unallocated_encoding(s);
4473         return;
4474     }
4475
4476     switch (type) {
4477     case 0:
4478         if (!fp_access_check(s)) {
4479             return;
4480         }
4481         handle_fp_2src_single(s, opcode, rd, rn, rm);
4482         break;
4483     case 1:
4484         if (!fp_access_check(s)) {
4485             return;
4486         }
4487         handle_fp_2src_double(s, opcode, rd, rn, rm);
4488         break;
4489     default:
4490         unallocated_encoding(s);
4491     }
4492 }
4493
4494 /* C3.6.27 Floating-point data-processing (3 source) - single precision */
4495 static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
4496                                   int rd, int rn, int rm, int ra)
4497 {
4498     TCGv_i32 tcg_op1, tcg_op2, tcg_op3;
4499     TCGv_i32 tcg_res = tcg_temp_new_i32();
4500     TCGv_ptr fpst = get_fpstatus_ptr();
4501
4502     tcg_op1 = read_fp_sreg(s, rn);
4503     tcg_op2 = read_fp_sreg(s, rm);
4504     tcg_op3 = read_fp_sreg(s, ra);
4505
4506     /* These are fused multiply-add, and must be done as one
4507      * floating point operation with no rounding between the
4508      * multiplication and addition steps.
4509      * NB that doing the negations here as separate steps is
4510      * correct : an input NaN should come out with its sign bit
4511      * flipped if it is a negated-input.
4512      */
4513     if (o1 == true) {
4514         gen_helper_vfp_negs(tcg_op3, tcg_op3);
4515     }
4516
4517     if (o0 != o1) {
4518         gen_helper_vfp_negs(tcg_op1, tcg_op1);
4519     }
4520
4521     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
4522
4523     write_fp_sreg(s, rd, tcg_res);
4524
4525     tcg_temp_free_ptr(fpst);
4526     tcg_temp_free_i32(tcg_op1);
4527     tcg_temp_free_i32(tcg_op2);
4528     tcg_temp_free_i32(tcg_op3);
4529     tcg_temp_free_i32(tcg_res);
4530 }
4531
4532 /* C3.6.27 Floating-point data-processing (3 source) - double precision */
4533 static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
4534                                   int rd, int rn, int rm, int ra)
4535 {
4536     TCGv_i64 tcg_op1, tcg_op2, tcg_op3;
4537     TCGv_i64 tcg_res = tcg_temp_new_i64();
4538     TCGv_ptr fpst = get_fpstatus_ptr();
4539
4540     tcg_op1 = read_fp_dreg(s, rn);
4541     tcg_op2 = read_fp_dreg(s, rm);
4542     tcg_op3 = read_fp_dreg(s, ra);
4543
4544     /* These are fused multiply-add, and must be done as one
4545      * floating point operation with no rounding between the
4546      * multiplication and addition steps.
4547      * NB that doing the negations here as separate steps is
4548      * correct : an input NaN should come out with its sign bit
4549      * flipped if it is a negated-input.
4550      */
4551     if (o1 == true) {
4552         gen_helper_vfp_negd(tcg_op3, tcg_op3);
4553     }
4554
4555     if (o0 != o1) {
4556         gen_helper_vfp_negd(tcg_op1, tcg_op1);
4557     }
4558
4559     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
4560
4561     write_fp_dreg(s, rd, tcg_res);
4562
4563     tcg_temp_free_ptr(fpst);
4564     tcg_temp_free_i64(tcg_op1);
4565     tcg_temp_free_i64(tcg_op2);
4566     tcg_temp_free_i64(tcg_op3);
4567     tcg_temp_free_i64(tcg_res);
4568 }
4569
4570 /* C3.6.27 Floating point data-processing (3 source)
4571  *   31  30  29 28       24 23  22  21  20  16  15  14  10 9    5 4    0
4572  * +---+---+---+-----------+------+----+------+----+------+------+------+
4573  * | M | 0 | S | 1 1 1 1 1 | type | o1 |  Rm  | o0 |  Ra  |  Rn  |  Rd  |
4574  * +---+---+---+-----------+------+----+------+----+------+------+------+
4575  */
4576 static void disas_fp_3src(DisasContext *s, uint32_t insn)
4577 {
4578     int type = extract32(insn, 22, 2);
4579     int rd = extract32(insn, 0, 5);
4580     int rn = extract32(insn, 5, 5);
4581     int ra = extract32(insn, 10, 5);
4582     int rm = extract32(insn, 16, 5);
4583     bool o0 = extract32(insn, 15, 1);
4584     bool o1 = extract32(insn, 21, 1);
4585
4586     switch (type) {
4587     case 0:
4588         if (!fp_access_check(s)) {
4589             return;
4590         }
4591         handle_fp_3src_single(s, o0, o1, rd, rn, rm, ra);
4592         break;
4593     case 1:
4594         if (!fp_access_check(s)) {
4595             return;
4596         }
4597         handle_fp_3src_double(s, o0, o1, rd, rn, rm, ra);
4598         break;
4599     default:
4600         unallocated_encoding(s);
4601     }
4602 }
4603
4604 /* C3.6.28 Floating point immediate
4605  *   31  30  29 28       24 23  22  21 20        13 12   10 9    5 4    0
4606  * +---+---+---+-----------+------+---+------------+-------+------+------+
4607  * | M | 0 | S | 1 1 1 1 0 | type | 1 |    imm8    | 1 0 0 | imm5 |  Rd  |
4608  * +---+---+---+-----------+------+---+------------+-------+------+------+
4609  */
4610 static void disas_fp_imm(DisasContext *s, uint32_t insn)
4611 {
4612     int rd = extract32(insn, 0, 5);
4613     int imm8 = extract32(insn, 13, 8);
4614     int is_double = extract32(insn, 22, 2);
4615     uint64_t imm;
4616     TCGv_i64 tcg_res;
4617
4618     if (is_double > 1) {
4619         unallocated_encoding(s);
4620         return;
4621     }
4622
4623     if (!fp_access_check(s)) {
4624         return;
4625     }
4626
4627     /* The imm8 encodes the sign bit, enough bits to represent
4628      * an exponent in the range 01....1xx to 10....0xx,
4629      * and the most significant 4 bits of the mantissa; see
4630      * VFPExpandImm() in the v8 ARM ARM.
4631      */
4632     if (is_double) {
4633         imm = (extract32(imm8, 7, 1) ? 0x8000 : 0) |
4634             (extract32(imm8, 6, 1) ? 0x3fc0 : 0x4000) |
4635             extract32(imm8, 0, 6);
4636         imm <<= 48;
4637     } else {
4638         imm = (extract32(imm8, 7, 1) ? 0x8000 : 0) |
4639             (extract32(imm8, 6, 1) ? 0x3e00 : 0x4000) |
4640             (extract32(imm8, 0, 6) << 3);
4641         imm <<= 16;
4642     }
4643
4644     tcg_res = tcg_const_i64(imm);
4645     write_fp_dreg(s, rd, tcg_res);
4646     tcg_temp_free_i64(tcg_res);
4647 }
4648
4649 /* Handle floating point <=> fixed point conversions. Note that we can
4650  * also deal with fp <=> integer conversions as a special case (scale == 64)
4651  * OPTME: consider handling that special case specially or at least skipping
4652  * the call to scalbn in the helpers for zero shifts.
4653  */
4654 static void handle_fpfpcvt(DisasContext *s, int rd, int rn, int opcode,
4655                            bool itof, int rmode, int scale, int sf, int type)
4656 {
4657     bool is_signed = !(opcode & 1);
4658     bool is_double = type;
4659     TCGv_ptr tcg_fpstatus;
4660     TCGv_i32 tcg_shift;
4661
4662     tcg_fpstatus = get_fpstatus_ptr();
4663
4664     tcg_shift = tcg_const_i32(64 - scale);
4665
4666     if (itof) {
4667         TCGv_i64 tcg_int = cpu_reg(s, rn);
4668         if (!sf) {
4669             TCGv_i64 tcg_extend = new_tmp_a64(s);
4670
4671             if (is_signed) {
4672                 tcg_gen_ext32s_i64(tcg_extend, tcg_int);
4673             } else {
4674                 tcg_gen_ext32u_i64(tcg_extend, tcg_int);
4675             }
4676
4677             tcg_int = tcg_extend;
4678         }
4679
4680         if (is_double) {
4681             TCGv_i64 tcg_double = tcg_temp_new_i64();
4682             if (is_signed) {
4683                 gen_helper_vfp_sqtod(tcg_double, tcg_int,
4684                                      tcg_shift, tcg_fpstatus);
4685             } else {
4686                 gen_helper_vfp_uqtod(tcg_double, tcg_int,
4687                                      tcg_shift, tcg_fpstatus);
4688             }
4689             write_fp_dreg(s, rd, tcg_double);
4690             tcg_temp_free_i64(tcg_double);
4691         } else {
4692             TCGv_i32 tcg_single = tcg_temp_new_i32();
4693             if (is_signed) {
4694                 gen_helper_vfp_sqtos(tcg_single, tcg_int,
4695                                      tcg_shift, tcg_fpstatus);
4696             } else {
4697                 gen_helper_vfp_uqtos(tcg_single, tcg_int,
4698                                      tcg_shift, tcg_fpstatus);
4699             }
4700             write_fp_sreg(s, rd, tcg_single);
4701             tcg_temp_free_i32(tcg_single);
4702         }
4703     } else {
4704         TCGv_i64 tcg_int = cpu_reg(s, rd);
4705         TCGv_i32 tcg_rmode;
4706
4707         if (extract32(opcode, 2, 1)) {
4708             /* There are too many rounding modes to all fit into rmode,
4709              * so FCVTA[US] is a special case.
4710              */
4711             rmode = FPROUNDING_TIEAWAY;
4712         }
4713
4714         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
4715
4716         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
4717
4718         if (is_double) {
4719             TCGv_i64 tcg_double = read_fp_dreg(s, rn);
4720             if (is_signed) {
4721                 if (!sf) {
4722                     gen_helper_vfp_tosld(tcg_int, tcg_double,
4723                                          tcg_shift, tcg_fpstatus);
4724                 } else {
4725                     gen_helper_vfp_tosqd(tcg_int, tcg_double,
4726                                          tcg_shift, tcg_fpstatus);
4727                 }
4728             } else {
4729                 if (!sf) {
4730                     gen_helper_vfp_tould(tcg_int, tcg_double,
4731                                          tcg_shift, tcg_fpstatus);
4732                 } else {
4733                     gen_helper_vfp_touqd(tcg_int, tcg_double,
4734                                          tcg_shift, tcg_fpstatus);
4735                 }
4736             }
4737             tcg_temp_free_i64(tcg_double);
4738         } else {
4739             TCGv_i32 tcg_single = read_fp_sreg(s, rn);
4740             if (sf) {
4741                 if (is_signed) {
4742                     gen_helper_vfp_tosqs(tcg_int, tcg_single,
4743                                          tcg_shift, tcg_fpstatus);
4744                 } else {
4745                     gen_helper_vfp_touqs(tcg_int, tcg_single,
4746                                          tcg_shift, tcg_fpstatus);
4747                 }
4748             } else {
4749                 TCGv_i32 tcg_dest = tcg_temp_new_i32();
4750                 if (is_signed) {
4751                     gen_helper_vfp_tosls(tcg_dest, tcg_single,
4752                                          tcg_shift, tcg_fpstatus);
4753                 } else {
4754                     gen_helper_vfp_touls(tcg_dest, tcg_single,
4755                                          tcg_shift, tcg_fpstatus);
4756                 }
4757                 tcg_gen_extu_i32_i64(tcg_int, tcg_dest);
4758                 tcg_temp_free_i32(tcg_dest);
4759             }
4760             tcg_temp_free_i32(tcg_single);
4761         }
4762
4763         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
4764         tcg_temp_free_i32(tcg_rmode);
4765
4766         if (!sf) {
4767             tcg_gen_ext32u_i64(tcg_int, tcg_int);
4768         }
4769     }
4770
4771     tcg_temp_free_ptr(tcg_fpstatus);
4772     tcg_temp_free_i32(tcg_shift);
4773 }
4774
4775 /* C3.6.29 Floating point <-> fixed point conversions
4776  *   31   30  29 28       24 23  22  21 20   19 18    16 15   10 9    5 4    0
4777  * +----+---+---+-----------+------+---+-------+--------+-------+------+------+
4778  * | sf | 0 | S | 1 1 1 1 0 | type | 0 | rmode | opcode | scale |  Rn  |  Rd  |
4779  * +----+---+---+-----------+------+---+-------+--------+-------+------+------+
4780  */
4781 static void disas_fp_fixed_conv(DisasContext *s, uint32_t insn)
4782 {
4783     int rd = extract32(insn, 0, 5);
4784     int rn = extract32(insn, 5, 5);
4785     int scale = extract32(insn, 10, 6);
4786     int opcode = extract32(insn, 16, 3);
4787     int rmode = extract32(insn, 19, 2);
4788     int type = extract32(insn, 22, 2);
4789     bool sbit = extract32(insn, 29, 1);
4790     bool sf = extract32(insn, 31, 1);
4791     bool itof;
4792
4793     if (sbit || (type > 1)
4794         || (!sf && scale < 32)) {
4795         unallocated_encoding(s);
4796         return;
4797     }
4798
4799     switch ((rmode << 3) | opcode) {
4800     case 0x2: /* SCVTF */
4801     case 0x3: /* UCVTF */
4802         itof = true;
4803         break;
4804     case 0x18: /* FCVTZS */
4805     case 0x19: /* FCVTZU */
4806         itof = false;
4807         break;
4808     default:
4809         unallocated_encoding(s);
4810         return;
4811     }
4812
4813     if (!fp_access_check(s)) {
4814         return;
4815     }
4816
4817     handle_fpfpcvt(s, rd, rn, opcode, itof, FPROUNDING_ZERO, scale, sf, type);
4818 }
4819
4820 static void handle_fmov(DisasContext *s, int rd, int rn, int type, bool itof)
4821 {
4822     /* FMOV: gpr to or from float, double, or top half of quad fp reg,
4823      * without conversion.
4824      */
4825
4826     if (itof) {
4827         TCGv_i64 tcg_rn = cpu_reg(s, rn);
4828
4829         switch (type) {
4830         case 0:
4831         {
4832             /* 32 bit */
4833             TCGv_i64 tmp = tcg_temp_new_i64();
4834             tcg_gen_ext32u_i64(tmp, tcg_rn);
4835             tcg_gen_st_i64(tmp, cpu_env, fp_reg_offset(s, rd, MO_64));
4836             tcg_gen_movi_i64(tmp, 0);
4837             tcg_gen_st_i64(tmp, cpu_env, fp_reg_hi_offset(s, rd));
4838             tcg_temp_free_i64(tmp);
4839             break;
4840         }
4841         case 1:
4842         {
4843             /* 64 bit */
4844             TCGv_i64 tmp = tcg_const_i64(0);
4845             tcg_gen_st_i64(tcg_rn, cpu_env, fp_reg_offset(s, rd, MO_64));
4846             tcg_gen_st_i64(tmp, cpu_env, fp_reg_hi_offset(s, rd));
4847             tcg_temp_free_i64(tmp);
4848             break;
4849         }
4850         case 2:
4851             /* 64 bit to top half. */
4852             tcg_gen_st_i64(tcg_rn, cpu_env, fp_reg_hi_offset(s, rd));
4853             break;
4854         }
4855     } else {
4856         TCGv_i64 tcg_rd = cpu_reg(s, rd);
4857
4858         switch (type) {
4859         case 0:
4860             /* 32 bit */
4861             tcg_gen_ld32u_i64(tcg_rd, cpu_env, fp_reg_offset(s, rn, MO_32));
4862             break;
4863         case 1:
4864             /* 64 bit */
4865             tcg_gen_ld_i64(tcg_rd, cpu_env, fp_reg_offset(s, rn, MO_64));
4866             break;
4867         case 2:
4868             /* 64 bits from top half */
4869             tcg_gen_ld_i64(tcg_rd, cpu_env, fp_reg_hi_offset(s, rn));
4870             break;
4871         }
4872     }
4873 }
4874
4875 /* C3.6.30 Floating point <-> integer conversions
4876  *   31   30  29 28       24 23  22  21 20   19 18 16 15         10 9  5 4  0
4877  * +----+---+---+-----------+------+---+-------+-----+-------------+----+----+
4878  * | sf | 0 | S | 1 1 1 1 0 | type | 1 | rmode | opc | 0 0 0 0 0 0 | Rn | Rd |
4879  * +----+---+---+-----------+------+---+-------+-----+-------------+----+----+
4880  */
4881 static void disas_fp_int_conv(DisasContext *s, uint32_t insn)
4882 {
4883     int rd = extract32(insn, 0, 5);
4884     int rn = extract32(insn, 5, 5);
4885     int opcode = extract32(insn, 16, 3);
4886     int rmode = extract32(insn, 19, 2);
4887     int type = extract32(insn, 22, 2);
4888     bool sbit = extract32(insn, 29, 1);
4889     bool sf = extract32(insn, 31, 1);
4890
4891     if (sbit) {
4892         unallocated_encoding(s);
4893         return;
4894     }
4895
4896     if (opcode > 5) {
4897         /* FMOV */
4898         bool itof = opcode & 1;
4899
4900         if (rmode >= 2) {
4901             unallocated_encoding(s);
4902             return;
4903         }
4904
4905         switch (sf << 3 | type << 1 | rmode) {
4906         case 0x0: /* 32 bit */
4907         case 0xa: /* 64 bit */
4908         case 0xd: /* 64 bit to top half of quad */
4909             break;
4910         default:
4911             /* all other sf/type/rmode combinations are invalid */
4912             unallocated_encoding(s);
4913             break;
4914         }
4915
4916         if (!fp_access_check(s)) {
4917             return;
4918         }
4919         handle_fmov(s, rd, rn, type, itof);
4920     } else {
4921         /* actual FP conversions */
4922         bool itof = extract32(opcode, 1, 1);
4923
4924         if (type > 1 || (rmode != 0 && opcode > 1)) {
4925             unallocated_encoding(s);
4926             return;
4927         }
4928
4929         if (!fp_access_check(s)) {
4930             return;
4931         }
4932         handle_fpfpcvt(s, rd, rn, opcode, itof, rmode, 64, sf, type);
4933     }
4934 }
4935
4936 /* FP-specific subcases of table C3-6 (SIMD and FP data processing)
4937  *   31  30  29 28     25 24                          0
4938  * +---+---+---+---------+-----------------------------+
4939  * |   | 0 |   | 1 1 1 1 |                             |
4940  * +---+---+---+---------+-----------------------------+
4941  */
4942 static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
4943 {
4944     if (extract32(insn, 24, 1)) {
4945         /* Floating point data-processing (3 source) */
4946         disas_fp_3src(s, insn);
4947     } else if (extract32(insn, 21, 1) == 0) {
4948         /* Floating point to fixed point conversions */
4949         disas_fp_fixed_conv(s, insn);
4950     } else {
4951         switch (extract32(insn, 10, 2)) {
4952         case 1:
4953             /* Floating point conditional compare */
4954             disas_fp_ccomp(s, insn);
4955             break;
4956         case 2:
4957             /* Floating point data-processing (2 source) */
4958             disas_fp_2src(s, insn);
4959             break;
4960         case 3:
4961             /* Floating point conditional select */
4962             disas_fp_csel(s, insn);
4963             break;
4964         case 0:
4965             switch (ctz32(extract32(insn, 12, 4))) {
4966             case 0: /* [15:12] == xxx1 */
4967                 /* Floating point immediate */
4968                 disas_fp_imm(s, insn);
4969                 break;
4970             case 1: /* [15:12] == xx10 */
4971                 /* Floating point compare */
4972                 disas_fp_compare(s, insn);
4973                 break;
4974             case 2: /* [15:12] == x100 */
4975                 /* Floating point data-processing (1 source) */
4976                 disas_fp_1src(s, insn);
4977                 break;
4978             case 3: /* [15:12] == 1000 */
4979                 unallocated_encoding(s);
4980                 break;
4981             default: /* [15:12] == 0000 */
4982                 /* Floating point <-> integer conversions */
4983                 disas_fp_int_conv(s, insn);
4984                 break;
4985             }
4986             break;
4987         }
4988     }
4989 }
4990
4991 static void do_ext64(DisasContext *s, TCGv_i64 tcg_left, TCGv_i64 tcg_right,
4992                      int pos)
4993 {
4994     /* Extract 64 bits from the middle of two concatenated 64 bit
4995      * vector register slices left:right. The extracted bits start
4996      * at 'pos' bits into the right (least significant) side.
4997      * We return the result in tcg_right, and guarantee not to
4998      * trash tcg_left.
4999      */
5000     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
5001     assert(pos > 0 && pos < 64);
5002
5003     tcg_gen_shri_i64(tcg_right, tcg_right, pos);
5004     tcg_gen_shli_i64(tcg_tmp, tcg_left, 64 - pos);
5005     tcg_gen_or_i64(tcg_right, tcg_right, tcg_tmp);
5006
5007     tcg_temp_free_i64(tcg_tmp);
5008 }
5009
5010 /* C3.6.1 EXT
5011  *   31  30 29         24 23 22  21 20  16 15  14  11 10  9    5 4    0
5012  * +---+---+-------------+-----+---+------+---+------+---+------+------+
5013  * | 0 | Q | 1 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | imm4 | 0 |  Rn  |  Rd  |
5014  * +---+---+-------------+-----+---+------+---+------+---+------+------+
5015  */
5016 static void disas_simd_ext(DisasContext *s, uint32_t insn)
5017 {
5018     int is_q = extract32(insn, 30, 1);
5019     int op2 = extract32(insn, 22, 2);
5020     int imm4 = extract32(insn, 11, 4);
5021     int rm = extract32(insn, 16, 5);
5022     int rn = extract32(insn, 5, 5);
5023     int rd = extract32(insn, 0, 5);
5024     int pos = imm4 << 3;
5025     TCGv_i64 tcg_resl, tcg_resh;
5026
5027     if (op2 != 0 || (!is_q && extract32(imm4, 3, 1))) {
5028         unallocated_encoding(s);
5029         return;
5030     }
5031
5032     if (!fp_access_check(s)) {
5033         return;
5034     }
5035
5036     tcg_resh = tcg_temp_new_i64();
5037     tcg_resl = tcg_temp_new_i64();
5038
5039     /* Vd gets bits starting at pos bits into Vm:Vn. This is
5040      * either extracting 128 bits from a 128:128 concatenation, or
5041      * extracting 64 bits from a 64:64 concatenation.
5042      */
5043     if (!is_q) {
5044         read_vec_element(s, tcg_resl, rn, 0, MO_64);
5045         if (pos != 0) {
5046             read_vec_element(s, tcg_resh, rm, 0, MO_64);
5047             do_ext64(s, tcg_resh, tcg_resl, pos);
5048         }
5049         tcg_gen_movi_i64(tcg_resh, 0);
5050     } else {
5051         TCGv_i64 tcg_hh;
5052         typedef struct {
5053             int reg;
5054             int elt;
5055         } EltPosns;
5056         EltPosns eltposns[] = { {rn, 0}, {rn, 1}, {rm, 0}, {rm, 1} };
5057         EltPosns *elt = eltposns;
5058
5059         if (pos >= 64) {
5060             elt++;
5061             pos -= 64;
5062         }
5063
5064         read_vec_element(s, tcg_resl, elt->reg, elt->elt, MO_64);
5065         elt++;
5066         read_vec_element(s, tcg_resh, elt->reg, elt->elt, MO_64);
5067         elt++;
5068         if (pos != 0) {
5069             do_ext64(s, tcg_resh, tcg_resl, pos);
5070             tcg_hh = tcg_temp_new_i64();
5071             read_vec_element(s, tcg_hh, elt->reg, elt->elt, MO_64);
5072             do_ext64(s, tcg_hh, tcg_resh, pos);
5073             tcg_temp_free_i64(tcg_hh);
5074         }
5075     }
5076
5077     write_vec_element(s, tcg_resl, rd, 0, MO_64);
5078     tcg_temp_free_i64(tcg_resl);
5079     write_vec_element(s, tcg_resh, rd, 1, MO_64);
5080     tcg_temp_free_i64(tcg_resh);
5081 }
5082
5083 /* C3.6.2 TBL/TBX
5084  *   31  30 29         24 23 22  21 20  16 15  14 13  12  11 10 9    5 4    0
5085  * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
5086  * | 0 | Q | 0 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | len | op | 0 0 |  Rn  |  Rd  |
5087  * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
5088  */
5089 static void disas_simd_tb(DisasContext *s, uint32_t insn)
5090 {
5091     int op2 = extract32(insn, 22, 2);
5092     int is_q = extract32(insn, 30, 1);
5093     int rm = extract32(insn, 16, 5);
5094     int rn = extract32(insn, 5, 5);
5095     int rd = extract32(insn, 0, 5);
5096     int is_tblx = extract32(insn, 12, 1);
5097     int len = extract32(insn, 13, 2);
5098     TCGv_i64 tcg_resl, tcg_resh, tcg_idx;
5099     TCGv_i32 tcg_regno, tcg_numregs;
5100
5101     if (op2 != 0) {
5102         unallocated_encoding(s);
5103         return;
5104     }
5105
5106     if (!fp_access_check(s)) {
5107         return;
5108     }
5109
5110     /* This does a table lookup: for every byte element in the input
5111      * we index into a table formed from up to four vector registers,
5112      * and then the output is the result of the lookups. Our helper
5113      * function does the lookup operation for a single 64 bit part of
5114      * the input.
5115      */
5116     tcg_resl = tcg_temp_new_i64();
5117     tcg_resh = tcg_temp_new_i64();
5118
5119     if (is_tblx) {
5120         read_vec_element(s, tcg_resl, rd, 0, MO_64);
5121     } else {
5122         tcg_gen_movi_i64(tcg_resl, 0);
5123     }
5124     if (is_tblx && is_q) {
5125         read_vec_element(s, tcg_resh, rd, 1, MO_64);
5126     } else {
5127         tcg_gen_movi_i64(tcg_resh, 0);
5128     }
5129
5130     tcg_idx = tcg_temp_new_i64();
5131     tcg_regno = tcg_const_i32(rn);
5132     tcg_numregs = tcg_const_i32(len + 1);
5133     read_vec_element(s, tcg_idx, rm, 0, MO_64);
5134     gen_helper_simd_tbl(tcg_resl, cpu_env, tcg_resl, tcg_idx,
5135                         tcg_regno, tcg_numregs);
5136     if (is_q) {
5137         read_vec_element(s, tcg_idx, rm, 1, MO_64);
5138         gen_helper_simd_tbl(tcg_resh, cpu_env, tcg_resh, tcg_idx,
5139                             tcg_regno, tcg_numregs);
5140     }
5141     tcg_temp_free_i64(tcg_idx);
5142     tcg_temp_free_i32(tcg_regno);
5143     tcg_temp_free_i32(tcg_numregs);
5144
5145     write_vec_element(s, tcg_resl, rd, 0, MO_64);
5146     tcg_temp_free_i64(tcg_resl);
5147     write_vec_element(s, tcg_resh, rd, 1, MO_64);
5148     tcg_temp_free_i64(tcg_resh);
5149 }
5150
5151 /* C3.6.3 ZIP/UZP/TRN
5152  *   31  30 29         24 23  22  21 20   16 15 14 12 11 10 9    5 4    0
5153  * +---+---+-------------+------+---+------+---+------------------+------+
5154  * | 0 | Q | 0 0 1 1 1 0 | size | 0 |  Rm  | 0 | opc | 1 0 |  Rn  |  Rd  |
5155  * +---+---+-------------+------+---+------+---+------------------+------+
5156  */
5157 static void disas_simd_zip_trn(DisasContext *s, uint32_t insn)
5158 {
5159     int rd = extract32(insn, 0, 5);
5160     int rn = extract32(insn, 5, 5);
5161     int rm = extract32(insn, 16, 5);
5162     int size = extract32(insn, 22, 2);
5163     /* opc field bits [1:0] indicate ZIP/UZP/TRN;
5164      * bit 2 indicates 1 vs 2 variant of the insn.
5165      */
5166     int opcode = extract32(insn, 12, 2);
5167     bool part = extract32(insn, 14, 1);
5168     bool is_q = extract32(insn, 30, 1);
5169     int esize = 8 << size;
5170     int i, ofs;
5171     int datasize = is_q ? 128 : 64;
5172     int elements = datasize / esize;
5173     TCGv_i64 tcg_res, tcg_resl, tcg_resh;
5174
5175     if (opcode == 0 || (size == 3 && !is_q)) {
5176         unallocated_encoding(s);
5177         return;
5178     }
5179
5180     if (!fp_access_check(s)) {
5181         return;
5182     }
5183
5184     tcg_resl = tcg_const_i64(0);
5185     tcg_resh = tcg_const_i64(0);
5186     tcg_res = tcg_temp_new_i64();
5187
5188     for (i = 0; i < elements; i++) {
5189         switch (opcode) {
5190         case 1: /* UZP1/2 */
5191         {
5192             int midpoint = elements / 2;
5193             if (i < midpoint) {
5194                 read_vec_element(s, tcg_res, rn, 2 * i + part, size);
5195             } else {
5196                 read_vec_element(s, tcg_res, rm,
5197                                  2 * (i - midpoint) + part, size);
5198             }
5199             break;
5200         }
5201         case 2: /* TRN1/2 */
5202             if (i & 1) {
5203                 read_vec_element(s, tcg_res, rm, (i & ~1) + part, size);
5204             } else {
5205                 read_vec_element(s, tcg_res, rn, (i & ~1) + part, size);
5206             }
5207             break;
5208         case 3: /* ZIP1/2 */
5209         {
5210             int base = part * elements / 2;
5211             if (i & 1) {
5212                 read_vec_element(s, tcg_res, rm, base + (i >> 1), size);
5213             } else {
5214                 read_vec_element(s, tcg_res, rn, base + (i >> 1), size);
5215             }
5216             break;
5217         }
5218         default:
5219             g_assert_not_reached();
5220         }
5221
5222         ofs = i * esize;
5223         if (ofs < 64) {
5224             tcg_gen_shli_i64(tcg_res, tcg_res, ofs);
5225             tcg_gen_or_i64(tcg_resl, tcg_resl, tcg_res);
5226         } else {
5227             tcg_gen_shli_i64(tcg_res, tcg_res, ofs - 64);
5228             tcg_gen_or_i64(tcg_resh, tcg_resh, tcg_res);
5229         }
5230     }
5231
5232     tcg_temp_free_i64(tcg_res);
5233
5234     write_vec_element(s, tcg_resl, rd, 0, MO_64);
5235     tcg_temp_free_i64(tcg_resl);
5236     write_vec_element(s, tcg_resh, rd, 1, MO_64);
5237     tcg_temp_free_i64(tcg_resh);
5238 }
5239
5240 static void do_minmaxop(DisasContext *s, TCGv_i32 tcg_elt1, TCGv_i32 tcg_elt2,
5241                         int opc, bool is_min, TCGv_ptr fpst)
5242 {
5243     /* Helper function for disas_simd_across_lanes: do a single precision
5244      * min/max operation on the specified two inputs,
5245      * and return the result in tcg_elt1.
5246      */
5247     if (opc == 0xc) {
5248         if (is_min) {
5249             gen_helper_vfp_minnums(tcg_elt1, tcg_elt1, tcg_elt2, fpst);
5250         } else {
5251             gen_helper_vfp_maxnums(tcg_elt1, tcg_elt1, tcg_elt2, fpst);
5252         }
5253     } else {
5254         assert(opc == 0xf);
5255         if (is_min) {
5256             gen_helper_vfp_mins(tcg_elt1, tcg_elt1, tcg_elt2, fpst);
5257         } else {
5258             gen_helper_vfp_maxs(tcg_elt1, tcg_elt1, tcg_elt2, fpst);
5259         }
5260     }
5261 }
5262
5263 /* C3.6.4 AdvSIMD across lanes
5264  *   31  30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
5265  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
5266  * | 0 | Q | U | 0 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
5267  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
5268  */
5269 static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
5270 {
5271     int rd = extract32(insn, 0, 5);
5272     int rn = extract32(insn, 5, 5);
5273     int size = extract32(insn, 22, 2);
5274     int opcode = extract32(insn, 12, 5);
5275     bool is_q = extract32(insn, 30, 1);
5276     bool is_u = extract32(insn, 29, 1);
5277     bool is_fp = false;
5278     bool is_min = false;
5279     int esize;
5280     int elements;
5281     int i;
5282     TCGv_i64 tcg_res, tcg_elt;
5283
5284     switch (opcode) {
5285     case 0x1b: /* ADDV */
5286         if (is_u) {
5287             unallocated_encoding(s);
5288             return;
5289         }
5290         /* fall through */
5291     case 0x3: /* SADDLV, UADDLV */
5292     case 0xa: /* SMAXV, UMAXV */
5293     case 0x1a: /* SMINV, UMINV */
5294         if (size == 3 || (size == 2 && !is_q)) {
5295             unallocated_encoding(s);
5296             return;
5297         }
5298         break;
5299     case 0xc: /* FMAXNMV, FMINNMV */
5300     case 0xf: /* FMAXV, FMINV */
5301         if (!is_u || !is_q || extract32(size, 0, 1)) {
5302             unallocated_encoding(s);
5303             return;
5304         }
5305         /* Bit 1 of size field encodes min vs max, and actual size is always
5306          * 32 bits: adjust the size variable so following code can rely on it
5307          */
5308         is_min = extract32(size, 1, 1);
5309         is_fp = true;
5310         size = 2;
5311         break;
5312     default:
5313         unallocated_encoding(s);
5314         return;
5315     }
5316
5317     if (!fp_access_check(s)) {
5318         return;
5319     }
5320
5321     esize = 8 << size;
5322     elements = (is_q ? 128 : 64) / esize;
5323
5324     tcg_res = tcg_temp_new_i64();
5325     tcg_elt = tcg_temp_new_i64();
5326
5327     /* These instructions operate across all lanes of a vector
5328      * to produce a single result. We can guarantee that a 64
5329      * bit intermediate is sufficient:
5330      *  + for [US]ADDLV the maximum element size is 32 bits, and
5331      *    the result type is 64 bits
5332      *  + for FMAX*V, FMIN*V, ADDV the intermediate type is the
5333      *    same as the element size, which is 32 bits at most
5334      * For the integer operations we can choose to work at 64
5335      * or 32 bits and truncate at the end; for simplicity
5336      * we use 64 bits always. The floating point
5337      * ops do require 32 bit intermediates, though.
5338      */
5339     if (!is_fp) {
5340         read_vec_element(s, tcg_res, rn, 0, size | (is_u ? 0 : MO_SIGN));
5341
5342         for (i = 1; i < elements; i++) {
5343             read_vec_element(s, tcg_elt, rn, i, size | (is_u ? 0 : MO_SIGN));
5344
5345             switch (opcode) {
5346             case 0x03: /* SADDLV / UADDLV */
5347             case 0x1b: /* ADDV */
5348                 tcg_gen_add_i64(tcg_res, tcg_res, tcg_elt);
5349                 break;
5350             case 0x0a: /* SMAXV / UMAXV */
5351                 tcg_gen_movcond_i64(is_u ? TCG_COND_GEU : TCG_COND_GE,
5352                                     tcg_res,
5353                                     tcg_res, tcg_elt, tcg_res, tcg_elt);
5354                 break;
5355             case 0x1a: /* SMINV / UMINV */
5356                 tcg_gen_movcond_i64(is_u ? TCG_COND_LEU : TCG_COND_LE,
5357                                     tcg_res,
5358                                     tcg_res, tcg_elt, tcg_res, tcg_elt);
5359                 break;
5360                 break;
5361             default:
5362                 g_assert_not_reached();
5363             }
5364
5365         }
5366     } else {
5367         /* Floating point ops which work on 32 bit (single) intermediates.
5368          * Note that correct NaN propagation requires that we do these
5369          * operations in exactly the order specified by the pseudocode.
5370          */
5371         TCGv_i32 tcg_elt1 = tcg_temp_new_i32();
5372         TCGv_i32 tcg_elt2 = tcg_temp_new_i32();
5373         TCGv_i32 tcg_elt3 = tcg_temp_new_i32();
5374         TCGv_ptr fpst = get_fpstatus_ptr();
5375
5376         assert(esize == 32);
5377         assert(elements == 4);
5378
5379         read_vec_element(s, tcg_elt, rn, 0, MO_32);
5380         tcg_gen_trunc_i64_i32(tcg_elt1, tcg_elt);
5381         read_vec_element(s, tcg_elt, rn, 1, MO_32);
5382         tcg_gen_trunc_i64_i32(tcg_elt2, tcg_elt);
5383
5384         do_minmaxop(s, tcg_elt1, tcg_elt2, opcode, is_min, fpst);
5385
5386         read_vec_element(s, tcg_elt, rn, 2, MO_32);
5387         tcg_gen_trunc_i64_i32(tcg_elt2, tcg_elt);
5388         read_vec_element(s, tcg_elt, rn, 3, MO_32);
5389         tcg_gen_trunc_i64_i32(tcg_elt3, tcg_elt);
5390
5391         do_minmaxop(s, tcg_elt2, tcg_elt3, opcode, is_min, fpst);
5392
5393         do_minmaxop(s, tcg_elt1, tcg_elt2, opcode, is_min, fpst);
5394
5395         tcg_gen_extu_i32_i64(tcg_res, tcg_elt1);
5396         tcg_temp_free_i32(tcg_elt1);
5397         tcg_temp_free_i32(tcg_elt2);
5398         tcg_temp_free_i32(tcg_elt3);
5399         tcg_temp_free_ptr(fpst);
5400     }
5401
5402     tcg_temp_free_i64(tcg_elt);
5403
5404     /* Now truncate the result to the width required for the final output */
5405     if (opcode == 0x03) {
5406         /* SADDLV, UADDLV: result is 2*esize */
5407         size++;
5408     }
5409
5410     switch (size) {
5411     case 0:
5412         tcg_gen_ext8u_i64(tcg_res, tcg_res);
5413         break;
5414     case 1:
5415         tcg_gen_ext16u_i64(tcg_res, tcg_res);
5416         break;
5417     case 2:
5418         tcg_gen_ext32u_i64(tcg_res, tcg_res);
5419         break;
5420     case 3:
5421         break;
5422     default:
5423         g_assert_not_reached();
5424     }
5425
5426     write_fp_dreg(s, rd, tcg_res);
5427     tcg_temp_free_i64(tcg_res);
5428 }
5429
5430 /* C6.3.31 DUP (Element, Vector)
5431  *
5432  *  31  30   29              21 20    16 15        10  9    5 4    0
5433  * +---+---+-------------------+--------+-------------+------+------+
5434  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
5435  * +---+---+-------------------+--------+-------------+------+------+
5436  *
5437  * size: encoded in imm5 (see ARM ARM LowestSetBit())
5438  */
5439 static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
5440                              int imm5)
5441 {
5442     int size = ctz32(imm5);
5443     int esize = 8 << size;
5444     int elements = (is_q ? 128 : 64) / esize;
5445     int index, i;
5446     TCGv_i64 tmp;
5447
5448     if (size > 3 || (size == 3 && !is_q)) {
5449         unallocated_encoding(s);
5450         return;
5451     }
5452
5453     if (!fp_access_check(s)) {
5454         return;
5455     }
5456
5457     index = imm5 >> (size + 1);
5458
5459     tmp = tcg_temp_new_i64();
5460     read_vec_element(s, tmp, rn, index, size);
5461
5462     for (i = 0; i < elements; i++) {
5463         write_vec_element(s, tmp, rd, i, size);
5464     }
5465
5466     if (!is_q) {
5467         clear_vec_high(s, rd);
5468     }
5469
5470     tcg_temp_free_i64(tmp);
5471 }
5472
5473 /* C6.3.31 DUP (element, scalar)
5474  *  31                   21 20    16 15        10  9    5 4    0
5475  * +-----------------------+--------+-------------+------+------+
5476  * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
5477  * +-----------------------+--------+-------------+------+------+
5478  */
5479 static void handle_simd_dupes(DisasContext *s, int rd, int rn,
5480                               int imm5)
5481 {
5482     int size = ctz32(imm5);
5483     int index;
5484     TCGv_i64 tmp;
5485
5486     if (size > 3) {
5487         unallocated_encoding(s);
5488         return;
5489     }
5490
5491     if (!fp_access_check(s)) {
5492         return;
5493     }
5494
5495     index = imm5 >> (size + 1);
5496
5497     /* This instruction just extracts the specified element and
5498      * zero-extends it into the bottom of the destination register.
5499      */
5500     tmp = tcg_temp_new_i64();
5501     read_vec_element(s, tmp, rn, index, size);
5502     write_fp_dreg(s, rd, tmp);
5503     tcg_temp_free_i64(tmp);
5504 }
5505
5506 /* C6.3.32 DUP (General)
5507  *
5508  *  31  30   29              21 20    16 15        10  9    5 4    0
5509  * +---+---+-------------------+--------+-------------+------+------+
5510  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
5511  * +---+---+-------------------+--------+-------------+------+------+
5512  *
5513  * size: encoded in imm5 (see ARM ARM LowestSetBit())
5514  */
5515 static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
5516                              int imm5)
5517 {
5518     int size = ctz32(imm5);
5519     int esize = 8 << size;
5520     int elements = (is_q ? 128 : 64)/esize;
5521     int i = 0;
5522
5523     if (size > 3 || ((size == 3) && !is_q)) {
5524         unallocated_encoding(s);
5525         return;
5526     }
5527
5528     if (!fp_access_check(s)) {
5529         return;
5530     }
5531
5532     for (i = 0; i < elements; i++) {
5533         write_vec_element(s, cpu_reg(s, rn), rd, i, size);
5534     }
5535     if (!is_q) {
5536         clear_vec_high(s, rd);
5537     }
5538 }
5539
5540 /* C6.3.150 INS (Element)
5541  *
5542  *  31                   21 20    16 15  14    11  10 9    5 4    0
5543  * +-----------------------+--------+------------+---+------+------+
5544  * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
5545  * +-----------------------+--------+------------+---+------+------+
5546  *
5547  * size: encoded in imm5 (see ARM ARM LowestSetBit())
5548  * index: encoded in imm5<4:size+1>
5549  */
5550 static void handle_simd_inse(DisasContext *s, int rd, int rn,
5551                              int imm4, int imm5)
5552 {
5553     int size = ctz32(imm5);
5554     int src_index, dst_index;
5555     TCGv_i64 tmp;
5556
5557     if (size > 3) {
5558         unallocated_encoding(s);
5559         return;
5560     }
5561
5562     if (!fp_access_check(s)) {
5563         return;
5564     }
5565
5566     dst_index = extract32(imm5, 1+size, 5);
5567     src_index = extract32(imm4, size, 4);
5568
5569     tmp = tcg_temp_new_i64();
5570
5571     read_vec_element(s, tmp, rn, src_index, size);
5572     write_vec_element(s, tmp, rd, dst_index, size);
5573
5574     tcg_temp_free_i64(tmp);
5575 }
5576
5577
5578 /* C6.3.151 INS (General)
5579  *
5580  *  31                   21 20    16 15        10  9    5 4    0
5581  * +-----------------------+--------+-------------+------+------+
5582  * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
5583  * +-----------------------+--------+-------------+------+------+
5584  *
5585  * size: encoded in imm5 (see ARM ARM LowestSetBit())
5586  * index: encoded in imm5<4:size+1>
5587  */
5588 static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
5589 {
5590     int size = ctz32(imm5);
5591     int idx;
5592
5593     if (size > 3) {
5594         unallocated_encoding(s);
5595         return;
5596     }
5597
5598     if (!fp_access_check(s)) {
5599         return;
5600     }
5601
5602     idx = extract32(imm5, 1 + size, 4 - size);
5603     write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
5604 }
5605
5606 /*
5607  * C6.3.321 UMOV (General)
5608  * C6.3.237 SMOV (General)
5609  *
5610  *  31  30   29              21 20    16 15    12   10 9    5 4    0
5611  * +---+---+-------------------+--------+-------------+------+------+
5612  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
5613  * +---+---+-------------------+--------+-------------+------+------+
5614  *
5615  * U: unsigned when set
5616  * size: encoded in imm5 (see ARM ARM LowestSetBit())
5617  */
5618 static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
5619                                   int rn, int rd, int imm5)
5620 {
5621     int size = ctz32(imm5);
5622     int element;
5623     TCGv_i64 tcg_rd;
5624
5625     /* Check for UnallocatedEncodings */
5626     if (is_signed) {
5627         if (size > 2 || (size == 2 && !is_q)) {
5628             unallocated_encoding(s);
5629             return;
5630         }
5631     } else {
5632         if (size > 3
5633             || (size < 3 && is_q)
5634             || (size == 3 && !is_q)) {
5635             unallocated_encoding(s);
5636             return;
5637         }
5638     }
5639
5640     if (!fp_access_check(s)) {
5641         return;
5642     }
5643
5644     element = extract32(imm5, 1+size, 4);
5645
5646     tcg_rd = cpu_reg(s, rd);
5647     read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
5648     if (is_signed && !is_q) {
5649         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
5650     }
5651 }
5652
5653 /* C3.6.5 AdvSIMD copy
5654  *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
5655  * +---+---+----+-----------------+------+---+------+---+------+------+
5656  * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
5657  * +---+---+----+-----------------+------+---+------+---+------+------+
5658  */
5659 static void disas_simd_copy(DisasContext *s, uint32_t insn)
5660 {
5661     int rd = extract32(insn, 0, 5);
5662     int rn = extract32(insn, 5, 5);
5663     int imm4 = extract32(insn, 11, 4);
5664     int op = extract32(insn, 29, 1);
5665     int is_q = extract32(insn, 30, 1);
5666     int imm5 = extract32(insn, 16, 5);
5667
5668     if (op) {
5669         if (is_q) {
5670             /* INS (element) */
5671             handle_simd_inse(s, rd, rn, imm4, imm5);
5672         } else {
5673             unallocated_encoding(s);
5674         }
5675     } else {
5676         switch (imm4) {
5677         case 0:
5678             /* DUP (element - vector) */
5679             handle_simd_dupe(s, is_q, rd, rn, imm5);
5680             break;
5681         case 1:
5682             /* DUP (general) */
5683             handle_simd_dupg(s, is_q, rd, rn, imm5);
5684             break;
5685         case 3:
5686             if (is_q) {
5687                 /* INS (general) */
5688                 handle_simd_insg(s, rd, rn, imm5);
5689             } else {
5690                 unallocated_encoding(s);
5691             }
5692             break;
5693         case 5:
5694         case 7:
5695             /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
5696             handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
5697             break;
5698         default:
5699             unallocated_encoding(s);
5700             break;
5701         }
5702     }
5703 }
5704
5705 /* C3.6.6 AdvSIMD modified immediate
5706  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
5707  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
5708  * | 0 | Q | op | 0 1 1 1 1 0 0 0 0 0 | abc | cmode | o2 | 1 | defgh |  Rd  |
5709  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
5710  *
5711  * There are a number of operations that can be carried out here:
5712  *   MOVI - move (shifted) imm into register
5713  *   MVNI - move inverted (shifted) imm into register
5714  *   ORR  - bitwise OR of (shifted) imm with register
5715  *   BIC  - bitwise clear of (shifted) imm with register
5716  */
5717 static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
5718 {
5719     int rd = extract32(insn, 0, 5);
5720     int cmode = extract32(insn, 12, 4);
5721     int cmode_3_1 = extract32(cmode, 1, 3);
5722     int cmode_0 = extract32(cmode, 0, 1);
5723     int o2 = extract32(insn, 11, 1);
5724     uint64_t abcdefgh = extract32(insn, 5, 5) | (extract32(insn, 16, 3) << 5);
5725     bool is_neg = extract32(insn, 29, 1);
5726     bool is_q = extract32(insn, 30, 1);
5727     uint64_t imm = 0;
5728     TCGv_i64 tcg_rd, tcg_imm;
5729     int i;
5730
5731     if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
5732         unallocated_encoding(s);
5733         return;
5734     }
5735
5736     if (!fp_access_check(s)) {
5737         return;
5738     }
5739
5740     /* See AdvSIMDExpandImm() in ARM ARM */
5741     switch (cmode_3_1) {
5742     case 0: /* Replicate(Zeros(24):imm8, 2) */
5743     case 1: /* Replicate(Zeros(16):imm8:Zeros(8), 2) */
5744     case 2: /* Replicate(Zeros(8):imm8:Zeros(16), 2) */
5745     case 3: /* Replicate(imm8:Zeros(24), 2) */
5746     {
5747         int shift = cmode_3_1 * 8;
5748         imm = bitfield_replicate(abcdefgh << shift, 32);
5749         break;
5750     }
5751     case 4: /* Replicate(Zeros(8):imm8, 4) */
5752     case 5: /* Replicate(imm8:Zeros(8), 4) */
5753     {
5754         int shift = (cmode_3_1 & 0x1) * 8;
5755         imm = bitfield_replicate(abcdefgh << shift, 16);
5756         break;
5757     }
5758     case 6:
5759         if (cmode_0) {
5760             /* Replicate(Zeros(8):imm8:Ones(16), 2) */
5761             imm = (abcdefgh << 16) | 0xffff;
5762         } else {
5763             /* Replicate(Zeros(16):imm8:Ones(8), 2) */
5764             imm = (abcdefgh << 8) | 0xff;
5765         }
5766         imm = bitfield_replicate(imm, 32);
5767         break;
5768     case 7:
5769         if (!cmode_0 && !is_neg) {
5770             imm = bitfield_replicate(abcdefgh, 8);
5771         } else if (!cmode_0 && is_neg) {
5772             int i;
5773             imm = 0;
5774             for (i = 0; i < 8; i++) {
5775                 if ((abcdefgh) & (1 << i)) {
5776                     imm |= 0xffULL << (i * 8);
5777                 }
5778             }
5779         } else if (cmode_0) {
5780             if (is_neg) {
5781                 imm = (abcdefgh & 0x3f) << 48;
5782                 if (abcdefgh & 0x80) {
5783                     imm |= 0x8000000000000000ULL;
5784                 }
5785                 if (abcdefgh & 0x40) {
5786                     imm |= 0x3fc0000000000000ULL;
5787                 } else {
5788                     imm |= 0x4000000000000000ULL;
5789                 }
5790             } else {
5791                 imm = (abcdefgh & 0x3f) << 19;
5792                 if (abcdefgh & 0x80) {
5793                     imm |= 0x80000000;
5794                 }
5795                 if (abcdefgh & 0x40) {
5796                     imm |= 0x3e000000;
5797                 } else {
5798                     imm |= 0x40000000;
5799                 }
5800                 imm |= (imm << 32);
5801             }
5802         }
5803         break;
5804     }
5805
5806     if (cmode_3_1 != 7 && is_neg) {
5807         imm = ~imm;
5808     }
5809
5810     tcg_imm = tcg_const_i64(imm);
5811     tcg_rd = new_tmp_a64(s);
5812
5813     for (i = 0; i < 2; i++) {
5814         int foffs = i ? fp_reg_hi_offset(s, rd) : fp_reg_offset(s, rd, MO_64);
5815
5816         if (i == 1 && !is_q) {
5817             /* non-quad ops clear high half of vector */
5818             tcg_gen_movi_i64(tcg_rd, 0);
5819         } else if ((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9) {
5820             tcg_gen_ld_i64(tcg_rd, cpu_env, foffs);
5821             if (is_neg) {
5822                 /* AND (BIC) */
5823                 tcg_gen_and_i64(tcg_rd, tcg_rd, tcg_imm);
5824             } else {
5825                 /* ORR */
5826                 tcg_gen_or_i64(tcg_rd, tcg_rd, tcg_imm);
5827             }
5828         } else {
5829             /* MOVI */
5830             tcg_gen_mov_i64(tcg_rd, tcg_imm);
5831         }
5832         tcg_gen_st_i64(tcg_rd, cpu_env, foffs);
5833     }
5834
5835     tcg_temp_free_i64(tcg_imm);
5836 }
5837
5838 /* C3.6.7 AdvSIMD scalar copy
5839  *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
5840  * +-----+----+-----------------+------+---+------+---+------+------+
5841  * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
5842  * +-----+----+-----------------+------+---+------+---+------+------+
5843  */
5844 static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
5845 {
5846     int rd = extract32(insn, 0, 5);
5847     int rn = extract32(insn, 5, 5);
5848     int imm4 = extract32(insn, 11, 4);
5849     int imm5 = extract32(insn, 16, 5);
5850     int op = extract32(insn, 29, 1);
5851
5852     if (op != 0 || imm4 != 0) {
5853         unallocated_encoding(s);
5854         return;
5855     }
5856
5857     /* DUP (element, scalar) */
5858     handle_simd_dupes(s, rd, rn, imm5);
5859 }
5860
5861 /* C3.6.8 AdvSIMD scalar pairwise
5862  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
5863  * +-----+---+-----------+------+-----------+--------+-----+------+------+
5864  * | 0 1 | U | 1 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
5865  * +-----+---+-----------+------+-----------+--------+-----+------+------+
5866  */
5867 static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
5868 {
5869     int u = extract32(insn, 29, 1);
5870     int size = extract32(insn, 22, 2);
5871     int opcode = extract32(insn, 12, 5);
5872     int rn = extract32(insn, 5, 5);
5873     int rd = extract32(insn, 0, 5);
5874     TCGv_ptr fpst;
5875
5876     /* For some ops (the FP ones), size[1] is part of the encoding.
5877      * For ADDP strictly it is not but size[1] is always 1 for valid
5878      * encodings.
5879      */
5880     opcode |= (extract32(size, 1, 1) << 5);
5881
5882     switch (opcode) {
5883     case 0x3b: /* ADDP */
5884         if (u || size != 3) {
5885             unallocated_encoding(s);
5886             return;
5887         }
5888         if (!fp_access_check(s)) {
5889             return;
5890         }
5891
5892         TCGV_UNUSED_PTR(fpst);
5893         break;
5894     case 0xc: /* FMAXNMP */
5895     case 0xd: /* FADDP */
5896     case 0xf: /* FMAXP */
5897     case 0x2c: /* FMINNMP */
5898     case 0x2f: /* FMINP */
5899         /* FP op, size[0] is 32 or 64 bit */
5900         if (!u) {
5901             unallocated_encoding(s);
5902             return;
5903         }
5904         if (!fp_access_check(s)) {
5905             return;
5906         }
5907
5908         size = extract32(size, 0, 1) ? 3 : 2;
5909         fpst = get_fpstatus_ptr();
5910         break;
5911     default:
5912         unallocated_encoding(s);
5913         return;
5914     }
5915
5916     if (size == 3) {
5917         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
5918         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
5919         TCGv_i64 tcg_res = tcg_temp_new_i64();
5920
5921         read_vec_element(s, tcg_op1, rn, 0, MO_64);
5922         read_vec_element(s, tcg_op2, rn, 1, MO_64);
5923
5924         switch (opcode) {
5925         case 0x3b: /* ADDP */
5926             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
5927             break;
5928         case 0xc: /* FMAXNMP */
5929             gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
5930             break;
5931         case 0xd: /* FADDP */
5932             gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
5933             break;
5934         case 0xf: /* FMAXP */
5935             gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
5936             break;
5937         case 0x2c: /* FMINNMP */
5938             gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
5939             break;
5940         case 0x2f: /* FMINP */
5941             gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
5942             break;
5943         default:
5944             g_assert_not_reached();
5945         }
5946
5947         write_fp_dreg(s, rd, tcg_res);
5948
5949         tcg_temp_free_i64(tcg_op1);
5950         tcg_temp_free_i64(tcg_op2);
5951         tcg_temp_free_i64(tcg_res);
5952     } else {
5953         TCGv_i32 tcg_op1 = tcg_temp_new_i32();
5954         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
5955         TCGv_i32 tcg_res = tcg_temp_new_i32();
5956
5957         read_vec_element_i32(s, tcg_op1, rn, 0, MO_32);
5958         read_vec_element_i32(s, tcg_op2, rn, 1, MO_32);
5959
5960         switch (opcode) {
5961         case 0xc: /* FMAXNMP */
5962             gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
5963             break;
5964         case 0xd: /* FADDP */
5965             gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
5966             break;
5967         case 0xf: /* FMAXP */
5968             gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
5969             break;
5970         case 0x2c: /* FMINNMP */
5971             gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
5972             break;
5973         case 0x2f: /* FMINP */
5974             gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
5975             break;
5976         default:
5977             g_assert_not_reached();
5978         }
5979
5980         write_fp_sreg(s, rd, tcg_res);
5981
5982         tcg_temp_free_i32(tcg_op1);
5983         tcg_temp_free_i32(tcg_op2);
5984         tcg_temp_free_i32(tcg_res);
5985     }
5986
5987     if (!TCGV_IS_UNUSED_PTR(fpst)) {
5988         tcg_temp_free_ptr(fpst);
5989     }
5990 }
5991
5992 /*
5993  * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
5994  *
5995  * This code is handles the common shifting code and is used by both
5996  * the vector and scalar code.
5997  */
5998 static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
5999                                     TCGv_i64 tcg_rnd, bool accumulate,
6000                                     bool is_u, int size, int shift)
6001 {
6002     bool extended_result = false;
6003     bool round = !TCGV_IS_UNUSED_I64(tcg_rnd);
6004     int ext_lshift = 0;
6005     TCGv_i64 tcg_src_hi;
6006
6007     if (round && size == 3) {
6008         extended_result = true;
6009         ext_lshift = 64 - shift;
6010         tcg_src_hi = tcg_temp_new_i64();
6011     } else if (shift == 64) {
6012         if (!accumulate && is_u) {
6013             /* result is zero */
6014             tcg_gen_movi_i64(tcg_res, 0);
6015             return;
6016         }
6017     }
6018
6019     /* Deal with the rounding step */
6020     if (round) {
6021         if (extended_result) {
6022             TCGv_i64 tcg_zero = tcg_const_i64(0);
6023             if (!is_u) {
6024                 /* take care of sign extending tcg_res */
6025                 tcg_gen_sari_i64(tcg_src_hi, tcg_src, 63);
6026                 tcg_gen_add2_i64(tcg_src, tcg_src_hi,
6027                                  tcg_src, tcg_src_hi,
6028                                  tcg_rnd, tcg_zero);
6029             } else {
6030                 tcg_gen_add2_i64(tcg_src, tcg_src_hi,
6031                                  tcg_src, tcg_zero,
6032                                  tcg_rnd, tcg_zero);
6033             }
6034             tcg_temp_free_i64(tcg_zero);
6035         } else {
6036             tcg_gen_add_i64(tcg_src, tcg_src, tcg_rnd);
6037         }
6038     }
6039
6040     /* Now do the shift right */
6041     if (round && extended_result) {
6042         /* extended case, >64 bit precision required */
6043         if (ext_lshift == 0) {
6044             /* special case, only high bits matter */
6045             tcg_gen_mov_i64(tcg_src, tcg_src_hi);
6046         } else {
6047             tcg_gen_shri_i64(tcg_src, tcg_src, shift);
6048             tcg_gen_shli_i64(tcg_src_hi, tcg_src_hi, ext_lshift);
6049             tcg_gen_or_i64(tcg_src, tcg_src, tcg_src_hi);
6050         }
6051     } else {
6052         if (is_u) {
6053             if (shift == 64) {
6054                 /* essentially shifting in 64 zeros */
6055                 tcg_gen_movi_i64(tcg_src, 0);
6056             } else {
6057                 tcg_gen_shri_i64(tcg_src, tcg_src, shift);
6058             }
6059         } else {
6060             if (shift == 64) {
6061                 /* effectively extending the sign-bit */
6062                 tcg_gen_sari_i64(tcg_src, tcg_src, 63);
6063             } else {
6064                 tcg_gen_sari_i64(tcg_src, tcg_src, shift);
6065             }
6066         }
6067     }
6068
6069     if (accumulate) {
6070         tcg_gen_add_i64(tcg_res, tcg_res, tcg_src);
6071     } else {
6072         tcg_gen_mov_i64(tcg_res, tcg_src);
6073     }
6074
6075     if (extended_result) {
6076         tcg_temp_free_i64(tcg_src_hi);
6077     }
6078 }
6079
6080 /* Common SHL/SLI - Shift left with an optional insert */
6081 static void handle_shli_with_ins(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
6082                                  bool insert, int shift)
6083 {
6084     if (insert) { /* SLI */
6085         tcg_gen_deposit_i64(tcg_res, tcg_res, tcg_src, shift, 64 - shift);
6086     } else { /* SHL */
6087         tcg_gen_shli_i64(tcg_res, tcg_src, shift);
6088     }
6089 }
6090
6091 /* SRI: shift right with insert */
6092 static void handle_shri_with_ins(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
6093                                  int size, int shift)
6094 {
6095     int esize = 8 << size;
6096
6097     /* shift count same as element size is valid but does nothing;
6098      * special case to avoid potential shift by 64.
6099      */
6100     if (shift != esize) {
6101         tcg_gen_shri_i64(tcg_src, tcg_src, shift);
6102         tcg_gen_deposit_i64(tcg_res, tcg_res, tcg_src, 0, esize - shift);
6103     }
6104 }
6105
6106 /* SSHR[RA]/USHR[RA] - Scalar shift right (optional rounding/accumulate) */
6107 static void handle_scalar_simd_shri(DisasContext *s,
6108                                     bool is_u, int immh, int immb,
6109                                     int opcode, int rn, int rd)
6110 {
6111     const int size = 3;
6112     int immhb = immh << 3 | immb;
6113     int shift = 2 * (8 << size) - immhb;
6114     bool accumulate = false;
6115     bool round = false;
6116     bool insert = false;
6117     TCGv_i64 tcg_rn;
6118     TCGv_i64 tcg_rd;
6119     TCGv_i64 tcg_round;
6120
6121     if (!extract32(immh, 3, 1)) {
6122         unallocated_encoding(s);
6123         return;
6124     }
6125
6126     if (!fp_access_check(s)) {
6127         return;
6128     }
6129
6130     switch (opcode) {
6131     case 0x02: /* SSRA / USRA (accumulate) */
6132         accumulate = true;
6133         break;
6134     case 0x04: /* SRSHR / URSHR (rounding) */
6135         round = true;
6136         break;
6137     case 0x06: /* SRSRA / URSRA (accum + rounding) */
6138         accumulate = round = true;
6139         break;
6140     case 0x08: /* SRI */
6141         insert = true;
6142         break;
6143     }
6144
6145     if (round) {
6146         uint64_t round_const = 1ULL << (shift - 1);
6147         tcg_round = tcg_const_i64(round_const);
6148     } else {
6149         TCGV_UNUSED_I64(tcg_round);
6150     }
6151
6152     tcg_rn = read_fp_dreg(s, rn);
6153     tcg_rd = (accumulate || insert) ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
6154
6155     if (insert) {
6156         handle_shri_with_ins(tcg_rd, tcg_rn, size, shift);
6157     } else {
6158         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
6159                                 accumulate, is_u, size, shift);
6160     }
6161
6162     write_fp_dreg(s, rd, tcg_rd);
6163
6164     tcg_temp_free_i64(tcg_rn);
6165     tcg_temp_free_i64(tcg_rd);
6166     if (round) {
6167         tcg_temp_free_i64(tcg_round);
6168     }
6169 }
6170
6171 /* SHL/SLI - Scalar shift left */
6172 static void handle_scalar_simd_shli(DisasContext *s, bool insert,
6173                                     int immh, int immb, int opcode,
6174                                     int rn, int rd)
6175 {
6176     int size = 32 - clz32(immh) - 1;
6177     int immhb = immh << 3 | immb;
6178     int shift = immhb - (8 << size);
6179     TCGv_i64 tcg_rn = new_tmp_a64(s);
6180     TCGv_i64 tcg_rd = new_tmp_a64(s);
6181
6182     if (!extract32(immh, 3, 1)) {
6183         unallocated_encoding(s);
6184         return;
6185     }
6186
6187     if (!fp_access_check(s)) {
6188         return;
6189     }
6190
6191     tcg_rn = read_fp_dreg(s, rn);
6192     tcg_rd = insert ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
6193
6194     handle_shli_with_ins(tcg_rd, tcg_rn, insert, shift);
6195
6196     write_fp_dreg(s, rd, tcg_rd);
6197
6198     tcg_temp_free_i64(tcg_rn);
6199     tcg_temp_free_i64(tcg_rd);
6200 }
6201
6202 /* SQSHRN/SQSHRUN - Saturating (signed/unsigned) shift right with
6203  * (signed/unsigned) narrowing */
6204 static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
6205                                    bool is_u_shift, bool is_u_narrow,
6206                                    int immh, int immb, int opcode,
6207                                    int rn, int rd)
6208 {
6209     int immhb = immh << 3 | immb;
6210     int size = 32 - clz32(immh) - 1;
6211     int esize = 8 << size;
6212     int shift = (2 * esize) - immhb;
6213     int elements = is_scalar ? 1 : (64 / esize);
6214     bool round = extract32(opcode, 0, 1);
6215     TCGMemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
6216     TCGv_i64 tcg_rn, tcg_rd, tcg_round;
6217     TCGv_i32 tcg_rd_narrowed;
6218     TCGv_i64 tcg_final;
6219
6220     static NeonGenNarrowEnvFn * const signed_narrow_fns[4][2] = {
6221         { gen_helper_neon_narrow_sat_s8,
6222           gen_helper_neon_unarrow_sat8 },
6223         { gen_helper_neon_narrow_sat_s16,
6224           gen_helper_neon_unarrow_sat16 },
6225         { gen_helper_neon_narrow_sat_s32,
6226           gen_helper_neon_unarrow_sat32 },
6227         { NULL, NULL },
6228     };
6229     static NeonGenNarrowEnvFn * const unsigned_narrow_fns[4] = {
6230         gen_helper_neon_narrow_sat_u8,
6231         gen_helper_neon_narrow_sat_u16,
6232         gen_helper_neon_narrow_sat_u32,
6233         NULL
6234     };
6235     NeonGenNarrowEnvFn *narrowfn;
6236
6237     int i;
6238
6239     assert(size < 4);
6240
6241     if (extract32(immh, 3, 1)) {
6242         unallocated_encoding(s);
6243         return;
6244     }
6245
6246     if (!fp_access_check(s)) {
6247         return;
6248     }
6249
6250     if (is_u_shift) {
6251         narrowfn = unsigned_narrow_fns[size];
6252     } else {
6253         narrowfn = signed_narrow_fns[size][is_u_narrow ? 1 : 0];
6254     }
6255
6256     tcg_rn = tcg_temp_new_i64();
6257     tcg_rd = tcg_temp_new_i64();
6258     tcg_rd_narrowed = tcg_temp_new_i32();
6259     tcg_final = tcg_const_i64(0);
6260
6261     if (round) {
6262         uint64_t round_const = 1ULL << (shift - 1);
6263         tcg_round = tcg_const_i64(round_const);
6264     } else {
6265         TCGV_UNUSED_I64(tcg_round);
6266     }
6267
6268     for (i = 0; i < elements; i++) {
6269         read_vec_element(s, tcg_rn, rn, i, ldop);
6270         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
6271                                 false, is_u_shift, size+1, shift);
6272         narrowfn(tcg_rd_narrowed, cpu_env, tcg_rd);
6273         tcg_gen_extu_i32_i64(tcg_rd, tcg_rd_narrowed);
6274         tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
6275     }
6276
6277     if (!is_q) {
6278         clear_vec_high(s, rd);
6279         write_vec_element(s, tcg_final, rd, 0, MO_64);
6280     } else {
6281         write_vec_element(s, tcg_final, rd, 1, MO_64);
6282     }
6283
6284     if (round) {
6285         tcg_temp_free_i64(tcg_round);
6286     }
6287     tcg_temp_free_i64(tcg_rn);
6288     tcg_temp_free_i64(tcg_rd);
6289     tcg_temp_free_i32(tcg_rd_narrowed);
6290     tcg_temp_free_i64(tcg_final);
6291     return;
6292 }
6293
6294 /* SQSHLU, UQSHL, SQSHL: saturating left shifts */
6295 static void handle_simd_qshl(DisasContext *s, bool scalar, bool is_q,
6296                              bool src_unsigned, bool dst_unsigned,
6297                              int immh, int immb, int rn, int rd)
6298 {
6299     int immhb = immh << 3 | immb;
6300     int size = 32 - clz32(immh) - 1;
6301     int shift = immhb - (8 << size);
6302     int pass;
6303
6304     assert(immh != 0);
6305     assert(!(scalar && is_q));
6306
6307     if (!scalar) {
6308         if (!is_q && extract32(immh, 3, 1)) {
6309             unallocated_encoding(s);
6310             return;
6311         }
6312
6313         /* Since we use the variable-shift helpers we must
6314          * replicate the shift count into each element of
6315          * the tcg_shift value.
6316          */
6317         switch (size) {
6318         case 0:
6319             shift |= shift << 8;
6320             /* fall through */
6321         case 1:
6322             shift |= shift << 16;
6323             break;
6324         case 2:
6325         case 3:
6326             break;
6327         default:
6328             g_assert_not_reached();
6329         }
6330     }
6331
6332     if (!fp_access_check(s)) {
6333         return;
6334     }
6335
6336     if (size == 3) {
6337         TCGv_i64 tcg_shift = tcg_const_i64(shift);
6338         static NeonGenTwo64OpEnvFn * const fns[2][2] = {
6339             { gen_helper_neon_qshl_s64, gen_helper_neon_qshlu_s64 },
6340             { NULL, gen_helper_neon_qshl_u64 },
6341         };
6342         NeonGenTwo64OpEnvFn *genfn = fns[src_unsigned][dst_unsigned];
6343         int maxpass = is_q ? 2 : 1;
6344
6345         for (pass = 0; pass < maxpass; pass++) {
6346             TCGv_i64 tcg_op = tcg_temp_new_i64();
6347
6348             read_vec_element(s, tcg_op, rn, pass, MO_64);
6349             genfn(tcg_op, cpu_env, tcg_op, tcg_shift);
6350             write_vec_element(s, tcg_op, rd, pass, MO_64);
6351
6352             tcg_temp_free_i64(tcg_op);
6353         }
6354         tcg_temp_free_i64(tcg_shift);
6355
6356         if (!is_q) {
6357             clear_vec_high(s, rd);
6358         }
6359     } else {
6360         TCGv_i32 tcg_shift = tcg_const_i32(shift);
6361         static NeonGenTwoOpEnvFn * const fns[2][2][3] = {
6362             {
6363                 { gen_helper_neon_qshl_s8,
6364                   gen_helper_neon_qshl_s16,
6365                   gen_helper_neon_qshl_s32 },
6366                 { gen_helper_neon_qshlu_s8,
6367                   gen_helper_neon_qshlu_s16,
6368                   gen_helper_neon_qshlu_s32 }
6369             }, {
6370                 { NULL, NULL, NULL },
6371                 { gen_helper_neon_qshl_u8,
6372                   gen_helper_neon_qshl_u16,
6373                   gen_helper_neon_qshl_u32 }
6374             }
6375         };
6376         NeonGenTwoOpEnvFn *genfn = fns[src_unsigned][dst_unsigned][size];
6377         TCGMemOp memop = scalar ? size : MO_32;
6378         int maxpass = scalar ? 1 : is_q ? 4 : 2;
6379
6380         for (pass = 0; pass < maxpass; pass++) {
6381             TCGv_i32 tcg_op = tcg_temp_new_i32();
6382
6383             read_vec_element_i32(s, tcg_op, rn, pass, memop);
6384             genfn(tcg_op, cpu_env, tcg_op, tcg_shift);
6385             if (scalar) {
6386                 switch (size) {
6387                 case 0:
6388                     tcg_gen_ext8u_i32(tcg_op, tcg_op);
6389                     break;
6390                 case 1:
6391                     tcg_gen_ext16u_i32(tcg_op, tcg_op);
6392                     break;
6393                 case 2:
6394                     break;
6395                 default:
6396                     g_assert_not_reached();
6397                 }
6398                 write_fp_sreg(s, rd, tcg_op);
6399             } else {
6400                 write_vec_element_i32(s, tcg_op, rd, pass, MO_32);
6401             }
6402
6403             tcg_temp_free_i32(tcg_op);
6404         }
6405         tcg_temp_free_i32(tcg_shift);
6406
6407         if (!is_q && !scalar) {
6408             clear_vec_high(s, rd);
6409         }
6410     }
6411 }
6412
6413 /* Common vector code for handling integer to FP conversion */
6414 static void handle_simd_intfp_conv(DisasContext *s, int rd, int rn,
6415                                    int elements, int is_signed,
6416                                    int fracbits, int size)
6417 {
6418     bool is_double = size == 3 ? true : false;
6419     TCGv_ptr tcg_fpst = get_fpstatus_ptr();
6420     TCGv_i32 tcg_shift = tcg_const_i32(fracbits);
6421     TCGv_i64 tcg_int = tcg_temp_new_i64();
6422     TCGMemOp mop = size | (is_signed ? MO_SIGN : 0);
6423     int pass;
6424
6425     for (pass = 0; pass < elements; pass++) {
6426         read_vec_element(s, tcg_int, rn, pass, mop);
6427
6428         if (is_double) {
6429             TCGv_i64 tcg_double = tcg_temp_new_i64();
6430             if (is_signed) {
6431                 gen_helper_vfp_sqtod(tcg_double, tcg_int,
6432                                      tcg_shift, tcg_fpst);
6433             } else {
6434                 gen_helper_vfp_uqtod(tcg_double, tcg_int,
6435                                      tcg_shift, tcg_fpst);
6436             }
6437             if (elements == 1) {
6438                 write_fp_dreg(s, rd, tcg_double);
6439             } else {
6440                 write_vec_element(s, tcg_double, rd, pass, MO_64);
6441             }
6442             tcg_temp_free_i64(tcg_double);
6443         } else {
6444             TCGv_i32 tcg_single = tcg_temp_new_i32();
6445             if (is_signed) {
6446                 gen_helper_vfp_sqtos(tcg_single, tcg_int,
6447                                      tcg_shift, tcg_fpst);
6448             } else {
6449                 gen_helper_vfp_uqtos(tcg_single, tcg_int,
6450                                      tcg_shift, tcg_fpst);
6451             }
6452             if (elements == 1) {
6453                 write_fp_sreg(s, rd, tcg_single);
6454             } else {
6455                 write_vec_element_i32(s, tcg_single, rd, pass, MO_32);
6456             }
6457             tcg_temp_free_i32(tcg_single);
6458         }
6459     }
6460
6461     if (!is_double && elements == 2) {
6462         clear_vec_high(s, rd);
6463     }
6464
6465     tcg_temp_free_i64(tcg_int);
6466     tcg_temp_free_ptr(tcg_fpst);
6467     tcg_temp_free_i32(tcg_shift);
6468 }
6469
6470 /* UCVTF/SCVTF - Integer to FP conversion */
6471 static void handle_simd_shift_intfp_conv(DisasContext *s, bool is_scalar,
6472                                          bool is_q, bool is_u,
6473                                          int immh, int immb, int opcode,
6474                                          int rn, int rd)
6475 {
6476     bool is_double = extract32(immh, 3, 1);
6477     int size = is_double ? MO_64 : MO_32;
6478     int elements;
6479     int immhb = immh << 3 | immb;
6480     int fracbits = (is_double ? 128 : 64) - immhb;
6481
6482     if (!extract32(immh, 2, 2)) {
6483         unallocated_encoding(s);
6484         return;
6485     }
6486
6487     if (is_scalar) {
6488         elements = 1;
6489     } else {
6490         elements = is_double ? 2 : is_q ? 4 : 2;
6491         if (is_double && !is_q) {
6492             unallocated_encoding(s);
6493             return;
6494         }
6495     }
6496
6497     if (!fp_access_check(s)) {
6498         return;
6499     }
6500
6501     /* immh == 0 would be a failure of the decode logic */
6502     g_assert(immh);
6503
6504     handle_simd_intfp_conv(s, rd, rn, elements, !is_u, fracbits, size);
6505 }
6506
6507 /* FCVTZS, FVCVTZU - FP to fixedpoint conversion */
6508 static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
6509                                          bool is_q, bool is_u,
6510                                          int immh, int immb, int rn, int rd)
6511 {
6512     bool is_double = extract32(immh, 3, 1);
6513     int immhb = immh << 3 | immb;
6514     int fracbits = (is_double ? 128 : 64) - immhb;
6515     int pass;
6516     TCGv_ptr tcg_fpstatus;
6517     TCGv_i32 tcg_rmode, tcg_shift;
6518
6519     if (!extract32(immh, 2, 2)) {
6520         unallocated_encoding(s);
6521         return;
6522     }
6523
6524     if (!is_scalar && !is_q && is_double) {
6525         unallocated_encoding(s);
6526         return;
6527     }
6528
6529     if (!fp_access_check(s)) {
6530         return;
6531     }
6532
6533     assert(!(is_scalar && is_q));
6534
6535     tcg_rmode = tcg_const_i32(arm_rmode_to_sf(FPROUNDING_ZERO));
6536     gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
6537     tcg_fpstatus = get_fpstatus_ptr();
6538     tcg_shift = tcg_const_i32(fracbits);
6539
6540     if (is_double) {
6541         int maxpass = is_scalar ? 1 : is_q ? 2 : 1;
6542
6543         for (pass = 0; pass < maxpass; pass++) {
6544             TCGv_i64 tcg_op = tcg_temp_new_i64();
6545
6546             read_vec_element(s, tcg_op, rn, pass, MO_64);
6547             if (is_u) {
6548                 gen_helper_vfp_touqd(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
6549             } else {
6550                 gen_helper_vfp_tosqd(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
6551             }
6552             write_vec_element(s, tcg_op, rd, pass, MO_64);
6553             tcg_temp_free_i64(tcg_op);
6554         }
6555         if (!is_q) {
6556             clear_vec_high(s, rd);
6557         }
6558     } else {
6559         int maxpass = is_scalar ? 1 : is_q ? 4 : 2;
6560         for (pass = 0; pass < maxpass; pass++) {
6561             TCGv_i32 tcg_op = tcg_temp_new_i32();
6562
6563             read_vec_element_i32(s, tcg_op, rn, pass, MO_32);
6564             if (is_u) {
6565                 gen_helper_vfp_touls(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
6566             } else {
6567                 gen_helper_vfp_tosls(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
6568             }
6569             if (is_scalar) {
6570                 write_fp_sreg(s, rd, tcg_op);
6571             } else {
6572                 write_vec_element_i32(s, tcg_op, rd, pass, MO_32);
6573             }
6574             tcg_temp_free_i32(tcg_op);
6575         }
6576         if (!is_q && !is_scalar) {
6577             clear_vec_high(s, rd);
6578         }
6579     }
6580
6581     tcg_temp_free_ptr(tcg_fpstatus);
6582     tcg_temp_free_i32(tcg_shift);
6583     gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
6584     tcg_temp_free_i32(tcg_rmode);
6585 }
6586
6587 /* C3.6.9 AdvSIMD scalar shift by immediate
6588  *  31 30  29 28         23 22  19 18  16 15    11  10 9    5 4    0
6589  * +-----+---+-------------+------+------+--------+---+------+------+
6590  * | 0 1 | U | 1 1 1 1 1 0 | immh | immb | opcode | 1 |  Rn  |  Rd  |
6591  * +-----+---+-------------+------+------+--------+---+------+------+
6592  *
6593  * This is the scalar version so it works on a fixed sized registers
6594  */
6595 static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
6596 {
6597     int rd = extract32(insn, 0, 5);
6598     int rn = extract32(insn, 5, 5);
6599     int opcode = extract32(insn, 11, 5);
6600     int immb = extract32(insn, 16, 3);
6601     int immh = extract32(insn, 19, 4);
6602     bool is_u = extract32(insn, 29, 1);
6603
6604     if (immh == 0) {
6605         unallocated_encoding(s);
6606         return;
6607     }
6608
6609     switch (opcode) {
6610     case 0x08: /* SRI */
6611         if (!is_u) {
6612             unallocated_encoding(s);
6613             return;
6614         }
6615         /* fall through */
6616     case 0x00: /* SSHR / USHR */
6617     case 0x02: /* SSRA / USRA */
6618     case 0x04: /* SRSHR / URSHR */
6619     case 0x06: /* SRSRA / URSRA */
6620         handle_scalar_simd_shri(s, is_u, immh, immb, opcode, rn, rd);
6621         break;
6622     case 0x0a: /* SHL / SLI */
6623         handle_scalar_simd_shli(s, is_u, immh, immb, opcode, rn, rd);
6624         break;
6625     case 0x1c: /* SCVTF, UCVTF */
6626         handle_simd_shift_intfp_conv(s, true, false, is_u, immh, immb,
6627                                      opcode, rn, rd);
6628         break;
6629     case 0x10: /* SQSHRUN, SQSHRUN2 */
6630     case 0x11: /* SQRSHRUN, SQRSHRUN2 */
6631         if (!is_u) {
6632             unallocated_encoding(s);
6633             return;
6634         }
6635         handle_vec_simd_sqshrn(s, true, false, false, true,
6636                                immh, immb, opcode, rn, rd);
6637         break;
6638     case 0x12: /* SQSHRN, SQSHRN2, UQSHRN */
6639     case 0x13: /* SQRSHRN, SQRSHRN2, UQRSHRN, UQRSHRN2 */
6640         handle_vec_simd_sqshrn(s, true, false, is_u, is_u,
6641                                immh, immb, opcode, rn, rd);
6642         break;
6643     case 0xc: /* SQSHLU */
6644         if (!is_u) {
6645             unallocated_encoding(s);
6646             return;
6647         }
6648         handle_simd_qshl(s, true, false, false, true, immh, immb, rn, rd);
6649         break;
6650     case 0xe: /* SQSHL, UQSHL */
6651         handle_simd_qshl(s, true, false, is_u, is_u, immh, immb, rn, rd);
6652         break;
6653     case 0x1f: /* FCVTZS, FCVTZU */
6654         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
6655         break;
6656     default:
6657         unallocated_encoding(s);
6658         break;
6659     }
6660 }
6661
6662 /* C3.6.10 AdvSIMD scalar three different
6663  *  31 30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
6664  * +-----+---+-----------+------+---+------+--------+-----+------+------+
6665  * | 0 1 | U | 1 1 1 1 0 | size | 1 |  Rm  | opcode | 0 0 |  Rn  |  Rd  |
6666  * +-----+---+-----------+------+---+------+--------+-----+------+------+
6667  */
6668 static void disas_simd_scalar_three_reg_diff(DisasContext *s, uint32_t insn)
6669 {
6670     bool is_u = extract32(insn, 29, 1);
6671     int size = extract32(insn, 22, 2);
6672     int opcode = extract32(insn, 12, 4);
6673     int rm = extract32(insn, 16, 5);
6674     int rn = extract32(insn, 5, 5);
6675     int rd = extract32(insn, 0, 5);
6676
6677     if (is_u) {
6678         unallocated_encoding(s);
6679         return;
6680     }
6681
6682     switch (opcode) {
6683     case 0x9: /* SQDMLAL, SQDMLAL2 */
6684     case 0xb: /* SQDMLSL, SQDMLSL2 */
6685     case 0xd: /* SQDMULL, SQDMULL2 */
6686         if (size == 0 || size == 3) {
6687             unallocated_encoding(s);
6688             return;
6689         }
6690         break;
6691     default:
6692         unallocated_encoding(s);
6693         return;
6694     }
6695
6696     if (!fp_access_check(s)) {
6697         return;
6698     }
6699
6700     if (size == 2) {
6701         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
6702         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
6703         TCGv_i64 tcg_res = tcg_temp_new_i64();
6704
6705         read_vec_element(s, tcg_op1, rn, 0, MO_32 | MO_SIGN);
6706         read_vec_element(s, tcg_op2, rm, 0, MO_32 | MO_SIGN);
6707
6708         tcg_gen_mul_i64(tcg_res, tcg_op1, tcg_op2);
6709         gen_helper_neon_addl_saturate_s64(tcg_res, cpu_env, tcg_res, tcg_res);
6710
6711         switch (opcode) {
6712         case 0xd: /* SQDMULL, SQDMULL2 */
6713             break;
6714         case 0xb: /* SQDMLSL, SQDMLSL2 */
6715             tcg_gen_neg_i64(tcg_res, tcg_res);
6716             /* fall through */
6717         case 0x9: /* SQDMLAL, SQDMLAL2 */
6718             read_vec_element(s, tcg_op1, rd, 0, MO_64);
6719             gen_helper_neon_addl_saturate_s64(tcg_res, cpu_env,
6720                                               tcg_res, tcg_op1);
6721             break;
6722         default:
6723             g_assert_not_reached();
6724         }
6725
6726         write_fp_dreg(s, rd, tcg_res);
6727
6728         tcg_temp_free_i64(tcg_op1);
6729         tcg_temp_free_i64(tcg_op2);
6730         tcg_temp_free_i64(tcg_res);
6731     } else {
6732         TCGv_i32 tcg_op1 = tcg_temp_new_i32();
6733         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
6734         TCGv_i64 tcg_res = tcg_temp_new_i64();
6735
6736         read_vec_element_i32(s, tcg_op1, rn, 0, MO_16);
6737         read_vec_element_i32(s, tcg_op2, rm, 0, MO_16);
6738
6739         gen_helper_neon_mull_s16(tcg_res, tcg_op1, tcg_op2);
6740         gen_helper_neon_addl_saturate_s32(tcg_res, cpu_env, tcg_res, tcg_res);
6741
6742         switch (opcode) {
6743         case 0xd: /* SQDMULL, SQDMULL2 */
6744             break;
6745         case 0xb: /* SQDMLSL, SQDMLSL2 */
6746             gen_helper_neon_negl_u32(tcg_res, tcg_res);
6747             /* fall through */
6748         case 0x9: /* SQDMLAL, SQDMLAL2 */
6749         {
6750             TCGv_i64 tcg_op3 = tcg_temp_new_i64();
6751             read_vec_element(s, tcg_op3, rd, 0, MO_32);
6752             gen_helper_neon_addl_saturate_s32(tcg_res, cpu_env,
6753                                               tcg_res, tcg_op3);
6754             tcg_temp_free_i64(tcg_op3);
6755             break;
6756         }
6757         default:
6758             g_assert_not_reached();
6759         }
6760
6761         tcg_gen_ext32u_i64(tcg_res, tcg_res);
6762         write_fp_dreg(s, rd, tcg_res);
6763
6764         tcg_temp_free_i32(tcg_op1);
6765         tcg_temp_free_i32(tcg_op2);
6766         tcg_temp_free_i64(tcg_res);
6767     }
6768 }
6769
6770 static void handle_3same_64(DisasContext *s, int opcode, bool u,
6771                             TCGv_i64 tcg_rd, TCGv_i64 tcg_rn, TCGv_i64 tcg_rm)
6772 {
6773     /* Handle 64x64->64 opcodes which are shared between the scalar
6774      * and vector 3-same groups. We cover every opcode where size == 3
6775      * is valid in either the three-reg-same (integer, not pairwise)
6776      * or scalar-three-reg-same groups. (Some opcodes are not yet
6777      * implemented.)
6778      */
6779     TCGCond cond;
6780
6781     switch (opcode) {
6782     case 0x1: /* SQADD */
6783         if (u) {
6784             gen_helper_neon_qadd_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
6785         } else {
6786             gen_helper_neon_qadd_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
6787         }
6788         break;
6789     case 0x5: /* SQSUB */
6790         if (u) {
6791             gen_helper_neon_qsub_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
6792         } else {
6793             gen_helper_neon_qsub_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
6794         }
6795         break;
6796     case 0x6: /* CMGT, CMHI */
6797         /* 64 bit integer comparison, result = test ? (2^64 - 1) : 0.
6798          * We implement this using setcond (test) and then negating.
6799          */
6800         cond = u ? TCG_COND_GTU : TCG_COND_GT;
6801     do_cmop:
6802         tcg_gen_setcond_i64(cond, tcg_rd, tcg_rn, tcg_rm);
6803         tcg_gen_neg_i64(tcg_rd, tcg_rd);
6804         break;
6805     case 0x7: /* CMGE, CMHS */
6806         cond = u ? TCG_COND_GEU : TCG_COND_GE;
6807         goto do_cmop;
6808     case 0x11: /* CMTST, CMEQ */
6809         if (u) {
6810             cond = TCG_COND_EQ;
6811             goto do_cmop;
6812         }
6813         /* CMTST : test is "if (X & Y != 0)". */
6814         tcg_gen_and_i64(tcg_rd, tcg_rn, tcg_rm);
6815         tcg_gen_setcondi_i64(TCG_COND_NE, tcg_rd, tcg_rd, 0);
6816         tcg_gen_neg_i64(tcg_rd, tcg_rd);
6817         break;
6818     case 0x8: /* SSHL, USHL */
6819         if (u) {
6820             gen_helper_neon_shl_u64(tcg_rd, tcg_rn, tcg_rm);
6821         } else {
6822             gen_helper_neon_shl_s64(tcg_rd, tcg_rn, tcg_rm);
6823         }
6824         break;
6825     case 0x9: /* SQSHL, UQSHL */
6826         if (u) {
6827             gen_helper_neon_qshl_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
6828         } else {
6829             gen_helper_neon_qshl_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
6830         }
6831         break;
6832     case 0xa: /* SRSHL, URSHL */
6833         if (u) {
6834             gen_helper_neon_rshl_u64(tcg_rd, tcg_rn, tcg_rm);
6835         } else {
6836             gen_helper_neon_rshl_s64(tcg_rd, tcg_rn, tcg_rm);
6837         }
6838         break;
6839     case 0xb: /* SQRSHL, UQRSHL */
6840         if (u) {
6841             gen_helper_neon_qrshl_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
6842         } else {
6843             gen_helper_neon_qrshl_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
6844         }
6845         break;
6846     case 0x10: /* ADD, SUB */
6847         if (u) {
6848             tcg_gen_sub_i64(tcg_rd, tcg_rn, tcg_rm);
6849         } else {
6850             tcg_gen_add_i64(tcg_rd, tcg_rn, tcg_rm);
6851         }
6852         break;
6853     default:
6854         g_assert_not_reached();
6855     }
6856 }
6857
6858 /* Handle the 3-same-operands float operations; shared by the scalar
6859  * and vector encodings. The caller must filter out any encodings
6860  * not allocated for the encoding it is dealing with.
6861  */
6862 static void handle_3same_float(DisasContext *s, int size, int elements,
6863                                int fpopcode, int rd, int rn, int rm)
6864 {
6865     int pass;
6866     TCGv_ptr fpst = get_fpstatus_ptr();
6867
6868     for (pass = 0; pass < elements; pass++) {
6869         if (size) {
6870             /* Double */
6871             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
6872             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
6873             TCGv_i64 tcg_res = tcg_temp_new_i64();
6874
6875             read_vec_element(s, tcg_op1, rn, pass, MO_64);
6876             read_vec_element(s, tcg_op2, rm, pass, MO_64);
6877
6878             switch (fpopcode) {
6879             case 0x39: /* FMLS */
6880                 /* As usual for ARM, separate negation for fused multiply-add */
6881                 gen_helper_vfp_negd(tcg_op1, tcg_op1);
6882                 /* fall through */
6883             case 0x19: /* FMLA */
6884                 read_vec_element(s, tcg_res, rd, pass, MO_64);
6885                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
6886                                        tcg_res, fpst);
6887                 break;
6888             case 0x18: /* FMAXNM */
6889                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
6890                 break;
6891             case 0x1a: /* FADD */
6892                 gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
6893                 break;
6894             case 0x1b: /* FMULX */
6895                 gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
6896                 break;
6897             case 0x1c: /* FCMEQ */
6898                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
6899                 break;
6900             case 0x1e: /* FMAX */
6901                 gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
6902                 break;
6903             case 0x1f: /* FRECPS */
6904                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
6905                 break;
6906             case 0x38: /* FMINNM */
6907                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
6908                 break;
6909             case 0x3a: /* FSUB */
6910                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
6911                 break;
6912             case 0x3e: /* FMIN */
6913                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
6914                 break;
6915             case 0x3f: /* FRSQRTS */
6916                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
6917                 break;
6918             case 0x5b: /* FMUL */
6919                 gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
6920                 break;
6921             case 0x5c: /* FCMGE */
6922                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
6923                 break;
6924             case 0x5d: /* FACGE */
6925                 gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
6926                 break;
6927             case 0x5f: /* FDIV */
6928                 gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
6929                 break;
6930             case 0x7a: /* FABD */
6931                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
6932                 gen_helper_vfp_absd(tcg_res, tcg_res);
6933                 break;
6934             case 0x7c: /* FCMGT */
6935                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
6936                 break;
6937             case 0x7d: /* FACGT */
6938                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
6939                 break;
6940             default:
6941                 g_assert_not_reached();
6942             }
6943
6944             write_vec_element(s, tcg_res, rd, pass, MO_64);
6945
6946             tcg_temp_free_i64(tcg_res);
6947             tcg_temp_free_i64(tcg_op1);
6948             tcg_temp_free_i64(tcg_op2);
6949         } else {
6950             /* Single */
6951             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
6952             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
6953             TCGv_i32 tcg_res = tcg_temp_new_i32();
6954
6955             read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
6956             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
6957
6958             switch (fpopcode) {
6959             case 0x39: /* FMLS */
6960                 /* As usual for ARM, separate negation for fused multiply-add */
6961                 gen_helper_vfp_negs(tcg_op1, tcg_op1);
6962                 /* fall through */
6963             case 0x19: /* FMLA */
6964                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
6965                 gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
6966                                        tcg_res, fpst);
6967                 break;
6968             case 0x1a: /* FADD */
6969                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
6970                 break;
6971             case 0x1b: /* FMULX */
6972                 gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
6973                 break;
6974             case 0x1c: /* FCMEQ */
6975                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
6976                 break;
6977             case 0x1e: /* FMAX */
6978                 gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
6979                 break;
6980             case 0x1f: /* FRECPS */
6981                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
6982                 break;
6983             case 0x18: /* FMAXNM */
6984                 gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
6985                 break;
6986             case 0x38: /* FMINNM */
6987                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
6988                 break;
6989             case 0x3a: /* FSUB */
6990                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
6991                 break;
6992             case 0x3e: /* FMIN */
6993                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
6994                 break;
6995             case 0x3f: /* FRSQRTS */
6996                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
6997                 break;
6998             case 0x5b: /* FMUL */
6999                 gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
7000                 break;
7001             case 0x5c: /* FCMGE */
7002                 gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
7003                 break;
7004             case 0x5d: /* FACGE */
7005                 gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
7006                 break;
7007             case 0x5f: /* FDIV */
7008                 gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
7009                 break;
7010             case 0x7a: /* FABD */
7011                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
7012                 gen_helper_vfp_abss(tcg_res, tcg_res);
7013                 break;
7014             case 0x7c: /* FCMGT */
7015                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
7016                 break;
7017             case 0x7d: /* FACGT */
7018                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
7019                 break;
7020             default:
7021                 g_assert_not_reached();
7022             }
7023
7024             if (elements == 1) {
7025                 /* scalar single so clear high part */
7026                 TCGv_i64 tcg_tmp = tcg_temp_new_i64();
7027
7028                 tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
7029                 write_vec_element(s, tcg_tmp, rd, pass, MO_64);
7030                 tcg_temp_free_i64(tcg_tmp);
7031             } else {
7032                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
7033             }
7034
7035             tcg_temp_free_i32(tcg_res);
7036             tcg_temp_free_i32(tcg_op1);
7037             tcg_temp_free_i32(tcg_op2);
7038         }
7039     }
7040
7041     tcg_temp_free_ptr(fpst);
7042
7043     if ((elements << size) < 4) {
7044         /* scalar, or non-quad vector op */
7045         clear_vec_high(s, rd);
7046     }
7047 }
7048
7049 /* C3.6.11 AdvSIMD scalar three same
7050  *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
7051  * +-----+---+-----------+------+---+------+--------+---+------+------+
7052  * | 0 1 | U | 1 1 1 1 0 | size | 1 |  Rm  | opcode | 1 |  Rn  |  Rd  |
7053  * +-----+---+-----------+------+---+------+--------+---+------+------+
7054  */
7055 static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
7056 {
7057     int rd = extract32(insn, 0, 5);
7058     int rn = extract32(insn, 5, 5);
7059     int opcode = extract32(insn, 11, 5);
7060     int rm = extract32(insn, 16, 5);
7061     int size = extract32(insn, 22, 2);
7062     bool u = extract32(insn, 29, 1);
7063     TCGv_i64 tcg_rd;
7064
7065     if (opcode >= 0x18) {
7066         /* Floating point: U, size[1] and opcode indicate operation */
7067         int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
7068         switch (fpopcode) {
7069         case 0x1b: /* FMULX */
7070         case 0x1f: /* FRECPS */
7071         case 0x3f: /* FRSQRTS */
7072         case 0x5d: /* FACGE */
7073         case 0x7d: /* FACGT */
7074         case 0x1c: /* FCMEQ */
7075         case 0x5c: /* FCMGE */
7076         case 0x7c: /* FCMGT */
7077         case 0x7a: /* FABD */
7078             break;
7079         default:
7080             unallocated_encoding(s);
7081             return;
7082         }
7083
7084         if (!fp_access_check(s)) {
7085             return;
7086         }
7087
7088         handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
7089         return;
7090     }
7091
7092     switch (opcode) {
7093     case 0x1: /* SQADD, UQADD */
7094     case 0x5: /* SQSUB, UQSUB */
7095     case 0x9: /* SQSHL, UQSHL */
7096     case 0xb: /* SQRSHL, UQRSHL */
7097         break;
7098     case 0x8: /* SSHL, USHL */
7099     case 0xa: /* SRSHL, URSHL */
7100     case 0x6: /* CMGT, CMHI */
7101     case 0x7: /* CMGE, CMHS */
7102     case 0x11: /* CMTST, CMEQ */
7103     case 0x10: /* ADD, SUB (vector) */
7104         if (size != 3) {
7105             unallocated_encoding(s);
7106             return;
7107         }
7108         break;
7109     case 0x16: /* SQDMULH, SQRDMULH (vector) */
7110         if (size != 1 && size != 2) {
7111             unallocated_encoding(s);
7112             return;
7113         }
7114         break;
7115     default:
7116         unallocated_encoding(s);
7117         return;
7118     }
7119
7120     if (!fp_access_check(s)) {
7121         return;
7122     }
7123
7124     tcg_rd = tcg_temp_new_i64();
7125
7126     if (size == 3) {
7127         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
7128         TCGv_i64 tcg_rm = read_fp_dreg(s, rm);
7129
7130         handle_3same_64(s, opcode, u, tcg_rd, tcg_rn, tcg_rm);
7131         tcg_temp_free_i64(tcg_rn);
7132         tcg_temp_free_i64(tcg_rm);
7133     } else {
7134         /* Do a single operation on the lowest element in the vector.
7135          * We use the standard Neon helpers and rely on 0 OP 0 == 0 with
7136          * no side effects for all these operations.
7137          * OPTME: special-purpose helpers would avoid doing some
7138          * unnecessary work in the helper for the 8 and 16 bit cases.
7139          */
7140         NeonGenTwoOpEnvFn *genenvfn;
7141         TCGv_i32 tcg_rn = tcg_temp_new_i32();
7142         TCGv_i32 tcg_rm = tcg_temp_new_i32();
7143         TCGv_i32 tcg_rd32 = tcg_temp_new_i32();
7144
7145         read_vec_element_i32(s, tcg_rn, rn, 0, size);
7146         read_vec_element_i32(s, tcg_rm, rm, 0, size);
7147
7148         switch (opcode) {
7149         case 0x1: /* SQADD, UQADD */
7150         {
7151             static NeonGenTwoOpEnvFn * const fns[3][2] = {
7152                 { gen_helper_neon_qadd_s8, gen_helper_neon_qadd_u8 },
7153                 { gen_helper_neon_qadd_s16, gen_helper_neon_qadd_u16 },
7154                 { gen_helper_neon_qadd_s32, gen_helper_neon_qadd_u32 },
7155             };
7156             genenvfn = fns[size][u];
7157             break;
7158         }
7159         case 0x5: /* SQSUB, UQSUB */
7160         {
7161             static NeonGenTwoOpEnvFn * const fns[3][2] = {
7162                 { gen_helper_neon_qsub_s8, gen_helper_neon_qsub_u8 },
7163                 { gen_helper_neon_qsub_s16, gen_helper_neon_qsub_u16 },
7164                 { gen_helper_neon_qsub_s32, gen_helper_neon_qsub_u32 },
7165             };
7166             genenvfn = fns[size][u];
7167             break;
7168         }
7169         case 0x9: /* SQSHL, UQSHL */
7170         {
7171             static NeonGenTwoOpEnvFn * const fns[3][2] = {
7172                 { gen_helper_neon_qshl_s8, gen_helper_neon_qshl_u8 },
7173                 { gen_helper_neon_qshl_s16, gen_helper_neon_qshl_u16 },
7174                 { gen_helper_neon_qshl_s32, gen_helper_neon_qshl_u32 },
7175             };
7176             genenvfn = fns[size][u];
7177             break;
7178         }
7179         case 0xb: /* SQRSHL, UQRSHL */
7180         {
7181             static NeonGenTwoOpEnvFn * const fns[3][2] = {
7182                 { gen_helper_neon_qrshl_s8, gen_helper_neon_qrshl_u8 },
7183                 { gen_helper_neon_qrshl_s16, gen_helper_neon_qrshl_u16 },
7184                 { gen_helper_neon_qrshl_s32, gen_helper_neon_qrshl_u32 },
7185             };
7186             genenvfn = fns[size][u];
7187             break;
7188         }
7189         case 0x16: /* SQDMULH, SQRDMULH */
7190         {
7191             static NeonGenTwoOpEnvFn * const fns[2][2] = {
7192                 { gen_helper_neon_qdmulh_s16, gen_helper_neon_qrdmulh_s16 },
7193                 { gen_helper_neon_qdmulh_s32, gen_helper_neon_qrdmulh_s32 },
7194             };
7195             assert(size == 1 || size == 2);
7196             genenvfn = fns[size - 1][u];
7197             break;
7198         }
7199         default:
7200             g_assert_not_reached();
7201         }
7202
7203         genenvfn(tcg_rd32, cpu_env, tcg_rn, tcg_rm);
7204         tcg_gen_extu_i32_i64(tcg_rd, tcg_rd32);
7205         tcg_temp_free_i32(tcg_rd32);
7206         tcg_temp_free_i32(tcg_rn);
7207         tcg_temp_free_i32(tcg_rm);
7208     }
7209
7210     write_fp_dreg(s, rd, tcg_rd);
7211
7212     tcg_temp_free_i64(tcg_rd);
7213 }
7214
7215 static void handle_2misc_64(DisasContext *s, int opcode, bool u,
7216                             TCGv_i64 tcg_rd, TCGv_i64 tcg_rn,
7217                             TCGv_i32 tcg_rmode, TCGv_ptr tcg_fpstatus)
7218 {
7219     /* Handle 64->64 opcodes which are shared between the scalar and
7220      * vector 2-reg-misc groups. We cover every integer opcode where size == 3
7221      * is valid in either group and also the double-precision fp ops.
7222      * The caller only need provide tcg_rmode and tcg_fpstatus if the op
7223      * requires them.
7224      */
7225     TCGCond cond;
7226
7227     switch (opcode) {
7228     case 0x4: /* CLS, CLZ */
7229         if (u) {
7230             gen_helper_clz64(tcg_rd, tcg_rn);
7231         } else {
7232             gen_helper_cls64(tcg_rd, tcg_rn);
7233         }
7234         break;
7235     case 0x5: /* NOT */
7236         /* This opcode is shared with CNT and RBIT but we have earlier
7237          * enforced that size == 3 if and only if this is the NOT insn.
7238          */
7239         tcg_gen_not_i64(tcg_rd, tcg_rn);
7240         break;
7241     case 0x7: /* SQABS, SQNEG */
7242         if (u) {
7243             gen_helper_neon_qneg_s64(tcg_rd, cpu_env, tcg_rn);
7244         } else {
7245             gen_helper_neon_qabs_s64(tcg_rd, cpu_env, tcg_rn);
7246         }
7247         break;
7248     case 0xa: /* CMLT */
7249         /* 64 bit integer comparison against zero, result is
7250          * test ? (2^64 - 1) : 0. We implement via setcond(!test) and
7251          * subtracting 1.
7252          */
7253         cond = TCG_COND_LT;
7254     do_cmop:
7255         tcg_gen_setcondi_i64(cond, tcg_rd, tcg_rn, 0);
7256         tcg_gen_neg_i64(tcg_rd, tcg_rd);
7257         break;
7258     case 0x8: /* CMGT, CMGE */
7259         cond = u ? TCG_COND_GE : TCG_COND_GT;
7260         goto do_cmop;
7261     case 0x9: /* CMEQ, CMLE */
7262         cond = u ? TCG_COND_LE : TCG_COND_EQ;
7263         goto do_cmop;
7264     case 0xb: /* ABS, NEG */
7265         if (u) {
7266             tcg_gen_neg_i64(tcg_rd, tcg_rn);
7267         } else {
7268             TCGv_i64 tcg_zero = tcg_const_i64(0);
7269             tcg_gen_neg_i64(tcg_rd, tcg_rn);
7270             tcg_gen_movcond_i64(TCG_COND_GT, tcg_rd, tcg_rn, tcg_zero,
7271                                 tcg_rn, tcg_rd);
7272             tcg_temp_free_i64(tcg_zero);
7273         }
7274         break;
7275     case 0x2f: /* FABS */
7276         gen_helper_vfp_absd(tcg_rd, tcg_rn);
7277         break;
7278     case 0x6f: /* FNEG */
7279         gen_helper_vfp_negd(tcg_rd, tcg_rn);
7280         break;
7281     case 0x7f: /* FSQRT */
7282         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, cpu_env);
7283         break;
7284     case 0x1a: /* FCVTNS */
7285     case 0x1b: /* FCVTMS */
7286     case 0x1c: /* FCVTAS */
7287     case 0x3a: /* FCVTPS */
7288     case 0x3b: /* FCVTZS */
7289     {
7290         TCGv_i32 tcg_shift = tcg_const_i32(0);
7291         gen_helper_vfp_tosqd(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
7292         tcg_temp_free_i32(tcg_shift);
7293         break;
7294     }
7295     case 0x5a: /* FCVTNU */
7296     case 0x5b: /* FCVTMU */
7297     case 0x5c: /* FCVTAU */
7298     case 0x7a: /* FCVTPU */
7299     case 0x7b: /* FCVTZU */
7300     {
7301         TCGv_i32 tcg_shift = tcg_const_i32(0);
7302         gen_helper_vfp_touqd(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
7303         tcg_temp_free_i32(tcg_shift);
7304         break;
7305     }
7306     case 0x18: /* FRINTN */
7307     case 0x19: /* FRINTM */
7308     case 0x38: /* FRINTP */
7309     case 0x39: /* FRINTZ */
7310     case 0x58: /* FRINTA */
7311     case 0x79: /* FRINTI */
7312         gen_helper_rintd(tcg_rd, tcg_rn, tcg_fpstatus);
7313         break;
7314     case 0x59: /* FRINTX */
7315         gen_helper_rintd_exact(tcg_rd, tcg_rn, tcg_fpstatus);
7316         break;
7317     default:
7318         g_assert_not_reached();
7319     }
7320 }
7321
7322 static void handle_2misc_fcmp_zero(DisasContext *s, int opcode,
7323                                    bool is_scalar, bool is_u, bool is_q,
7324                                    int size, int rn, int rd)
7325 {
7326     bool is_double = (size == 3);
7327     TCGv_ptr fpst;
7328
7329     if (!fp_access_check(s)) {
7330         return;
7331     }
7332
7333     fpst = get_fpstatus_ptr();
7334
7335     if (is_double) {
7336         TCGv_i64 tcg_op = tcg_temp_new_i64();
7337         TCGv_i64 tcg_zero = tcg_const_i64(0);
7338         TCGv_i64 tcg_res = tcg_temp_new_i64();
7339         NeonGenTwoDoubleOPFn *genfn;
7340         bool swap = false;
7341         int pass;
7342
7343         switch (opcode) {
7344         case 0x2e: /* FCMLT (zero) */
7345             swap = true;
7346             /* fallthrough */
7347         case 0x2c: /* FCMGT (zero) */
7348             genfn = gen_helper_neon_cgt_f64;
7349             break;
7350         case 0x2d: /* FCMEQ (zero) */
7351             genfn = gen_helper_neon_ceq_f64;
7352             break;
7353         case 0x6d: /* FCMLE (zero) */
7354             swap = true;
7355             /* fall through */
7356         case 0x6c: /* FCMGE (zero) */
7357             genfn = gen_helper_neon_cge_f64;
7358             break;
7359         default:
7360             g_assert_not_reached();
7361         }
7362
7363         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
7364             read_vec_element(s, tcg_op, rn, pass, MO_64);
7365             if (swap) {
7366                 genfn(tcg_res, tcg_zero, tcg_op, fpst);
7367             } else {
7368                 genfn(tcg_res, tcg_op, tcg_zero, fpst);
7369             }
7370             write_vec_element(s, tcg_res, rd, pass, MO_64);
7371         }
7372         if (is_scalar) {
7373             clear_vec_high(s, rd);
7374         }
7375
7376         tcg_temp_free_i64(tcg_res);
7377         tcg_temp_free_i64(tcg_zero);
7378         tcg_temp_free_i64(tcg_op);
7379     } else {
7380         TCGv_i32 tcg_op = tcg_temp_new_i32();
7381         TCGv_i32 tcg_zero = tcg_const_i32(0);
7382         TCGv_i32 tcg_res = tcg_temp_new_i32();
7383         NeonGenTwoSingleOPFn *genfn;
7384         bool swap = false;
7385         int pass, maxpasses;
7386
7387         switch (opcode) {
7388         case 0x2e: /* FCMLT (zero) */
7389             swap = true;
7390             /* fall through */
7391         case 0x2c: /* FCMGT (zero) */
7392             genfn = gen_helper_neon_cgt_f32;
7393             break;
7394         case 0x2d: /* FCMEQ (zero) */
7395             genfn = gen_helper_neon_ceq_f32;
7396             break;
7397         case 0x6d: /* FCMLE (zero) */
7398             swap = true;
7399             /* fall through */
7400         case 0x6c: /* FCMGE (zero) */
7401             genfn = gen_helper_neon_cge_f32;
7402             break;
7403         default:
7404             g_assert_not_reached();
7405         }
7406
7407         if (is_scalar) {
7408             maxpasses = 1;
7409         } else {
7410             maxpasses = is_q ? 4 : 2;
7411         }
7412
7413         for (pass = 0; pass < maxpasses; pass++) {
7414             read_vec_element_i32(s, tcg_op, rn, pass, MO_32);
7415             if (swap) {
7416                 genfn(tcg_res, tcg_zero, tcg_op, fpst);
7417             } else {
7418                 genfn(tcg_res, tcg_op, tcg_zero, fpst);
7419             }
7420             if (is_scalar) {
7421                 write_fp_sreg(s, rd, tcg_res);
7422             } else {
7423                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
7424             }
7425         }
7426         tcg_temp_free_i32(tcg_res);
7427         tcg_temp_free_i32(tcg_zero);
7428         tcg_temp_free_i32(tcg_op);
7429         if (!is_q && !is_scalar) {
7430             clear_vec_high(s, rd);
7431         }
7432     }
7433
7434     tcg_temp_free_ptr(fpst);
7435 }
7436
7437 static void handle_2misc_reciprocal(DisasContext *s, int opcode,
7438                                     bool is_scalar, bool is_u, bool is_q,
7439                                     int size, int rn, int rd)
7440 {
7441     bool is_double = (size == 3);
7442     TCGv_ptr fpst = get_fpstatus_ptr();
7443
7444     if (is_double) {
7445         TCGv_i64 tcg_op = tcg_temp_new_i64();
7446         TCGv_i64 tcg_res = tcg_temp_new_i64();
7447         int pass;
7448
7449         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
7450             read_vec_element(s, tcg_op, rn, pass, MO_64);
7451             switch (opcode) {
7452             case 0x3d: /* FRECPE */
7453                 gen_helper_recpe_f64(tcg_res, tcg_op, fpst);
7454                 break;
7455             case 0x3f: /* FRECPX */
7456                 gen_helper_frecpx_f64(tcg_res, tcg_op, fpst);
7457                 break;
7458             case 0x7d: /* FRSQRTE */
7459                 gen_helper_rsqrte_f64(tcg_res, tcg_op, fpst);
7460                 break;
7461             default:
7462                 g_assert_not_reached();
7463             }
7464             write_vec_element(s, tcg_res, rd, pass, MO_64);
7465         }
7466         if (is_scalar) {
7467             clear_vec_high(s, rd);
7468         }
7469
7470         tcg_temp_free_i64(tcg_res);
7471         tcg_temp_free_i64(tcg_op);
7472     } else {
7473         TCGv_i32 tcg_op = tcg_temp_new_i32();
7474         TCGv_i32 tcg_res = tcg_temp_new_i32();
7475         int pass, maxpasses;
7476
7477         if (is_scalar) {
7478             maxpasses = 1;
7479         } else {
7480             maxpasses = is_q ? 4 : 2;
7481         }
7482
7483         for (pass = 0; pass < maxpasses; pass++) {
7484             read_vec_element_i32(s, tcg_op, rn, pass, MO_32);
7485
7486             switch (opcode) {
7487             case 0x3c: /* URECPE */
7488                 gen_helper_recpe_u32(tcg_res, tcg_op, fpst);
7489                 break;
7490             case 0x3d: /* FRECPE */
7491                 gen_helper_recpe_f32(tcg_res, tcg_op, fpst);
7492                 break;
7493             case 0x3f: /* FRECPX */
7494                 gen_helper_frecpx_f32(tcg_res, tcg_op, fpst);
7495                 break;
7496             case 0x7d: /* FRSQRTE */
7497                 gen_helper_rsqrte_f32(tcg_res, tcg_op, fpst);
7498                 break;
7499             default:
7500                 g_assert_not_reached();
7501             }
7502
7503             if (is_scalar) {
7504                 write_fp_sreg(s, rd, tcg_res);
7505             } else {
7506                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
7507             }
7508         }
7509         tcg_temp_free_i32(tcg_res);
7510         tcg_temp_free_i32(tcg_op);
7511         if (!is_q && !is_scalar) {
7512             clear_vec_high(s, rd);
7513         }
7514     }
7515     tcg_temp_free_ptr(fpst);
7516 }
7517
7518 static void handle_2misc_narrow(DisasContext *s, bool scalar,
7519                                 int opcode, bool u, bool is_q,
7520                                 int size, int rn, int rd)
7521 {
7522     /* Handle 2-reg-misc ops which are narrowing (so each 2*size element
7523      * in the source becomes a size element in the destination).
7524      */
7525     int pass;
7526     TCGv_i32 tcg_res[2];
7527     int destelt = is_q ? 2 : 0;
7528     int passes = scalar ? 1 : 2;
7529
7530     if (scalar) {
7531         tcg_res[1] = tcg_const_i32(0);
7532     }
7533
7534     for (pass = 0; pass < passes; pass++) {
7535         TCGv_i64 tcg_op = tcg_temp_new_i64();
7536         NeonGenNarrowFn *genfn = NULL;
7537         NeonGenNarrowEnvFn *genenvfn = NULL;
7538
7539         if (scalar) {
7540             read_vec_element(s, tcg_op, rn, pass, size + 1);
7541         } else {
7542             read_vec_element(s, tcg_op, rn, pass, MO_64);
7543         }
7544         tcg_res[pass] = tcg_temp_new_i32();
7545
7546         switch (opcode) {
7547         case 0x12: /* XTN, SQXTUN */
7548         {
7549             static NeonGenNarrowFn * const xtnfns[3] = {
7550                 gen_helper_neon_narrow_u8,
7551                 gen_helper_neon_narrow_u16,
7552                 tcg_gen_trunc_i64_i32,
7553             };
7554             static NeonGenNarrowEnvFn * const sqxtunfns[3] = {
7555                 gen_helper_neon_unarrow_sat8,
7556                 gen_helper_neon_unarrow_sat16,
7557                 gen_helper_neon_unarrow_sat32,
7558             };
7559             if (u) {
7560                 genenvfn = sqxtunfns[size];
7561             } else {
7562                 genfn = xtnfns[size];
7563             }
7564             break;
7565         }
7566         case 0x14: /* SQXTN, UQXTN */
7567         {
7568             static NeonGenNarrowEnvFn * const fns[3][2] = {
7569                 { gen_helper_neon_narrow_sat_s8,
7570                   gen_helper_neon_narrow_sat_u8 },
7571                 { gen_helper_neon_narrow_sat_s16,
7572                   gen_helper_neon_narrow_sat_u16 },
7573                 { gen_helper_neon_narrow_sat_s32,
7574                   gen_helper_neon_narrow_sat_u32 },
7575             };
7576             genenvfn = fns[size][u];
7577             break;
7578         }
7579         case 0x16: /* FCVTN, FCVTN2 */
7580             /* 32 bit to 16 bit or 64 bit to 32 bit float conversion */
7581             if (size == 2) {
7582                 gen_helper_vfp_fcvtsd(tcg_res[pass], tcg_op, cpu_env);
7583             } else {
7584                 TCGv_i32 tcg_lo = tcg_temp_new_i32();
7585                 TCGv_i32 tcg_hi = tcg_temp_new_i32();
7586                 tcg_gen_trunc_i64_i32(tcg_lo, tcg_op);
7587                 gen_helper_vfp_fcvt_f32_to_f16(tcg_lo, tcg_lo, cpu_env);
7588                 tcg_gen_shri_i64(tcg_op, tcg_op, 32);
7589                 tcg_gen_trunc_i64_i32(tcg_hi, tcg_op);
7590                 gen_helper_vfp_fcvt_f32_to_f16(tcg_hi, tcg_hi, cpu_env);
7591                 tcg_gen_deposit_i32(tcg_res[pass], tcg_lo, tcg_hi, 16, 16);
7592                 tcg_temp_free_i32(tcg_lo);
7593                 tcg_temp_free_i32(tcg_hi);
7594             }
7595             break;
7596         case 0x56:  /* FCVTXN, FCVTXN2 */
7597             /* 64 bit to 32 bit float conversion
7598              * with von Neumann rounding (round to odd)
7599              */
7600             assert(size == 2);
7601             gen_helper_fcvtx_f64_to_f32(tcg_res[pass], tcg_op, cpu_env);
7602             break;
7603         default:
7604             g_assert_not_reached();
7605         }
7606
7607         if (genfn) {
7608             genfn(tcg_res[pass], tcg_op);
7609         } else if (genenvfn) {
7610             genenvfn(tcg_res[pass], cpu_env, tcg_op);
7611         }
7612
7613         tcg_temp_free_i64(tcg_op);
7614     }
7615
7616     for (pass = 0; pass < 2; pass++) {
7617         write_vec_element_i32(s, tcg_res[pass], rd, destelt + pass, MO_32);
7618         tcg_temp_free_i32(tcg_res[pass]);
7619     }
7620     if (!is_q) {
7621         clear_vec_high(s, rd);
7622     }
7623 }
7624
7625 /* Remaining saturating accumulating ops */
7626 static void handle_2misc_satacc(DisasContext *s, bool is_scalar, bool is_u,
7627                                 bool is_q, int size, int rn, int rd)
7628 {
7629     bool is_double = (size == 3);
7630
7631     if (is_double) {
7632         TCGv_i64 tcg_rn = tcg_temp_new_i64();
7633         TCGv_i64 tcg_rd = tcg_temp_new_i64();
7634         int pass;
7635
7636         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
7637             read_vec_element(s, tcg_rn, rn, pass, MO_64);
7638             read_vec_element(s, tcg_rd, rd, pass, MO_64);
7639
7640             if (is_u) { /* USQADD */
7641                 gen_helper_neon_uqadd_s64(tcg_rd, cpu_env, tcg_rn, tcg_rd);
7642             } else { /* SUQADD */
7643                 gen_helper_neon_sqadd_u64(tcg_rd, cpu_env, tcg_rn, tcg_rd);
7644             }
7645             write_vec_element(s, tcg_rd, rd, pass, MO_64);
7646         }
7647         if (is_scalar) {
7648             clear_vec_high(s, rd);
7649         }
7650
7651         tcg_temp_free_i64(tcg_rd);
7652         tcg_temp_free_i64(tcg_rn);
7653     } else {
7654         TCGv_i32 tcg_rn = tcg_temp_new_i32();
7655         TCGv_i32 tcg_rd = tcg_temp_new_i32();
7656         int pass, maxpasses;
7657
7658         if (is_scalar) {
7659             maxpasses = 1;
7660         } else {
7661             maxpasses = is_q ? 4 : 2;
7662         }
7663
7664         for (pass = 0; pass < maxpasses; pass++) {
7665             if (is_scalar) {
7666                 read_vec_element_i32(s, tcg_rn, rn, pass, size);
7667                 read_vec_element_i32(s, tcg_rd, rd, pass, size);
7668             } else {
7669                 read_vec_element_i32(s, tcg_rn, rn, pass, MO_32);
7670                 read_vec_element_i32(s, tcg_rd, rd, pass, MO_32);
7671             }
7672
7673             if (is_u) { /* USQADD */
7674                 switch (size) {
7675                 case 0:
7676                     gen_helper_neon_uqadd_s8(tcg_rd, cpu_env, tcg_rn, tcg_rd);
7677                     break;
7678                 case 1:
7679                     gen_helper_neon_uqadd_s16(tcg_rd, cpu_env, tcg_rn, tcg_rd);
7680                     break;
7681                 case 2:
7682                     gen_helper_neon_uqadd_s32(tcg_rd, cpu_env, tcg_rn, tcg_rd);
7683                     break;
7684                 default:
7685                     g_assert_not_reached();
7686                 }
7687             } else { /* SUQADD */
7688                 switch (size) {
7689                 case 0:
7690                     gen_helper_neon_sqadd_u8(tcg_rd, cpu_env, tcg_rn, tcg_rd);
7691                     break;
7692                 case 1:
7693                     gen_helper_neon_sqadd_u16(tcg_rd, cpu_env, tcg_rn, tcg_rd);
7694                     break;
7695                 case 2:
7696                     gen_helper_neon_sqadd_u32(tcg_rd, cpu_env, tcg_rn, tcg_rd);
7697                     break;
7698                 default:
7699                     g_assert_not_reached();
7700                 }
7701             }
7702
7703             if (is_scalar) {
7704                 TCGv_i64 tcg_zero = tcg_const_i64(0);
7705                 write_vec_element(s, tcg_zero, rd, 0, MO_64);
7706                 tcg_temp_free_i64(tcg_zero);
7707             }
7708             write_vec_element_i32(s, tcg_rd, rd, pass, MO_32);
7709         }
7710
7711         if (!is_q) {
7712             clear_vec_high(s, rd);
7713         }
7714
7715         tcg_temp_free_i32(tcg_rd);
7716         tcg_temp_free_i32(tcg_rn);
7717     }
7718 }
7719
7720 /* C3.6.12 AdvSIMD scalar two reg misc
7721  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
7722  * +-----+---+-----------+------+-----------+--------+-----+------+------+
7723  * | 0 1 | U | 1 1 1 1 0 | size | 1 0 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
7724  * +-----+---+-----------+------+-----------+--------+-----+------+------+
7725  */
7726 static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
7727 {
7728     int rd = extract32(insn, 0, 5);
7729     int rn = extract32(insn, 5, 5);
7730     int opcode = extract32(insn, 12, 5);
7731     int size = extract32(insn, 22, 2);
7732     bool u = extract32(insn, 29, 1);
7733     bool is_fcvt = false;
7734     int rmode;
7735     TCGv_i32 tcg_rmode;
7736     TCGv_ptr tcg_fpstatus;
7737
7738     switch (opcode) {
7739     case 0x3: /* USQADD / SUQADD*/
7740         if (!fp_access_check(s)) {
7741             return;
7742         }
7743         handle_2misc_satacc(s, true, u, false, size, rn, rd);
7744         return;
7745     case 0x7: /* SQABS / SQNEG */
7746         break;
7747     case 0xa: /* CMLT */
7748         if (u) {
7749             unallocated_encoding(s);
7750             return;
7751         }
7752         /* fall through */
7753     case 0x8: /* CMGT, CMGE */
7754     case 0x9: /* CMEQ, CMLE */
7755     case 0xb: /* ABS, NEG */
7756         if (size != 3) {
7757             unallocated_encoding(s);
7758             return;
7759         }
7760         break;
7761     case 0x12: /* SQXTUN */
7762         if (!u) {
7763             unallocated_encoding(s);
7764             return;
7765         }
7766         /* fall through */
7767     case 0x14: /* SQXTN, UQXTN */
7768         if (size == 3) {
7769             unallocated_encoding(s);
7770             return;
7771         }
7772         if (!fp_access_check(s)) {
7773             return;
7774         }
7775         handle_2misc_narrow(s, true, opcode, u, false, size, rn, rd);
7776         return;
7777     case 0xc ... 0xf:
7778     case 0x16 ... 0x1d:
7779     case 0x1f:
7780         /* Floating point: U, size[1] and opcode indicate operation;
7781          * size[0] indicates single or double precision.
7782          */
7783         opcode |= (extract32(size, 1, 1) << 5) | (u << 6);
7784         size = extract32(size, 0, 1) ? 3 : 2;
7785         switch (opcode) {
7786         case 0x2c: /* FCMGT (zero) */
7787         case 0x2d: /* FCMEQ (zero) */
7788         case 0x2e: /* FCMLT (zero) */
7789         case 0x6c: /* FCMGE (zero) */
7790         case 0x6d: /* FCMLE (zero) */
7791             handle_2misc_fcmp_zero(s, opcode, true, u, true, size, rn, rd);
7792             return;
7793         case 0x1d: /* SCVTF */
7794         case 0x5d: /* UCVTF */
7795         {
7796             bool is_signed = (opcode == 0x1d);
7797             if (!fp_access_check(s)) {
7798                 return;
7799             }
7800             handle_simd_intfp_conv(s, rd, rn, 1, is_signed, 0, size);
7801             return;
7802         }
7803         case 0x3d: /* FRECPE */
7804         case 0x3f: /* FRECPX */
7805         case 0x7d: /* FRSQRTE */
7806             if (!fp_access_check(s)) {
7807                 return;
7808             }
7809             handle_2misc_reciprocal(s, opcode, true, u, true, size, rn, rd);
7810             return;
7811         case 0x1a: /* FCVTNS */
7812         case 0x1b: /* FCVTMS */
7813         case 0x3a: /* FCVTPS */
7814         case 0x3b: /* FCVTZS */
7815         case 0x5a: /* FCVTNU */
7816         case 0x5b: /* FCVTMU */
7817         case 0x7a: /* FCVTPU */
7818         case 0x7b: /* FCVTZU */
7819             is_fcvt = true;
7820             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
7821             break;
7822         case 0x1c: /* FCVTAS */
7823         case 0x5c: /* FCVTAU */
7824             /* TIEAWAY doesn't fit in the usual rounding mode encoding */
7825             is_fcvt = true;
7826             rmode = FPROUNDING_TIEAWAY;
7827             break;
7828         case 0x56: /* FCVTXN, FCVTXN2 */
7829             if (size == 2) {
7830                 unallocated_encoding(s);
7831                 return;
7832             }
7833             if (!fp_access_check(s)) {
7834                 return;
7835             }
7836             handle_2misc_narrow(s, true, opcode, u, false, size - 1, rn, rd);
7837             return;
7838         default:
7839             unallocated_encoding(s);
7840             return;
7841         }
7842         break;
7843     default:
7844         unallocated_encoding(s);
7845         return;
7846     }
7847
7848     if (!fp_access_check(s)) {
7849         return;
7850     }
7851
7852     if (is_fcvt) {
7853         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
7854         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
7855         tcg_fpstatus = get_fpstatus_ptr();
7856     } else {
7857         TCGV_UNUSED_I32(tcg_rmode);
7858         TCGV_UNUSED_PTR(tcg_fpstatus);
7859     }
7860
7861     if (size == 3) {
7862         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
7863         TCGv_i64 tcg_rd = tcg_temp_new_i64();
7864
7865         handle_2misc_64(s, opcode, u, tcg_rd, tcg_rn, tcg_rmode, tcg_fpstatus);
7866         write_fp_dreg(s, rd, tcg_rd);
7867         tcg_temp_free_i64(tcg_rd);
7868         tcg_temp_free_i64(tcg_rn);
7869     } else {
7870         TCGv_i32 tcg_rn = tcg_temp_new_i32();
7871         TCGv_i32 tcg_rd = tcg_temp_new_i32();
7872
7873         read_vec_element_i32(s, tcg_rn, rn, 0, size);
7874
7875         switch (opcode) {
7876         case 0x7: /* SQABS, SQNEG */
7877         {
7878             NeonGenOneOpEnvFn *genfn;
7879             static NeonGenOneOpEnvFn * const fns[3][2] = {
7880                 { gen_helper_neon_qabs_s8, gen_helper_neon_qneg_s8 },
7881                 { gen_helper_neon_qabs_s16, gen_helper_neon_qneg_s16 },
7882                 { gen_helper_neon_qabs_s32, gen_helper_neon_qneg_s32 },
7883             };
7884             genfn = fns[size][u];
7885             genfn(tcg_rd, cpu_env, tcg_rn);
7886             break;
7887         }
7888         case 0x1a: /* FCVTNS */
7889         case 0x1b: /* FCVTMS */
7890         case 0x1c: /* FCVTAS */
7891         case 0x3a: /* FCVTPS */
7892         case 0x3b: /* FCVTZS */
7893         {
7894             TCGv_i32 tcg_shift = tcg_const_i32(0);
7895             gen_helper_vfp_tosls(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
7896             tcg_temp_free_i32(tcg_shift);
7897             break;
7898         }
7899         case 0x5a: /* FCVTNU */
7900         case 0x5b: /* FCVTMU */
7901         case 0x5c: /* FCVTAU */
7902         case 0x7a: /* FCVTPU */
7903         case 0x7b: /* FCVTZU */
7904         {
7905             TCGv_i32 tcg_shift = tcg_const_i32(0);
7906             gen_helper_vfp_touls(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
7907             tcg_temp_free_i32(tcg_shift);
7908             break;
7909         }
7910         default:
7911             g_assert_not_reached();
7912         }
7913
7914         write_fp_sreg(s, rd, tcg_rd);
7915         tcg_temp_free_i32(tcg_rd);
7916         tcg_temp_free_i32(tcg_rn);
7917     }
7918
7919     if (is_fcvt) {
7920         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
7921         tcg_temp_free_i32(tcg_rmode);
7922         tcg_temp_free_ptr(tcg_fpstatus);
7923     }
7924 }
7925
7926 /* SSHR[RA]/USHR[RA] - Vector shift right (optional rounding/accumulate) */
7927 static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
7928                                  int immh, int immb, int opcode, int rn, int rd)
7929 {
7930     int size = 32 - clz32(immh) - 1;
7931     int immhb = immh << 3 | immb;
7932     int shift = 2 * (8 << size) - immhb;
7933     bool accumulate = false;
7934     bool round = false;
7935     bool insert = false;
7936     int dsize = is_q ? 128 : 64;
7937     int esize = 8 << size;
7938     int elements = dsize/esize;
7939     TCGMemOp memop = size | (is_u ? 0 : MO_SIGN);
7940     TCGv_i64 tcg_rn = new_tmp_a64(s);
7941     TCGv_i64 tcg_rd = new_tmp_a64(s);
7942     TCGv_i64 tcg_round;
7943     int i;
7944
7945     if (extract32(immh, 3, 1) && !is_q) {
7946         unallocated_encoding(s);
7947         return;
7948     }
7949
7950     if (size > 3 && !is_q) {
7951         unallocated_encoding(s);
7952         return;
7953     }
7954
7955     if (!fp_access_check(s)) {
7956         return;
7957     }
7958
7959     switch (opcode) {
7960     case 0x02: /* SSRA / USRA (accumulate) */
7961         accumulate = true;
7962         break;
7963     case 0x04: /* SRSHR / URSHR (rounding) */
7964         round = true;
7965         break;
7966     case 0x06: /* SRSRA / URSRA (accum + rounding) */
7967         accumulate = round = true;
7968         break;
7969     case 0x08: /* SRI */
7970         insert = true;
7971         break;
7972     }
7973
7974     if (round) {
7975         uint64_t round_const = 1ULL << (shift - 1);
7976         tcg_round = tcg_const_i64(round_const);
7977     } else {
7978         TCGV_UNUSED_I64(tcg_round);
7979     }
7980
7981     for (i = 0; i < elements; i++) {
7982         read_vec_element(s, tcg_rn, rn, i, memop);
7983         if (accumulate || insert) {
7984             read_vec_element(s, tcg_rd, rd, i, memop);
7985         }
7986
7987         if (insert) {
7988             handle_shri_with_ins(tcg_rd, tcg_rn, size, shift);
7989         } else {
7990             handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
7991                                     accumulate, is_u, size, shift);
7992         }
7993
7994         write_vec_element(s, tcg_rd, rd, i, size);
7995     }
7996
7997     if (!is_q) {
7998         clear_vec_high(s, rd);
7999     }
8000
8001     if (round) {
8002         tcg_temp_free_i64(tcg_round);
8003     }
8004 }
8005
8006 /* SHL/SLI - Vector shift left */
8007 static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
8008                                 int immh, int immb, int opcode, int rn, int rd)
8009 {
8010     int size = 32 - clz32(immh) - 1;
8011     int immhb = immh << 3 | immb;
8012     int shift = immhb - (8 << size);
8013     int dsize = is_q ? 128 : 64;
8014     int esize = 8 << size;
8015     int elements = dsize/esize;
8016     TCGv_i64 tcg_rn = new_tmp_a64(s);
8017     TCGv_i64 tcg_rd = new_tmp_a64(s);
8018     int i;
8019
8020     if (extract32(immh, 3, 1) && !is_q) {
8021         unallocated_encoding(s);
8022         return;
8023     }
8024
8025     if (size > 3 && !is_q) {
8026         unallocated_encoding(s);
8027         return;
8028     }
8029
8030     if (!fp_access_check(s)) {
8031         return;
8032     }
8033
8034     for (i = 0; i < elements; i++) {
8035         read_vec_element(s, tcg_rn, rn, i, size);
8036         if (insert) {
8037             read_vec_element(s, tcg_rd, rd, i, size);
8038         }
8039
8040         handle_shli_with_ins(tcg_rd, tcg_rn, insert, shift);
8041
8042         write_vec_element(s, tcg_rd, rd, i, size);
8043     }
8044
8045     if (!is_q) {
8046         clear_vec_high(s, rd);
8047     }
8048 }
8049
8050 /* USHLL/SHLL - Vector shift left with widening */
8051 static void handle_vec_simd_wshli(DisasContext *s, bool is_q, bool is_u,
8052                                  int immh, int immb, int opcode, int rn, int rd)
8053 {
8054     int size = 32 - clz32(immh) - 1;
8055     int immhb = immh << 3 | immb;
8056     int shift = immhb - (8 << size);
8057     int dsize = 64;
8058     int esize = 8 << size;
8059     int elements = dsize/esize;
8060     TCGv_i64 tcg_rn = new_tmp_a64(s);
8061     TCGv_i64 tcg_rd = new_tmp_a64(s);
8062     int i;
8063
8064     if (size >= 3) {
8065         unallocated_encoding(s);
8066         return;
8067     }
8068
8069     if (!fp_access_check(s)) {
8070         return;
8071     }
8072
8073     /* For the LL variants the store is larger than the load,
8074      * so if rd == rn we would overwrite parts of our input.
8075      * So load everything right now and use shifts in the main loop.
8076      */
8077     read_vec_element(s, tcg_rn, rn, is_q ? 1 : 0, MO_64);
8078
8079     for (i = 0; i < elements; i++) {
8080         tcg_gen_shri_i64(tcg_rd, tcg_rn, i * esize);
8081         ext_and_shift_reg(tcg_rd, tcg_rd, size | (!is_u << 2), 0);
8082         tcg_gen_shli_i64(tcg_rd, tcg_rd, shift);
8083         write_vec_element(s, tcg_rd, rd, i, size + 1);
8084     }
8085 }
8086
8087 /* SHRN/RSHRN - Shift right with narrowing (and potential rounding) */
8088 static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
8089                                  int immh, int immb, int opcode, int rn, int rd)
8090 {
8091     int immhb = immh << 3 | immb;
8092     int size = 32 - clz32(immh) - 1;
8093     int dsize = 64;
8094     int esize = 8 << size;
8095     int elements = dsize/esize;
8096     int shift = (2 * esize) - immhb;
8097     bool round = extract32(opcode, 0, 1);
8098     TCGv_i64 tcg_rn, tcg_rd, tcg_final;
8099     TCGv_i64 tcg_round;
8100     int i;
8101
8102     if (extract32(immh, 3, 1)) {
8103         unallocated_encoding(s);
8104         return;
8105     }
8106
8107     if (!fp_access_check(s)) {
8108         return;
8109     }
8110
8111     tcg_rn = tcg_temp_new_i64();
8112     tcg_rd = tcg_temp_new_i64();
8113     tcg_final = tcg_temp_new_i64();
8114     read_vec_element(s, tcg_final, rd, is_q ? 1 : 0, MO_64);
8115
8116     if (round) {
8117         uint64_t round_const = 1ULL << (shift - 1);
8118         tcg_round = tcg_const_i64(round_const);
8119     } else {
8120         TCGV_UNUSED_I64(tcg_round);
8121     }
8122
8123     for (i = 0; i < elements; i++) {
8124         read_vec_element(s, tcg_rn, rn, i, size+1);
8125         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
8126                                 false, true, size+1, shift);
8127
8128         tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
8129     }
8130
8131     if (!is_q) {
8132         clear_vec_high(s, rd);
8133         write_vec_element(s, tcg_final, rd, 0, MO_64);
8134     } else {
8135         write_vec_element(s, tcg_final, rd, 1, MO_64);
8136     }
8137
8138     if (round) {
8139         tcg_temp_free_i64(tcg_round);
8140     }
8141     tcg_temp_free_i64(tcg_rn);
8142     tcg_temp_free_i64(tcg_rd);
8143     tcg_temp_free_i64(tcg_final);
8144     return;
8145 }
8146
8147
8148 /* C3.6.14 AdvSIMD shift by immediate
8149  *  31  30   29 28         23 22  19 18  16 15    11  10 9    5 4    0
8150  * +---+---+---+-------------+------+------+--------+---+------+------+
8151  * | 0 | Q | U | 0 1 1 1 1 0 | immh | immb | opcode | 1 |  Rn  |  Rd  |
8152  * +---+---+---+-------------+------+------+--------+---+------+------+
8153  */
8154 static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
8155 {
8156     int rd = extract32(insn, 0, 5);
8157     int rn = extract32(insn, 5, 5);
8158     int opcode = extract32(insn, 11, 5);
8159     int immb = extract32(insn, 16, 3);
8160     int immh = extract32(insn, 19, 4);
8161     bool is_u = extract32(insn, 29, 1);
8162     bool is_q = extract32(insn, 30, 1);
8163
8164     switch (opcode) {
8165     case 0x08: /* SRI */
8166         if (!is_u) {
8167             unallocated_encoding(s);
8168             return;
8169         }
8170         /* fall through */
8171     case 0x00: /* SSHR / USHR */
8172     case 0x02: /* SSRA / USRA (accumulate) */
8173     case 0x04: /* SRSHR / URSHR (rounding) */
8174     case 0x06: /* SRSRA / URSRA (accum + rounding) */
8175         handle_vec_simd_shri(s, is_q, is_u, immh, immb, opcode, rn, rd);
8176         break;
8177     case 0x0a: /* SHL / SLI */
8178         handle_vec_simd_shli(s, is_q, is_u, immh, immb, opcode, rn, rd);
8179         break;
8180     case 0x10: /* SHRN */
8181     case 0x11: /* RSHRN / SQRSHRUN */
8182         if (is_u) {
8183             handle_vec_simd_sqshrn(s, false, is_q, false, true, immh, immb,
8184                                    opcode, rn, rd);
8185         } else {
8186             handle_vec_simd_shrn(s, is_q, immh, immb, opcode, rn, rd);
8187         }
8188         break;
8189     case 0x12: /* SQSHRN / UQSHRN */
8190     case 0x13: /* SQRSHRN / UQRSHRN */
8191         handle_vec_simd_sqshrn(s, false, is_q, is_u, is_u, immh, immb,
8192                                opcode, rn, rd);
8193         break;
8194     case 0x14: /* SSHLL / USHLL */
8195         handle_vec_simd_wshli(s, is_q, is_u, immh, immb, opcode, rn, rd);
8196         break;
8197     case 0x1c: /* SCVTF / UCVTF */
8198         handle_simd_shift_intfp_conv(s, false, is_q, is_u, immh, immb,
8199                                      opcode, rn, rd);
8200         break;
8201     case 0xc: /* SQSHLU */
8202         if (!is_u) {
8203             unallocated_encoding(s);
8204             return;
8205         }
8206         handle_simd_qshl(s, false, is_q, false, true, immh, immb, rn, rd);
8207         break;
8208     case 0xe: /* SQSHL, UQSHL */
8209         handle_simd_qshl(s, false, is_q, is_u, is_u, immh, immb, rn, rd);
8210         break;
8211     case 0x1f: /* FCVTZS/ FCVTZU */
8212         handle_simd_shift_fpint_conv(s, false, is_q, is_u, immh, immb, rn, rd);
8213         return;
8214     default:
8215         unallocated_encoding(s);
8216         return;
8217     }
8218 }
8219
8220 /* Generate code to do a "long" addition or subtraction, ie one done in
8221  * TCGv_i64 on vector lanes twice the width specified by size.
8222  */
8223 static void gen_neon_addl(int size, bool is_sub, TCGv_i64 tcg_res,
8224                           TCGv_i64 tcg_op1, TCGv_i64 tcg_op2)
8225 {
8226     static NeonGenTwo64OpFn * const fns[3][2] = {
8227         { gen_helper_neon_addl_u16, gen_helper_neon_subl_u16 },
8228         { gen_helper_neon_addl_u32, gen_helper_neon_subl_u32 },
8229         { tcg_gen_add_i64, tcg_gen_sub_i64 },
8230     };
8231     NeonGenTwo64OpFn *genfn;
8232     assert(size < 3);
8233
8234     genfn = fns[size][is_sub];
8235     genfn(tcg_res, tcg_op1, tcg_op2);
8236 }
8237
8238 static void handle_3rd_widening(DisasContext *s, int is_q, int is_u, int size,
8239                                 int opcode, int rd, int rn, int rm)
8240 {
8241     /* 3-reg-different widening insns: 64 x 64 -> 128 */
8242     TCGv_i64 tcg_res[2];
8243     int pass, accop;
8244
8245     tcg_res[0] = tcg_temp_new_i64();
8246     tcg_res[1] = tcg_temp_new_i64();
8247
8248     /* Does this op do an adding accumulate, a subtracting accumulate,
8249      * or no accumulate at all?
8250      */
8251     switch (opcode) {
8252     case 5:
8253     case 8:
8254     case 9:
8255         accop = 1;
8256         break;
8257     case 10:
8258     case 11:
8259         accop = -1;
8260         break;
8261     default:
8262         accop = 0;
8263         break;
8264     }
8265
8266     if (accop != 0) {
8267         read_vec_element(s, tcg_res[0], rd, 0, MO_64);
8268         read_vec_element(s, tcg_res[1], rd, 1, MO_64);
8269     }
8270
8271     /* size == 2 means two 32x32->64 operations; this is worth special
8272      * casing because we can generally handle it inline.
8273      */
8274     if (size == 2) {
8275         for (pass = 0; pass < 2; pass++) {
8276             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
8277             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
8278             TCGv_i64 tcg_passres;
8279             TCGMemOp memop = MO_32 | (is_u ? 0 : MO_SIGN);
8280
8281             int elt = pass + is_q * 2;
8282
8283             read_vec_element(s, tcg_op1, rn, elt, memop);
8284             read_vec_element(s, tcg_op2, rm, elt, memop);
8285
8286             if (accop == 0) {
8287                 tcg_passres = tcg_res[pass];
8288             } else {
8289                 tcg_passres = tcg_temp_new_i64();
8290             }
8291
8292             switch (opcode) {
8293             case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
8294                 tcg_gen_add_i64(tcg_passres, tcg_op1, tcg_op2);
8295                 break;
8296             case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
8297                 tcg_gen_sub_i64(tcg_passres, tcg_op1, tcg_op2);
8298                 break;
8299             case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
8300             case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
8301             {
8302                 TCGv_i64 tcg_tmp1 = tcg_temp_new_i64();
8303                 TCGv_i64 tcg_tmp2 = tcg_temp_new_i64();
8304
8305                 tcg_gen_sub_i64(tcg_tmp1, tcg_op1, tcg_op2);
8306                 tcg_gen_sub_i64(tcg_tmp2, tcg_op2, tcg_op1);
8307                 tcg_gen_movcond_i64(is_u ? TCG_COND_GEU : TCG_COND_GE,
8308                                     tcg_passres,
8309                                     tcg_op1, tcg_op2, tcg_tmp1, tcg_tmp2);
8310                 tcg_temp_free_i64(tcg_tmp1);
8311                 tcg_temp_free_i64(tcg_tmp2);
8312                 break;
8313             }
8314             case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
8315             case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
8316             case 12: /* UMULL, UMULL2, SMULL, SMULL2 */
8317                 tcg_gen_mul_i64(tcg_passres, tcg_op1, tcg_op2);
8318                 break;
8319             case 9: /* SQDMLAL, SQDMLAL2 */
8320             case 11: /* SQDMLSL, SQDMLSL2 */
8321             case 13: /* SQDMULL, SQDMULL2 */
8322                 tcg_gen_mul_i64(tcg_passres, tcg_op1, tcg_op2);
8323                 gen_helper_neon_addl_saturate_s64(tcg_passres, cpu_env,
8324                                                   tcg_passres, tcg_passres);
8325                 break;
8326             default:
8327                 g_assert_not_reached();
8328             }
8329
8330             if (opcode == 9 || opcode == 11) {
8331                 /* saturating accumulate ops */
8332                 if (accop < 0) {
8333                     tcg_gen_neg_i64(tcg_passres, tcg_passres);
8334                 }
8335                 gen_helper_neon_addl_saturate_s64(tcg_res[pass], cpu_env,
8336                                                   tcg_res[pass], tcg_passres);
8337             } else if (accop > 0) {
8338                 tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
8339             } else if (accop < 0) {
8340                 tcg_gen_sub_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
8341             }
8342
8343             if (accop != 0) {
8344                 tcg_temp_free_i64(tcg_passres);
8345             }
8346
8347             tcg_temp_free_i64(tcg_op1);
8348             tcg_temp_free_i64(tcg_op2);
8349         }
8350     } else {
8351         /* size 0 or 1, generally helper functions */
8352         for (pass = 0; pass < 2; pass++) {
8353             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
8354             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
8355             TCGv_i64 tcg_passres;
8356             int elt = pass + is_q * 2;
8357
8358             read_vec_element_i32(s, tcg_op1, rn, elt, MO_32);
8359             read_vec_element_i32(s, tcg_op2, rm, elt, MO_32);
8360
8361             if (accop == 0) {
8362                 tcg_passres = tcg_res[pass];
8363             } else {
8364                 tcg_passres = tcg_temp_new_i64();
8365             }
8366
8367             switch (opcode) {
8368             case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
8369             case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
8370             {
8371                 TCGv_i64 tcg_op2_64 = tcg_temp_new_i64();
8372                 static NeonGenWidenFn * const widenfns[2][2] = {
8373                     { gen_helper_neon_widen_s8, gen_helper_neon_widen_u8 },
8374                     { gen_helper_neon_widen_s16, gen_helper_neon_widen_u16 },
8375                 };
8376                 NeonGenWidenFn *widenfn = widenfns[size][is_u];
8377
8378                 widenfn(tcg_op2_64, tcg_op2);
8379                 widenfn(tcg_passres, tcg_op1);
8380                 gen_neon_addl(size, (opcode == 2), tcg_passres,
8381                               tcg_passres, tcg_op2_64);
8382                 tcg_temp_free_i64(tcg_op2_64);
8383                 break;
8384             }
8385             case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
8386             case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
8387                 if (size == 0) {
8388                     if (is_u) {
8389                         gen_helper_neon_abdl_u16(tcg_passres, tcg_op1, tcg_op2);
8390                     } else {
8391                         gen_helper_neon_abdl_s16(tcg_passres, tcg_op1, tcg_op2);
8392                     }
8393                 } else {
8394                     if (is_u) {
8395                         gen_helper_neon_abdl_u32(tcg_passres, tcg_op1, tcg_op2);
8396                     } else {
8397                         gen_helper_neon_abdl_s32(tcg_passres, tcg_op1, tcg_op2);
8398                     }
8399                 }
8400                 break;
8401             case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
8402             case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
8403             case 12: /* UMULL, UMULL2, SMULL, SMULL2 */
8404                 if (size == 0) {
8405                     if (is_u) {
8406                         gen_helper_neon_mull_u8(tcg_passres, tcg_op1, tcg_op2);
8407                     } else {
8408                         gen_helper_neon_mull_s8(tcg_passres, tcg_op1, tcg_op2);
8409                     }
8410                 } else {
8411                     if (is_u) {
8412                         gen_helper_neon_mull_u16(tcg_passres, tcg_op1, tcg_op2);
8413                     } else {
8414                         gen_helper_neon_mull_s16(tcg_passres, tcg_op1, tcg_op2);
8415                     }
8416                 }
8417                 break;
8418             case 9: /* SQDMLAL, SQDMLAL2 */
8419             case 11: /* SQDMLSL, SQDMLSL2 */
8420             case 13: /* SQDMULL, SQDMULL2 */
8421                 assert(size == 1);
8422                 gen_helper_neon_mull_s16(tcg_passres, tcg_op1, tcg_op2);
8423                 gen_helper_neon_addl_saturate_s32(tcg_passres, cpu_env,
8424                                                   tcg_passres, tcg_passres);
8425                 break;
8426             case 14: /* PMULL */
8427                 assert(size == 0);
8428                 gen_helper_neon_mull_p8(tcg_passres, tcg_op1, tcg_op2);
8429                 break;
8430             default:
8431                 g_assert_not_reached();
8432             }
8433             tcg_temp_free_i32(tcg_op1);
8434             tcg_temp_free_i32(tcg_op2);
8435
8436             if (accop != 0) {
8437                 if (opcode == 9 || opcode == 11) {
8438                     /* saturating accumulate ops */
8439                     if (accop < 0) {
8440                         gen_helper_neon_negl_u32(tcg_passres, tcg_passres);
8441                     }
8442                     gen_helper_neon_addl_saturate_s32(tcg_res[pass], cpu_env,
8443                                                       tcg_res[pass],
8444                                                       tcg_passres);
8445                 } else {
8446                     gen_neon_addl(size, (accop < 0), tcg_res[pass],
8447                                   tcg_res[pass], tcg_passres);
8448                 }
8449                 tcg_temp_free_i64(tcg_passres);
8450             }
8451         }
8452     }
8453
8454     write_vec_element(s, tcg_res[0], rd, 0, MO_64);
8455     write_vec_element(s, tcg_res[1], rd, 1, MO_64);
8456     tcg_temp_free_i64(tcg_res[0]);
8457     tcg_temp_free_i64(tcg_res[1]);
8458 }
8459
8460 static void handle_3rd_wide(DisasContext *s, int is_q, int is_u, int size,
8461                             int opcode, int rd, int rn, int rm)
8462 {
8463     TCGv_i64 tcg_res[2];
8464     int part = is_q ? 2 : 0;
8465     int pass;
8466
8467     for (pass = 0; pass < 2; pass++) {
8468         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
8469         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
8470         TCGv_i64 tcg_op2_wide = tcg_temp_new_i64();
8471         static NeonGenWidenFn * const widenfns[3][2] = {
8472             { gen_helper_neon_widen_s8, gen_helper_neon_widen_u8 },
8473             { gen_helper_neon_widen_s16, gen_helper_neon_widen_u16 },
8474             { tcg_gen_ext_i32_i64, tcg_gen_extu_i32_i64 },
8475         };
8476         NeonGenWidenFn *widenfn = widenfns[size][is_u];
8477
8478         read_vec_element(s, tcg_op1, rn, pass, MO_64);
8479         read_vec_element_i32(s, tcg_op2, rm, part + pass, MO_32);
8480         widenfn(tcg_op2_wide, tcg_op2);
8481         tcg_temp_free_i32(tcg_op2);
8482         tcg_res[pass] = tcg_temp_new_i64();
8483         gen_neon_addl(size, (opcode == 3),
8484                       tcg_res[pass], tcg_op1, tcg_op2_wide);
8485         tcg_temp_free_i64(tcg_op1);
8486         tcg_temp_free_i64(tcg_op2_wide);
8487     }
8488
8489     for (pass = 0; pass < 2; pass++) {
8490         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
8491         tcg_temp_free_i64(tcg_res[pass]);
8492     }
8493 }
8494
8495 static void do_narrow_high_u32(TCGv_i32 res, TCGv_i64 in)
8496 {
8497     tcg_gen_shri_i64(in, in, 32);
8498     tcg_gen_trunc_i64_i32(res, in);
8499 }
8500
8501 static void do_narrow_round_high_u32(TCGv_i32 res, TCGv_i64 in)
8502 {
8503     tcg_gen_addi_i64(in, in, 1U << 31);
8504     do_narrow_high_u32(res, in);
8505 }
8506
8507 static void handle_3rd_narrowing(DisasContext *s, int is_q, int is_u, int size,
8508                                  int opcode, int rd, int rn, int rm)
8509 {
8510     TCGv_i32 tcg_res[2];
8511     int part = is_q ? 2 : 0;
8512     int pass;
8513
8514     for (pass = 0; pass < 2; pass++) {
8515         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
8516         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
8517         TCGv_i64 tcg_wideres = tcg_temp_new_i64();
8518         static NeonGenNarrowFn * const narrowfns[3][2] = {
8519             { gen_helper_neon_narrow_high_u8,
8520               gen_helper_neon_narrow_round_high_u8 },
8521             { gen_helper_neon_narrow_high_u16,
8522               gen_helper_neon_narrow_round_high_u16 },
8523             { do_narrow_high_u32, do_narrow_round_high_u32 },
8524         };
8525         NeonGenNarrowFn *gennarrow = narrowfns[size][is_u];
8526
8527         read_vec_element(s, tcg_op1, rn, pass, MO_64);
8528         read_vec_element(s, tcg_op2, rm, pass, MO_64);
8529
8530         gen_neon_addl(size, (opcode == 6), tcg_wideres, tcg_op1, tcg_op2);
8531
8532         tcg_temp_free_i64(tcg_op1);
8533         tcg_temp_free_i64(tcg_op2);
8534
8535         tcg_res[pass] = tcg_temp_new_i32();
8536         gennarrow(tcg_res[pass], tcg_wideres);
8537         tcg_temp_free_i64(tcg_wideres);
8538     }
8539
8540     for (pass = 0; pass < 2; pass++) {
8541         write_vec_element_i32(s, tcg_res[pass], rd, pass + part, MO_32);
8542         tcg_temp_free_i32(tcg_res[pass]);
8543     }
8544     if (!is_q) {
8545         clear_vec_high(s, rd);
8546     }
8547 }
8548
8549 static void handle_pmull_64(DisasContext *s, int is_q, int rd, int rn, int rm)
8550 {
8551     /* PMULL of 64 x 64 -> 128 is an odd special case because it
8552      * is the only three-reg-diff instruction which produces a
8553      * 128-bit wide result from a single operation. However since
8554      * it's possible to calculate the two halves more or less
8555      * separately we just use two helper calls.
8556      */
8557     TCGv_i64 tcg_op1 = tcg_temp_new_i64();
8558     TCGv_i64 tcg_op2 = tcg_temp_new_i64();
8559     TCGv_i64 tcg_res = tcg_temp_new_i64();
8560
8561     read_vec_element(s, tcg_op1, rn, is_q, MO_64);
8562     read_vec_element(s, tcg_op2, rm, is_q, MO_64);
8563     gen_helper_neon_pmull_64_lo(tcg_res, tcg_op1, tcg_op2);
8564     write_vec_element(s, tcg_res, rd, 0, MO_64);
8565     gen_helper_neon_pmull_64_hi(tcg_res, tcg_op1, tcg_op2);
8566     write_vec_element(s, tcg_res, rd, 1, MO_64);
8567
8568     tcg_temp_free_i64(tcg_op1);
8569     tcg_temp_free_i64(tcg_op2);
8570     tcg_temp_free_i64(tcg_res);
8571 }
8572
8573 /* C3.6.15 AdvSIMD three different
8574  *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
8575  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
8576  * | 0 | Q | U | 0 1 1 1 0 | size | 1 |  Rm  | opcode | 0 0 |  Rn  |  Rd  |
8577  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
8578  */
8579 static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
8580 {
8581     /* Instructions in this group fall into three basic classes
8582      * (in each case with the operation working on each element in
8583      * the input vectors):
8584      * (1) widening 64 x 64 -> 128 (with possibly Vd as an extra
8585      *     128 bit input)
8586      * (2) wide 64 x 128 -> 128
8587      * (3) narrowing 128 x 128 -> 64
8588      * Here we do initial decode, catch unallocated cases and
8589      * dispatch to separate functions for each class.
8590      */
8591     int is_q = extract32(insn, 30, 1);
8592     int is_u = extract32(insn, 29, 1);
8593     int size = extract32(insn, 22, 2);
8594     int opcode = extract32(insn, 12, 4);
8595     int rm = extract32(insn, 16, 5);
8596     int rn = extract32(insn, 5, 5);
8597     int rd = extract32(insn, 0, 5);
8598
8599     switch (opcode) {
8600     case 1: /* SADDW, SADDW2, UADDW, UADDW2 */
8601     case 3: /* SSUBW, SSUBW2, USUBW, USUBW2 */
8602         /* 64 x 128 -> 128 */
8603         if (size == 3) {
8604             unallocated_encoding(s);
8605             return;
8606         }
8607         if (!fp_access_check(s)) {
8608             return;
8609         }
8610         handle_3rd_wide(s, is_q, is_u, size, opcode, rd, rn, rm);
8611         break;
8612     case 4: /* ADDHN, ADDHN2, RADDHN, RADDHN2 */
8613     case 6: /* SUBHN, SUBHN2, RSUBHN, RSUBHN2 */
8614         /* 128 x 128 -> 64 */
8615         if (size == 3) {
8616             unallocated_encoding(s);
8617             return;
8618         }
8619         if (!fp_access_check(s)) {
8620             return;
8621         }
8622         handle_3rd_narrowing(s, is_q, is_u, size, opcode, rd, rn, rm);
8623         break;
8624     case 14: /* PMULL, PMULL2 */
8625         if (is_u || size == 1 || size == 2) {
8626             unallocated_encoding(s);
8627             return;
8628         }
8629         if (size == 3) {
8630             if (!arm_dc_feature(s, ARM_FEATURE_V8_PMULL)) {
8631                 unallocated_encoding(s);
8632                 return;
8633             }
8634             if (!fp_access_check(s)) {
8635                 return;
8636             }
8637             handle_pmull_64(s, is_q, rd, rn, rm);
8638             return;
8639         }
8640         goto is_widening;
8641     case 9: /* SQDMLAL, SQDMLAL2 */
8642     case 11: /* SQDMLSL, SQDMLSL2 */
8643     case 13: /* SQDMULL, SQDMULL2 */
8644         if (is_u || size == 0) {
8645             unallocated_encoding(s);
8646             return;
8647         }
8648         /* fall through */
8649     case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
8650     case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
8651     case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
8652     case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
8653     case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
8654     case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
8655     case 12: /* SMULL, SMULL2, UMULL, UMULL2 */
8656         /* 64 x 64 -> 128 */
8657         if (size == 3) {
8658             unallocated_encoding(s);
8659             return;
8660         }
8661     is_widening:
8662         if (!fp_access_check(s)) {
8663             return;
8664         }
8665
8666         handle_3rd_widening(s, is_q, is_u, size, opcode, rd, rn, rm);
8667         break;
8668     default:
8669         /* opcode 15 not allocated */
8670         unallocated_encoding(s);
8671         break;
8672     }
8673 }
8674
8675 /* Logic op (opcode == 3) subgroup of C3.6.16. */
8676 static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
8677 {
8678     int rd = extract32(insn, 0, 5);
8679     int rn = extract32(insn, 5, 5);
8680     int rm = extract32(insn, 16, 5);
8681     int size = extract32(insn, 22, 2);
8682     bool is_u = extract32(insn, 29, 1);
8683     bool is_q = extract32(insn, 30, 1);
8684     TCGv_i64 tcg_op1, tcg_op2, tcg_res[2];
8685     int pass;
8686
8687     if (!fp_access_check(s)) {
8688         return;
8689     }
8690
8691     tcg_op1 = tcg_temp_new_i64();
8692     tcg_op2 = tcg_temp_new_i64();
8693     tcg_res[0] = tcg_temp_new_i64();
8694     tcg_res[1] = tcg_temp_new_i64();
8695
8696     for (pass = 0; pass < (is_q ? 2 : 1); pass++) {
8697         read_vec_element(s, tcg_op1, rn, pass, MO_64);
8698         read_vec_element(s, tcg_op2, rm, pass, MO_64);
8699
8700         if (!is_u) {
8701             switch (size) {
8702             case 0: /* AND */
8703                 tcg_gen_and_i64(tcg_res[pass], tcg_op1, tcg_op2);
8704                 break;
8705             case 1: /* BIC */
8706                 tcg_gen_andc_i64(tcg_res[pass], tcg_op1, tcg_op2);
8707                 break;
8708             case 2: /* ORR */
8709                 tcg_gen_or_i64(tcg_res[pass], tcg_op1, tcg_op2);
8710                 break;
8711             case 3: /* ORN */
8712                 tcg_gen_orc_i64(tcg_res[pass], tcg_op1, tcg_op2);
8713                 break;
8714             }
8715         } else {
8716             if (size != 0) {
8717                 /* B* ops need res loaded to operate on */
8718                 read_vec_element(s, tcg_res[pass], rd, pass, MO_64);
8719             }
8720
8721             switch (size) {
8722             case 0: /* EOR */
8723                 tcg_gen_xor_i64(tcg_res[pass], tcg_op1, tcg_op2);
8724                 break;
8725             case 1: /* BSL bitwise select */
8726                 tcg_gen_xor_i64(tcg_op1, tcg_op1, tcg_op2);
8727                 tcg_gen_and_i64(tcg_op1, tcg_op1, tcg_res[pass]);
8728                 tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op1);
8729                 break;
8730             case 2: /* BIT, bitwise insert if true */
8731                 tcg_gen_xor_i64(tcg_op1, tcg_op1, tcg_res[pass]);
8732                 tcg_gen_and_i64(tcg_op1, tcg_op1, tcg_op2);
8733                 tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
8734                 break;
8735             case 3: /* BIF, bitwise insert if false */
8736                 tcg_gen_xor_i64(tcg_op1, tcg_op1, tcg_res[pass]);
8737                 tcg_gen_andc_i64(tcg_op1, tcg_op1, tcg_op2);
8738                 tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
8739                 break;
8740             }
8741         }
8742     }
8743
8744     write_vec_element(s, tcg_res[0], rd, 0, MO_64);
8745     if (!is_q) {
8746         tcg_gen_movi_i64(tcg_res[1], 0);
8747     }
8748     write_vec_element(s, tcg_res[1], rd, 1, MO_64);
8749
8750     tcg_temp_free_i64(tcg_op1);
8751     tcg_temp_free_i64(tcg_op2);
8752     tcg_temp_free_i64(tcg_res[0]);
8753     tcg_temp_free_i64(tcg_res[1]);
8754 }
8755
8756 /* Helper functions for 32 bit comparisons */
8757 static void gen_max_s32(TCGv_i32 res, TCGv_i32 op1, TCGv_i32 op2)
8758 {
8759     tcg_gen_movcond_i32(TCG_COND_GE, res, op1, op2, op1, op2);
8760 }
8761
8762 static void gen_max_u32(TCGv_i32 res, TCGv_i32 op1, TCGv_i32 op2)
8763 {
8764     tcg_gen_movcond_i32(TCG_COND_GEU, res, op1, op2, op1, op2);
8765 }
8766
8767 static void gen_min_s32(TCGv_i32 res, TCGv_i32 op1, TCGv_i32 op2)
8768 {
8769     tcg_gen_movcond_i32(TCG_COND_LE, res, op1, op2, op1, op2);
8770 }
8771
8772 static void gen_min_u32(TCGv_i32 res, TCGv_i32 op1, TCGv_i32 op2)
8773 {
8774     tcg_gen_movcond_i32(TCG_COND_LEU, res, op1, op2, op1, op2);
8775 }
8776
8777 /* Pairwise op subgroup of C3.6.16.
8778  *
8779  * This is called directly or via the handle_3same_float for float pairwise
8780  * operations where the opcode and size are calculated differently.
8781  */
8782 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
8783                                    int size, int rn, int rm, int rd)
8784 {
8785     TCGv_ptr fpst;
8786     int pass;
8787
8788     /* Floating point operations need fpst */
8789     if (opcode >= 0x58) {
8790         fpst = get_fpstatus_ptr();
8791     } else {
8792         TCGV_UNUSED_PTR(fpst);
8793     }
8794
8795     if (!fp_access_check(s)) {
8796         return;
8797     }
8798
8799     /* These operations work on the concatenated rm:rn, with each pair of
8800      * adjacent elements being operated on to produce an element in the result.
8801      */
8802     if (size == 3) {
8803         TCGv_i64 tcg_res[2];
8804
8805         for (pass = 0; pass < 2; pass++) {
8806             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
8807             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
8808             int passreg = (pass == 0) ? rn : rm;
8809
8810             read_vec_element(s, tcg_op1, passreg, 0, MO_64);
8811             read_vec_element(s, tcg_op2, passreg, 1, MO_64);
8812             tcg_res[pass] = tcg_temp_new_i64();
8813
8814             switch (opcode) {
8815             case 0x17: /* ADDP */
8816                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
8817                 break;
8818             case 0x58: /* FMAXNMP */
8819                 gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8820                 break;
8821             case 0x5a: /* FADDP */
8822                 gen_helper_vfp_addd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8823                 break;
8824             case 0x5e: /* FMAXP */
8825                 gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8826                 break;
8827             case 0x78: /* FMINNMP */
8828                 gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8829                 break;
8830             case 0x7e: /* FMINP */
8831                 gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8832                 break;
8833             default:
8834                 g_assert_not_reached();
8835             }
8836
8837             tcg_temp_free_i64(tcg_op1);
8838             tcg_temp_free_i64(tcg_op2);
8839         }
8840
8841         for (pass = 0; pass < 2; pass++) {
8842             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
8843             tcg_temp_free_i64(tcg_res[pass]);
8844         }
8845     } else {
8846         int maxpass = is_q ? 4 : 2;
8847         TCGv_i32 tcg_res[4];
8848
8849         for (pass = 0; pass < maxpass; pass++) {
8850             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
8851             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
8852             NeonGenTwoOpFn *genfn = NULL;
8853             int passreg = pass < (maxpass / 2) ? rn : rm;
8854             int passelt = (is_q && (pass & 1)) ? 2 : 0;
8855
8856             read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_32);
8857             read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_32);
8858             tcg_res[pass] = tcg_temp_new_i32();
8859
8860             switch (opcode) {
8861             case 0x17: /* ADDP */
8862             {
8863                 static NeonGenTwoOpFn * const fns[3] = {
8864                     gen_helper_neon_padd_u8,
8865                     gen_helper_neon_padd_u16,
8866                     tcg_gen_add_i32,
8867                 };
8868                 genfn = fns[size];
8869                 break;
8870             }
8871             case 0x14: /* SMAXP, UMAXP */
8872             {
8873                 static NeonGenTwoOpFn * const fns[3][2] = {
8874                     { gen_helper_neon_pmax_s8, gen_helper_neon_pmax_u8 },
8875                     { gen_helper_neon_pmax_s16, gen_helper_neon_pmax_u16 },
8876                     { gen_max_s32, gen_max_u32 },
8877                 };
8878                 genfn = fns[size][u];
8879                 break;
8880             }
8881             case 0x15: /* SMINP, UMINP */
8882             {
8883                 static NeonGenTwoOpFn * const fns[3][2] = {
8884                     { gen_helper_neon_pmin_s8, gen_helper_neon_pmin_u8 },
8885                     { gen_helper_neon_pmin_s16, gen_helper_neon_pmin_u16 },
8886                     { gen_min_s32, gen_min_u32 },
8887                 };
8888                 genfn = fns[size][u];
8889                 break;
8890             }
8891             /* The FP operations are all on single floats (32 bit) */
8892             case 0x58: /* FMAXNMP */
8893                 gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8894                 break;
8895             case 0x5a: /* FADDP */
8896                 gen_helper_vfp_adds(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8897                 break;
8898             case 0x5e: /* FMAXP */
8899                 gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8900                 break;
8901             case 0x78: /* FMINNMP */
8902                 gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8903                 break;
8904             case 0x7e: /* FMINP */
8905                 gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
8906                 break;
8907             default:
8908                 g_assert_not_reached();
8909             }
8910
8911             /* FP ops called directly, otherwise call now */
8912             if (genfn) {
8913                 genfn(tcg_res[pass], tcg_op1, tcg_op2);
8914             }
8915
8916             tcg_temp_free_i32(tcg_op1);
8917             tcg_temp_free_i32(tcg_op2);
8918         }
8919
8920         for (pass = 0; pass < maxpass; pass++) {
8921             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
8922             tcg_temp_free_i32(tcg_res[pass]);
8923         }
8924         if (!is_q) {
8925             clear_vec_high(s, rd);
8926         }
8927     }
8928
8929     if (!TCGV_IS_UNUSED_PTR(fpst)) {
8930         tcg_temp_free_ptr(fpst);
8931     }
8932 }
8933
8934 /* Floating point op subgroup of C3.6.16. */
8935 static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
8936 {
8937     /* For floating point ops, the U, size[1] and opcode bits
8938      * together indicate the operation. size[0] indicates single
8939      * or double.
8940      */
8941     int fpopcode = extract32(insn, 11, 5)
8942         | (extract32(insn, 23, 1) << 5)
8943         | (extract32(insn, 29, 1) << 6);
8944     int is_q = extract32(insn, 30, 1);
8945     int size = extract32(insn, 22, 1);
8946     int rm = extract32(insn, 16, 5);
8947     int rn = extract32(insn, 5, 5);
8948     int rd = extract32(insn, 0, 5);
8949
8950     int datasize = is_q ? 128 : 64;
8951     int esize = 32 << size;
8952     int elements = datasize / esize;
8953
8954     if (size == 1 && !is_q) {
8955         unallocated_encoding(s);
8956         return;
8957     }
8958
8959     switch (fpopcode) {
8960     case 0x58: /* FMAXNMP */
8961     case 0x5a: /* FADDP */
8962     case 0x5e: /* FMAXP */
8963     case 0x78: /* FMINNMP */
8964     case 0x7e: /* FMINP */
8965         if (size && !is_q) {
8966             unallocated_encoding(s);
8967             return;
8968         }
8969         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
8970                                rn, rm, rd);
8971         return;
8972     case 0x1b: /* FMULX */
8973     case 0x1f: /* FRECPS */
8974     case 0x3f: /* FRSQRTS */
8975     case 0x5d: /* FACGE */
8976     case 0x7d: /* FACGT */
8977     case 0x19: /* FMLA */
8978     case 0x39: /* FMLS */
8979     case 0x18: /* FMAXNM */
8980     case 0x1a: /* FADD */
8981     case 0x1c: /* FCMEQ */
8982     case 0x1e: /* FMAX */
8983     case 0x38: /* FMINNM */
8984     case 0x3a: /* FSUB */
8985     case 0x3e: /* FMIN */
8986     case 0x5b: /* FMUL */
8987     case 0x5c: /* FCMGE */
8988     case 0x5f: /* FDIV */
8989     case 0x7a: /* FABD */
8990     case 0x7c: /* FCMGT */
8991         if (!fp_access_check(s)) {
8992             return;
8993         }
8994
8995         handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
8996         return;
8997     default:
8998         unallocated_encoding(s);
8999         return;
9000     }
9001 }
9002
9003 /* Integer op subgroup of C3.6.16. */
9004 static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
9005 {
9006     int is_q = extract32(insn, 30, 1);
9007     int u = extract32(insn, 29, 1);
9008     int size = extract32(insn, 22, 2);
9009     int opcode = extract32(insn, 11, 5);
9010     int rm = extract32(insn, 16, 5);
9011     int rn = extract32(insn, 5, 5);
9012     int rd = extract32(insn, 0, 5);
9013     int pass;
9014
9015     switch (opcode) {
9016     case 0x13: /* MUL, PMUL */
9017         if (u && size != 0) {
9018             unallocated_encoding(s);
9019             return;
9020         }
9021         /* fall through */
9022     case 0x0: /* SHADD, UHADD */
9023     case 0x2: /* SRHADD, URHADD */
9024     case 0x4: /* SHSUB, UHSUB */
9025     case 0xc: /* SMAX, UMAX */
9026     case 0xd: /* SMIN, UMIN */
9027     case 0xe: /* SABD, UABD */
9028     case 0xf: /* SABA, UABA */
9029     case 0x12: /* MLA, MLS */
9030         if (size == 3) {
9031             unallocated_encoding(s);
9032             return;
9033         }
9034         break;
9035     case 0x16: /* SQDMULH, SQRDMULH */
9036         if (size == 0 || size == 3) {
9037             unallocated_encoding(s);
9038             return;
9039         }
9040         break;
9041     default:
9042         if (size == 3 && !is_q) {
9043             unallocated_encoding(s);
9044             return;
9045         }
9046         break;
9047     }
9048
9049     if (!fp_access_check(s)) {
9050         return;
9051     }
9052
9053     if (size == 3) {
9054         for (pass = 0; pass < (is_q ? 2 : 1); pass++) {
9055             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
9056             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
9057             TCGv_i64 tcg_res = tcg_temp_new_i64();
9058
9059             read_vec_element(s, tcg_op1, rn, pass, MO_64);
9060             read_vec_element(s, tcg_op2, rm, pass, MO_64);
9061
9062             handle_3same_64(s, opcode, u, tcg_res, tcg_op1, tcg_op2);
9063
9064             write_vec_element(s, tcg_res, rd, pass, MO_64);
9065
9066             tcg_temp_free_i64(tcg_res);
9067             tcg_temp_free_i64(tcg_op1);
9068             tcg_temp_free_i64(tcg_op2);
9069         }
9070     } else {
9071         for (pass = 0; pass < (is_q ? 4 : 2); pass++) {
9072             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
9073             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
9074             TCGv_i32 tcg_res = tcg_temp_new_i32();
9075             NeonGenTwoOpFn *genfn = NULL;
9076             NeonGenTwoOpEnvFn *genenvfn = NULL;
9077
9078             read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
9079             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
9080
9081             switch (opcode) {
9082             case 0x0: /* SHADD, UHADD */
9083             {
9084                 static NeonGenTwoOpFn * const fns[3][2] = {
9085                     { gen_helper_neon_hadd_s8, gen_helper_neon_hadd_u8 },
9086                     { gen_helper_neon_hadd_s16, gen_helper_neon_hadd_u16 },
9087                     { gen_helper_neon_hadd_s32, gen_helper_neon_hadd_u32 },
9088                 };
9089                 genfn = fns[size][u];
9090                 break;
9091             }
9092             case 0x1: /* SQADD, UQADD */
9093             {
9094                 static NeonGenTwoOpEnvFn * const fns[3][2] = {
9095                     { gen_helper_neon_qadd_s8, gen_helper_neon_qadd_u8 },
9096                     { gen_helper_neon_qadd_s16, gen_helper_neon_qadd_u16 },
9097                     { gen_helper_neon_qadd_s32, gen_helper_neon_qadd_u32 },
9098                 };
9099                 genenvfn = fns[size][u];
9100                 break;
9101             }
9102             case 0x2: /* SRHADD, URHADD */
9103             {
9104                 static NeonGenTwoOpFn * const fns[3][2] = {
9105                     { gen_helper_neon_rhadd_s8, gen_helper_neon_rhadd_u8 },
9106                     { gen_helper_neon_rhadd_s16, gen_helper_neon_rhadd_u16 },
9107                     { gen_helper_neon_rhadd_s32, gen_helper_neon_rhadd_u32 },
9108                 };
9109                 genfn = fns[size][u];
9110                 break;
9111             }
9112             case 0x4: /* SHSUB, UHSUB */
9113             {
9114                 static NeonGenTwoOpFn * const fns[3][2] = {
9115                     { gen_helper_neon_hsub_s8, gen_helper_neon_hsub_u8 },
9116                     { gen_helper_neon_hsub_s16, gen_helper_neon_hsub_u16 },
9117                     { gen_helper_neon_hsub_s32, gen_helper_neon_hsub_u32 },
9118                 };
9119                 genfn = fns[size][u];
9120                 break;
9121             }
9122             case 0x5: /* SQSUB, UQSUB */
9123             {
9124                 static NeonGenTwoOpEnvFn * const fns[3][2] = {
9125                     { gen_helper_neon_qsub_s8, gen_helper_neon_qsub_u8 },
9126                     { gen_helper_neon_qsub_s16, gen_helper_neon_qsub_u16 },
9127                     { gen_helper_neon_qsub_s32, gen_helper_neon_qsub_u32 },
9128                 };
9129                 genenvfn = fns[size][u];
9130                 break;
9131             }
9132             case 0x6: /* CMGT, CMHI */
9133             {
9134                 static NeonGenTwoOpFn * const fns[3][2] = {
9135                     { gen_helper_neon_cgt_s8, gen_helper_neon_cgt_u8 },
9136                     { gen_helper_neon_cgt_s16, gen_helper_neon_cgt_u16 },
9137                     { gen_helper_neon_cgt_s32, gen_helper_neon_cgt_u32 },
9138                 };
9139                 genfn = fns[size][u];
9140                 break;
9141             }
9142             case 0x7: /* CMGE, CMHS */
9143             {
9144                 static NeonGenTwoOpFn * const fns[3][2] = {
9145                     { gen_helper_neon_cge_s8, gen_helper_neon_cge_u8 },
9146                     { gen_helper_neon_cge_s16, gen_helper_neon_cge_u16 },
9147                     { gen_helper_neon_cge_s32, gen_helper_neon_cge_u32 },
9148                 };
9149                 genfn = fns[size][u];
9150                 break;
9151             }
9152             case 0x8: /* SSHL, USHL */
9153             {
9154                 static NeonGenTwoOpFn * const fns[3][2] = {
9155                     { gen_helper_neon_shl_s8, gen_helper_neon_shl_u8 },
9156                     { gen_helper_neon_shl_s16, gen_helper_neon_shl_u16 },
9157                     { gen_helper_neon_shl_s32, gen_helper_neon_shl_u32 },
9158                 };
9159                 genfn = fns[size][u];
9160                 break;
9161             }
9162             case 0x9: /* SQSHL, UQSHL */
9163             {
9164                 static NeonGenTwoOpEnvFn * const fns[3][2] = {
9165                     { gen_helper_neon_qshl_s8, gen_helper_neon_qshl_u8 },
9166                     { gen_helper_neon_qshl_s16, gen_helper_neon_qshl_u16 },
9167                     { gen_helper_neon_qshl_s32, gen_helper_neon_qshl_u32 },
9168                 };
9169                 genenvfn = fns[size][u];
9170                 break;
9171             }
9172             case 0xa: /* SRSHL, URSHL */
9173             {
9174                 static NeonGenTwoOpFn * const fns[3][2] = {
9175                     { gen_helper_neon_rshl_s8, gen_helper_neon_rshl_u8 },
9176                     { gen_helper_neon_rshl_s16, gen_helper_neon_rshl_u16 },
9177                     { gen_helper_neon_rshl_s32, gen_helper_neon_rshl_u32 },
9178                 };
9179                 genfn = fns[size][u];
9180                 break;
9181             }
9182             case 0xb: /* SQRSHL, UQRSHL */
9183             {
9184                 static NeonGenTwoOpEnvFn * const fns[3][2] = {
9185                     { gen_helper_neon_qrshl_s8, gen_helper_neon_qrshl_u8 },
9186                     { gen_helper_neon_qrshl_s16, gen_helper_neon_qrshl_u16 },
9187                     { gen_helper_neon_qrshl_s32, gen_helper_neon_qrshl_u32 },
9188                 };
9189                 genenvfn = fns[size][u];
9190                 break;
9191             }
9192             case 0xc: /* SMAX, UMAX */
9193             {
9194                 static NeonGenTwoOpFn * const fns[3][2] = {
9195                     { gen_helper_neon_max_s8, gen_helper_neon_max_u8 },
9196                     { gen_helper_neon_max_s16, gen_helper_neon_max_u16 },
9197                     { gen_max_s32, gen_max_u32 },
9198                 };
9199                 genfn = fns[size][u];
9200                 break;
9201             }
9202
9203             case 0xd: /* SMIN, UMIN */
9204             {
9205                 static NeonGenTwoOpFn * const fns[3][2] = {
9206                     { gen_helper_neon_min_s8, gen_helper_neon_min_u8 },
9207                     { gen_helper_neon_min_s16, gen_helper_neon_min_u16 },
9208                     { gen_min_s32, gen_min_u32 },
9209                 };
9210                 genfn = fns[size][u];
9211                 break;
9212             }
9213             case 0xe: /* SABD, UABD */
9214             case 0xf: /* SABA, UABA */
9215             {
9216                 static NeonGenTwoOpFn * const fns[3][2] = {
9217                     { gen_helper_neon_abd_s8, gen_helper_neon_abd_u8 },
9218                     { gen_helper_neon_abd_s16, gen_helper_neon_abd_u16 },
9219                     { gen_helper_neon_abd_s32, gen_helper_neon_abd_u32 },
9220                 };
9221                 genfn = fns[size][u];
9222                 break;
9223             }
9224             case 0x10: /* ADD, SUB */
9225             {
9226                 static NeonGenTwoOpFn * const fns[3][2] = {
9227                     { gen_helper_neon_add_u8, gen_helper_neon_sub_u8 },
9228                     { gen_helper_neon_add_u16, gen_helper_neon_sub_u16 },
9229                     { tcg_gen_add_i32, tcg_gen_sub_i32 },
9230                 };
9231                 genfn = fns[size][u];
9232                 break;
9233             }
9234             case 0x11: /* CMTST, CMEQ */
9235             {
9236                 static NeonGenTwoOpFn * const fns[3][2] = {
9237                     { gen_helper_neon_tst_u8, gen_helper_neon_ceq_u8 },
9238                     { gen_helper_neon_tst_u16, gen_helper_neon_ceq_u16 },
9239                     { gen_helper_neon_tst_u32, gen_helper_neon_ceq_u32 },
9240                 };
9241                 genfn = fns[size][u];
9242                 break;
9243             }
9244             case 0x13: /* MUL, PMUL */
9245                 if (u) {
9246                     /* PMUL */
9247                     assert(size == 0);
9248                     genfn = gen_helper_neon_mul_p8;
9249                     break;
9250                 }
9251                 /* fall through : MUL */
9252             case 0x12: /* MLA, MLS */
9253             {
9254                 static NeonGenTwoOpFn * const fns[3] = {
9255                     gen_helper_neon_mul_u8,
9256                     gen_helper_neon_mul_u16,
9257                     tcg_gen_mul_i32,
9258                 };
9259                 genfn = fns[size];
9260                 break;
9261             }
9262             case 0x16: /* SQDMULH, SQRDMULH */
9263             {
9264                 static NeonGenTwoOpEnvFn * const fns[2][2] = {
9265                     { gen_helper_neon_qdmulh_s16, gen_helper_neon_qrdmulh_s16 },
9266                     { gen_helper_neon_qdmulh_s32, gen_helper_neon_qrdmulh_s32 },
9267                 };
9268                 assert(size == 1 || size == 2);
9269                 genenvfn = fns[size - 1][u];
9270                 break;
9271             }
9272             default:
9273                 g_assert_not_reached();
9274             }
9275
9276             if (genenvfn) {
9277                 genenvfn(tcg_res, cpu_env, tcg_op1, tcg_op2);
9278             } else {
9279                 genfn(tcg_res, tcg_op1, tcg_op2);
9280             }
9281
9282             if (opcode == 0xf || opcode == 0x12) {
9283                 /* SABA, UABA, MLA, MLS: accumulating ops */
9284                 static NeonGenTwoOpFn * const fns[3][2] = {
9285                     { gen_helper_neon_add_u8, gen_helper_neon_sub_u8 },
9286                     { gen_helper_neon_add_u16, gen_helper_neon_sub_u16 },
9287                     { tcg_gen_add_i32, tcg_gen_sub_i32 },
9288                 };
9289                 bool is_sub = (opcode == 0x12 && u); /* MLS */
9290
9291                 genfn = fns[size][is_sub];
9292                 read_vec_element_i32(s, tcg_op1, rd, pass, MO_32);
9293                 genfn(tcg_res, tcg_op1, tcg_res);
9294             }
9295
9296             write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
9297
9298             tcg_temp_free_i32(tcg_res);
9299             tcg_temp_free_i32(tcg_op1);
9300             tcg_temp_free_i32(tcg_op2);
9301         }
9302     }
9303
9304     if (!is_q) {
9305         clear_vec_high(s, rd);
9306     }
9307 }
9308
9309 /* C3.6.16 AdvSIMD three same
9310  *  31  30  29  28       24 23  22  21 20  16 15    11  10 9    5 4    0
9311  * +---+---+---+-----------+------+---+------+--------+---+------+------+
9312  * | 0 | Q | U | 0 1 1 1 0 | size | 1 |  Rm  | opcode | 1 |  Rn  |  Rd  |
9313  * +---+---+---+-----------+------+---+------+--------+---+------+------+
9314  */
9315 static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
9316 {
9317     int opcode = extract32(insn, 11, 5);
9318
9319     switch (opcode) {
9320     case 0x3: /* logic ops */
9321         disas_simd_3same_logic(s, insn);
9322         break;
9323     case 0x17: /* ADDP */
9324     case 0x14: /* SMAXP, UMAXP */
9325     case 0x15: /* SMINP, UMINP */
9326     {
9327         /* Pairwise operations */
9328         int is_q = extract32(insn, 30, 1);
9329         int u = extract32(insn, 29, 1);
9330         int size = extract32(insn, 22, 2);
9331         int rm = extract32(insn, 16, 5);
9332         int rn = extract32(insn, 5, 5);
9333         int rd = extract32(insn, 0, 5);
9334         if (opcode == 0x17) {
9335             if (u || (size == 3 && !is_q)) {
9336                 unallocated_encoding(s);
9337                 return;
9338             }
9339         } else {
9340             if (size == 3) {
9341                 unallocated_encoding(s);
9342                 return;
9343             }
9344         }
9345         handle_simd_3same_pair(s, is_q, u, opcode, size, rn, rm, rd);
9346         break;
9347     }
9348     case 0x18 ... 0x31:
9349         /* floating point ops, sz[1] and U are part of opcode */
9350         disas_simd_3same_float(s, insn);
9351         break;
9352     default:
9353         disas_simd_3same_int(s, insn);
9354         break;
9355     }
9356 }
9357
9358 static void handle_2misc_widening(DisasContext *s, int opcode, bool is_q,
9359                                   int size, int rn, int rd)
9360 {
9361     /* Handle 2-reg-misc ops which are widening (so each size element
9362      * in the source becomes a 2*size element in the destination.
9363      * The only instruction like this is FCVTL.
9364      */
9365     int pass;
9366
9367     if (size == 3) {
9368         /* 32 -> 64 bit fp conversion */
9369         TCGv_i64 tcg_res[2];
9370         int srcelt = is_q ? 2 : 0;
9371
9372         for (pass = 0; pass < 2; pass++) {
9373             TCGv_i32 tcg_op = tcg_temp_new_i32();
9374             tcg_res[pass] = tcg_temp_new_i64();
9375
9376             read_vec_element_i32(s, tcg_op, rn, srcelt + pass, MO_32);
9377             gen_helper_vfp_fcvtds(tcg_res[pass], tcg_op, cpu_env);
9378             tcg_temp_free_i32(tcg_op);
9379         }
9380         for (pass = 0; pass < 2; pass++) {
9381             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
9382             tcg_temp_free_i64(tcg_res[pass]);
9383         }
9384     } else {
9385         /* 16 -> 32 bit fp conversion */
9386         int srcelt = is_q ? 4 : 0;
9387         TCGv_i32 tcg_res[4];
9388
9389         for (pass = 0; pass < 4; pass++) {
9390             tcg_res[pass] = tcg_temp_new_i32();
9391
9392             read_vec_element_i32(s, tcg_res[pass], rn, srcelt + pass, MO_16);
9393             gen_helper_vfp_fcvt_f16_to_f32(tcg_res[pass], tcg_res[pass],
9394                                            cpu_env);
9395         }
9396         for (pass = 0; pass < 4; pass++) {
9397             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
9398             tcg_temp_free_i32(tcg_res[pass]);
9399         }
9400     }
9401 }
9402
9403 static void handle_rev(DisasContext *s, int opcode, bool u,
9404                        bool is_q, int size, int rn, int rd)
9405 {
9406     int op = (opcode << 1) | u;
9407     int opsz = op + size;
9408     int grp_size = 3 - opsz;
9409     int dsize = is_q ? 128 : 64;
9410     int i;
9411
9412     if (opsz >= 3) {
9413         unallocated_encoding(s);
9414         return;
9415     }
9416
9417     if (!fp_access_check(s)) {
9418         return;
9419     }
9420
9421     if (size == 0) {
9422         /* Special case bytes, use bswap op on each group of elements */
9423         int groups = dsize / (8 << grp_size);
9424
9425         for (i = 0; i < groups; i++) {
9426             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
9427
9428             read_vec_element(s, tcg_tmp, rn, i, grp_size);
9429             switch (grp_size) {
9430             case MO_16:
9431                 tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp);
9432                 break;
9433             case MO_32:
9434                 tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
9435                 break;
9436             case MO_64:
9437                 tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
9438                 break;
9439             default:
9440                 g_assert_not_reached();
9441             }
9442             write_vec_element(s, tcg_tmp, rd, i, grp_size);
9443             tcg_temp_free_i64(tcg_tmp);
9444         }
9445         if (!is_q) {
9446             clear_vec_high(s, rd);
9447         }
9448     } else {
9449         int revmask = (1 << grp_size) - 1;
9450         int esize = 8 << size;
9451         int elements = dsize / esize;
9452         TCGv_i64 tcg_rn = tcg_temp_new_i64();
9453         TCGv_i64 tcg_rd = tcg_const_i64(0);
9454         TCGv_i64 tcg_rd_hi = tcg_const_i64(0);
9455
9456         for (i = 0; i < elements; i++) {
9457             int e_rev = (i & 0xf) ^ revmask;
9458             int off = e_rev * esize;
9459             read_vec_element(s, tcg_rn, rn, i, size);
9460             if (off >= 64) {
9461                 tcg_gen_deposit_i64(tcg_rd_hi, tcg_rd_hi,
9462                                     tcg_rn, off - 64, esize);
9463             } else {
9464                 tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, off, esize);
9465             }
9466         }
9467         write_vec_element(s, tcg_rd, rd, 0, MO_64);
9468         write_vec_element(s, tcg_rd_hi, rd, 1, MO_64);
9469
9470         tcg_temp_free_i64(tcg_rd_hi);
9471         tcg_temp_free_i64(tcg_rd);
9472         tcg_temp_free_i64(tcg_rn);
9473     }
9474 }
9475
9476 static void handle_2misc_pairwise(DisasContext *s, int opcode, bool u,
9477                                   bool is_q, int size, int rn, int rd)
9478 {
9479     /* Implement the pairwise operations from 2-misc:
9480      * SADDLP, UADDLP, SADALP, UADALP.
9481      * These all add pairs of elements in the input to produce a
9482      * double-width result element in the output (possibly accumulating).
9483      */
9484     bool accum = (opcode == 0x6);
9485     int maxpass = is_q ? 2 : 1;
9486     int pass;
9487     TCGv_i64 tcg_res[2];
9488
9489     if (size == 2) {
9490         /* 32 + 32 -> 64 op */
9491         TCGMemOp memop = size + (u ? 0 : MO_SIGN);
9492
9493         for (pass = 0; pass < maxpass; pass++) {
9494             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
9495             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
9496
9497             tcg_res[pass] = tcg_temp_new_i64();
9498
9499             read_vec_element(s, tcg_op1, rn, pass * 2, memop);
9500             read_vec_element(s, tcg_op2, rn, pass * 2 + 1, memop);
9501             tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
9502             if (accum) {
9503                 read_vec_element(s, tcg_op1, rd, pass, MO_64);
9504                 tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
9505             }
9506
9507             tcg_temp_free_i64(tcg_op1);
9508             tcg_temp_free_i64(tcg_op2);
9509         }
9510     } else {
9511         for (pass = 0; pass < maxpass; pass++) {
9512             TCGv_i64 tcg_op = tcg_temp_new_i64();
9513             NeonGenOneOpFn *genfn;
9514             static NeonGenOneOpFn * const fns[2][2] = {
9515                 { gen_helper_neon_addlp_s8,  gen_helper_neon_addlp_u8 },
9516                 { gen_helper_neon_addlp_s16,  gen_helper_neon_addlp_u16 },
9517             };
9518
9519             genfn = fns[size][u];
9520
9521             tcg_res[pass] = tcg_temp_new_i64();
9522
9523             read_vec_element(s, tcg_op, rn, pass, MO_64);
9524             genfn(tcg_res[pass], tcg_op);
9525
9526             if (accum) {
9527                 read_vec_element(s, tcg_op, rd, pass, MO_64);
9528                 if (size == 0) {
9529                     gen_helper_neon_addl_u16(tcg_res[pass],
9530                                              tcg_res[pass], tcg_op);
9531                 } else {
9532                     gen_helper_neon_addl_u32(tcg_res[pass],
9533                                              tcg_res[pass], tcg_op);
9534                 }
9535             }
9536             tcg_temp_free_i64(tcg_op);
9537         }
9538     }
9539     if (!is_q) {
9540         tcg_res[1] = tcg_const_i64(0);
9541     }
9542     for (pass = 0; pass < 2; pass++) {
9543         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
9544         tcg_temp_free_i64(tcg_res[pass]);
9545     }
9546 }
9547
9548 static void handle_shll(DisasContext *s, bool is_q, int size, int rn, int rd)
9549 {
9550     /* Implement SHLL and SHLL2 */
9551     int pass;
9552     int part = is_q ? 2 : 0;
9553     TCGv_i64 tcg_res[2];
9554
9555     for (pass = 0; pass < 2; pass++) {
9556         static NeonGenWidenFn * const widenfns[3] = {
9557             gen_helper_neon_widen_u8,
9558             gen_helper_neon_widen_u16,
9559             tcg_gen_extu_i32_i64,
9560         };
9561         NeonGenWidenFn *widenfn = widenfns[size];
9562         TCGv_i32 tcg_op = tcg_temp_new_i32();
9563
9564         read_vec_element_i32(s, tcg_op, rn, part + pass, MO_32);
9565         tcg_res[pass] = tcg_temp_new_i64();
9566         widenfn(tcg_res[pass], tcg_op);
9567         tcg_gen_shli_i64(tcg_res[pass], tcg_res[pass], 8 << size);
9568
9569         tcg_temp_free_i32(tcg_op);
9570     }
9571
9572     for (pass = 0; pass < 2; pass++) {
9573         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
9574         tcg_temp_free_i64(tcg_res[pass]);
9575     }
9576 }
9577
9578 /* C3.6.17 AdvSIMD two reg misc
9579  *   31  30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
9580  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
9581  * | 0 | Q | U | 0 1 1 1 0 | size | 1 0 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
9582  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
9583  */
9584 static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
9585 {
9586     int size = extract32(insn, 22, 2);
9587     int opcode = extract32(insn, 12, 5);
9588     bool u = extract32(insn, 29, 1);
9589     bool is_q = extract32(insn, 30, 1);
9590     int rn = extract32(insn, 5, 5);
9591     int rd = extract32(insn, 0, 5);
9592     bool need_fpstatus = false;
9593     bool need_rmode = false;
9594     int rmode = -1;
9595     TCGv_i32 tcg_rmode;
9596     TCGv_ptr tcg_fpstatus;
9597
9598     switch (opcode) {
9599     case 0x0: /* REV64, REV32 */
9600     case 0x1: /* REV16 */
9601         handle_rev(s, opcode, u, is_q, size, rn, rd);
9602         return;
9603     case 0x5: /* CNT, NOT, RBIT */
9604         if (u && size == 0) {
9605             /* NOT: adjust size so we can use the 64-bits-at-a-time loop. */
9606             size = 3;
9607             break;
9608         } else if (u && size == 1) {
9609             /* RBIT */
9610             break;
9611         } else if (!u && size == 0) {
9612             /* CNT */
9613             break;
9614         }
9615         unallocated_encoding(s);
9616         return;
9617     case 0x12: /* XTN, XTN2, SQXTUN, SQXTUN2 */
9618     case 0x14: /* SQXTN, SQXTN2, UQXTN, UQXTN2 */
9619         if (size == 3) {
9620             unallocated_encoding(s);
9621             return;
9622         }
9623         if (!fp_access_check(s)) {
9624             return;
9625         }
9626
9627         handle_2misc_narrow(s, false, opcode, u, is_q, size, rn, rd);
9628         return;
9629     case 0x4: /* CLS, CLZ */
9630         if (size == 3) {
9631             unallocated_encoding(s);
9632             return;
9633         }
9634         break;
9635     case 0x2: /* SADDLP, UADDLP */
9636     case 0x6: /* SADALP, UADALP */
9637         if (size == 3) {
9638             unallocated_encoding(s);
9639             return;
9640         }
9641         if (!fp_access_check(s)) {
9642             return;
9643         }
9644         handle_2misc_pairwise(s, opcode, u, is_q, size, rn, rd);
9645         return;
9646     case 0x13: /* SHLL, SHLL2 */
9647         if (u == 0 || size == 3) {
9648             unallocated_encoding(s);
9649             return;
9650         }
9651         if (!fp_access_check(s)) {
9652             return;
9653         }
9654         handle_shll(s, is_q, size, rn, rd);
9655         return;
9656     case 0xa: /* CMLT */
9657         if (u == 1) {
9658             unallocated_encoding(s);
9659             return;
9660         }
9661         /* fall through */
9662     case 0x8: /* CMGT, CMGE */
9663     case 0x9: /* CMEQ, CMLE */
9664     case 0xb: /* ABS, NEG */
9665         if (size == 3 && !is_q) {
9666             unallocated_encoding(s);
9667             return;
9668         }
9669         break;
9670     case 0x3: /* SUQADD, USQADD */
9671         if (size == 3 && !is_q) {
9672             unallocated_encoding(s);
9673             return;
9674         }
9675         if (!fp_access_check(s)) {
9676             return;
9677         }
9678         handle_2misc_satacc(s, false, u, is_q, size, rn, rd);
9679         return;
9680     case 0x7: /* SQABS, SQNEG */
9681         if (size == 3 && !is_q) {
9682             unallocated_encoding(s);
9683             return;
9684         }
9685         break;
9686     case 0xc ... 0xf:
9687     case 0x16 ... 0x1d:
9688     case 0x1f:
9689     {
9690         /* Floating point: U, size[1] and opcode indicate operation;
9691          * size[0] indicates single or double precision.
9692          */
9693         int is_double = extract32(size, 0, 1);
9694         opcode |= (extract32(size, 1, 1) << 5) | (u << 6);
9695         size = is_double ? 3 : 2;
9696         switch (opcode) {
9697         case 0x2f: /* FABS */
9698         case 0x6f: /* FNEG */
9699             if (size == 3 && !is_q) {
9700                 unallocated_encoding(s);
9701                 return;
9702             }
9703             break;
9704         case 0x1d: /* SCVTF */
9705         case 0x5d: /* UCVTF */
9706         {
9707             bool is_signed = (opcode == 0x1d) ? true : false;
9708             int elements = is_double ? 2 : is_q ? 4 : 2;
9709             if (is_double && !is_q) {
9710                 unallocated_encoding(s);
9711                 return;
9712             }
9713             if (!fp_access_check(s)) {
9714                 return;
9715             }
9716             handle_simd_intfp_conv(s, rd, rn, elements, is_signed, 0, size);
9717             return;
9718         }
9719         case 0x2c: /* FCMGT (zero) */
9720         case 0x2d: /* FCMEQ (zero) */
9721         case 0x2e: /* FCMLT (zero) */
9722         case 0x6c: /* FCMGE (zero) */
9723         case 0x6d: /* FCMLE (zero) */
9724             if (size == 3 && !is_q) {
9725                 unallocated_encoding(s);
9726                 return;
9727             }
9728             handle_2misc_fcmp_zero(s, opcode, false, u, is_q, size, rn, rd);
9729             return;
9730         case 0x7f: /* FSQRT */
9731             if (size == 3 && !is_q) {
9732                 unallocated_encoding(s);
9733                 return;
9734             }
9735             break;
9736         case 0x1a: /* FCVTNS */
9737         case 0x1b: /* FCVTMS */
9738         case 0x3a: /* FCVTPS */
9739         case 0x3b: /* FCVTZS */
9740         case 0x5a: /* FCVTNU */
9741         case 0x5b: /* FCVTMU */
9742         case 0x7a: /* FCVTPU */
9743         case 0x7b: /* FCVTZU */
9744             need_fpstatus = true;
9745             need_rmode = true;
9746             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
9747             if (size == 3 && !is_q) {
9748                 unallocated_encoding(s);
9749                 return;
9750             }
9751             break;
9752         case 0x5c: /* FCVTAU */
9753         case 0x1c: /* FCVTAS */
9754             need_fpstatus = true;
9755             need_rmode = true;
9756             rmode = FPROUNDING_TIEAWAY;
9757             if (size == 3 && !is_q) {
9758                 unallocated_encoding(s);
9759                 return;
9760             }
9761             break;
9762         case 0x3c: /* URECPE */
9763             if (size == 3) {
9764                 unallocated_encoding(s);
9765                 return;
9766             }
9767             /* fall through */
9768         case 0x3d: /* FRECPE */
9769         case 0x7d: /* FRSQRTE */
9770             if (size == 3 && !is_q) {
9771                 unallocated_encoding(s);
9772                 return;
9773             }
9774             if (!fp_access_check(s)) {
9775                 return;
9776             }
9777             handle_2misc_reciprocal(s, opcode, false, u, is_q, size, rn, rd);
9778             return;
9779         case 0x56: /* FCVTXN, FCVTXN2 */
9780             if (size == 2) {
9781                 unallocated_encoding(s);
9782                 return;
9783             }
9784             /* fall through */
9785         case 0x16: /* FCVTN, FCVTN2 */
9786             /* handle_2misc_narrow does a 2*size -> size operation, but these
9787              * instructions encode the source size rather than dest size.
9788              */
9789             if (!fp_access_check(s)) {
9790                 return;
9791             }
9792             handle_2misc_narrow(s, false, opcode, 0, is_q, size - 1, rn, rd);
9793             return;
9794         case 0x17: /* FCVTL, FCVTL2 */
9795             if (!fp_access_check(s)) {
9796                 return;
9797             }
9798             handle_2misc_widening(s, opcode, is_q, size, rn, rd);
9799             return;
9800         case 0x18: /* FRINTN */
9801         case 0x19: /* FRINTM */
9802         case 0x38: /* FRINTP */
9803         case 0x39: /* FRINTZ */
9804             need_rmode = true;
9805             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
9806             /* fall through */
9807         case 0x59: /* FRINTX */
9808         case 0x79: /* FRINTI */
9809             need_fpstatus = true;
9810             if (size == 3 && !is_q) {
9811                 unallocated_encoding(s);
9812                 return;
9813             }
9814             break;
9815         case 0x58: /* FRINTA */
9816             need_rmode = true;
9817             rmode = FPROUNDING_TIEAWAY;
9818             need_fpstatus = true;
9819             if (size == 3 && !is_q) {
9820                 unallocated_encoding(s);
9821                 return;
9822             }
9823             break;
9824         case 0x7c: /* URSQRTE */
9825             if (size == 3) {
9826                 unallocated_encoding(s);
9827                 return;
9828             }
9829             need_fpstatus = true;
9830             break;
9831         default:
9832             unallocated_encoding(s);
9833             return;
9834         }
9835         break;
9836     }
9837     default:
9838         unallocated_encoding(s);
9839         return;
9840     }
9841
9842     if (!fp_access_check(s)) {
9843         return;
9844     }
9845
9846     if (need_fpstatus) {
9847         tcg_fpstatus = get_fpstatus_ptr();
9848     } else {
9849         TCGV_UNUSED_PTR(tcg_fpstatus);
9850     }
9851     if (need_rmode) {
9852         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
9853         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
9854     } else {
9855         TCGV_UNUSED_I32(tcg_rmode);
9856     }
9857
9858     if (size == 3) {
9859         /* All 64-bit element operations can be shared with scalar 2misc */
9860         int pass;
9861
9862         for (pass = 0; pass < (is_q ? 2 : 1); pass++) {
9863             TCGv_i64 tcg_op = tcg_temp_new_i64();
9864             TCGv_i64 tcg_res = tcg_temp_new_i64();
9865
9866             read_vec_element(s, tcg_op, rn, pass, MO_64);
9867
9868             handle_2misc_64(s, opcode, u, tcg_res, tcg_op,
9869                             tcg_rmode, tcg_fpstatus);
9870
9871             write_vec_element(s, tcg_res, rd, pass, MO_64);
9872
9873             tcg_temp_free_i64(tcg_res);
9874             tcg_temp_free_i64(tcg_op);
9875         }
9876     } else {
9877         int pass;
9878
9879         for (pass = 0; pass < (is_q ? 4 : 2); pass++) {
9880             TCGv_i32 tcg_op = tcg_temp_new_i32();
9881             TCGv_i32 tcg_res = tcg_temp_new_i32();
9882             TCGCond cond;
9883
9884             read_vec_element_i32(s, tcg_op, rn, pass, MO_32);
9885
9886             if (size == 2) {
9887                 /* Special cases for 32 bit elements */
9888                 switch (opcode) {
9889                 case 0xa: /* CMLT */
9890                     /* 32 bit integer comparison against zero, result is
9891                      * test ? (2^32 - 1) : 0. We implement via setcond(test)
9892                      * and inverting.
9893                      */
9894                     cond = TCG_COND_LT;
9895                 do_cmop:
9896                     tcg_gen_setcondi_i32(cond, tcg_res, tcg_op, 0);
9897                     tcg_gen_neg_i32(tcg_res, tcg_res);
9898                     break;
9899                 case 0x8: /* CMGT, CMGE */
9900                     cond = u ? TCG_COND_GE : TCG_COND_GT;
9901                     goto do_cmop;
9902                 case 0x9: /* CMEQ, CMLE */
9903                     cond = u ? TCG_COND_LE : TCG_COND_EQ;
9904                     goto do_cmop;
9905                 case 0x4: /* CLS */
9906                     if (u) {
9907                         gen_helper_clz32(tcg_res, tcg_op);
9908                     } else {
9909                         gen_helper_cls32(tcg_res, tcg_op);
9910                     }
9911                     break;
9912                 case 0x7: /* SQABS, SQNEG */
9913                     if (u) {
9914                         gen_helper_neon_qneg_s32(tcg_res, cpu_env, tcg_op);
9915                     } else {
9916                         gen_helper_neon_qabs_s32(tcg_res, cpu_env, tcg_op);
9917                     }
9918                     break;
9919                 case 0xb: /* ABS, NEG */
9920                     if (u) {
9921                         tcg_gen_neg_i32(tcg_res, tcg_op);
9922                     } else {
9923                         TCGv_i32 tcg_zero = tcg_const_i32(0);
9924                         tcg_gen_neg_i32(tcg_res, tcg_op);
9925                         tcg_gen_movcond_i32(TCG_COND_GT, tcg_res, tcg_op,
9926                                             tcg_zero, tcg_op, tcg_res);
9927                         tcg_temp_free_i32(tcg_zero);
9928                     }
9929                     break;
9930                 case 0x2f: /* FABS */
9931                     gen_helper_vfp_abss(tcg_res, tcg_op);
9932                     break;
9933                 case 0x6f: /* FNEG */
9934                     gen_helper_vfp_negs(tcg_res, tcg_op);
9935                     break;
9936                 case 0x7f: /* FSQRT */
9937                     gen_helper_vfp_sqrts(tcg_res, tcg_op, cpu_env);
9938                     break;
9939                 case 0x1a: /* FCVTNS */
9940                 case 0x1b: /* FCVTMS */
9941                 case 0x1c: /* FCVTAS */
9942                 case 0x3a: /* FCVTPS */
9943                 case 0x3b: /* FCVTZS */
9944                 {
9945                     TCGv_i32 tcg_shift = tcg_const_i32(0);
9946                     gen_helper_vfp_tosls(tcg_res, tcg_op,
9947                                          tcg_shift, tcg_fpstatus);
9948                     tcg_temp_free_i32(tcg_shift);
9949                     break;
9950                 }
9951                 case 0x5a: /* FCVTNU */
9952                 case 0x5b: /* FCVTMU */
9953                 case 0x5c: /* FCVTAU */
9954                 case 0x7a: /* FCVTPU */
9955                 case 0x7b: /* FCVTZU */
9956                 {
9957                     TCGv_i32 tcg_shift = tcg_const_i32(0);
9958                     gen_helper_vfp_touls(tcg_res, tcg_op,
9959                                          tcg_shift, tcg_fpstatus);
9960                     tcg_temp_free_i32(tcg_shift);
9961                     break;
9962                 }
9963                 case 0x18: /* FRINTN */
9964                 case 0x19: /* FRINTM */
9965                 case 0x38: /* FRINTP */
9966                 case 0x39: /* FRINTZ */
9967                 case 0x58: /* FRINTA */
9968                 case 0x79: /* FRINTI */
9969                     gen_helper_rints(tcg_res, tcg_op, tcg_fpstatus);
9970                     break;
9971                 case 0x59: /* FRINTX */
9972                     gen_helper_rints_exact(tcg_res, tcg_op, tcg_fpstatus);
9973                     break;
9974                 case 0x7c: /* URSQRTE */
9975                     gen_helper_rsqrte_u32(tcg_res, tcg_op, tcg_fpstatus);
9976                     break;
9977                 default:
9978                     g_assert_not_reached();
9979                 }
9980             } else {
9981                 /* Use helpers for 8 and 16 bit elements */
9982                 switch (opcode) {
9983                 case 0x5: /* CNT, RBIT */
9984                     /* For these two insns size is part of the opcode specifier
9985                      * (handled earlier); they always operate on byte elements.
9986                      */
9987                     if (u) {
9988                         gen_helper_neon_rbit_u8(tcg_res, tcg_op);
9989                     } else {
9990                         gen_helper_neon_cnt_u8(tcg_res, tcg_op);
9991                     }
9992                     break;
9993                 case 0x7: /* SQABS, SQNEG */
9994                 {
9995                     NeonGenOneOpEnvFn *genfn;
9996                     static NeonGenOneOpEnvFn * const fns[2][2] = {
9997                         { gen_helper_neon_qabs_s8, gen_helper_neon_qneg_s8 },
9998                         { gen_helper_neon_qabs_s16, gen_helper_neon_qneg_s16 },
9999                     };
10000                     genfn = fns[size][u];
10001                     genfn(tcg_res, cpu_env, tcg_op);
10002                     break;
10003                 }
10004                 case 0x8: /* CMGT, CMGE */
10005                 case 0x9: /* CMEQ, CMLE */
10006                 case 0xa: /* CMLT */
10007                 {
10008                     static NeonGenTwoOpFn * const fns[3][2] = {
10009                         { gen_helper_neon_cgt_s8, gen_helper_neon_cgt_s16 },
10010                         { gen_helper_neon_cge_s8, gen_helper_neon_cge_s16 },
10011                         { gen_helper_neon_ceq_u8, gen_helper_neon_ceq_u16 },
10012                     };
10013                     NeonGenTwoOpFn *genfn;
10014                     int comp;
10015                     bool reverse;
10016                     TCGv_i32 tcg_zero = tcg_const_i32(0);
10017
10018                     /* comp = index into [CMGT, CMGE, CMEQ, CMLE, CMLT] */
10019                     comp = (opcode - 0x8) * 2 + u;
10020                     /* ...but LE, LT are implemented as reverse GE, GT */
10021                     reverse = (comp > 2);
10022                     if (reverse) {
10023                         comp = 4 - comp;
10024                     }
10025                     genfn = fns[comp][size];
10026                     if (reverse) {
10027                         genfn(tcg_res, tcg_zero, tcg_op);
10028                     } else {
10029                         genfn(tcg_res, tcg_op, tcg_zero);
10030                     }
10031                     tcg_temp_free_i32(tcg_zero);
10032                     break;
10033                 }
10034                 case 0xb: /* ABS, NEG */
10035                     if (u) {
10036                         TCGv_i32 tcg_zero = tcg_const_i32(0);
10037                         if (size) {
10038                             gen_helper_neon_sub_u16(tcg_res, tcg_zero, tcg_op);
10039                         } else {
10040                             gen_helper_neon_sub_u8(tcg_res, tcg_zero, tcg_op);
10041                         }
10042                         tcg_temp_free_i32(tcg_zero);
10043                     } else {
10044                         if (size) {
10045                             gen_helper_neon_abs_s16(tcg_res, tcg_op);
10046                         } else {
10047                             gen_helper_neon_abs_s8(tcg_res, tcg_op);
10048                         }
10049                     }
10050                     break;
10051                 case 0x4: /* CLS, CLZ */
10052                     if (u) {
10053                         if (size == 0) {
10054                             gen_helper_neon_clz_u8(tcg_res, tcg_op);
10055                         } else {
10056                             gen_helper_neon_clz_u16(tcg_res, tcg_op);
10057                         }
10058                     } else {
10059                         if (size == 0) {
10060                             gen_helper_neon_cls_s8(tcg_res, tcg_op);
10061                         } else {
10062                             gen_helper_neon_cls_s16(tcg_res, tcg_op);
10063                         }
10064                     }
10065                     break;
10066                 default:
10067                     g_assert_not_reached();
10068                 }
10069             }
10070
10071             write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
10072
10073             tcg_temp_free_i32(tcg_res);
10074             tcg_temp_free_i32(tcg_op);
10075         }
10076     }
10077     if (!is_q) {
10078         clear_vec_high(s, rd);
10079     }
10080
10081     if (need_rmode) {
10082         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
10083         tcg_temp_free_i32(tcg_rmode);
10084     }
10085     if (need_fpstatus) {
10086         tcg_temp_free_ptr(tcg_fpstatus);
10087     }
10088 }
10089
10090 /* C3.6.13 AdvSIMD scalar x indexed element
10091  *  31 30  29 28       24 23  22 21  20  19  16 15 12  11  10 9    5 4    0
10092  * +-----+---+-----------+------+---+---+------+-----+---+---+------+------+
10093  * | 0 1 | U | 1 1 1 1 1 | size | L | M |  Rm  | opc | H | 0 |  Rn  |  Rd  |
10094  * +-----+---+-----------+------+---+---+------+-----+---+---+------+------+
10095  * C3.6.18 AdvSIMD vector x indexed element
10096  *   31  30  29 28       24 23  22 21  20  19  16 15 12  11  10 9    5 4    0
10097  * +---+---+---+-----------+------+---+---+------+-----+---+---+------+------+
10098  * | 0 | Q | U | 0 1 1 1 1 | size | L | M |  Rm  | opc | H | 0 |  Rn  |  Rd  |
10099  * +---+---+---+-----------+------+---+---+------+-----+---+---+------+------+
10100  */
10101 static void disas_simd_indexed(DisasContext *s, uint32_t insn)
10102 {
10103     /* This encoding has two kinds of instruction:
10104      *  normal, where we perform elt x idxelt => elt for each
10105      *     element in the vector
10106      *  long, where we perform elt x idxelt and generate a result of
10107      *     double the width of the input element
10108      * The long ops have a 'part' specifier (ie come in INSN, INSN2 pairs).
10109      */
10110     bool is_scalar = extract32(insn, 28, 1);
10111     bool is_q = extract32(insn, 30, 1);
10112     bool u = extract32(insn, 29, 1);
10113     int size = extract32(insn, 22, 2);
10114     int l = extract32(insn, 21, 1);
10115     int m = extract32(insn, 20, 1);
10116     /* Note that the Rm field here is only 4 bits, not 5 as it usually is */
10117     int rm = extract32(insn, 16, 4);
10118     int opcode = extract32(insn, 12, 4);
10119     int h = extract32(insn, 11, 1);
10120     int rn = extract32(insn, 5, 5);
10121     int rd = extract32(insn, 0, 5);
10122     bool is_long = false;
10123     bool is_fp = false;
10124     int index;
10125     TCGv_ptr fpst;
10126
10127     switch (opcode) {
10128     case 0x0: /* MLA */
10129     case 0x4: /* MLS */
10130         if (!u || is_scalar) {
10131             unallocated_encoding(s);
10132             return;
10133         }
10134         break;
10135     case 0x2: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
10136     case 0x6: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
10137     case 0xa: /* SMULL, SMULL2, UMULL, UMULL2 */
10138         if (is_scalar) {
10139             unallocated_encoding(s);
10140             return;
10141         }
10142         is_long = true;
10143         break;
10144     case 0x3: /* SQDMLAL, SQDMLAL2 */
10145     case 0x7: /* SQDMLSL, SQDMLSL2 */
10146     case 0xb: /* SQDMULL, SQDMULL2 */
10147         is_long = true;
10148         /* fall through */
10149     case 0xc: /* SQDMULH */
10150     case 0xd: /* SQRDMULH */
10151         if (u) {
10152             unallocated_encoding(s);
10153             return;
10154         }
10155         break;
10156     case 0x8: /* MUL */
10157         if (u || is_scalar) {
10158             unallocated_encoding(s);
10159             return;
10160         }
10161         break;
10162     case 0x1: /* FMLA */
10163     case 0x5: /* FMLS */
10164         if (u) {
10165             unallocated_encoding(s);
10166             return;
10167         }
10168         /* fall through */
10169     case 0x9: /* FMUL, FMULX */
10170         if (!extract32(size, 1, 1)) {
10171             unallocated_encoding(s);
10172             return;
10173         }
10174         is_fp = true;
10175         break;
10176     default:
10177         unallocated_encoding(s);
10178         return;
10179     }
10180
10181     if (is_fp) {
10182         /* low bit of size indicates single/double */
10183         size = extract32(size, 0, 1) ? 3 : 2;
10184         if (size == 2) {
10185             index = h << 1 | l;
10186         } else {
10187             if (l || !is_q) {
10188                 unallocated_encoding(s);
10189                 return;
10190             }
10191             index = h;
10192         }
10193         rm |= (m << 4);
10194     } else {
10195         switch (size) {
10196         case 1:
10197             index = h << 2 | l << 1 | m;
10198             break;
10199         case 2:
10200             index = h << 1 | l;
10201             rm |= (m << 4);
10202             break;
10203         default:
10204             unallocated_encoding(s);
10205             return;
10206         }
10207     }
10208
10209     if (!fp_access_check(s)) {
10210         return;
10211     }
10212
10213     if (is_fp) {
10214         fpst = get_fpstatus_ptr();
10215     } else {
10216         TCGV_UNUSED_PTR(fpst);
10217     }
10218
10219     if (size == 3) {
10220         TCGv_i64 tcg_idx = tcg_temp_new_i64();
10221         int pass;
10222
10223         assert(is_fp && is_q && !is_long);
10224
10225         read_vec_element(s, tcg_idx, rm, index, MO_64);
10226
10227         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10228             TCGv_i64 tcg_op = tcg_temp_new_i64();
10229             TCGv_i64 tcg_res = tcg_temp_new_i64();
10230
10231             read_vec_element(s, tcg_op, rn, pass, MO_64);
10232
10233             switch (opcode) {
10234             case 0x5: /* FMLS */
10235                 /* As usual for ARM, separate negation for fused multiply-add */
10236                 gen_helper_vfp_negd(tcg_op, tcg_op);
10237                 /* fall through */
10238             case 0x1: /* FMLA */
10239                 read_vec_element(s, tcg_res, rd, pass, MO_64);
10240                 gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
10241                 break;
10242             case 0x9: /* FMUL, FMULX */
10243                 if (u) {
10244                     gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
10245                 } else {
10246                     gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
10247                 }
10248                 break;
10249             default:
10250                 g_assert_not_reached();
10251             }
10252
10253             write_vec_element(s, tcg_res, rd, pass, MO_64);
10254             tcg_temp_free_i64(tcg_op);
10255             tcg_temp_free_i64(tcg_res);
10256         }
10257
10258         if (is_scalar) {
10259             clear_vec_high(s, rd);
10260         }
10261
10262         tcg_temp_free_i64(tcg_idx);
10263     } else if (!is_long) {
10264         /* 32 bit floating point, or 16 or 32 bit integer.
10265          * For the 16 bit scalar case we use the usual Neon helpers and
10266          * rely on the fact that 0 op 0 == 0 with no side effects.
10267          */
10268         TCGv_i32 tcg_idx = tcg_temp_new_i32();
10269         int pass, maxpasses;
10270
10271         if (is_scalar) {
10272             maxpasses = 1;
10273         } else {
10274             maxpasses = is_q ? 4 : 2;
10275         }
10276
10277         read_vec_element_i32(s, tcg_idx, rm, index, size);
10278
10279         if (size == 1 && !is_scalar) {
10280             /* The simplest way to handle the 16x16 indexed ops is to duplicate
10281              * the index into both halves of the 32 bit tcg_idx and then use
10282              * the usual Neon helpers.
10283              */
10284             tcg_gen_deposit_i32(tcg_idx, tcg_idx, tcg_idx, 16, 16);
10285         }
10286
10287         for (pass = 0; pass < maxpasses; pass++) {
10288             TCGv_i32 tcg_op = tcg_temp_new_i32();
10289             TCGv_i32 tcg_res = tcg_temp_new_i32();
10290
10291             read_vec_element_i32(s, tcg_op, rn, pass, is_scalar ? size : MO_32);
10292
10293             switch (opcode) {
10294             case 0x0: /* MLA */
10295             case 0x4: /* MLS */
10296             case 0x8: /* MUL */
10297             {
10298                 static NeonGenTwoOpFn * const fns[2][2] = {
10299                     { gen_helper_neon_add_u16, gen_helper_neon_sub_u16 },
10300                     { tcg_gen_add_i32, tcg_gen_sub_i32 },
10301                 };
10302                 NeonGenTwoOpFn *genfn;
10303                 bool is_sub = opcode == 0x4;
10304
10305                 if (size == 1) {
10306                     gen_helper_neon_mul_u16(tcg_res, tcg_op, tcg_idx);
10307                 } else {
10308                     tcg_gen_mul_i32(tcg_res, tcg_op, tcg_idx);
10309                 }
10310                 if (opcode == 0x8) {
10311                     break;
10312                 }
10313                 read_vec_element_i32(s, tcg_op, rd, pass, MO_32);
10314                 genfn = fns[size - 1][is_sub];
10315                 genfn(tcg_res, tcg_op, tcg_res);
10316                 break;
10317             }
10318             case 0x5: /* FMLS */
10319                 /* As usual for ARM, separate negation for fused multiply-add */
10320                 gen_helper_vfp_negs(tcg_op, tcg_op);
10321                 /* fall through */
10322             case 0x1: /* FMLA */
10323                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
10324                 gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
10325                 break;
10326             case 0x9: /* FMUL, FMULX */
10327                 if (u) {
10328                     gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
10329                 } else {
10330                     gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
10331                 }
10332                 break;
10333             case 0xc: /* SQDMULH */
10334                 if (size == 1) {
10335                     gen_helper_neon_qdmulh_s16(tcg_res, cpu_env,
10336                                                tcg_op, tcg_idx);
10337                 } else {
10338                     gen_helper_neon_qdmulh_s32(tcg_res, cpu_env,
10339                                                tcg_op, tcg_idx);
10340                 }
10341                 break;
10342             case 0xd: /* SQRDMULH */
10343                 if (size == 1) {
10344                     gen_helper_neon_qrdmulh_s16(tcg_res, cpu_env,
10345                                                 tcg_op, tcg_idx);
10346                 } else {
10347                     gen_helper_neon_qrdmulh_s32(tcg_res, cpu_env,
10348                                                 tcg_op, tcg_idx);
10349                 }
10350                 break;
10351             default:
10352                 g_assert_not_reached();
10353             }
10354
10355             if (is_scalar) {
10356                 write_fp_sreg(s, rd, tcg_res);
10357             } else {
10358                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
10359             }
10360
10361             tcg_temp_free_i32(tcg_op);
10362             tcg_temp_free_i32(tcg_res);
10363         }
10364
10365         tcg_temp_free_i32(tcg_idx);
10366
10367         if (!is_q) {
10368             clear_vec_high(s, rd);
10369         }
10370     } else {
10371         /* long ops: 16x16->32 or 32x32->64 */
10372         TCGv_i64 tcg_res[2];
10373         int pass;
10374         bool satop = extract32(opcode, 0, 1);
10375         TCGMemOp memop = MO_32;
10376
10377         if (satop || !u) {
10378             memop |= MO_SIGN;
10379         }
10380
10381         if (size == 2) {
10382             TCGv_i64 tcg_idx = tcg_temp_new_i64();
10383
10384             read_vec_element(s, tcg_idx, rm, index, memop);
10385
10386             for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10387                 TCGv_i64 tcg_op = tcg_temp_new_i64();
10388                 TCGv_i64 tcg_passres;
10389                 int passelt;
10390
10391                 if (is_scalar) {
10392                     passelt = 0;
10393                 } else {
10394                     passelt = pass + (is_q * 2);
10395                 }
10396
10397                 read_vec_element(s, tcg_op, rn, passelt, memop);
10398
10399                 tcg_res[pass] = tcg_temp_new_i64();
10400
10401                 if (opcode == 0xa || opcode == 0xb) {
10402                     /* Non-accumulating ops */
10403                     tcg_passres = tcg_res[pass];
10404                 } else {
10405                     tcg_passres = tcg_temp_new_i64();
10406                 }
10407
10408                 tcg_gen_mul_i64(tcg_passres, tcg_op, tcg_idx);
10409                 tcg_temp_free_i64(tcg_op);
10410
10411                 if (satop) {
10412                     /* saturating, doubling */
10413                     gen_helper_neon_addl_saturate_s64(tcg_passres, cpu_env,
10414                                                       tcg_passres, tcg_passres);
10415                 }
10416
10417                 if (opcode == 0xa || opcode == 0xb) {
10418                     continue;
10419                 }
10420
10421                 /* Accumulating op: handle accumulate step */
10422                 read_vec_element(s, tcg_res[pass], rd, pass, MO_64);
10423
10424                 switch (opcode) {
10425                 case 0x2: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
10426                     tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
10427                     break;
10428                 case 0x6: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
10429                     tcg_gen_sub_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
10430                     break;
10431                 case 0x7: /* SQDMLSL, SQDMLSL2 */
10432                     tcg_gen_neg_i64(tcg_passres, tcg_passres);
10433                     /* fall through */
10434                 case 0x3: /* SQDMLAL, SQDMLAL2 */
10435                     gen_helper_neon_addl_saturate_s64(tcg_res[pass], cpu_env,
10436                                                       tcg_res[pass],
10437                                                       tcg_passres);
10438                     break;
10439                 default:
10440                     g_assert_not_reached();
10441                 }
10442                 tcg_temp_free_i64(tcg_passres);
10443             }
10444             tcg_temp_free_i64(tcg_idx);
10445
10446             if (is_scalar) {
10447                 clear_vec_high(s, rd);
10448             }
10449         } else {
10450             TCGv_i32 tcg_idx = tcg_temp_new_i32();
10451
10452             assert(size == 1);
10453             read_vec_element_i32(s, tcg_idx, rm, index, size);
10454
10455             if (!is_scalar) {
10456                 /* The simplest way to handle the 16x16 indexed ops is to
10457                  * duplicate the index into both halves of the 32 bit tcg_idx
10458                  * and then use the usual Neon helpers.
10459                  */
10460                 tcg_gen_deposit_i32(tcg_idx, tcg_idx, tcg_idx, 16, 16);
10461             }
10462
10463             for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10464                 TCGv_i32 tcg_op = tcg_temp_new_i32();
10465                 TCGv_i64 tcg_passres;
10466
10467                 if (is_scalar) {
10468                     read_vec_element_i32(s, tcg_op, rn, pass, size);
10469                 } else {
10470                     read_vec_element_i32(s, tcg_op, rn,
10471                                          pass + (is_q * 2), MO_32);
10472                 }
10473
10474                 tcg_res[pass] = tcg_temp_new_i64();
10475
10476                 if (opcode == 0xa || opcode == 0xb) {
10477                     /* Non-accumulating ops */
10478                     tcg_passres = tcg_res[pass];
10479                 } else {
10480                     tcg_passres = tcg_temp_new_i64();
10481                 }
10482
10483                 if (memop & MO_SIGN) {
10484                     gen_helper_neon_mull_s16(tcg_passres, tcg_op, tcg_idx);
10485                 } else {
10486                     gen_helper_neon_mull_u16(tcg_passres, tcg_op, tcg_idx);
10487                 }
10488                 if (satop) {
10489                     gen_helper_neon_addl_saturate_s32(tcg_passres, cpu_env,
10490                                                       tcg_passres, tcg_passres);
10491                 }
10492                 tcg_temp_free_i32(tcg_op);
10493
10494                 if (opcode == 0xa || opcode == 0xb) {
10495                     continue;
10496                 }
10497
10498                 /* Accumulating op: handle accumulate step */
10499                 read_vec_element(s, tcg_res[pass], rd, pass, MO_64);
10500
10501                 switch (opcode) {
10502                 case 0x2: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
10503                     gen_helper_neon_addl_u32(tcg_res[pass], tcg_res[pass],
10504                                              tcg_passres);
10505                     break;
10506                 case 0x6: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
10507                     gen_helper_neon_subl_u32(tcg_res[pass], tcg_res[pass],
10508                                              tcg_passres);
10509                     break;
10510                 case 0x7: /* SQDMLSL, SQDMLSL2 */
10511                     gen_helper_neon_negl_u32(tcg_passres, tcg_passres);
10512                     /* fall through */
10513                 case 0x3: /* SQDMLAL, SQDMLAL2 */
10514                     gen_helper_neon_addl_saturate_s32(tcg_res[pass], cpu_env,
10515                                                       tcg_res[pass],
10516                                                       tcg_passres);
10517                     break;
10518                 default:
10519                     g_assert_not_reached();
10520                 }
10521                 tcg_temp_free_i64(tcg_passres);
10522             }
10523             tcg_temp_free_i32(tcg_idx);
10524
10525             if (is_scalar) {
10526                 tcg_gen_ext32u_i64(tcg_res[0], tcg_res[0]);
10527             }
10528         }
10529
10530         if (is_scalar) {
10531             tcg_res[1] = tcg_const_i64(0);
10532         }
10533
10534         for (pass = 0; pass < 2; pass++) {
10535             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
10536             tcg_temp_free_i64(tcg_res[pass]);
10537         }
10538     }
10539
10540     if (!TCGV_IS_UNUSED_PTR(fpst)) {
10541         tcg_temp_free_ptr(fpst);
10542     }
10543 }
10544
10545 /* C3.6.19 Crypto AES
10546  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
10547  * +-----------------+------+-----------+--------+-----+------+------+
10548  * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
10549  * +-----------------+------+-----------+--------+-----+------+------+
10550  */
10551 static void disas_crypto_aes(DisasContext *s, uint32_t insn)
10552 {
10553     int size = extract32(insn, 22, 2);
10554     int opcode = extract32(insn, 12, 5);
10555     int rn = extract32(insn, 5, 5);
10556     int rd = extract32(insn, 0, 5);
10557     int decrypt;
10558     TCGv_i32 tcg_rd_regno, tcg_rn_regno, tcg_decrypt;
10559     CryptoThreeOpEnvFn *genfn;
10560
10561     if (!arm_dc_feature(s, ARM_FEATURE_V8_AES)
10562         || size != 0) {
10563         unallocated_encoding(s);
10564         return;
10565     }
10566
10567     switch (opcode) {
10568     case 0x4: /* AESE */
10569         decrypt = 0;
10570         genfn = gen_helper_crypto_aese;
10571         break;
10572     case 0x6: /* AESMC */
10573         decrypt = 0;
10574         genfn = gen_helper_crypto_aesmc;
10575         break;
10576     case 0x5: /* AESD */
10577         decrypt = 1;
10578         genfn = gen_helper_crypto_aese;
10579         break;
10580     case 0x7: /* AESIMC */
10581         decrypt = 1;
10582         genfn = gen_helper_crypto_aesmc;
10583         break;
10584     default:
10585         unallocated_encoding(s);
10586         return;
10587     }
10588
10589     /* Note that we convert the Vx register indexes into the
10590      * index within the vfp.regs[] array, so we can share the
10591      * helper with the AArch32 instructions.
10592      */
10593     tcg_rd_regno = tcg_const_i32(rd << 1);
10594     tcg_rn_regno = tcg_const_i32(rn << 1);
10595     tcg_decrypt = tcg_const_i32(decrypt);
10596
10597     genfn(cpu_env, tcg_rd_regno, tcg_rn_regno, tcg_decrypt);
10598
10599     tcg_temp_free_i32(tcg_rd_regno);
10600     tcg_temp_free_i32(tcg_rn_regno);
10601     tcg_temp_free_i32(tcg_decrypt);
10602 }
10603
10604 /* C3.6.20 Crypto three-reg SHA
10605  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
10606  * +-----------------+------+---+------+---+--------+-----+------+------+
10607  * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
10608  * +-----------------+------+---+------+---+--------+-----+------+------+
10609  */
10610 static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
10611 {
10612     unsupported_encoding(s, insn);
10613 }
10614
10615 /* C3.6.21 Crypto two-reg SHA
10616  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
10617  * +-----------------+------+-----------+--------+-----+------+------+
10618  * | 0 1 0 1 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
10619  * +-----------------+------+-----------+--------+-----+------+------+
10620  */
10621 static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
10622 {
10623     unsupported_encoding(s, insn);
10624 }
10625
10626 /* C3.6 Data processing - SIMD, inc Crypto
10627  *
10628  * As the decode gets a little complex we are using a table based
10629  * approach for this part of the decode.
10630  */
10631 static const AArch64DecodeTable data_proc_simd[] = {
10632     /* pattern  ,  mask     ,  fn                        */
10633     { 0x0e200400, 0x9f200400, disas_simd_three_reg_same },
10634     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
10635     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
10636     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
10637     { 0x0e000400, 0x9fe08400, disas_simd_copy },
10638     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
10639     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
10640     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
10641     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
10642     { 0x0e000000, 0xbf208c00, disas_simd_tb },
10643     { 0x0e000800, 0xbf208c00, disas_simd_zip_trn },
10644     { 0x2e000000, 0xbf208400, disas_simd_ext },
10645     { 0x5e200400, 0xdf200400, disas_simd_scalar_three_reg_same },
10646     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
10647     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
10648     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
10649     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
10650     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
10651     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
10652     { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
10653     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
10654     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
10655     { 0x00000000, 0x00000000, NULL }
10656 };
10657
10658 static void disas_data_proc_simd(DisasContext *s, uint32_t insn)
10659 {
10660     /* Note that this is called with all non-FP cases from
10661      * table C3-6 so it must UNDEF for entries not specifically
10662      * allocated to instructions in that table.
10663      */
10664     AArch64DecodeFn *fn = lookup_disas_fn(&data_proc_simd[0], insn);
10665     if (fn) {
10666         fn(s, insn);
10667     } else {
10668         unallocated_encoding(s);
10669     }
10670 }
10671
10672 /* C3.6 Data processing - SIMD and floating point */
10673 static void disas_data_proc_simd_fp(DisasContext *s, uint32_t insn)
10674 {
10675     if (extract32(insn, 28, 1) == 1 && extract32(insn, 30, 1) == 0) {
10676         disas_data_proc_fp(s, insn);
10677     } else {
10678         /* SIMD, including crypto */
10679         disas_data_proc_simd(s, insn);
10680     }
10681 }
10682
10683 /* C3.1 A64 instruction index by encoding */
10684 static void disas_a64_insn(CPUARMState *env, DisasContext *s)
10685 {
10686     uint32_t insn;
10687
10688     insn = arm_ldl_code(env, s->pc, s->bswap_code);
10689     s->insn = insn;
10690     s->pc += 4;
10691
10692     s->fp_access_checked = false;
10693
10694     switch (extract32(insn, 25, 4)) {
10695     case 0x0: case 0x1: case 0x2: case 0x3: /* UNALLOCATED */
10696         unallocated_encoding(s);
10697         break;
10698     case 0x8: case 0x9: /* Data processing - immediate */
10699         disas_data_proc_imm(s, insn);
10700         break;
10701     case 0xa: case 0xb: /* Branch, exception generation and system insns */
10702         disas_b_exc_sys(s, insn);
10703         break;
10704     case 0x4:
10705     case 0x6:
10706     case 0xc:
10707     case 0xe:      /* Loads and stores */
10708         disas_ldst(s, insn);
10709         break;
10710     case 0x5:
10711     case 0xd:      /* Data processing - register */
10712         disas_data_proc_reg(s, insn);
10713         break;
10714     case 0x7:
10715     case 0xf:      /* Data processing - SIMD and floating point */
10716         disas_data_proc_simd_fp(s, insn);
10717         break;
10718     default:
10719         assert(FALSE); /* all 15 cases should be handled above */
10720         break;
10721     }
10722
10723     /* if we allocated any temporaries, free them here */
10724     free_tmp_a64(s);
10725 }
10726
10727 void gen_intermediate_code_internal_a64(ARMCPU *cpu,
10728                                         TranslationBlock *tb,
10729                                         bool search_pc)
10730 {
10731     CPUState *cs = CPU(cpu);
10732     CPUARMState *env = &cpu->env;
10733     DisasContext dc1, *dc = &dc1;
10734     CPUBreakpoint *bp;
10735     uint16_t *gen_opc_end;
10736     int j, lj;
10737     target_ulong pc_start;
10738     target_ulong next_page_start;
10739     int num_insns;
10740     int max_insns;
10741
10742     pc_start = tb->pc;
10743
10744     dc->tb = tb;
10745
10746     gen_opc_end = tcg_ctx.gen_opc_buf + OPC_MAX_SIZE;
10747
10748     dc->is_jmp = DISAS_NEXT;
10749     dc->pc = pc_start;
10750     dc->singlestep_enabled = cs->singlestep_enabled;
10751     dc->condjmp = 0;
10752
10753     dc->aarch64 = 1;
10754     dc->thumb = 0;
10755     dc->bswap_code = 0;
10756     dc->condexec_mask = 0;
10757     dc->condexec_cond = 0;
10758 #if !defined(CONFIG_USER_ONLY)
10759     dc->user = (ARM_TBFLAG_AA64_EL(tb->flags) == 0);
10760 #endif
10761     dc->cpacr_fpen = ARM_TBFLAG_AA64_FPEN(tb->flags);
10762     dc->vec_len = 0;
10763     dc->vec_stride = 0;
10764     dc->cp_regs = cpu->cp_regs;
10765     dc->current_pl = arm_current_pl(env);
10766     dc->features = env->features;
10767
10768     init_tmp_a64_array(dc);
10769
10770     next_page_start = (pc_start & TARGET_PAGE_MASK) + TARGET_PAGE_SIZE;
10771     lj = -1;
10772     num_insns = 0;
10773     max_insns = tb->cflags & CF_COUNT_MASK;
10774     if (max_insns == 0) {
10775         max_insns = CF_COUNT_MASK;
10776     }
10777
10778     gen_tb_start();
10779
10780     tcg_clear_temp_count();
10781
10782     do {
10783         if (unlikely(!QTAILQ_EMPTY(&cs->breakpoints))) {
10784             QTAILQ_FOREACH(bp, &cs->breakpoints, entry) {
10785                 if (bp->pc == dc->pc) {
10786                     gen_exception_internal_insn(dc, 0, EXCP_DEBUG);
10787                     /* Advance PC so that clearing the breakpoint will
10788                        invalidate this TB.  */
10789                     dc->pc += 2;
10790                     goto done_generating;
10791                 }
10792             }
10793         }
10794
10795         if (search_pc) {
10796             j = tcg_ctx.gen_opc_ptr - tcg_ctx.gen_opc_buf;
10797             if (lj < j) {
10798                 lj++;
10799                 while (lj < j) {
10800                     tcg_ctx.gen_opc_instr_start[lj++] = 0;
10801                 }
10802             }
10803             tcg_ctx.gen_opc_pc[lj] = dc->pc;
10804             tcg_ctx.gen_opc_instr_start[lj] = 1;
10805             tcg_ctx.gen_opc_icount[lj] = num_insns;
10806         }
10807
10808         if (num_insns + 1 == max_insns && (tb->cflags & CF_LAST_IO)) {
10809             gen_io_start();
10810         }
10811
10812         if (unlikely(qemu_loglevel_mask(CPU_LOG_TB_OP | CPU_LOG_TB_OP_OPT))) {
10813             tcg_gen_debug_insn_start(dc->pc);
10814         }
10815
10816         disas_a64_insn(env, dc);
10817
10818         if (tcg_check_temp_count()) {
10819             fprintf(stderr, "TCG temporary leak before "TARGET_FMT_lx"\n",
10820                     dc->pc);
10821         }
10822
10823         /* Translation stops when a conditional branch is encountered.
10824          * Otherwise the subsequent code could get translated several times.
10825          * Also stop translation when a page boundary is reached.  This
10826          * ensures prefetch aborts occur at the right place.
10827          */
10828         num_insns++;
10829     } while (!dc->is_jmp && tcg_ctx.gen_opc_ptr < gen_opc_end &&
10830              !cs->singlestep_enabled &&
10831              !singlestep &&
10832              dc->pc < next_page_start &&
10833              num_insns < max_insns);
10834
10835     if (tb->cflags & CF_LAST_IO) {
10836         gen_io_end();
10837     }
10838
10839     if (unlikely(cs->singlestep_enabled) && dc->is_jmp != DISAS_EXC) {
10840         /* Note that this means single stepping WFI doesn't halt the CPU.
10841          * For conditional branch insns this is harmless unreachable code as
10842          * gen_goto_tb() has already handled emitting the debug exception
10843          * (and thus a tb-jump is not possible when singlestepping).
10844          */
10845         assert(dc->is_jmp != DISAS_TB_JUMP);
10846         if (dc->is_jmp != DISAS_JUMP) {
10847             gen_a64_set_pc_im(dc->pc);
10848         }
10849         gen_exception_internal(EXCP_DEBUG);
10850     } else {
10851         switch (dc->is_jmp) {
10852         case DISAS_NEXT:
10853             gen_goto_tb(dc, 1, dc->pc);
10854             break;
10855         default:
10856         case DISAS_UPDATE:
10857             gen_a64_set_pc_im(dc->pc);
10858             /* fall through */
10859         case DISAS_JUMP:
10860             /* indicate that the hash table must be used to find the next TB */
10861             tcg_gen_exit_tb(0);
10862             break;
10863         case DISAS_TB_JUMP:
10864         case DISAS_EXC:
10865         case DISAS_SWI:
10866             break;
10867         case DISAS_WFE:
10868             gen_a64_set_pc_im(dc->pc);
10869             gen_helper_wfe(cpu_env);
10870             break;
10871         case DISAS_WFI:
10872             /* This is a special case because we don't want to just halt the CPU
10873              * if trying to debug across a WFI.
10874              */
10875             gen_a64_set_pc_im(dc->pc);
10876             gen_helper_wfi(cpu_env);
10877             break;
10878         }
10879     }
10880
10881 done_generating:
10882     gen_tb_end(tb, num_insns);
10883     *tcg_ctx.gen_opc_ptr = INDEX_op_end;
10884
10885 #ifdef DEBUG_DISAS
10886     if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)) {
10887         qemu_log("----------------\n");
10888         qemu_log("IN: %s\n", lookup_symbol(pc_start));
10889         log_target_disas(env, pc_start, dc->pc - pc_start,
10890                          4 | (dc->bswap_code << 1));
10891         qemu_log("\n");
10892     }
10893 #endif
10894     if (search_pc) {
10895         j = tcg_ctx.gen_opc_ptr - tcg_ctx.gen_opc_buf;
10896         lj++;
10897         while (lj <= j) {
10898             tcg_ctx.gen_opc_instr_start[lj++] = 0;
10899         }
10900     } else {
10901         tb->size = dc->pc - pc_start;
10902         tb->icount = num_insns;
10903     }
10904 }