arch/microblaze/lib/fastcopy.S

   1 /*
   2  * Copyright (C) 2008-2009 Michal Simek <monstr@monstr.eu>
   3  * Copyright (C) 2008-2009 PetaLogix
   4  * Copyright (C) 2008 Jim Law - Iris LP  All rights reserved.
   5  *
   6  * This file is subject to the terms and conditions of the GNU General
   7  * Public License.  See the file COPYING in the main directory of this
   8  * archive for more details.
   9  *
  10  * Written by Jim Law <jlaw@irispower.com>
  11  *
  12  * intended to replace:
  13  *      memcpy in memcpy.c and
  14  *      memmove in memmove.c
  15  * ... in arch/microblaze/lib
  16  *
  17  *
  18  * assly_fastcopy.S
  19  *
  20  * Attempt at quicker memcpy and memmove for MicroBlaze
  21  *      Input : Operand1 in Reg r5 - destination address
  22  *              Operand2 in Reg r6 - source address
  23  *              Operand3 in Reg r7 - number of bytes to transfer
  24  *      Output: Result in Reg r3 - starting destinaition address
  25  *
  26  *
  27  * Explanation:
  28  *      Perform (possibly unaligned) copy of a block of memory
  29  *      between mem locations with size of xfer spec'd in bytes
  30  */
  31
  32 #ifdef __MICROBLAZEEL__
  33 #error Microblaze LE not support ASM optimized lib func. Disable OPT_LIB_ASM.
  34 #endif
  35
  36 #include <linux/linkage.h>
  37         .text
  38         .globl  memcpy
  39         .type  memcpy, @function
  40         .ent    memcpy
  41
  42 memcpy:
  43 fast_memcpy_ascending:
  44         /* move d to return register as value of function */
  45         addi    r3, r5, 0
  46
  47         addi    r4, r0, 4       /* n = 4 */
  48         cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
  49         blti    r4, a_xfer_end  /* if n < 0, less than one word to transfer */
  50
  51         /* transfer first 0~3 bytes to get aligned dest address */
  52         andi    r4, r5, 3               /* n = d & 3 */
  53         /* if zero, destination already aligned */
  54         beqi    r4, a_dalign_done
  55         /* n = 4 - n (yields 3, 2, 1 transfers for 1, 2, 3 addr offset) */
  56         rsubi   r4, r4, 4
  57         rsub    r7, r4, r7              /* c = c - n adjust c */
  58
  59 a_xfer_first_loop:
  60         /* if no bytes left to transfer, transfer the bulk */
  61         beqi    r4, a_dalign_done
  62         lbui    r11, r6, 0              /* h = *s */
  63         sbi     r11, r5, 0              /* *d = h */
  64         addi    r6, r6, 1               /* s++ */
  65         addi    r5, r5, 1               /* d++ */
  66         brid    a_xfer_first_loop       /* loop */
  67         addi    r4, r4, -1              /* n-- (IN DELAY SLOT) */
  68
  69 a_dalign_done:
  70         addi    r4, r0, 32              /* n = 32 */
  71         cmpu    r4, r4, r7              /* n = c - n  (unsigned) */
  72         /* if n < 0, less than one block to transfer */
  73         blti    r4, a_block_done
  74
  75 a_block_xfer:
  76         andi    r4, r7, 0xffffffe0      /* n = c & ~31 */
  77         rsub    r7, r4, r7              /* c = c - n */
  78
  79         andi    r9, r6, 3               /* t1 = s & 3 */
  80         /* if temp != 0, unaligned transfers needed */
  81         bnei    r9, a_block_unaligned
  82
  83 a_block_aligned:
  84         lwi     r9, r6, 0               /* t1 = *(s + 0) */
  85         lwi     r10, r6, 4              /* t2 = *(s + 4) */
  86         lwi     r11, r6, 8              /* t3 = *(s + 8) */
  87         lwi     r12, r6, 12             /* t4 = *(s + 12) */
  88         swi     r9, r5, 0               /* *(d + 0) = t1 */
  89         swi     r10, r5, 4              /* *(d + 4) = t2 */
  90         swi     r11, r5, 8              /* *(d + 8) = t3 */
  91         swi     r12, r5, 12             /* *(d + 12) = t4 */
  92         lwi     r9, r6, 16              /* t1 = *(s + 16) */
  93         lwi     r10, r6, 20             /* t2 = *(s + 20) */
  94         lwi     r11, r6, 24             /* t3 = *(s + 24) */
  95         lwi     r12, r6, 28             /* t4 = *(s + 28) */
  96         swi     r9, r5, 16              /* *(d + 16) = t1 */
  97         swi     r10, r5, 20             /* *(d + 20) = t2 */
  98         swi     r11, r5, 24             /* *(d + 24) = t3 */
  99         swi     r12, r5, 28             /* *(d + 28) = t4 */
 100         addi    r6, r6, 32              /* s = s + 32 */
 101         addi    r4, r4, -32             /* n = n - 32 */
 102         bneid   r4, a_block_aligned     /* while (n) loop */
 103         addi    r5, r5, 32              /* d = d + 32 (IN DELAY SLOT) */
 104         bri     a_block_done
 105
 106 a_block_unaligned:
 107         andi    r8, r6, 0xfffffffc      /* as = s & ~3 */
 108         add     r6, r6, r4              /* s = s + n */
 109         lwi     r11, r8, 0              /* h = *(as + 0) */
 110
 111         addi    r9, r9, -1
 112         beqi    r9, a_block_u1          /* t1 was 1 => 1 byte offset */
 113         addi    r9, r9, -1
 114         beqi    r9, a_block_u2          /* t1 was 2 => 2 byte offset */
 115
 116 a_block_u3:
 117         bslli   r11, r11, 24    /* h = h << 24 */
 118 a_bu3_loop:
 119         lwi     r12, r8, 4      /* v = *(as + 4) */
 120         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 121         or      r9, r11, r9     /* t1 = h | t1 */
 122         swi     r9, r5, 0       /* *(d + 0) = t1 */
 123         bslli   r11, r12, 24    /* h = v << 24 */
 124         lwi     r12, r8, 8      /* v = *(as + 8) */
 125         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 126         or      r9, r11, r9     /* t1 = h | t1 */
 127         swi     r9, r5, 4       /* *(d + 4) = t1 */
 128         bslli   r11, r12, 24    /* h = v << 24 */
 129         lwi     r12, r8, 12     /* v = *(as + 12) */
 130         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 131         or      r9, r11, r9     /* t1 = h | t1 */
 132         swi     r9, r5, 8       /* *(d + 8) = t1 */
 133         bslli   r11, r12, 24    /* h = v << 24 */
 134         lwi     r12, r8, 16     /* v = *(as + 16) */
 135         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 136         or      r9, r11, r9     /* t1 = h | t1 */
 137         swi     r9, r5, 12      /* *(d + 12) = t1 */
 138         bslli   r11, r12, 24    /* h = v << 24 */
 139         lwi     r12, r8, 20     /* v = *(as + 20) */
 140         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 141         or      r9, r11, r9     /* t1 = h | t1 */
 142         swi     r9, r5, 16      /* *(d + 16) = t1 */
 143         bslli   r11, r12, 24    /* h = v << 24 */
 144         lwi     r12, r8, 24     /* v = *(as + 24) */
 145         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 146         or      r9, r11, r9     /* t1 = h | t1 */
 147         swi     r9, r5, 20      /* *(d + 20) = t1 */
 148         bslli   r11, r12, 24    /* h = v << 24 */
 149         lwi     r12, r8, 28     /* v = *(as + 28) */
 150         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 151         or      r9, r11, r9     /* t1 = h | t1 */
 152         swi     r9, r5, 24      /* *(d + 24) = t1 */
 153         bslli   r11, r12, 24    /* h = v << 24 */
 154         lwi     r12, r8, 32     /* v = *(as + 32) */
 155         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 156         or      r9, r11, r9     /* t1 = h | t1 */
 157         swi     r9, r5, 28      /* *(d + 28) = t1 */
 158         bslli   r11, r12, 24    /* h = v << 24 */
 159         addi    r8, r8, 32      /* as = as + 32 */
 160         addi    r4, r4, -32     /* n = n - 32 */
 161         bneid   r4, a_bu3_loop  /* while (n) loop */
 162         addi    r5, r5, 32      /* d = d + 32 (IN DELAY SLOT) */
 163         bri     a_block_done
 164
 165 a_block_u1:
 166         bslli   r11, r11, 8     /* h = h << 8 */
 167 a_bu1_loop:
 168         lwi     r12, r8, 4      /* v = *(as + 4) */
 169         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 170         or      r9, r11, r9     /* t1 = h | t1 */
 171         swi     r9, r5, 0       /* *(d + 0) = t1 */
 172         bslli   r11, r12, 8     /* h = v << 8 */
 173         lwi     r12, r8, 8      /* v = *(as + 8) */
 174         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 175         or      r9, r11, r9     /* t1 = h | t1 */
 176         swi     r9, r5, 4       /* *(d + 4) = t1 */
 177         bslli   r11, r12, 8     /* h = v << 8 */
 178         lwi     r12, r8, 12     /* v = *(as + 12) */
 179         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 180         or      r9, r11, r9     /* t1 = h | t1 */
 181         swi     r9, r5, 8       /* *(d + 8) = t1 */
 182         bslli   r11, r12, 8     /* h = v << 8 */
 183         lwi     r12, r8, 16     /* v = *(as + 16) */
 184         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 185         or      r9, r11, r9     /* t1 = h | t1 */
 186         swi     r9, r5, 12      /* *(d + 12) = t1 */
 187         bslli   r11, r12, 8     /* h = v << 8 */
 188         lwi     r12, r8, 20     /* v = *(as + 20) */
 189         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 190         or      r9, r11, r9     /* t1 = h | t1 */
 191         swi     r9, r5, 16      /* *(d + 16) = t1 */
 192         bslli   r11, r12, 8     /* h = v << 8 */
 193         lwi     r12, r8, 24     /* v = *(as + 24) */
 194         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 195         or      r9, r11, r9     /* t1 = h | t1 */
 196         swi     r9, r5, 20      /* *(d + 20) = t1 */
 197         bslli   r11, r12, 8     /* h = v << 8 */
 198         lwi     r12, r8, 28     /* v = *(as + 28) */
 199         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 200         or      r9, r11, r9     /* t1 = h | t1 */
 201         swi     r9, r5, 24      /* *(d + 24) = t1 */
 202         bslli   r11, r12, 8     /* h = v << 8 */
 203         lwi     r12, r8, 32     /* v = *(as + 32) */
 204         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 205         or      r9, r11, r9     /* t1 = h | t1 */
 206         swi     r9, r5, 28      /* *(d + 28) = t1 */
 207         bslli   r11, r12, 8     /* h = v << 8 */
 208         addi    r8, r8, 32      /* as = as + 32 */
 209         addi    r4, r4, -32     /* n = n - 32 */
 210         bneid   r4, a_bu1_loop  /* while (n) loop */
 211         addi    r5, r5, 32      /* d = d + 32 (IN DELAY SLOT) */
 212         bri     a_block_done
 213
 214 a_block_u2:
 215         bslli   r11, r11, 16    /* h = h << 16 */
 216 a_bu2_loop:
 217         lwi     r12, r8, 4      /* v = *(as + 4) */
 218         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 219         or      r9, r11, r9     /* t1 = h | t1 */
 220         swi     r9, r5, 0       /* *(d + 0) = t1 */
 221         bslli   r11, r12, 16    /* h = v << 16 */
 222         lwi     r12, r8, 8      /* v = *(as + 8) */
 223         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 224         or      r9, r11, r9     /* t1 = h | t1 */
 225         swi     r9, r5, 4       /* *(d + 4) = t1 */
 226         bslli   r11, r12, 16    /* h = v << 16 */
 227         lwi     r12, r8, 12     /* v = *(as + 12) */
 228         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 229         or      r9, r11, r9     /* t1 = h | t1 */
 230         swi     r9, r5, 8       /* *(d + 8) = t1 */
 231         bslli   r11, r12, 16    /* h = v << 16 */
 232         lwi     r12, r8, 16     /* v = *(as + 16) */
 233         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 234         or      r9, r11, r9     /* t1 = h | t1 */
 235         swi     r9, r5, 12      /* *(d + 12) = t1 */
 236         bslli   r11, r12, 16    /* h = v << 16 */
 237         lwi     r12, r8, 20     /* v = *(as + 20) */
 238         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 239         or      r9, r11, r9     /* t1 = h | t1 */
 240         swi     r9, r5, 16      /* *(d + 16) = t1 */
 241         bslli   r11, r12, 16    /* h = v << 16 */
 242         lwi     r12, r8, 24     /* v = *(as + 24) */
 243         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 244         or      r9, r11, r9     /* t1 = h | t1 */
 245         swi     r9, r5, 20      /* *(d + 20) = t1 */
 246         bslli   r11, r12, 16    /* h = v << 16 */
 247         lwi     r12, r8, 28     /* v = *(as + 28) */
 248         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 249         or      r9, r11, r9     /* t1 = h | t1 */
 250         swi     r9, r5, 24      /* *(d + 24) = t1 */
 251         bslli   r11, r12, 16    /* h = v << 16 */
 252         lwi     r12, r8, 32     /* v = *(as + 32) */
 253         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 254         or      r9, r11, r9     /* t1 = h | t1 */
 255         swi     r9, r5, 28      /* *(d + 28) = t1 */
 256         bslli   r11, r12, 16    /* h = v << 16 */
 257         addi    r8, r8, 32      /* as = as + 32 */
 258         addi    r4, r4, -32     /* n = n - 32 */
 259         bneid   r4, a_bu2_loop  /* while (n) loop */
 260         addi    r5, r5, 32      /* d = d + 32 (IN DELAY SLOT) */
 261
 262 a_block_done:
 263         addi    r4, r0, 4       /* n = 4 */
 264         cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 265         blti    r4, a_xfer_end  /* if n < 0, less than one word to transfer */
 266
 267 a_word_xfer:
 268         andi    r4, r7, 0xfffffffc      /* n = c & ~3 */
 269         addi    r10, r0, 0              /* offset = 0 */
 270
 271         andi    r9, r6, 3               /* t1 = s & 3 */
 272         /* if temp != 0, unaligned transfers needed */
 273         bnei    r9, a_word_unaligned
 274
 275 a_word_aligned:
 276         lw      r9, r6, r10             /* t1 = *(s+offset) */
 277         sw      r9, r5, r10             /* *(d+offset) = t1 */
 278         addi    r4, r4,-4               /* n-- */
 279         bneid   r4, a_word_aligned      /* loop */
 280         addi    r10, r10, 4             /* offset++ (IN DELAY SLOT) */
 281
 282         bri     a_word_done
 283
 284 a_word_unaligned:
 285         andi    r8, r6, 0xfffffffc      /* as = s & ~3 */
 286         lwi     r11, r8, 0              /* h = *(as + 0) */
 287         addi    r8, r8, 4               /* as = as + 4 */
 288
 289         addi    r9, r9, -1
 290         beqi    r9, a_word_u1           /* t1 was 1 => 1 byte offset */
 291         addi    r9, r9, -1
 292         beqi    r9, a_word_u2           /* t1 was 2 => 2 byte offset */
 293
 294 a_word_u3:
 295         bslli   r11, r11, 24    /* h = h << 24 */
 296 a_wu3_loop:
 297         lw      r12, r8, r10    /* v = *(as + offset) */
 298         bsrli   r9, r12, 8      /* t1 = v >> 8 */
 299         or      r9, r11, r9     /* t1 = h | t1 */
 300         sw      r9, r5, r10     /* *(d + offset) = t1 */
 301         bslli   r11, r12, 24    /* h = v << 24 */
 302         addi    r4, r4,-4       /* n = n - 4 */
 303         bneid   r4, a_wu3_loop  /* while (n) loop */
 304         addi    r10, r10, 4     /* offset = ofset + 4 (IN DELAY SLOT) */
 305
 306         bri     a_word_done
 307
 308 a_word_u1:
 309         bslli   r11, r11, 8     /* h = h << 8 */
 310 a_wu1_loop:
 311         lw      r12, r8, r10    /* v = *(as + offset) */
 312         bsrli   r9, r12, 24     /* t1 = v >> 24 */
 313         or      r9, r11, r9     /* t1 = h | t1 */
 314         sw      r9, r5, r10     /* *(d + offset) = t1 */
 315         bslli   r11, r12, 8     /* h = v << 8 */
 316         addi    r4, r4,-4       /* n = n - 4 */
 317         bneid   r4, a_wu1_loop  /* while (n) loop */
 318         addi    r10, r10, 4     /* offset = ofset + 4 (IN DELAY SLOT) */
 319
 320         bri     a_word_done
 321
 322 a_word_u2:
 323         bslli   r11, r11, 16    /* h = h << 16 */
 324 a_wu2_loop:
 325         lw      r12, r8, r10    /* v = *(as + offset) */
 326         bsrli   r9, r12, 16     /* t1 = v >> 16 */
 327         or      r9, r11, r9     /* t1 = h | t1 */
 328         sw      r9, r5, r10     /* *(d + offset) = t1 */
 329         bslli   r11, r12, 16    /* h = v << 16 */
 330         addi    r4, r4,-4       /* n = n - 4 */
 331         bneid   r4, a_wu2_loop  /* while (n) loop */
 332         addi    r10, r10, 4     /* offset = ofset + 4 (IN DELAY SLOT) */
 333
 334 a_word_done:
 335         add     r5, r5, r10     /* d = d + offset */
 336         add     r6, r6, r10     /* s = s + offset */
 337         rsub    r7, r10, r7     /* c = c - offset */
 338
 339 a_xfer_end:
 340 a_xfer_end_loop:
 341         beqi    r7, a_done              /* while (c) */
 342         lbui    r9, r6, 0               /* t1 = *s */
 343         addi    r6, r6, 1               /* s++ */
 344         sbi     r9, r5, 0               /* *d = t1 */
 345         addi    r7, r7, -1              /* c-- */
 346         brid    a_xfer_end_loop         /* loop */
 347         addi    r5, r5, 1               /* d++ (IN DELAY SLOT) */
 348
 349 a_done:
 350         rtsd    r15, 8
 351         nop
 352
 353 .size  memcpy, . - memcpy
 354 .end memcpy
 355 /*----------------------------------------------------------------------------*/
 356         .globl  memmove
 357         .type  memmove, @function
 358         .ent    memmove
 359
 360 memmove:
 361         cmpu    r4, r5, r6      /* n = s - d */
 362         bgei    r4,fast_memcpy_ascending
 363
 364 fast_memcpy_descending:
 365         /* move d to return register as value of function */
 366         addi    r3, r5, 0
 367
 368         add     r5, r5, r7      /* d = d + c */
 369         add     r6, r6, r7      /* s = s + c */
 370
 371         addi    r4, r0, 4       /* n = 4 */
 372         cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 373         blti    r4,d_xfer_end   /* if n < 0, less than one word to transfer */
 374
 375         /* transfer first 0~3 bytes to get aligned dest address */
 376         andi    r4, r5, 3               /* n = d & 3 */
 377         /* if zero, destination already aligned */
 378         beqi    r4,d_dalign_done
 379         rsub    r7, r4, r7              /* c = c - n adjust c */
 380
 381 d_xfer_first_loop:
 382         /* if no bytes left to transfer, transfer the bulk */
 383         beqi    r4,d_dalign_done
 384         addi    r6, r6, -1              /* s-- */
 385         addi    r5, r5, -1              /* d-- */
 386         lbui    r11, r6, 0              /* h = *s */
 387         sbi     r11, r5, 0              /* *d = h */
 388         brid    d_xfer_first_loop       /* loop */
 389         addi    r4, r4, -1              /* n-- (IN DELAY SLOT) */
 390
 391 d_dalign_done:
 392         addi    r4, r0, 32      /* n = 32 */
 393         cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 394         /* if n < 0, less than one block to transfer */
 395         blti    r4, d_block_done
 396
 397 d_block_xfer:
 398         andi    r4, r7, 0xffffffe0      /* n = c & ~31 */
 399         rsub    r7, r4, r7              /* c = c - n */
 400
 401         andi    r9, r6, 3               /* t1 = s & 3 */
 402         /* if temp != 0, unaligned transfers needed */
 403         bnei    r9, d_block_unaligned
 404
 405 d_block_aligned:
 406         addi    r6, r6, -32             /* s = s - 32 */
 407         addi    r5, r5, -32             /* d = d - 32 */
 408         lwi     r9, r6, 28              /* t1 = *(s + 28) */
 409         lwi     r10, r6, 24             /* t2 = *(s + 24) */
 410         lwi     r11, r6, 20             /* t3 = *(s + 20) */
 411         lwi     r12, r6, 16             /* t4 = *(s + 16) */
 412         swi     r9, r5, 28              /* *(d + 28) = t1 */
 413         swi     r10, r5, 24             /* *(d + 24) = t2 */
 414         swi     r11, r5, 20             /* *(d + 20) = t3 */
 415         swi     r12, r5, 16             /* *(d + 16) = t4 */
 416         lwi     r9, r6, 12              /* t1 = *(s + 12) */
 417         lwi     r10, r6, 8              /* t2 = *(s + 8) */
 418         lwi     r11, r6, 4              /* t3 = *(s + 4) */
 419         lwi     r12, r6, 0              /* t4 = *(s + 0) */
 420         swi     r9, r5, 12              /* *(d + 12) = t1 */
 421         swi     r10, r5, 8              /* *(d + 8) = t2 */
 422         swi     r11, r5, 4              /* *(d + 4) = t3 */
 423         addi    r4, r4, -32             /* n = n - 32 */
 424         bneid   r4, d_block_aligned     /* while (n) loop */
 425         swi     r12, r5, 0              /* *(d + 0) = t4 (IN DELAY SLOT) */
 426         bri     d_block_done
 427
 428 d_block_unaligned:
 429         andi    r8, r6, 0xfffffffc      /* as = s & ~3 */
 430         rsub    r6, r4, r6              /* s = s - n */
 431         lwi     r11, r8, 0              /* h = *(as + 0) */
 432
 433         addi    r9, r9, -1
 434         beqi    r9,d_block_u1           /* t1 was 1 => 1 byte offset */
 435         addi    r9, r9, -1
 436         beqi    r9,d_block_u2           /* t1 was 2 => 2 byte offset */
 437
 438 d_block_u3:
 439         bsrli   r11, r11, 8     /* h = h >> 8 */
 440 d_bu3_loop:
 441         addi    r8, r8, -32     /* as = as - 32 */
 442         addi    r5, r5, -32     /* d = d - 32 */
 443         lwi     r12, r8, 28     /* v = *(as + 28) */
 444         bslli   r9, r12, 24     /* t1 = v << 24 */
 445         or      r9, r11, r9     /* t1 = h | t1 */
 446         swi     r9, r5, 28      /* *(d + 28) = t1 */
 447         bsrli   r11, r12, 8     /* h = v >> 8 */
 448         lwi     r12, r8, 24     /* v = *(as + 24) */
 449         bslli   r9, r12, 24     /* t1 = v << 24 */
 450         or      r9, r11, r9     /* t1 = h | t1 */
 451         swi     r9, r5, 24      /* *(d + 24) = t1 */
 452         bsrli   r11, r12, 8     /* h = v >> 8 */
 453         lwi     r12, r8, 20     /* v = *(as + 20) */
 454         bslli   r9, r12, 24     /* t1 = v << 24 */
 455         or      r9, r11, r9     /* t1 = h | t1 */
 456         swi     r9, r5, 20      /* *(d + 20) = t1 */
 457         bsrli   r11, r12, 8     /* h = v >> 8 */
 458         lwi     r12, r8, 16     /* v = *(as + 16) */
 459         bslli   r9, r12, 24     /* t1 = v << 24 */
 460         or      r9, r11, r9     /* t1 = h | t1 */
 461         swi     r9, r5, 16      /* *(d + 16) = t1 */
 462         bsrli   r11, r12, 8     /* h = v >> 8 */
 463         lwi     r12, r8, 12     /* v = *(as + 12) */
 464         bslli   r9, r12, 24     /* t1 = v << 24 */
 465         or      r9, r11, r9     /* t1 = h | t1 */
 466         swi     r9, r5, 12      /* *(d + 112) = t1 */
 467         bsrli   r11, r12, 8     /* h = v >> 8 */
 468         lwi     r12, r8, 8      /* v = *(as + 8) */
 469         bslli   r9, r12, 24     /* t1 = v << 24 */
 470         or      r9, r11, r9     /* t1 = h | t1 */
 471         swi     r9, r5, 8       /* *(d + 8) = t1 */
 472         bsrli   r11, r12, 8     /* h = v >> 8 */
 473         lwi     r12, r8, 4      /* v = *(as + 4) */
 474         bslli   r9, r12, 24     /* t1 = v << 24 */
 475         or      r9, r11, r9     /* t1 = h | t1 */
 476         swi     r9, r5, 4       /* *(d + 4) = t1 */
 477         bsrli   r11, r12, 8     /* h = v >> 8 */
 478         lwi     r12, r8, 0      /* v = *(as + 0) */
 479         bslli   r9, r12, 24     /* t1 = v << 24 */
 480         or      r9, r11, r9     /* t1 = h | t1 */
 481         swi     r9, r5, 0       /* *(d + 0) = t1 */
 482         addi    r4, r4, -32     /* n = n - 32 */
 483         bneid   r4, d_bu3_loop  /* while (n) loop */
 484         bsrli   r11, r12, 8     /* h = v >> 8 (IN DELAY SLOT) */
 485         bri     d_block_done
 486
 487 d_block_u1:
 488         bsrli   r11, r11, 24    /* h = h >> 24 */
 489 d_bu1_loop:
 490         addi    r8, r8, -32     /* as = as - 32 */
 491         addi    r5, r5, -32     /* d = d - 32 */
 492         lwi     r12, r8, 28     /* v = *(as + 28) */
 493         bslli   r9, r12, 8      /* t1 = v << 8 */
 494         or      r9, r11, r9     /* t1 = h | t1 */
 495         swi     r9, r5, 28      /* *(d + 28) = t1 */
 496         bsrli   r11, r12, 24    /* h = v >> 24 */
 497         lwi     r12, r8, 24     /* v = *(as + 24) */
 498         bslli   r9, r12, 8      /* t1 = v << 8 */
 499         or      r9, r11, r9     /* t1 = h | t1 */
 500         swi     r9, r5, 24      /* *(d + 24) = t1 */
 501         bsrli   r11, r12, 24    /* h = v >> 24 */
 502         lwi     r12, r8, 20     /* v = *(as + 20) */
 503         bslli   r9, r12, 8      /* t1 = v << 8 */
 504         or      r9, r11, r9     /* t1 = h | t1 */
 505         swi     r9, r5, 20      /* *(d + 20) = t1 */
 506         bsrli   r11, r12, 24    /* h = v >> 24 */
 507         lwi     r12, r8, 16     /* v = *(as + 16) */
 508         bslli   r9, r12, 8      /* t1 = v << 8 */
 509         or      r9, r11, r9     /* t1 = h | t1 */
 510         swi     r9, r5, 16      /* *(d + 16) = t1 */
 511         bsrli   r11, r12, 24    /* h = v >> 24 */
 512         lwi     r12, r8, 12     /* v = *(as + 12) */
 513         bslli   r9, r12, 8      /* t1 = v << 8 */
 514         or      r9, r11, r9     /* t1 = h | t1 */
 515         swi     r9, r5, 12      /* *(d + 112) = t1 */
 516         bsrli   r11, r12, 24    /* h = v >> 24 */
 517         lwi     r12, r8, 8      /* v = *(as + 8) */
 518         bslli   r9, r12, 8      /* t1 = v << 8 */
 519         or      r9, r11, r9     /* t1 = h | t1 */
 520         swi     r9, r5, 8       /* *(d + 8) = t1 */
 521         bsrli   r11, r12, 24    /* h = v >> 24 */
 522         lwi     r12, r8, 4      /* v = *(as + 4) */
 523         bslli   r9, r12, 8      /* t1 = v << 8 */
 524         or      r9, r11, r9     /* t1 = h | t1 */
 525         swi     r9, r5, 4       /* *(d + 4) = t1 */
 526         bsrli   r11, r12, 24    /* h = v >> 24 */
 527         lwi     r12, r8, 0      /* v = *(as + 0) */
 528         bslli   r9, r12, 8      /* t1 = v << 8 */
 529         or      r9, r11, r9     /* t1 = h | t1 */
 530         swi     r9, r5, 0       /* *(d + 0) = t1 */
 531         addi    r4, r4, -32     /* n = n - 32 */
 532         bneid   r4, d_bu1_loop  /* while (n) loop */
 533         bsrli   r11, r12, 24    /* h = v >> 24 (IN DELAY SLOT) */
 534         bri     d_block_done
 535
 536 d_block_u2:
 537         bsrli   r11, r11, 16    /* h = h >> 16 */
 538 d_bu2_loop:
 539         addi    r8, r8, -32     /* as = as - 32 */
 540         addi    r5, r5, -32     /* d = d - 32 */
 541         lwi     r12, r8, 28     /* v = *(as + 28) */
 542         bslli   r9, r12, 16     /* t1 = v << 16 */
 543         or      r9, r11, r9     /* t1 = h | t1 */
 544         swi     r9, r5, 28      /* *(d + 28) = t1 */
 545         bsrli   r11, r12, 16    /* h = v >> 16 */
 546         lwi     r12, r8, 24     /* v = *(as + 24) */
 547         bslli   r9, r12, 16     /* t1 = v << 16 */
 548         or      r9, r11, r9     /* t1 = h | t1 */
 549         swi     r9, r5, 24      /* *(d + 24) = t1 */
 550         bsrli   r11, r12, 16    /* h = v >> 16 */
 551         lwi     r12, r8, 20     /* v = *(as + 20) */
 552         bslli   r9, r12, 16     /* t1 = v << 16 */
 553         or      r9, r11, r9     /* t1 = h | t1 */
 554         swi     r9, r5, 20      /* *(d + 20) = t1 */
 555         bsrli   r11, r12, 16    /* h = v >> 16 */
 556         lwi     r12, r8, 16     /* v = *(as + 16) */
 557         bslli   r9, r12, 16     /* t1 = v << 16 */
 558         or      r9, r11, r9     /* t1 = h | t1 */
 559         swi     r9, r5, 16      /* *(d + 16) = t1 */
 560         bsrli   r11, r12, 16    /* h = v >> 16 */
 561         lwi     r12, r8, 12     /* v = *(as + 12) */
 562         bslli   r9, r12, 16     /* t1 = v << 16 */
 563         or      r9, r11, r9     /* t1 = h | t1 */
 564         swi     r9, r5, 12      /* *(d + 112) = t1 */
 565         bsrli   r11, r12, 16    /* h = v >> 16 */
 566         lwi     r12, r8, 8      /* v = *(as + 8) */
 567         bslli   r9, r12, 16     /* t1 = v << 16 */
 568         or      r9, r11, r9     /* t1 = h | t1 */
 569         swi     r9, r5, 8       /* *(d + 8) = t1 */
 570         bsrli   r11, r12, 16    /* h = v >> 16 */
 571         lwi     r12, r8, 4      /* v = *(as + 4) */
 572         bslli   r9, r12, 16     /* t1 = v << 16 */
 573         or      r9, r11, r9     /* t1 = h | t1 */
 574         swi     r9, r5, 4       /* *(d + 4) = t1 */
 575         bsrli   r11, r12, 16    /* h = v >> 16 */
 576         lwi     r12, r8, 0      /* v = *(as + 0) */
 577         bslli   r9, r12, 16     /* t1 = v << 16 */
 578         or      r9, r11, r9     /* t1 = h | t1 */
 579         swi     r9, r5, 0       /* *(d + 0) = t1 */
 580         addi    r4, r4, -32     /* n = n - 32 */
 581         bneid   r4, d_bu2_loop  /* while (n) loop */
 582         bsrli   r11, r12, 16    /* h = v >> 16 (IN DELAY SLOT) */
 583
 584 d_block_done:
 585         addi    r4, r0, 4       /* n = 4 */
 586         cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 587         blti    r4,d_xfer_end   /* if n < 0, less than one word to transfer */
 588
 589 d_word_xfer:
 590         andi    r4, r7, 0xfffffffc      /* n = c & ~3 */
 591         rsub    r5, r4, r5              /* d = d - n */
 592         rsub    r6, r4, r6              /* s = s - n */
 593         rsub    r7, r4, r7              /* c = c - n */
 594
 595         andi    r9, r6, 3               /* t1 = s & 3 */
 596         /* if temp != 0, unaligned transfers needed */
 597         bnei    r9, d_word_unaligned
 598
 599 d_word_aligned:
 600         addi    r4, r4,-4               /* n-- */
 601         lw      r9, r6, r4              /* t1 = *(s+n) */
 602         bneid   r4, d_word_aligned      /* loop */
 603         sw      r9, r5, r4              /* *(d+n) = t1 (IN DELAY SLOT) */
 604
 605         bri     d_word_done
 606
 607 d_word_unaligned:
 608         andi    r8, r6, 0xfffffffc      /* as = s & ~3 */
 609         lw      r11, r8, r4             /* h = *(as + n) */
 610
 611         addi    r9, r9, -1
 612         beqi    r9,d_word_u1            /* t1 was 1 => 1 byte offset */
 613         addi    r9, r9, -1
 614         beqi    r9,d_word_u2            /* t1 was 2 => 2 byte offset */
 615
 616 d_word_u3:
 617         bsrli   r11, r11, 8     /* h = h >> 8 */
 618 d_wu3_loop:
 619         addi    r4, r4,-4       /* n = n - 4 */
 620         lw      r12, r8, r4     /* v = *(as + n) */
 621         bslli   r9, r12, 24     /* t1 = v << 24 */
 622         or      r9, r11, r9     /* t1 = h | t1 */
 623         sw      r9, r5, r4      /* *(d + n) = t1 */
 624         bneid   r4, d_wu3_loop  /* while (n) loop */
 625         bsrli   r11, r12, 8     /* h = v >> 8 (IN DELAY SLOT) */
 626
 627         bri     d_word_done
 628
 629 d_word_u1:
 630         bsrli   r11, r11, 24    /* h = h >> 24 */
 631 d_wu1_loop:
 632         addi    r4, r4,-4       /* n = n - 4 */
 633         lw      r12, r8, r4     /* v = *(as + n) */
 634         bslli   r9, r12, 8      /* t1 = v << 8 */
 635         or      r9, r11, r9     /* t1 = h | t1 */
 636         sw      r9, r5, r4      /* *(d + n) = t1 */
 637         bneid   r4, d_wu1_loop  /* while (n) loop */
 638         bsrli   r11, r12, 24    /* h = v >> 24 (IN DELAY SLOT) */
 639
 640         bri     d_word_done
 641
 642 d_word_u2:
 643         bsrli   r11, r11, 16    /* h = h >> 16 */
 644 d_wu2_loop:
 645         addi    r4, r4,-4       /* n = n - 4 */
 646         lw      r12, r8, r4     /* v = *(as + n) */
 647         bslli   r9, r12, 16     /* t1 = v << 16 */
 648         or      r9, r11, r9     /* t1 = h | t1 */
 649         sw      r9, r5, r4      /* *(d + n) = t1 */
 650         bneid   r4, d_wu2_loop  /* while (n) loop */
 651         bsrli   r11, r12, 16    /* h = v >> 16 (IN DELAY SLOT) */
 652
 653 d_word_done:
 654
 655 d_xfer_end:
 656 d_xfer_end_loop:
 657         beqi    r7, a_done              /* while (c) */
 658         addi    r6, r6, -1              /* s-- */
 659         lbui    r9, r6, 0               /* t1 = *s */
 660         addi    r5, r5, -1              /* d-- */
 661         sbi     r9, r5, 0               /* *d = t1 */
 662         brid    d_xfer_end_loop         /* loop */
 663         addi    r7, r7, -1              /* c-- (IN DELAY SLOT) */
 664
 665 d_done:
 666         rtsd    r15, 8
 667         nop
 668
 669 .size  memmove, . - memmove
 670 .end memmove