kvm-all.c

   1 /*
   2  * QEMU KVM support
   3  *
   4  * Copyright IBM, Corp. 2008
   5  *           Red Hat, Inc. 2008
   6  *
   7  * Authors:
   8  *  Anthony Liguori   <aliguori@us.ibm.com>
   9  *  Glauber Costa     <gcosta@redhat.com>
  10  *
  11  * This work is licensed under the terms of the GNU GPL, version 2 or later.
  12  * See the COPYING file in the top-level directory.
  13  *
  14  */
  15
  16 #include <sys/types.h>
  17 #include <sys/ioctl.h>
  18 #include <sys/mman.h>
  19 #include <stdarg.h>
  20
  21 #include <linux/kvm.h>
  22
  23 #include "qemu-common.h"
  24 #include "sysemu.h"
  25 #include "hw/hw.h"
  26 #include "gdbstub.h"
  27 #include "kvm.h"
  28
  29 /* KVM uses PAGE_SIZE in it's definition of COALESCED_MMIO_MAX */
  30 #define PAGE_SIZE TARGET_PAGE_SIZE
  31
  32 //#define DEBUG_KVM
  33
  34 #ifdef DEBUG_KVM
  35 #define dprintf(fmt, ...) \
  36     do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
  37 #else
  38 #define dprintf(fmt, ...) \
  39     do { } while (0)
  40 #endif
  41
  42 typedef struct KVMSlot
  43 {
  44     target_phys_addr_t start_addr;
  45     ram_addr_t memory_size;
  46     ram_addr_t phys_offset;
  47     int slot;
  48     int flags;
  49 } KVMSlot;
  50
  51 typedef struct kvm_dirty_log KVMDirtyLog;
  52
  53 int kvm_allowed = 0;
  54
  55 struct KVMState
  56 {
  57     KVMSlot slots[32];
  58     int fd;
  59     int vmfd;
  60     int coalesced_mmio;
  61     int broken_set_mem_region;
  62     int migration_log;
  63 #ifdef KVM_CAP_SET_GUEST_DEBUG
  64     struct kvm_sw_breakpoint_head kvm_sw_breakpoints;
  65 #endif
  66 };
  67
  68 static KVMState *kvm_state;
  69
  70 static KVMSlot *kvm_alloc_slot(KVMState *s)
  71 {
  72     int i;
  73
  74     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
  75         /* KVM private memory slots */
  76         if (i >= 8 && i < 12)
  77             continue;
  78         if (s->slots[i].memory_size == 0)
  79             return &s->slots[i];
  80     }
  81
  82     fprintf(stderr, "%s: no free slot available\n", __func__);
  83     abort();
  84 }
  85
  86 static KVMSlot *kvm_lookup_matching_slot(KVMState *s,
  87                                          target_phys_addr_t start_addr,
  88                                          target_phys_addr_t end_addr)
  89 {
  90     int i;
  91
  92     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
  93         KVMSlot *mem = &s->slots[i];
  94
  95         if (start_addr == mem->start_addr &&
  96             end_addr == mem->start_addr + mem->memory_size) {
  97             return mem;
  98         }
  99     }
 100
 101     return NULL;
 102 }
 103
 104 /*
 105  * Find overlapping slot with lowest start address
 106  */
 107 static KVMSlot *kvm_lookup_overlapping_slot(KVMState *s,
 108                                             target_phys_addr_t start_addr,
 109                                             target_phys_addr_t end_addr)
 110 {
 111     KVMSlot *found = NULL;
 112     int i;
 113
 114     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 115         KVMSlot *mem = &s->slots[i];
 116
 117         if (mem->memory_size == 0 ||
 118             (found && found->start_addr < mem->start_addr)) {
 119             continue;
 120         }
 121
 122         if (end_addr > mem->start_addr &&
 123             start_addr < mem->start_addr + mem->memory_size) {
 124             found = mem;
 125         }
 126     }
 127
 128     return found;
 129 }
 130
 131 static int kvm_set_user_memory_region(KVMState *s, KVMSlot *slot)
 132 {
 133     struct kvm_userspace_memory_region mem;
 134
 135     mem.slot = slot->slot;
 136     mem.guest_phys_addr = slot->start_addr;
 137     mem.memory_size = slot->memory_size;
 138     mem.userspace_addr = (unsigned long)qemu_get_ram_ptr(slot->phys_offset);
 139     mem.flags = slot->flags;
 140     if (s->migration_log) {
 141         mem.flags |= KVM_MEM_LOG_DIRTY_PAGES;
 142     }
 143     return kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
 144 }
 145
 146 static void kvm_reset_vcpu(void *opaque)
 147 {
 148     CPUState *env = opaque;
 149
 150     if (kvm_arch_put_registers(env)) {
 151         fprintf(stderr, "Fatal: kvm vcpu reset failed\n");
 152         abort();
 153     }
 154 }
 155
 156 static void on_vcpu(CPUState *env, void (*func)(void *data), void *data)
 157 {
 158     if (env == cpu_single_env) {
 159         func(data);
 160         return;
 161     }
 162     abort();
 163 }
 164
 165 int kvm_init_vcpu(CPUState *env)
 166 {
 167     KVMState *s = kvm_state;
 168     long mmap_size;
 169     int ret;
 170
 171     dprintf("kvm_init_vcpu\n");
 172
 173     ret = kvm_vm_ioctl(s, KVM_CREATE_VCPU, env->cpu_index);
 174     if (ret < 0) {
 175         dprintf("kvm_create_vcpu failed\n");
 176         goto err;
 177     }
 178
 179     env->kvm_fd = ret;
 180     env->kvm_state = s;
 181
 182     mmap_size = kvm_ioctl(s, KVM_GET_VCPU_MMAP_SIZE, 0);
 183     if (mmap_size < 0) {
 184         dprintf("KVM_GET_VCPU_MMAP_SIZE failed\n");
 185         goto err;
 186     }
 187
 188     env->kvm_run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED,
 189                         env->kvm_fd, 0);
 190     if (env->kvm_run == MAP_FAILED) {
 191         ret = -errno;
 192         dprintf("mmap'ing vcpu state failed\n");
 193         goto err;
 194     }
 195
 196     ret = kvm_arch_init_vcpu(env);
 197     if (ret == 0) {
 198         qemu_register_reset(kvm_reset_vcpu, env);
 199         ret = kvm_arch_put_registers(env);
 200     }
 201 err:
 202     return ret;
 203 }
 204
 205 int kvm_put_mp_state(CPUState *env)
 206 {
 207     struct kvm_mp_state mp_state = { .mp_state = env->mp_state };
 208
 209     return kvm_vcpu_ioctl(env, KVM_SET_MP_STATE, &mp_state);
 210 }
 211
 212 int kvm_get_mp_state(CPUState *env)
 213 {
 214     struct kvm_mp_state mp_state;
 215     int ret;
 216
 217     ret = kvm_vcpu_ioctl(env, KVM_GET_MP_STATE, &mp_state);
 218     if (ret < 0) {
 219         return ret;
 220     }
 221     env->mp_state = mp_state.mp_state;
 222     return 0;
 223 }
 224
 225 /*
 226  * dirty pages logging control
 227  */
 228 static int kvm_dirty_pages_log_change(target_phys_addr_t phys_addr,
 229                                       ram_addr_t size, int flags, int mask)
 230 {
 231     KVMState *s = kvm_state;
 232     KVMSlot *mem = kvm_lookup_matching_slot(s, phys_addr, phys_addr + size);
 233     int old_flags;
 234
 235     if (mem == NULL)  {
 236             fprintf(stderr, "BUG: %s: invalid parameters " TARGET_FMT_plx "-"
 237                     TARGET_FMT_plx "\n", __func__, phys_addr,
 238                     (target_phys_addr_t)(phys_addr + size - 1));
 239             return -EINVAL;
 240     }
 241
 242     old_flags = mem->flags;
 243
 244     flags = (mem->flags & ~mask) | flags;
 245     mem->flags = flags;
 246
 247     /* If nothing changed effectively, no need to issue ioctl */
 248     if (s->migration_log) {
 249         flags |= KVM_MEM_LOG_DIRTY_PAGES;
 250     }
 251     if (flags == old_flags) {
 252             return 0;
 253     }
 254
 255     return kvm_set_user_memory_region(s, mem);
 256 }
 257
 258 int kvm_log_start(target_phys_addr_t phys_addr, ram_addr_t size)
 259 {
 260         return kvm_dirty_pages_log_change(phys_addr, size,
 261                                           KVM_MEM_LOG_DIRTY_PAGES,
 262                                           KVM_MEM_LOG_DIRTY_PAGES);
 263 }
 264
 265 int kvm_log_stop(target_phys_addr_t phys_addr, ram_addr_t size)
 266 {
 267         return kvm_dirty_pages_log_change(phys_addr, size,
 268                                           0,
 269                                           KVM_MEM_LOG_DIRTY_PAGES);
 270 }
 271
 272 int kvm_set_migration_log(int enable)
 273 {
 274     KVMState *s = kvm_state;
 275     KVMSlot *mem;
 276     int i, err;
 277
 278     s->migration_log = enable;
 279
 280     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 281         mem = &s->slots[i];
 282
 283         if (!!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES) == enable) {
 284             continue;
 285         }
 286         err = kvm_set_user_memory_region(s, mem);
 287         if (err) {
 288             return err;
 289         }
 290     }
 291     return 0;
 292 }
 293
 294 /**
 295  * kvm_physical_sync_dirty_bitmap - Grab dirty bitmap from kernel space
 296  * This function updates qemu's dirty bitmap using cpu_physical_memory_set_dirty().
 297  * This means all bits are set to dirty.
 298  *
 299  * @start_add: start of logged region.
 300  * @end_addr: end of logged region.
 301  */
 302 int kvm_physical_sync_dirty_bitmap(target_phys_addr_t start_addr,
 303                                    target_phys_addr_t end_addr)
 304 {
 305     KVMState *s = kvm_state;
 306     unsigned long size, allocated_size = 0;
 307     target_phys_addr_t phys_addr;
 308     ram_addr_t addr;
 309     KVMDirtyLog d;
 310     KVMSlot *mem;
 311     int ret = 0;
 312     int r;
 313
 314     d.dirty_bitmap = NULL;
 315     while (start_addr < end_addr) {
 316         mem = kvm_lookup_overlapping_slot(s, start_addr, end_addr);
 317         if (mem == NULL) {
 318             break;
 319         }
 320
 321         /* We didn't activate dirty logging? Don't care then. */
 322         if(!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES)) {
 323             continue;
 324         }
 325
 326         size = ((mem->memory_size >> TARGET_PAGE_BITS) + 7) / 8;
 327         if (!d.dirty_bitmap) {
 328             d.dirty_bitmap = qemu_malloc(size);
 329         } else if (size > allocated_size) {
 330             d.dirty_bitmap = qemu_realloc(d.dirty_bitmap, size);
 331         }
 332         allocated_size = size;
 333         memset(d.dirty_bitmap, 0, allocated_size);
 334
 335         d.slot = mem->slot;
 336
 337         r = kvm_vm_ioctl(s, KVM_GET_DIRTY_LOG, &d);
 338         if (r == -EINVAL) {
 339             dprintf("ioctl failed %d\n", errno);
 340             ret = -1;
 341             break;
 342         }
 343
 344         for (phys_addr = mem->start_addr, addr = mem->phys_offset;
 345              phys_addr < mem->start_addr + mem->memory_size;
 346              phys_addr += TARGET_PAGE_SIZE, addr += TARGET_PAGE_SIZE) {
 347             unsigned long *bitmap = (unsigned long *)d.dirty_bitmap;
 348             unsigned nr = (phys_addr - mem->start_addr) >> TARGET_PAGE_BITS;
 349             unsigned word = nr / (sizeof(*bitmap) * 8);
 350             unsigned bit = nr % (sizeof(*bitmap) * 8);
 351
 352             if ((bitmap[word] >> bit) & 1) {
 353                 cpu_physical_memory_set_dirty(addr);
 354             } else if (r < 0) {
 355                 /* When our KVM implementation doesn't know about dirty logging
 356                  * we can just assume it's always dirty and be fine. */
 357                 cpu_physical_memory_set_dirty(addr);
 358             }
 359         }
 360         start_addr = phys_addr;
 361     }
 362     qemu_free(d.dirty_bitmap);
 363
 364     return ret;
 365 }
 366
 367 int kvm_coalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 368 {
 369     int ret = -ENOSYS;
 370 #ifdef KVM_CAP_COALESCED_MMIO
 371     KVMState *s = kvm_state;
 372
 373     if (s->coalesced_mmio) {
 374         struct kvm_coalesced_mmio_zone zone;
 375
 376         zone.addr = start;
 377         zone.size = size;
 378
 379         ret = kvm_vm_ioctl(s, KVM_REGISTER_COALESCED_MMIO, &zone);
 380     }
 381 #endif
 382
 383     return ret;
 384 }
 385
 386 int kvm_uncoalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 387 {
 388     int ret = -ENOSYS;
 389 #ifdef KVM_CAP_COALESCED_MMIO
 390     KVMState *s = kvm_state;
 391
 392     if (s->coalesced_mmio) {
 393         struct kvm_coalesced_mmio_zone zone;
 394
 395         zone.addr = start;
 396         zone.size = size;
 397
 398         ret = kvm_vm_ioctl(s, KVM_UNREGISTER_COALESCED_MMIO, &zone);
 399     }
 400 #endif
 401
 402     return ret;
 403 }
 404
 405 int kvm_check_extension(KVMState *s, unsigned int extension)
 406 {
 407     int ret;
 408
 409     ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, extension);
 410     if (ret < 0) {
 411         ret = 0;
 412     }
 413
 414     return ret;
 415 }
 416
 417 int kvm_init(int smp_cpus)
 418 {
 419     static const char upgrade_note[] =
 420         "Please upgrade to at least kernel 2.6.29 or recent kvm-kmod\n"
 421         "(see http://sourceforge.net/projects/kvm).\n";
 422     KVMState *s;
 423     int ret;
 424     int i;
 425
 426     if (smp_cpus > 1) {
 427         fprintf(stderr, "No SMP KVM support, use '-smp 1'\n");
 428         return -EINVAL;
 429     }
 430
 431     s = qemu_mallocz(sizeof(KVMState));
 432
 433 #ifdef KVM_CAP_SET_GUEST_DEBUG
 434     TAILQ_INIT(&s->kvm_sw_breakpoints);
 435 #endif
 436     for (i = 0; i < ARRAY_SIZE(s->slots); i++)
 437         s->slots[i].slot = i;
 438
 439     s->vmfd = -1;
 440     s->fd = open("/dev/kvm", O_RDWR);
 441     if (s->fd == -1) {
 442         fprintf(stderr, "Could not access KVM kernel module: %m\n");
 443         ret = -errno;
 444         goto err;
 445     }
 446
 447     ret = kvm_ioctl(s, KVM_GET_API_VERSION, 0);
 448     if (ret < KVM_API_VERSION) {
 449         if (ret > 0)
 450             ret = -EINVAL;
 451         fprintf(stderr, "kvm version too old\n");
 452         goto err;
 453     }
 454
 455     if (ret > KVM_API_VERSION) {
 456         ret = -EINVAL;
 457         fprintf(stderr, "kvm version not supported\n");
 458         goto err;
 459     }
 460
 461     s->vmfd = kvm_ioctl(s, KVM_CREATE_VM, 0);
 462     if (s->vmfd < 0)
 463         goto err;
 464
 465     /* initially, KVM allocated its own memory and we had to jump through
 466      * hooks to make phys_ram_base point to this.  Modern versions of KVM
 467      * just use a user allocated buffer so we can use regular pages
 468      * unmodified.  Make sure we have a sufficiently modern version of KVM.
 469      */
 470     if (!kvm_check_extension(s, KVM_CAP_USER_MEMORY)) {
 471         ret = -EINVAL;
 472         fprintf(stderr, "kvm does not support KVM_CAP_USER_MEMORY\n%s",
 473                 upgrade_note);
 474         goto err;
 475     }
 476
 477     /* There was a nasty bug in < kvm-80 that prevents memory slots from being
 478      * destroyed properly.  Since we rely on this capability, refuse to work
 479      * with any kernel without this capability. */
 480     if (!kvm_check_extension(s, KVM_CAP_DESTROY_MEMORY_REGION_WORKS)) {
 481         ret = -EINVAL;
 482
 483         fprintf(stderr,
 484                 "KVM kernel module broken (DESTROY_MEMORY_REGION).\n%s",
 485                 upgrade_note);
 486         goto err;
 487     }
 488
 489 #ifdef KVM_CAP_COALESCED_MMIO
 490     s->coalesced_mmio = kvm_check_extension(s, KVM_CAP_COALESCED_MMIO);
 491 #else
 492     s->coalesced_mmio = 0;
 493 #endif
 494
 495     s->broken_set_mem_region = 1;
 496 #ifdef KVM_CAP_JOIN_MEMORY_REGIONS_WORKS
 497     ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, KVM_CAP_JOIN_MEMORY_REGIONS_WORKS);
 498     if (ret > 0) {
 499         s->broken_set_mem_region = 0;
 500     }
 501 #endif
 502
 503     ret = kvm_arch_init(s, smp_cpus);
 504     if (ret < 0)
 505         goto err;
 506
 507     kvm_state = s;
 508
 509     return 0;
 510
 511 err:
 512     if (s) {
 513         if (s->vmfd != -1)
 514             close(s->vmfd);
 515         if (s->fd != -1)
 516             close(s->fd);
 517     }
 518     qemu_free(s);
 519
 520     return ret;
 521 }
 522
 523 static int kvm_handle_io(CPUState *env, uint16_t port, void *data,
 524                          int direction, int size, uint32_t count)
 525 {
 526     int i;
 527     uint8_t *ptr = data;
 528
 529     for (i = 0; i < count; i++) {
 530         if (direction == KVM_EXIT_IO_IN) {
 531             switch (size) {
 532             case 1:
 533                 stb_p(ptr, cpu_inb(env, port));
 534                 break;
 535             case 2:
 536                 stw_p(ptr, cpu_inw(env, port));
 537                 break;
 538             case 4:
 539                 stl_p(ptr, cpu_inl(env, port));
 540                 break;
 541             }
 542         } else {
 543             switch (size) {
 544             case 1:
 545                 cpu_outb(env, port, ldub_p(ptr));
 546                 break;
 547             case 2:
 548                 cpu_outw(env, port, lduw_p(ptr));
 549                 break;
 550             case 4:
 551                 cpu_outl(env, port, ldl_p(ptr));
 552                 break;
 553             }
 554         }
 555
 556         ptr += size;
 557     }
 558
 559     return 1;
 560 }
 561
 562 static void kvm_run_coalesced_mmio(CPUState *env, struct kvm_run *run)
 563 {
 564 #ifdef KVM_CAP_COALESCED_MMIO
 565     KVMState *s = kvm_state;
 566     if (s->coalesced_mmio) {
 567         struct kvm_coalesced_mmio_ring *ring;
 568
 569         ring = (void *)run + (s->coalesced_mmio * TARGET_PAGE_SIZE);
 570         while (ring->first != ring->last) {
 571             struct kvm_coalesced_mmio *ent;
 572
 573             ent = &ring->coalesced_mmio[ring->first];
 574
 575             cpu_physical_memory_write(ent->phys_addr, ent->data, ent->len);
 576             /* FIXME smp_wmb() */
 577             ring->first = (ring->first + 1) % KVM_COALESCED_MMIO_MAX;
 578         }
 579     }
 580 #endif
 581 }
 582
 583 int kvm_cpu_exec(CPUState *env)
 584 {
 585     struct kvm_run *run = env->kvm_run;
 586     int ret;
 587
 588     dprintf("kvm_cpu_exec()\n");
 589
 590     do {
 591         if (env->exit_request) {
 592             dprintf("interrupt exit requested\n");
 593             ret = 0;
 594             break;
 595         }
 596
 597         kvm_arch_pre_run(env, run);
 598         ret = kvm_vcpu_ioctl(env, KVM_RUN, 0);
 599         kvm_arch_post_run(env, run);
 600
 601         if (ret == -EINTR || ret == -EAGAIN) {
 602             dprintf("io window exit\n");
 603             ret = 0;
 604             break;
 605         }
 606
 607         if (ret < 0) {
 608             dprintf("kvm run failed %s\n", strerror(-ret));
 609             abort();
 610         }
 611
 612         kvm_run_coalesced_mmio(env, run);
 613
 614         ret = 0; /* exit loop */
 615         switch (run->exit_reason) {
 616         case KVM_EXIT_IO:
 617             dprintf("handle_io\n");
 618             ret = kvm_handle_io(env, run->io.port,
 619                                 (uint8_t *)run + run->io.data_offset,
 620                                 run->io.direction,
 621                                 run->io.size,
 622                                 run->io.count);
 623             break;
 624         case KVM_EXIT_MMIO:
 625             dprintf("handle_mmio\n");
 626             cpu_physical_memory_rw(run->mmio.phys_addr,
 627                                    run->mmio.data,
 628                                    run->mmio.len,
 629                                    run->mmio.is_write);
 630             ret = 1;
 631             break;
 632         case KVM_EXIT_IRQ_WINDOW_OPEN:
 633             dprintf("irq_window_open\n");
 634             break;
 635         case KVM_EXIT_SHUTDOWN:
 636             dprintf("shutdown\n");
 637             qemu_system_reset_request();
 638             ret = 1;
 639             break;
 640         case KVM_EXIT_UNKNOWN:
 641             dprintf("kvm_exit_unknown\n");
 642             break;
 643         case KVM_EXIT_FAIL_ENTRY:
 644             dprintf("kvm_exit_fail_entry\n");
 645             break;
 646         case KVM_EXIT_EXCEPTION:
 647             dprintf("kvm_exit_exception\n");
 648             break;
 649         case KVM_EXIT_DEBUG:
 650             dprintf("kvm_exit_debug\n");
 651 #ifdef KVM_CAP_SET_GUEST_DEBUG
 652             if (kvm_arch_debug(&run->debug.arch)) {
 653                 gdb_set_stop_cpu(env);
 654                 vm_stop(EXCP_DEBUG);
 655                 env->exception_index = EXCP_DEBUG;
 656                 return 0;
 657             }
 658             /* re-enter, this exception was guest-internal */
 659             ret = 1;
 660 #endif /* KVM_CAP_SET_GUEST_DEBUG */
 661             break;
 662         default:
 663             dprintf("kvm_arch_handle_exit\n");
 664             ret = kvm_arch_handle_exit(env, run);
 665             break;
 666         }
 667     } while (ret > 0);
 668
 669     if (env->exit_request) {
 670         env->exit_request = 0;
 671         env->exception_index = EXCP_INTERRUPT;
 672     }
 673
 674     return ret;
 675 }
 676
 677 void kvm_set_phys_mem(target_phys_addr_t start_addr,
 678                       ram_addr_t size,
 679                       ram_addr_t phys_offset)
 680 {
 681     KVMState *s = kvm_state;
 682     ram_addr_t flags = phys_offset & ~TARGET_PAGE_MASK;
 683     KVMSlot *mem, old;
 684     int err;
 685
 686     if (start_addr & ~TARGET_PAGE_MASK) {
 687         if (flags >= IO_MEM_UNASSIGNED) {
 688             if (!kvm_lookup_overlapping_slot(s, start_addr,
 689                                              start_addr + size)) {
 690                 return;
 691             }
 692             fprintf(stderr, "Unaligned split of a KVM memory slot\n");
 693         } else {
 694             fprintf(stderr, "Only page-aligned memory slots supported\n");
 695         }
 696         abort();
 697     }
 698
 699     /* KVM does not support read-only slots */
 700     phys_offset &= ~IO_MEM_ROM;
 701
 702     while (1) {
 703         mem = kvm_lookup_overlapping_slot(s, start_addr, start_addr + size);
 704         if (!mem) {
 705             break;
 706         }
 707
 708         if (flags < IO_MEM_UNASSIGNED && start_addr >= mem->start_addr &&
 709             (start_addr + size <= mem->start_addr + mem->memory_size) &&
 710             (phys_offset - start_addr == mem->phys_offset - mem->start_addr)) {
 711             /* The new slot fits into the existing one and comes with
 712              * identical parameters - nothing to be done. */
 713             return;
 714         }
 715
 716         old = *mem;
 717
 718         /* unregister the overlapping slot */
 719         mem->memory_size = 0;
 720         err = kvm_set_user_memory_region(s, mem);
 721         if (err) {
 722             fprintf(stderr, "%s: error unregistering overlapping slot: %s\n",
 723                     __func__, strerror(-err));
 724             abort();
 725         }
 726
 727         /* Workaround for older KVM versions: we can't join slots, even not by
 728          * unregistering the previous ones and then registering the larger
 729          * slot. We have to maintain the existing fragmentation. Sigh.
 730          *
 731          * This workaround assumes that the new slot starts at the same
 732          * address as the first existing one. If not or if some overlapping
 733          * slot comes around later, we will fail (not seen in practice so far)
 734          * - and actually require a recent KVM version. */
 735         if (s->broken_set_mem_region &&
 736             old.start_addr == start_addr && old.memory_size < size &&
 737             flags < IO_MEM_UNASSIGNED) {
 738             mem = kvm_alloc_slot(s);
 739             mem->memory_size = old.memory_size;
 740             mem->start_addr = old.start_addr;
 741             mem->phys_offset = old.phys_offset;
 742             mem->flags = 0;
 743
 744             err = kvm_set_user_memory_region(s, mem);
 745             if (err) {
 746                 fprintf(stderr, "%s: error updating slot: %s\n", __func__,
 747                         strerror(-err));
 748                 abort();
 749             }
 750
 751             start_addr += old.memory_size;
 752             phys_offset += old.memory_size;
 753             size -= old.memory_size;
 754             continue;
 755         }
 756
 757         /* register prefix slot */
 758         if (old.start_addr < start_addr) {
 759             mem = kvm_alloc_slot(s);
 760             mem->memory_size = start_addr - old.start_addr;
 761             mem->start_addr = old.start_addr;
 762             mem->phys_offset = old.phys_offset;
 763             mem->flags = 0;
 764
 765             err = kvm_set_user_memory_region(s, mem);
 766             if (err) {
 767                 fprintf(stderr, "%s: error registering prefix slot: %s\n",
 768                         __func__, strerror(-err));
 769                 abort();
 770             }
 771         }
 772
 773         /* register suffix slot */
 774         if (old.start_addr + old.memory_size > start_addr + size) {
 775             ram_addr_t size_delta;
 776
 777             mem = kvm_alloc_slot(s);
 778             mem->start_addr = start_addr + size;
 779             size_delta = mem->start_addr - old.start_addr;
 780             mem->memory_size = old.memory_size - size_delta;
 781             mem->phys_offset = old.phys_offset + size_delta;
 782             mem->flags = 0;
 783
 784             err = kvm_set_user_memory_region(s, mem);
 785             if (err) {
 786                 fprintf(stderr, "%s: error registering suffix slot: %s\n",
 787                         __func__, strerror(-err));
 788                 abort();
 789             }
 790         }
 791     }
 792
 793     /* in case the KVM bug workaround already "consumed" the new slot */
 794     if (!size)
 795         return;
 796
 797     /* KVM does not need to know about this memory */
 798     if (flags >= IO_MEM_UNASSIGNED)
 799         return;
 800
 801     mem = kvm_alloc_slot(s);
 802     mem->memory_size = size;
 803     mem->start_addr = start_addr;
 804     mem->phys_offset = phys_offset;
 805     mem->flags = 0;
 806
 807     err = kvm_set_user_memory_region(s, mem);
 808     if (err) {
 809         fprintf(stderr, "%s: error registering slot: %s\n", __func__,
 810                 strerror(-err));
 811         abort();
 812     }
 813 }
 814
 815 int kvm_ioctl(KVMState *s, int type, ...)
 816 {
 817     int ret;
 818     void *arg;
 819     va_list ap;
 820
 821     va_start(ap, type);
 822     arg = va_arg(ap, void *);
 823     va_end(ap);
 824
 825     ret = ioctl(s->fd, type, arg);
 826     if (ret == -1)
 827         ret = -errno;
 828
 829     return ret;
 830 }
 831
 832 int kvm_vm_ioctl(KVMState *s, int type, ...)
 833 {
 834     int ret;
 835     void *arg;
 836     va_list ap;
 837
 838     va_start(ap, type);
 839     arg = va_arg(ap, void *);
 840     va_end(ap);
 841
 842     ret = ioctl(s->vmfd, type, arg);
 843     if (ret == -1)
 844         ret = -errno;
 845
 846     return ret;
 847 }
 848
 849 int kvm_vcpu_ioctl(CPUState *env, int type, ...)
 850 {
 851     int ret;
 852     void *arg;
 853     va_list ap;
 854
 855     va_start(ap, type);
 856     arg = va_arg(ap, void *);
 857     va_end(ap);
 858
 859     ret = ioctl(env->kvm_fd, type, arg);
 860     if (ret == -1)
 861         ret = -errno;
 862
 863     return ret;
 864 }
 865
 866 int kvm_has_sync_mmu(void)
 867 {
 868 #ifdef KVM_CAP_SYNC_MMU
 869     KVMState *s = kvm_state;
 870
 871     return kvm_check_extension(s, KVM_CAP_SYNC_MMU);
 872 #else
 873     return 0;
 874 #endif
 875 }
 876
 877 void kvm_setup_guest_memory(void *start, size_t size)
 878 {
 879     if (!kvm_has_sync_mmu()) {
 880 #ifdef MADV_DONTFORK
 881         int ret = madvise(start, size, MADV_DONTFORK);
 882
 883         if (ret) {
 884             perror("madvice");
 885             exit(1);
 886         }
 887 #else
 888         fprintf(stderr,
 889                 "Need MADV_DONTFORK in absence of synchronous KVM MMU\n");
 890         exit(1);
 891 #endif
 892     }
 893 }
 894
 895 #ifdef KVM_CAP_SET_GUEST_DEBUG
 896 struct kvm_sw_breakpoint *kvm_find_sw_breakpoint(CPUState *env,
 897                                                  target_ulong pc)
 898 {
 899     struct kvm_sw_breakpoint *bp;
 900
 901     TAILQ_FOREACH(bp, &env->kvm_state->kvm_sw_breakpoints, entry) {
 902         if (bp->pc == pc)
 903             return bp;
 904     }
 905     return NULL;
 906 }
 907
 908 int kvm_sw_breakpoints_active(CPUState *env)
 909 {
 910     return !TAILQ_EMPTY(&env->kvm_state->kvm_sw_breakpoints);
 911 }
 912
 913 struct kvm_set_guest_debug_data {
 914     struct kvm_guest_debug dbg;
 915     CPUState *env;
 916     int err;
 917 };
 918
 919 static void kvm_invoke_set_guest_debug(void *data)
 920 {
 921     struct kvm_set_guest_debug_data *dbg_data = data;
 922     dbg_data->err = kvm_vcpu_ioctl(dbg_data->env, KVM_SET_GUEST_DEBUG, &dbg_data->dbg);
 923 }
 924
 925 int kvm_update_guest_debug(CPUState *env, unsigned long reinject_trap)
 926 {
 927     struct kvm_set_guest_debug_data data;
 928
 929     data.dbg.control = 0;
 930     if (env->singlestep_enabled)
 931         data.dbg.control = KVM_GUESTDBG_ENABLE | KVM_GUESTDBG_SINGLESTEP;
 932
 933     kvm_arch_update_guest_debug(env, &data.dbg);
 934     data.dbg.control |= reinject_trap;
 935     data.env = env;
 936
 937     on_vcpu(env, kvm_invoke_set_guest_debug, &data);
 938     return data.err;
 939 }
 940
 941 int kvm_insert_breakpoint(CPUState *current_env, target_ulong addr,
 942                           target_ulong len, int type)
 943 {
 944     struct kvm_sw_breakpoint *bp;
 945     CPUState *env;
 946     int err;
 947
 948     if (type == GDB_BREAKPOINT_SW) {
 949         bp = kvm_find_sw_breakpoint(current_env, addr);
 950         if (bp) {
 951             bp->use_count++;
 952             return 0;
 953         }
 954
 955         bp = qemu_malloc(sizeof(struct kvm_sw_breakpoint));
 956         if (!bp)
 957             return -ENOMEM;
 958
 959         bp->pc = addr;
 960         bp->use_count = 1;
 961         err = kvm_arch_insert_sw_breakpoint(current_env, bp);
 962         if (err) {
 963             free(bp);
 964             return err;
 965         }
 966
 967         TAILQ_INSERT_HEAD(&current_env->kvm_state->kvm_sw_breakpoints,
 968                           bp, entry);
 969     } else {
 970         err = kvm_arch_insert_hw_breakpoint(addr, len, type);
 971         if (err)
 972             return err;
 973     }
 974
 975     for (env = first_cpu; env != NULL; env = env->next_cpu) {
 976         err = kvm_update_guest_debug(env, 0);
 977         if (err)
 978             return err;
 979     }
 980     return 0;
 981 }
 982
 983 int kvm_remove_breakpoint(CPUState *current_env, target_ulong addr,
 984                           target_ulong len, int type)
 985 {
 986     struct kvm_sw_breakpoint *bp;
 987     CPUState *env;
 988     int err;
 989
 990     if (type == GDB_BREAKPOINT_SW) {
 991         bp = kvm_find_sw_breakpoint(current_env, addr);
 992         if (!bp)
 993             return -ENOENT;
 994
 995         if (bp->use_count > 1) {
 996             bp->use_count--;
 997             return 0;
 998         }
 999
1000         err = kvm_arch_remove_sw_breakpoint(current_env, bp);
1001         if (err)
1002             return err;
1003
1004         TAILQ_REMOVE(&current_env->kvm_state->kvm_sw_breakpoints, bp, entry);
1005         qemu_free(bp);
1006     } else {
1007         err = kvm_arch_remove_hw_breakpoint(addr, len, type);
1008         if (err)
1009             return err;
1010     }
1011
1012     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1013         err = kvm_update_guest_debug(env, 0);
1014         if (err)
1015             return err;
1016     }
1017     return 0;
1018 }
1019
1020 void kvm_remove_all_breakpoints(CPUState *current_env)
1021 {
1022     struct kvm_sw_breakpoint *bp, *next;
1023     KVMState *s = current_env->kvm_state;
1024     CPUState *env;
1025
1026     TAILQ_FOREACH_SAFE(bp, &s->kvm_sw_breakpoints, entry, next) {
1027         if (kvm_arch_remove_sw_breakpoint(current_env, bp) != 0) {
1028             /* Try harder to find a CPU that currently sees the breakpoint. */
1029             for (env = first_cpu; env != NULL; env = env->next_cpu) {
1030                 if (kvm_arch_remove_sw_breakpoint(env, bp) == 0)
1031                     break;
1032             }
1033         }
1034     }
1035     kvm_arch_remove_all_hw_breakpoints();
1036
1037     for (env = first_cpu; env != NULL; env = env->next_cpu)
1038         kvm_update_guest_debug(env, 0);
1039 }
1040
1041 #else /* !KVM_CAP_SET_GUEST_DEBUG */
1042
1043 int kvm_update_guest_debug(CPUState *env, unsigned long reinject_trap)
1044 {
1045     return -EINVAL;
1046 }
1047
1048 int kvm_insert_breakpoint(CPUState *current_env, target_ulong addr,
1049                           target_ulong len, int type)
1050 {
1051     return -EINVAL;
1052 }
1053
1054 int kvm_remove_breakpoint(CPUState *current_env, target_ulong addr,
1055                           target_ulong len, int type)
1056 {
1057     return -EINVAL;
1058 }
1059
1060 void kvm_remove_all_breakpoints(CPUState *current_env)
1061 {
1062 }
1063 #endif /* !KVM_CAP_SET_GUEST_DEBUG */