kvm-all.c

   1 /*
   2  * QEMU KVM support
   3  *
   4  * Copyright IBM, Corp. 2008
   5  *           Red Hat, Inc. 2008
   6  *
   7  * Authors:
   8  *  Anthony Liguori   <aliguori@us.ibm.com>
   9  *  Glauber Costa     <gcosta@redhat.com>
  10  *
  11  * This work is licensed under the terms of the GNU GPL, version 2 or later.
  12  * See the COPYING file in the top-level directory.
  13  *
  14  */
  15
  16 #include <sys/types.h>
  17 #include <sys/ioctl.h>
  18 #include <sys/mman.h>
  19 #include <stdarg.h>
  20
  21 #include <linux/kvm.h>
  22
  23 #include "qemu-common.h"
  24 #include "sysemu.h"
  25 #include "hw/hw.h"
  26 #include "gdbstub.h"
  27 #include "kvm.h"
  28
  29 /* KVM uses PAGE_SIZE in it's definition of COALESCED_MMIO_MAX */
  30 #define PAGE_SIZE TARGET_PAGE_SIZE
  31
  32 //#define DEBUG_KVM
  33
  34 #ifdef DEBUG_KVM
  35 #define dprintf(fmt, ...) \
  36     do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
  37 #else
  38 #define dprintf(fmt, ...) \
  39     do { } while (0)
  40 #endif
  41
  42 typedef struct KVMSlot
  43 {
  44     target_phys_addr_t start_addr;
  45     ram_addr_t memory_size;
  46     ram_addr_t phys_offset;
  47     int slot;
  48     int flags;
  49 } KVMSlot;
  50
  51 typedef struct kvm_dirty_log KVMDirtyLog;
  52
  53 int kvm_allowed = 0;
  54
  55 struct KVMState
  56 {
  57     KVMSlot slots[32];
  58     int fd;
  59     int vmfd;
  60     int regs_modified;
  61     int coalesced_mmio;
  62     int broken_set_mem_region;
  63     int migration_log;
  64 #ifdef KVM_CAP_SET_GUEST_DEBUG
  65     struct kvm_sw_breakpoint_head kvm_sw_breakpoints;
  66 #endif
  67     int irqchip_in_kernel;
  68     int pit_in_kernel;
  69 };
  70
  71 static KVMState *kvm_state;
  72
  73 static KVMSlot *kvm_alloc_slot(KVMState *s)
  74 {
  75     int i;
  76
  77     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
  78         /* KVM private memory slots */
  79         if (i >= 8 && i < 12)
  80             continue;
  81         if (s->slots[i].memory_size == 0)
  82             return &s->slots[i];
  83     }
  84
  85     fprintf(stderr, "%s: no free slot available\n", __func__);
  86     abort();
  87 }
  88
  89 static KVMSlot *kvm_lookup_matching_slot(KVMState *s,
  90                                          target_phys_addr_t start_addr,
  91                                          target_phys_addr_t end_addr)
  92 {
  93     int i;
  94
  95     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
  96         KVMSlot *mem = &s->slots[i];
  97
  98         if (start_addr == mem->start_addr &&
  99             end_addr == mem->start_addr + mem->memory_size) {
 100             return mem;
 101         }
 102     }
 103
 104     return NULL;
 105 }
 106
 107 /*
 108  * Find overlapping slot with lowest start address
 109  */
 110 static KVMSlot *kvm_lookup_overlapping_slot(KVMState *s,
 111                                             target_phys_addr_t start_addr,
 112                                             target_phys_addr_t end_addr)
 113 {
 114     KVMSlot *found = NULL;
 115     int i;
 116
 117     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 118         KVMSlot *mem = &s->slots[i];
 119
 120         if (mem->memory_size == 0 ||
 121             (found && found->start_addr < mem->start_addr)) {
 122             continue;
 123         }
 124
 125         if (end_addr > mem->start_addr &&
 126             start_addr < mem->start_addr + mem->memory_size) {
 127             found = mem;
 128         }
 129     }
 130
 131     return found;
 132 }
 133
 134 static int kvm_set_user_memory_region(KVMState *s, KVMSlot *slot)
 135 {
 136     struct kvm_userspace_memory_region mem;
 137
 138     mem.slot = slot->slot;
 139     mem.guest_phys_addr = slot->start_addr;
 140     mem.memory_size = slot->memory_size;
 141     mem.userspace_addr = (unsigned long)qemu_get_ram_ptr(slot->phys_offset);
 142     mem.flags = slot->flags;
 143     if (s->migration_log) {
 144         mem.flags |= KVM_MEM_LOG_DIRTY_PAGES;
 145     }
 146     return kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
 147 }
 148
 149 static void kvm_reset_vcpu(void *opaque)
 150 {
 151     CPUState *env = opaque;
 152
 153     if (kvm_arch_put_registers(env)) {
 154         fprintf(stderr, "Fatal: kvm vcpu reset failed\n");
 155         abort();
 156     }
 157 }
 158
 159 int kvm_irqchip_in_kernel(void)
 160 {
 161     return kvm_state->irqchip_in_kernel;
 162 }
 163
 164 int kvm_pit_in_kernel(void)
 165 {
 166     return kvm_state->pit_in_kernel;
 167 }
 168
 169
 170 int kvm_init_vcpu(CPUState *env)
 171 {
 172     KVMState *s = kvm_state;
 173     long mmap_size;
 174     int ret;
 175
 176     dprintf("kvm_init_vcpu\n");
 177
 178     ret = kvm_vm_ioctl(s, KVM_CREATE_VCPU, env->cpu_index);
 179     if (ret < 0) {
 180         dprintf("kvm_create_vcpu failed\n");
 181         goto err;
 182     }
 183
 184     env->kvm_fd = ret;
 185     env->kvm_state = s;
 186
 187     mmap_size = kvm_ioctl(s, KVM_GET_VCPU_MMAP_SIZE, 0);
 188     if (mmap_size < 0) {
 189         dprintf("KVM_GET_VCPU_MMAP_SIZE failed\n");
 190         goto err;
 191     }
 192
 193     env->kvm_run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED,
 194                         env->kvm_fd, 0);
 195     if (env->kvm_run == MAP_FAILED) {
 196         ret = -errno;
 197         dprintf("mmap'ing vcpu state failed\n");
 198         goto err;
 199     }
 200
 201     ret = kvm_arch_init_vcpu(env);
 202     if (ret == 0) {
 203         qemu_register_reset(kvm_reset_vcpu, env);
 204         ret = kvm_arch_put_registers(env);
 205     }
 206 err:
 207     return ret;
 208 }
 209
 210 int kvm_put_mp_state(CPUState *env)
 211 {
 212     struct kvm_mp_state mp_state = { .mp_state = env->mp_state };
 213
 214     return kvm_vcpu_ioctl(env, KVM_SET_MP_STATE, &mp_state);
 215 }
 216
 217 int kvm_get_mp_state(CPUState *env)
 218 {
 219     struct kvm_mp_state mp_state;
 220     int ret;
 221
 222     ret = kvm_vcpu_ioctl(env, KVM_GET_MP_STATE, &mp_state);
 223     if (ret < 0) {
 224         return ret;
 225     }
 226     env->mp_state = mp_state.mp_state;
 227     return 0;
 228 }
 229
 230 /*
 231  * dirty pages logging control
 232  */
 233 static int kvm_dirty_pages_log_change(target_phys_addr_t phys_addr,
 234                                       ram_addr_t size, int flags, int mask)
 235 {
 236     KVMState *s = kvm_state;
 237     KVMSlot *mem = kvm_lookup_matching_slot(s, phys_addr, phys_addr + size);
 238     int old_flags;
 239
 240     if (mem == NULL)  {
 241             fprintf(stderr, "BUG: %s: invalid parameters " TARGET_FMT_plx "-"
 242                     TARGET_FMT_plx "\n", __func__, phys_addr,
 243                     (target_phys_addr_t)(phys_addr + size - 1));
 244             return -EINVAL;
 245     }
 246
 247     old_flags = mem->flags;
 248
 249     flags = (mem->flags & ~mask) | flags;
 250     mem->flags = flags;
 251
 252     /* If nothing changed effectively, no need to issue ioctl */
 253     if (s->migration_log) {
 254         flags |= KVM_MEM_LOG_DIRTY_PAGES;
 255     }
 256     if (flags == old_flags) {
 257             return 0;
 258     }
 259
 260     return kvm_set_user_memory_region(s, mem);
 261 }
 262
 263 int kvm_log_start(target_phys_addr_t phys_addr, ram_addr_t size)
 264 {
 265         return kvm_dirty_pages_log_change(phys_addr, size,
 266                                           KVM_MEM_LOG_DIRTY_PAGES,
 267                                           KVM_MEM_LOG_DIRTY_PAGES);
 268 }
 269
 270 int kvm_log_stop(target_phys_addr_t phys_addr, ram_addr_t size)
 271 {
 272         return kvm_dirty_pages_log_change(phys_addr, size,
 273                                           0,
 274                                           KVM_MEM_LOG_DIRTY_PAGES);
 275 }
 276
 277 int kvm_set_migration_log(int enable)
 278 {
 279     KVMState *s = kvm_state;
 280     KVMSlot *mem;
 281     int i, err;
 282
 283     s->migration_log = enable;
 284
 285     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 286         mem = &s->slots[i];
 287
 288         if (!!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES) == enable) {
 289             continue;
 290         }
 291         err = kvm_set_user_memory_region(s, mem);
 292         if (err) {
 293             return err;
 294         }
 295     }
 296     return 0;
 297 }
 298
 299 static int test_le_bit(unsigned long nr, unsigned char *addr)
 300 {
 301     return (addr[nr >> 3] >> (nr & 7)) & 1;
 302 }
 303
 304 /**
 305  * kvm_physical_sync_dirty_bitmap - Grab dirty bitmap from kernel space
 306  * This function updates qemu's dirty bitmap using cpu_physical_memory_set_dirty().
 307  * This means all bits are set to dirty.
 308  *
 309  * @start_add: start of logged region.
 310  * @end_addr: end of logged region.
 311  */
 312 int kvm_physical_sync_dirty_bitmap(target_phys_addr_t start_addr,
 313                                    target_phys_addr_t end_addr)
 314 {
 315     KVMState *s = kvm_state;
 316     unsigned long size, allocated_size = 0;
 317     target_phys_addr_t phys_addr;
 318     ram_addr_t addr;
 319     KVMDirtyLog d;
 320     KVMSlot *mem;
 321     int ret = 0;
 322
 323     d.dirty_bitmap = NULL;
 324     while (start_addr < end_addr) {
 325         mem = kvm_lookup_overlapping_slot(s, start_addr, end_addr);
 326         if (mem == NULL) {
 327             break;
 328         }
 329
 330         size = ((mem->memory_size >> TARGET_PAGE_BITS) + 7) / 8;
 331         if (!d.dirty_bitmap) {
 332             d.dirty_bitmap = qemu_malloc(size);
 333         } else if (size > allocated_size) {
 334             d.dirty_bitmap = qemu_realloc(d.dirty_bitmap, size);
 335         }
 336         allocated_size = size;
 337         memset(d.dirty_bitmap, 0, allocated_size);
 338
 339         d.slot = mem->slot;
 340
 341         if (kvm_vm_ioctl(s, KVM_GET_DIRTY_LOG, &d) == -1) {
 342             dprintf("ioctl failed %d\n", errno);
 343             ret = -1;
 344             break;
 345         }
 346
 347         for (phys_addr = mem->start_addr, addr = mem->phys_offset;
 348              phys_addr < mem->start_addr + mem->memory_size;
 349              phys_addr += TARGET_PAGE_SIZE, addr += TARGET_PAGE_SIZE) {
 350             unsigned char *bitmap = (unsigned char *)d.dirty_bitmap;
 351             unsigned nr = (phys_addr - mem->start_addr) >> TARGET_PAGE_BITS;
 352
 353             if (test_le_bit(nr, bitmap)) {
 354                 cpu_physical_memory_set_dirty(addr);
 355             }
 356         }
 357         start_addr = phys_addr;
 358     }
 359     qemu_free(d.dirty_bitmap);
 360
 361     return ret;
 362 }
 363
 364 int kvm_coalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 365 {
 366     int ret = -ENOSYS;
 367 #ifdef KVM_CAP_COALESCED_MMIO
 368     KVMState *s = kvm_state;
 369
 370     if (s->coalesced_mmio) {
 371         struct kvm_coalesced_mmio_zone zone;
 372
 373         zone.addr = start;
 374         zone.size = size;
 375
 376         ret = kvm_vm_ioctl(s, KVM_REGISTER_COALESCED_MMIO, &zone);
 377     }
 378 #endif
 379
 380     return ret;
 381 }
 382
 383 int kvm_uncoalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 384 {
 385     int ret = -ENOSYS;
 386 #ifdef KVM_CAP_COALESCED_MMIO
 387     KVMState *s = kvm_state;
 388
 389     if (s->coalesced_mmio) {
 390         struct kvm_coalesced_mmio_zone zone;
 391
 392         zone.addr = start;
 393         zone.size = size;
 394
 395         ret = kvm_vm_ioctl(s, KVM_UNREGISTER_COALESCED_MMIO, &zone);
 396     }
 397 #endif
 398
 399     return ret;
 400 }
 401
 402 int kvm_check_extension(KVMState *s, unsigned int extension)
 403 {
 404     int ret;
 405
 406     ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, extension);
 407     if (ret < 0) {
 408         ret = 0;
 409     }
 410
 411     return ret;
 412 }
 413
 414 int kvm_init(int smp_cpus)
 415 {
 416     static const char upgrade_note[] =
 417         "Please upgrade to at least kernel 2.6.29 or recent kvm-kmod\n"
 418         "(see http://sourceforge.net/projects/kvm).\n";
 419     KVMState *s;
 420     int ret;
 421     int i;
 422
 423     if (smp_cpus > 1) {
 424         fprintf(stderr, "No SMP KVM support, use '-smp 1'\n");
 425         return -EINVAL;
 426     }
 427
 428     s = qemu_mallocz(sizeof(KVMState));
 429
 430 #ifdef KVM_CAP_SET_GUEST_DEBUG
 431     QTAILQ_INIT(&s->kvm_sw_breakpoints);
 432 #endif
 433     for (i = 0; i < ARRAY_SIZE(s->slots); i++)
 434         s->slots[i].slot = i;
 435
 436     s->vmfd = -1;
 437     s->fd = open("/dev/kvm", O_RDWR);
 438     if (s->fd == -1) {
 439         fprintf(stderr, "Could not access KVM kernel module: %m\n");
 440         ret = -errno;
 441         goto err;
 442     }
 443
 444     ret = kvm_ioctl(s, KVM_GET_API_VERSION, 0);
 445     if (ret < KVM_API_VERSION) {
 446         if (ret > 0)
 447             ret = -EINVAL;
 448         fprintf(stderr, "kvm version too old\n");
 449         goto err;
 450     }
 451
 452     if (ret > KVM_API_VERSION) {
 453         ret = -EINVAL;
 454         fprintf(stderr, "kvm version not supported\n");
 455         goto err;
 456     }
 457
 458     s->vmfd = kvm_ioctl(s, KVM_CREATE_VM, 0);
 459     if (s->vmfd < 0)
 460         goto err;
 461
 462     /* initially, KVM allocated its own memory and we had to jump through
 463      * hooks to make phys_ram_base point to this.  Modern versions of KVM
 464      * just use a user allocated buffer so we can use regular pages
 465      * unmodified.  Make sure we have a sufficiently modern version of KVM.
 466      */
 467     if (!kvm_check_extension(s, KVM_CAP_USER_MEMORY)) {
 468         ret = -EINVAL;
 469         fprintf(stderr, "kvm does not support KVM_CAP_USER_MEMORY\n%s",
 470                 upgrade_note);
 471         goto err;
 472     }
 473
 474     /* There was a nasty bug in < kvm-80 that prevents memory slots from being
 475      * destroyed properly.  Since we rely on this capability, refuse to work
 476      * with any kernel without this capability. */
 477     if (!kvm_check_extension(s, KVM_CAP_DESTROY_MEMORY_REGION_WORKS)) {
 478         ret = -EINVAL;
 479
 480         fprintf(stderr,
 481                 "KVM kernel module broken (DESTROY_MEMORY_REGION).\n%s",
 482                 upgrade_note);
 483         goto err;
 484     }
 485
 486 #ifdef KVM_CAP_COALESCED_MMIO
 487     s->coalesced_mmio = kvm_check_extension(s, KVM_CAP_COALESCED_MMIO);
 488 #else
 489     s->coalesced_mmio = 0;
 490 #endif
 491
 492     s->broken_set_mem_region = 1;
 493 #ifdef KVM_CAP_JOIN_MEMORY_REGIONS_WORKS
 494     ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, KVM_CAP_JOIN_MEMORY_REGIONS_WORKS);
 495     if (ret > 0) {
 496         s->broken_set_mem_region = 0;
 497     }
 498 #endif
 499
 500     ret = kvm_arch_init(s, smp_cpus);
 501     if (ret < 0)
 502         goto err;
 503
 504     kvm_state = s;
 505
 506     return 0;
 507
 508 err:
 509     if (s) {
 510         if (s->vmfd != -1)
 511             close(s->vmfd);
 512         if (s->fd != -1)
 513             close(s->fd);
 514     }
 515     qemu_free(s);
 516
 517     return ret;
 518 }
 519
 520 static int kvm_handle_io(uint16_t port, void *data, int direction, int size,
 521                          uint32_t count)
 522 {
 523     int i;
 524     uint8_t *ptr = data;
 525
 526     for (i = 0; i < count; i++) {
 527         if (direction == KVM_EXIT_IO_IN) {
 528             switch (size) {
 529             case 1:
 530                 stb_p(ptr, cpu_inb(port));
 531                 break;
 532             case 2:
 533                 stw_p(ptr, cpu_inw(port));
 534                 break;
 535             case 4:
 536                 stl_p(ptr, cpu_inl(port));
 537                 break;
 538             }
 539         } else {
 540             switch (size) {
 541             case 1:
 542                 cpu_outb(port, ldub_p(ptr));
 543                 break;
 544             case 2:
 545                 cpu_outw(port, lduw_p(ptr));
 546                 break;
 547             case 4:
 548                 cpu_outl(port, ldl_p(ptr));
 549                 break;
 550             }
 551         }
 552
 553         ptr += size;
 554     }
 555
 556     return 1;
 557 }
 558
 559 static void kvm_run_coalesced_mmio(CPUState *env, struct kvm_run *run)
 560 {
 561 #ifdef KVM_CAP_COALESCED_MMIO
 562     KVMState *s = kvm_state;
 563     if (s->coalesced_mmio) {
 564         struct kvm_coalesced_mmio_ring *ring;
 565
 566         ring = (void *)run + (s->coalesced_mmio * TARGET_PAGE_SIZE);
 567         while (ring->first != ring->last) {
 568             struct kvm_coalesced_mmio *ent;
 569
 570             ent = &ring->coalesced_mmio[ring->first];
 571
 572             cpu_physical_memory_write(ent->phys_addr, ent->data, ent->len);
 573             /* FIXME smp_wmb() */
 574             ring->first = (ring->first + 1) % KVM_COALESCED_MMIO_MAX;
 575         }
 576     }
 577 #endif
 578 }
 579
 580 void kvm_cpu_synchronize_state(CPUState *env)
 581 {
 582     if (!env->kvm_state->regs_modified) {
 583         kvm_arch_get_registers(env);
 584         env->kvm_state->regs_modified = 1;
 585     }
 586 }
 587
 588 int kvm_cpu_exec(CPUState *env)
 589 {
 590     struct kvm_run *run = env->kvm_run;
 591     int ret;
 592
 593     dprintf("kvm_cpu_exec()\n");
 594
 595     do {
 596         if (env->exit_request) {
 597             dprintf("interrupt exit requested\n");
 598             ret = 0;
 599             break;
 600         }
 601
 602         if (env->kvm_state->regs_modified) {
 603             kvm_arch_put_registers(env);
 604             env->kvm_state->regs_modified = 0;
 605         }
 606
 607         kvm_arch_pre_run(env, run);
 608         ret = kvm_vcpu_ioctl(env, KVM_RUN, 0);
 609         kvm_arch_post_run(env, run);
 610
 611         if (ret == -EINTR || ret == -EAGAIN) {
 612             dprintf("io window exit\n");
 613             ret = 0;
 614             break;
 615         }
 616
 617         if (ret < 0) {
 618             dprintf("kvm run failed %s\n", strerror(-ret));
 619             abort();
 620         }
 621
 622         kvm_run_coalesced_mmio(env, run);
 623
 624         ret = 0; /* exit loop */
 625         switch (run->exit_reason) {
 626         case KVM_EXIT_IO:
 627             dprintf("handle_io\n");
 628             ret = kvm_handle_io(run->io.port,
 629                                 (uint8_t *)run + run->io.data_offset,
 630                                 run->io.direction,
 631                                 run->io.size,
 632                                 run->io.count);
 633             break;
 634         case KVM_EXIT_MMIO:
 635             dprintf("handle_mmio\n");
 636             cpu_physical_memory_rw(run->mmio.phys_addr,
 637                                    run->mmio.data,
 638                                    run->mmio.len,
 639                                    run->mmio.is_write);
 640             ret = 1;
 641             break;
 642         case KVM_EXIT_IRQ_WINDOW_OPEN:
 643             dprintf("irq_window_open\n");
 644             break;
 645         case KVM_EXIT_SHUTDOWN:
 646             dprintf("shutdown\n");
 647             qemu_system_reset_request();
 648             ret = 1;
 649             break;
 650         case KVM_EXIT_UNKNOWN:
 651             dprintf("kvm_exit_unknown\n");
 652             break;
 653         case KVM_EXIT_FAIL_ENTRY:
 654             dprintf("kvm_exit_fail_entry\n");
 655             break;
 656         case KVM_EXIT_EXCEPTION:
 657             dprintf("kvm_exit_exception\n");
 658             break;
 659         case KVM_EXIT_DEBUG:
 660             dprintf("kvm_exit_debug\n");
 661 #ifdef KVM_CAP_SET_GUEST_DEBUG
 662             if (kvm_arch_debug(&run->debug.arch)) {
 663                 gdb_set_stop_cpu(env);
 664                 vm_stop(EXCP_DEBUG);
 665                 env->exception_index = EXCP_DEBUG;
 666                 return 0;
 667             }
 668             /* re-enter, this exception was guest-internal */
 669             ret = 1;
 670 #endif /* KVM_CAP_SET_GUEST_DEBUG */
 671             break;
 672         default:
 673             dprintf("kvm_arch_handle_exit\n");
 674             ret = kvm_arch_handle_exit(env, run);
 675             break;
 676         }
 677     } while (ret > 0);
 678
 679     if (env->exit_request) {
 680         env->exit_request = 0;
 681         env->exception_index = EXCP_INTERRUPT;
 682     }
 683
 684     return ret;
 685 }
 686
 687 void kvm_set_phys_mem(target_phys_addr_t start_addr,
 688                       ram_addr_t size,
 689                       ram_addr_t phys_offset)
 690 {
 691     KVMState *s = kvm_state;
 692     ram_addr_t flags = phys_offset & ~TARGET_PAGE_MASK;
 693     KVMSlot *mem, old;
 694     int err;
 695
 696     if (start_addr & ~TARGET_PAGE_MASK) {
 697         if (flags >= IO_MEM_UNASSIGNED) {
 698             if (!kvm_lookup_overlapping_slot(s, start_addr,
 699                                              start_addr + size)) {
 700                 return;
 701             }
 702             fprintf(stderr, "Unaligned split of a KVM memory slot\n");
 703         } else {
 704             fprintf(stderr, "Only page-aligned memory slots supported\n");
 705         }
 706         abort();
 707     }
 708
 709     /* KVM does not support read-only slots */
 710     phys_offset &= ~IO_MEM_ROM;
 711
 712     while (1) {
 713         mem = kvm_lookup_overlapping_slot(s, start_addr, start_addr + size);
 714         if (!mem) {
 715             break;
 716         }
 717
 718         if (flags < IO_MEM_UNASSIGNED && start_addr >= mem->start_addr &&
 719             (start_addr + size <= mem->start_addr + mem->memory_size) &&
 720             (phys_offset - start_addr == mem->phys_offset - mem->start_addr)) {
 721             /* The new slot fits into the existing one and comes with
 722              * identical parameters - nothing to be done. */
 723             return;
 724         }
 725
 726         old = *mem;
 727
 728         /* unregister the overlapping slot */
 729         mem->memory_size = 0;
 730         err = kvm_set_user_memory_region(s, mem);
 731         if (err) {
 732             fprintf(stderr, "%s: error unregistering overlapping slot: %s\n",
 733                     __func__, strerror(-err));
 734             abort();
 735         }
 736
 737         /* Workaround for older KVM versions: we can't join slots, even not by
 738          * unregistering the previous ones and then registering the larger
 739          * slot. We have to maintain the existing fragmentation. Sigh.
 740          *
 741          * This workaround assumes that the new slot starts at the same
 742          * address as the first existing one. If not or if some overlapping
 743          * slot comes around later, we will fail (not seen in practice so far)
 744          * - and actually require a recent KVM version. */
 745         if (s->broken_set_mem_region &&
 746             old.start_addr == start_addr && old.memory_size < size &&
 747             flags < IO_MEM_UNASSIGNED) {
 748             mem = kvm_alloc_slot(s);
 749             mem->memory_size = old.memory_size;
 750             mem->start_addr = old.start_addr;
 751             mem->phys_offset = old.phys_offset;
 752             mem->flags = 0;
 753
 754             err = kvm_set_user_memory_region(s, mem);
 755             if (err) {
 756                 fprintf(stderr, "%s: error updating slot: %s\n", __func__,
 757                         strerror(-err));
 758                 abort();
 759             }
 760
 761             start_addr += old.memory_size;
 762             phys_offset += old.memory_size;
 763             size -= old.memory_size;
 764             continue;
 765         }
 766
 767         /* register prefix slot */
 768         if (old.start_addr < start_addr) {
 769             mem = kvm_alloc_slot(s);
 770             mem->memory_size = start_addr - old.start_addr;
 771             mem->start_addr = old.start_addr;
 772             mem->phys_offset = old.phys_offset;
 773             mem->flags = 0;
 774
 775             err = kvm_set_user_memory_region(s, mem);
 776             if (err) {
 777                 fprintf(stderr, "%s: error registering prefix slot: %s\n",
 778                         __func__, strerror(-err));
 779                 abort();
 780             }
 781         }
 782
 783         /* register suffix slot */
 784         if (old.start_addr + old.memory_size > start_addr + size) {
 785             ram_addr_t size_delta;
 786
 787             mem = kvm_alloc_slot(s);
 788             mem->start_addr = start_addr + size;
 789             size_delta = mem->start_addr - old.start_addr;
 790             mem->memory_size = old.memory_size - size_delta;
 791             mem->phys_offset = old.phys_offset + size_delta;
 792             mem->flags = 0;
 793
 794             err = kvm_set_user_memory_region(s, mem);
 795             if (err) {
 796                 fprintf(stderr, "%s: error registering suffix slot: %s\n",
 797                         __func__, strerror(-err));
 798                 abort();
 799             }
 800         }
 801     }
 802
 803     /* in case the KVM bug workaround already "consumed" the new slot */
 804     if (!size)
 805         return;
 806
 807     /* KVM does not need to know about this memory */
 808     if (flags >= IO_MEM_UNASSIGNED)
 809         return;
 810
 811     mem = kvm_alloc_slot(s);
 812     mem->memory_size = size;
 813     mem->start_addr = start_addr;
 814     mem->phys_offset = phys_offset;
 815     mem->flags = 0;
 816
 817     err = kvm_set_user_memory_region(s, mem);
 818     if (err) {
 819         fprintf(stderr, "%s: error registering slot: %s\n", __func__,
 820                 strerror(-err));
 821         abort();
 822     }
 823 }
 824
 825 int kvm_ioctl(KVMState *s, int type, ...)
 826 {
 827     int ret;
 828     void *arg;
 829     va_list ap;
 830
 831     va_start(ap, type);
 832     arg = va_arg(ap, void *);
 833     va_end(ap);
 834
 835     ret = ioctl(s->fd, type, arg);
 836     if (ret == -1)
 837         ret = -errno;
 838
 839     return ret;
 840 }
 841
 842 int kvm_vm_ioctl(KVMState *s, int type, ...)
 843 {
 844     int ret;
 845     void *arg;
 846     va_list ap;
 847
 848     va_start(ap, type);
 849     arg = va_arg(ap, void *);
 850     va_end(ap);
 851
 852     ret = ioctl(s->vmfd, type, arg);
 853     if (ret == -1)
 854         ret = -errno;
 855
 856     return ret;
 857 }
 858
 859 int kvm_vcpu_ioctl(CPUState *env, int type, ...)
 860 {
 861     int ret;
 862     void *arg;
 863     va_list ap;
 864
 865     va_start(ap, type);
 866     arg = va_arg(ap, void *);
 867     va_end(ap);
 868
 869     ret = ioctl(env->kvm_fd, type, arg);
 870     if (ret == -1)
 871         ret = -errno;
 872
 873     return ret;
 874 }
 875
 876 int kvm_has_sync_mmu(void)
 877 {
 878 #ifdef KVM_CAP_SYNC_MMU
 879     KVMState *s = kvm_state;
 880
 881     return kvm_check_extension(s, KVM_CAP_SYNC_MMU);
 882 #else
 883     return 0;
 884 #endif
 885 }
 886
 887 void kvm_setup_guest_memory(void *start, size_t size)
 888 {
 889     if (!kvm_has_sync_mmu()) {
 890 #ifdef MADV_DONTFORK
 891         int ret = madvise(start, size, MADV_DONTFORK);
 892
 893         if (ret) {
 894             perror("madvice");
 895             exit(1);
 896         }
 897 #else
 898         fprintf(stderr,
 899                 "Need MADV_DONTFORK in absence of synchronous KVM MMU\n");
 900         exit(1);
 901 #endif
 902     }
 903 }
 904
 905 #ifdef KVM_CAP_SET_GUEST_DEBUG
 906 static void on_vcpu(CPUState *env, void (*func)(void *data), void *data)
 907 {
 908     if (env == cpu_single_env) {
 909         func(data);
 910         return;
 911     }
 912     abort();
 913 }
 914
 915 struct kvm_sw_breakpoint *kvm_find_sw_breakpoint(CPUState *env,
 916                                                  target_ulong pc)
 917 {
 918     struct kvm_sw_breakpoint *bp;
 919
 920     QTAILQ_FOREACH(bp, &env->kvm_state->kvm_sw_breakpoints, entry) {
 921         if (bp->pc == pc)
 922             return bp;
 923     }
 924     return NULL;
 925 }
 926
 927 int kvm_sw_breakpoints_active(CPUState *env)
 928 {
 929     return !QTAILQ_EMPTY(&env->kvm_state->kvm_sw_breakpoints);
 930 }
 931
 932 struct kvm_set_guest_debug_data {
 933     struct kvm_guest_debug dbg;
 934     CPUState *env;
 935     int err;
 936 };
 937
 938 static void kvm_invoke_set_guest_debug(void *data)
 939 {
 940     struct kvm_set_guest_debug_data *dbg_data = data;
 941     dbg_data->err = kvm_vcpu_ioctl(dbg_data->env, KVM_SET_GUEST_DEBUG, &dbg_data->dbg);
 942 }
 943
 944 int kvm_update_guest_debug(CPUState *env, unsigned long reinject_trap)
 945 {
 946     struct kvm_set_guest_debug_data data;
 947
 948     data.dbg.control = 0;
 949     if (env->singlestep_enabled)
 950         data.dbg.control = KVM_GUESTDBG_ENABLE | KVM_GUESTDBG_SINGLESTEP;
 951
 952     kvm_arch_update_guest_debug(env, &data.dbg);
 953     data.dbg.control |= reinject_trap;
 954     data.env = env;
 955
 956     on_vcpu(env, kvm_invoke_set_guest_debug, &data);
 957     return data.err;
 958 }
 959
 960 int kvm_insert_breakpoint(CPUState *current_env, target_ulong addr,
 961                           target_ulong len, int type)
 962 {
 963     struct kvm_sw_breakpoint *bp;
 964     CPUState *env;
 965     int err;
 966
 967     if (type == GDB_BREAKPOINT_SW) {
 968         bp = kvm_find_sw_breakpoint(current_env, addr);
 969         if (bp) {
 970             bp->use_count++;
 971             return 0;
 972         }
 973
 974         bp = qemu_malloc(sizeof(struct kvm_sw_breakpoint));
 975         if (!bp)
 976             return -ENOMEM;
 977
 978         bp->pc = addr;
 979         bp->use_count = 1;
 980         err = kvm_arch_insert_sw_breakpoint(current_env, bp);
 981         if (err) {
 982             free(bp);
 983             return err;
 984         }
 985
 986         QTAILQ_INSERT_HEAD(&current_env->kvm_state->kvm_sw_breakpoints,
 987                           bp, entry);
 988     } else {
 989         err = kvm_arch_insert_hw_breakpoint(addr, len, type);
 990         if (err)
 991             return err;
 992     }
 993
 994     for (env = first_cpu; env != NULL; env = env->next_cpu) {
 995         err = kvm_update_guest_debug(env, 0);
 996         if (err)
 997             return err;
 998     }
 999     return 0;
1000 }
1001
1002 int kvm_remove_breakpoint(CPUState *current_env, target_ulong addr,
1003                           target_ulong len, int type)
1004 {
1005     struct kvm_sw_breakpoint *bp;
1006     CPUState *env;
1007     int err;
1008
1009     if (type == GDB_BREAKPOINT_SW) {
1010         bp = kvm_find_sw_breakpoint(current_env, addr);
1011         if (!bp)
1012             return -ENOENT;
1013
1014         if (bp->use_count > 1) {
1015             bp->use_count--;
1016             return 0;
1017         }
1018
1019         err = kvm_arch_remove_sw_breakpoint(current_env, bp);
1020         if (err)
1021             return err;
1022
1023         QTAILQ_REMOVE(&current_env->kvm_state->kvm_sw_breakpoints, bp, entry);
1024         qemu_free(bp);
1025     } else {
1026         err = kvm_arch_remove_hw_breakpoint(addr, len, type);
1027         if (err)
1028             return err;
1029     }
1030
1031     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1032         err = kvm_update_guest_debug(env, 0);
1033         if (err)
1034             return err;
1035     }
1036     return 0;
1037 }
1038
1039 void kvm_remove_all_breakpoints(CPUState *current_env)
1040 {
1041     struct kvm_sw_breakpoint *bp, *next;
1042     KVMState *s = current_env->kvm_state;
1043     CPUState *env;
1044
1045     QTAILQ_FOREACH_SAFE(bp, &s->kvm_sw_breakpoints, entry, next) {
1046         if (kvm_arch_remove_sw_breakpoint(current_env, bp) != 0) {
1047             /* Try harder to find a CPU that currently sees the breakpoint. */
1048             for (env = first_cpu; env != NULL; env = env->next_cpu) {
1049                 if (kvm_arch_remove_sw_breakpoint(env, bp) == 0)
1050                     break;
1051             }
1052         }
1053     }
1054     kvm_arch_remove_all_hw_breakpoints();
1055
1056     for (env = first_cpu; env != NULL; env = env->next_cpu)
1057         kvm_update_guest_debug(env, 0);
1058 }
1059
1060 #else /* !KVM_CAP_SET_GUEST_DEBUG */
1061
1062 int kvm_update_guest_debug(CPUState *env, unsigned long reinject_trap)
1063 {
1064     return -EINVAL;
1065 }
1066
1067 int kvm_insert_breakpoint(CPUState *current_env, target_ulong addr,
1068                           target_ulong len, int type)
1069 {
1070     return -EINVAL;
1071 }
1072
1073 int kvm_remove_breakpoint(CPUState *current_env, target_ulong addr,
1074                           target_ulong len, int type)
1075 {
1076     return -EINVAL;
1077 }
1078
1079 void kvm_remove_all_breakpoints(CPUState *current_env)
1080 {
1081 }
1082 #endif /* !KVM_CAP_SET_GUEST_DEBUG */