]> git.proxmox.com Git - qemu-server.git/blobdiff - PVE/QemuServer.pm
add hugepages option
[qemu-server.git] / PVE / QemuServer.pm
index 04ffc059321a6385ee7414f8cfa7f272542463e3..ee97f953ecb7ee59d59470dc3e495552857fdcb1 100644 (file)
@@ -30,8 +30,10 @@ use PVE::ProcFSTools;
 use PVE::QemuConfig;
 use PVE::QMPClient;
 use PVE::RPCEnvironment;
+use PVE::QemuServer::Memory;
 use Time::HiRes qw(gettimeofday);
 use File::Copy qw(copy);
+use URI::Escape;
 
 my $qemu_snap_storage = {rbd => 1, sheepdog => 1};
 
@@ -91,11 +93,48 @@ mkdir $lock_dir;
 
 my $pcisysfs = "/sys/bus/pci";
 
-my $cpudesc = {
+my $cpu_vendor_list = {
+    # Intel CPUs
+    486 => 'GenuineIntel',
+    pentium => 'GenuineIntel',
+    pentium2  => 'GenuineIntel',
+    pentium3  => 'GenuineIntel',
+    coreduo => 'GenuineIntel',
+    core2duo => 'GenuineIntel',
+    Conroe  => 'GenuineIntel',
+    Penryn  => 'GenuineIntel', 
+    Nehalem  => 'GenuineIntel',
+    Westmere => 'GenuineIntel',
+    SandyBridge => 'GenuineIntel',
+    IvyBridge => 'GenuineIntel',
+    Haswell => 'GenuineIntel',
+    'Haswell-noTSX' => 'GenuineIntel',
+    Broadwell => 'GenuineIntel',
+    'Broadwell-noTSX' => 'GenuineIntel',
+    
+    # AMD CPUs
+    athlon => 'AuthenticAMD',
+    phenom  => 'AuthenticAMD',
+    Opteron_G1  => 'AuthenticAMD',
+    Opteron_G2  => 'AuthenticAMD',
+    Opteron_G3  => 'AuthenticAMD',
+    Opteron_G4  => 'AuthenticAMD',
+    Opteron_G5  => 'AuthenticAMD',
+
+    # generic types, use vendor from host node
+    host => 'default',
+    kvm32 => 'default',
+    kvm64 => 'default',
+    qemu32 => 'default',
+    qemu64 => 'default',
+};
+
+my $cpu_fmt = {
     cputype => {
        description => "Emulated CPU type.",
        type => 'string',
-       enum => [ qw(486 athlon pentium pentium2 pentium3 coreduo core2duo kvm32 kvm64 qemu32 qemu64 phenom Conroe Penryn Nehalem Westmere SandyBridge IvyBridge Haswell Haswell-noTSX Broadwell Broadwell-noTSX Opteron_G1 Opteron_G2 Opteron_G3 Opteron_G4 Opteron_G5 host) ],
+       enum => [ sort { "\L$a" cmp "\L$b" } keys %$cpu_vendor_list ],
+       format_description => 'cputype',
        default => 'kvm64',
        default_key => 1,
     },
@@ -107,6 +146,24 @@ my $cpudesc = {
     },
 };
 
+my $watchdog_fmt = {
+    model => {
+       default_key => 1,
+       type => 'string',
+       enum => [qw(i6300esb ib700)],
+       description => "Watchdog type to emulate.",
+       default => 'i6300esb',
+       optional => 1,
+    },
+    action => {
+       type => 'string',
+       enum => [qw(reset shutdown poweroff pause debug none)],
+       description => "The action to perform if after activation the guest fails to poll the watchdog in time.",
+       optional => 1,
+    },
+};
+PVE::JSONSchema::register_format('pve-qm-watchdog', $watchdog_fmt);
+
 my $confdesc = {
     onboot => {
        optional => 1,
@@ -141,15 +198,17 @@ my $confdesc = {
     cpulimit => {
        optional => 1,
        type => 'number',
-       description => "Limit of CPU usage. Note if the computer has 2 CPUs, it has total of '2' CPU time. Value '0' indicates no CPU limit.",
+       description => "Limit of CPU usage.",
+        verbose_description => "Limit of CPU usage.\n\nNOTE: If the computer has 2 CPUs, it has total of '2' CPU time. Value '0' indicates no CPU limit.",
        minimum => 0,
        maximum => 128,
-       default => 0,
+        default => 0,
     },
     cpuunits => {
        optional => 1,
        type => 'integer',
-       description => "CPU weight for a VM. Argument is used in the kernel fair scheduler. The larger the number is, the more CPU time this VM gets. Number is relative to weights of all the other running VMs.\n\nNOTE: You can disable fair-scheduler configuration by setting this to 0.",
+        description => "CPU weight for a VM.",
+       verbose_description => "CPU weight for a VM. Argument is used in the kernel fair scheduler. The larger the number is, the more CPU time this VM gets. Number is relative to weights of all the other running VMs.\n\nNOTE: You can disable fair-scheduler configuration by setting this to 0.",
        minimum => 0,
        maximum => 500000,
        default => 1000,
@@ -178,7 +237,7 @@ my $confdesc = {
     keyboard => {
        optional => 1,
        type => 'string',
-       description => "Keybord layout for vnc server. Default is read from the datacenter configuration file.",
+       description => "Keybord layout for vnc server. Default is read from the '/etc/pve/datacenter.conf' configuration file.",
        enum => PVE::Tools::kvmkeymaplist(),
        default => 'en-us',
     },
@@ -190,7 +249,7 @@ my $confdesc = {
     scsihw => {
        optional => 1,
        type => 'string',
-       description => "scsi controller model",
+       description => "SCSI controller model",
        enum => [qw(lsi lsi53c810 virtio-scsi-pci virtio-scsi-single megasas pvscsi)],
        default => 'lsi',
     },
@@ -203,24 +262,23 @@ my $confdesc = {
        optional => 1,
        type => 'string',
         enum => [qw(other wxp w2k w2k3 w2k8 wvista win7 win8 l24 l26 solaris)],
-       description => <<EODESC,
-Used to enable special optimization/features for specific
-operating systems:
-
-other  => unspecified OS
-wxp    => Microsoft Windows XP
-w2k    => Microsoft Windows 2000
-w2k3   => Microsoft Windows 2003
-w2k8   => Microsoft Windows 2008
-wvista => Microsoft Windows Vista
-win7   => Microsoft Windows 7
-win8   => Microsoft Windows 8/2012
-l24    => Linux 2.4 Kernel
-l26    => Linux 2.6/3.X Kernel
-solaris => solaris/opensolaris/openindiania kernel
-
-other|l24|l26|solaris                       ... no special behaviour
-wxp|w2k|w2k3|w2k8|wvista|win7|win8  ... use --localtime switch
+       description => "Specify guest operating system.",
+       verbose_description => <<EODESC,
+Specify guest operating system. This is used to enable special
+optimization/features for specific operating systems:
+
+[horizontal]
+other;; unspecified OS
+wxp;; Microsoft Windows XP
+w2k;; Microsoft Windows 2000
+w2k3;; Microsoft Windows 2003
+w2k8;; Microsoft Windows 2008
+wvista;; Microsoft Windows Vista
+win7;; Microsoft Windows 7
+win8;; Microsoft Windows 8/2012
+l24;; Linux 2.4 Kernel
+l26;; Linux 2.6/3.X Kernel
+solaris;; Solaris/OpenSolaris/OpenIndiania kernel
 EODESC
     },
     boot => {
@@ -260,9 +318,15 @@ EODESC
     numa => {
        optional => 1,
        type => 'boolean',
-       description => "Enable/disable Numa.",
+       description => "Enable/disable NUMA.",
        default => 0,
     },
+    hugepages => {
+       optional => 1,
+       type => 'string',
+       description => "Enable/disable hugepages memory.",
+       enum => [qw(any 2 1024)],
+    },
     vcpus => {
        optional => 1,
        type => 'integer',
@@ -307,14 +371,25 @@ EODESC
     vga => {
        optional => 1,
        type => 'string',
-       description => "Select VGA type. If you want to use high resolution modes (>= 1280x1024x16) then you should use option 'std' or 'vmware'. Default is 'std' for win8/win7/w2k8, and 'cirrur' for other OS types. Option 'qxl' enables the SPICE display sever. You can also run without any graphic card using a serial devive as terminal.",
+       description => "Select the VGA type.",
+        verbose_description => "Select the VGA type. If you want to use high resolution" .
+           " modes (>= 1280x1024x16) then you should use the options " .
+           "'std' or 'vmware'. Default is 'std' for win8/win7/w2k8, and " .
+           "'cirrus' for other OS types. The 'qxl' option enables the SPICE " .
+           "display sever. For win* OS you can select how many independent " .
+           "displays you want, Linux guests can add displays them self. " .
+           "You can also run without any graphic card, using a serial device" .
+           " as terminal.",
        enum => [qw(std cirrus vmware qxl serial0 serial1 serial2 serial3 qxl2 qxl3 qxl4)],
     },
     watchdog => {
        optional => 1,
        type => 'string', format => 'pve-qm-watchdog',
-       typetext => '[[model=]i6300esb|ib700] [,[action=]reset|shutdown|poweroff|pause|debug|none]',
-       description => "Create a virtual hardware watchdog device.  Once enabled (by a guest action), the watchdog must be periodically polled by an agent inside the guest or else the guest will be restarted (or execute the action specified)",
+       description => "Create a virtual hardware watchdog device.",
+       verbose_description => "Create a virtual hardware watchdog device. Once enabled" .
+           " (by a guest action), the watchdog must be periodically polled " .
+           "by an agent inside the guest or else the watchdog will reset " .
+           "the guest (or execute the respective action specified)",
     },
     startdate => {
        optional => 1,
@@ -334,17 +409,26 @@ EODESC
     args => {
        optional => 1,
        type => 'string',
-       description => <<EODESCR,
-Note: this option is for experts only. It allows you to pass arbitrary arguments to kvm, for example:
+       description => "Arbitrary arguments passed to kvm.",
+       verbose_description => <<EODESCR,
+Arbitrary arguments passed to kvm, for example:
 
 args: -no-reboot -no-hpet
+
+NOTE: this option is for experts only.
 EODESCR
     },
     tablet => {
        optional => 1,
        type => 'boolean',
        default => 1,
-       description => "Enable/disable the usb tablet device. This device is usually needed to allow absolute mouse positioning with VNC. Else the mouse runs out of sync with normal VNC clients. If you're running lots of console-only guests on one host, you may consider disabling this to save some context switches. This is turned of by default if you use spice (vga=qxl).",
+       description => "Enable/disable the USB tablet device.",
+       verbose_description => "Enable/disable the USB tablet device. This device is " .
+           "usually needed to allow absolute mouse positioning with VNC. " .
+           "Else the mouse runs out of sync with normal VNC clients. " .
+           "If you're running lots of console-only guests on one host, " .
+           "you may consider disabling this to save some context switches. " .
+           "This is turned off by default if you use spice (-vga=qxl).",
     },
     migrate_speed => {
        optional => 1,
@@ -370,7 +454,7 @@ EODESCR
        optional => 1,
        description => "Emulated CPU type.",
        type => 'string',
-       format => $cpudesc,
+       format => $cpu_fmt,
     },
     parent => get_standard_option('pve-snapshot-name', {
        optional => 1,
@@ -403,7 +487,7 @@ EODESCR
     protection => {
        optional => 1,
        type => 'boolean',
-       description => "Sets the protection flag of the VM. This will prevent the remove operation.",
+       description => "Sets the protection flag of the VM. This will disable the remove VM and remove disk operations.",
        default => 0,
     },
     bios => {
@@ -447,14 +531,38 @@ my $MAX_HOSTPCI_DEVICES = 4;
 my $MAX_SERIAL_PORTS = 4;
 my $MAX_PARALLEL_PORTS = 3;
 my $MAX_NUMA = 8;
-my $MAX_MEM = 4194304;
-my $STATICMEM = 1024;
 
+my $numa_fmt = {
+    cpus => {
+       type => "string",
+       pattern => qr/\d+(?:-\d+)?(?:;\d+(?:-\d+)?)*/,
+       description => "CPUs accessing this NUMA node.",
+       format_description => "id[-id];...",
+    },
+    memory => {
+       type => "number",
+       description => "Amount of memory this NUMA node provides.",
+       optional => 1,
+    },
+    hostnodes => {
+       type => "string",
+       pattern => qr/\d+(?:-\d+)?(?:;\d+(?:-\d+)?)*/,
+       description => "Host NUMA nodes to use.",
+       format_description => "id[-id];...",
+       optional => 1,
+    },
+    policy => {
+       type => 'string',
+       enum => [qw(preferred bind interleave)],
+       description => "NUMA allocation policy.",
+       optional => 1,
+    },
+};
+PVE::JSONSchema::register_format('pve-qm-numanode', $numa_fmt);
 my $numadesc = {
     optional => 1,
-    type => 'string', format => 'pve-qm-numanode',
-    typetext => "cpus=<id[-id],memory=<mb>[[,hostnodes=<id[-id]>] [,policy=<preferred|bind|interleave>]]",
-    description => "numa topology",
+    type => 'string', format => $numa_fmt,
+    description => "NUMA topology.",
 };
 PVE::JSONSchema::register_standard_option("pve-qm-numanode", $numadesc);
 
@@ -467,51 +575,122 @@ my $nic_model_list = ['rtl8139', 'ne2k_pci', 'e1000',  'pcnet',  'virtio',
                      'e1000-82540em', 'e1000-82544gc', 'e1000-82545em'];
 my $nic_model_list_txt = join(' ', sort @$nic_model_list);
 
-my $netdesc = {
-    optional => 1,
-    type => 'string', format => 'pve-qm-net',
-    typetext => "MODEL=XX:XX:XX:XX:XX:XX [,bridge=<dev>][,queues=<nbqueues>][,rate=<mbps>] [,tag=<vlanid>][,trunks=<vlanid[;vlanid]>][,firewall=0|1],link_down=0|1]",
-    description => <<EODESCR,
-Specify network devices.
-
-MODEL is one of: $nic_model_list_txt
+my $net_fmt_bridge_descr = <<__EOD__;
+Bridge to attach the network device to. The Proxmox VE standard bridge
+is called 'vmbr0'.
 
-XX:XX:XX:XX:XX:XX should be an unique MAC address. This is
-automatically generated if not specified.
+If you do not specify a bridge, we create a kvm user (NATed) network
+device, which provides DHCP and DNS services. The following addresses
+are used:
 
-The bridge parameter can be used to automatically add the interface to a bridge device. The Proxmox VE standard bridge is called 'vmbr0'.
-
-Option 'rate' is used to limit traffic bandwidth from and to this interface. It is specified as floating point number, unit is 'Megabytes per second'.
-
-If you specify no bridge, we create a kvm 'user' (NATed) network device, which provides DHCP and DNS services. The following addresses are used:
-
-10.0.2.2   Gateway
-10.0.2.3   DNS Server
-10.0.2.4   SMB Server
+ 10.0.2.2   Gateway
+ 10.0.2.3   DNS Server
+ 10.0.2.4   SMB Server
 
 The DHCP server assign addresses to the guest starting from 10.0.2.15.
+__EOD__
 
-EODESCR
+my $net_fmt = {
+    macaddr => {
+       type => 'string',
+       pattern => qr/[0-9a-f]{2}(?::[0-9a-f]{2}){5}/i,
+       description => "MAC address. That address must be unique withing your network. This is automatically generated if not specified.",
+       format_description => "XX:XX:XX:XX:XX:XX",
+       optional => 1,
+    },
+    model => {
+       type => 'string',
+       description => "Network Card Model. The 'virtio' model provides the best performance with very low CPU overhead. If your guest does not support this driver, it is usually best to use 'e1000'.",
+       format_description => 'model',
+        enum => $nic_model_list,
+        default_key => 1,
+    },
+    (map { $_ => { keyAlias => 'model', alias => 'macaddr' }} @$nic_model_list),
+    bridge => {
+       type => 'string',
+       description => $net_fmt_bridge_descr,
+       format_description => 'bridge',
+       optional => 1,
+    },
+    queues => {
+       type => 'integer',
+       minimum => 0, maximum => 16,
+       description => 'Number of packet queues to be used on the device.',
+       optional => 1,
+    },
+    rate => {
+       type => 'number',
+       minimum => 0,
+       description => "Rate limit in mbps (megabytes per second) as floating point number.",
+       optional => 1,
+    },
+    tag => {
+       type => 'integer',
+       minimum => 1, maximum => 4094,
+       description => 'VLAN tag to apply to packets on this interface.',
+       optional => 1,
+    },
+    trunks => {
+       type => 'string',
+       pattern => qr/\d+(?:-\d+)?(?:;\d+(?:-\d+)?)*/,
+       description => 'VLAN trunks to pass through this interface.',
+       format_description => 'vlanid[;vlanid...]',
+       optional => 1,
+    },
+    firewall => {
+       type => 'boolean',
+       description => 'Whether this interface should be protected by the firewall.',
+       optional => 1,
+    },
+    link_down => {
+       type => 'boolean',
+       description => 'Whether this interface should be disconnected (like pulling the plug).',
+       optional => 1,
+    },
+};
+
+my $netdesc = {
+    optional => 1,
+    type => 'string', format => $net_fmt,
+    description => "Specify network devices.",
 };
+
 PVE::JSONSchema::register_standard_option("pve-qm-net", $netdesc);
 
 for (my $i = 0; $i < $MAX_NETS; $i++)  {
     $confdesc->{"net$i"} = $netdesc;
 }
 
+PVE::JSONSchema::register_format('pve-volume-id-or-qm-path', \&verify_volume_id_or_qm_path);
+sub verify_volume_id_or_qm_path {
+    my ($volid, $noerr) = @_;
+
+    if ($volid eq 'none' || $volid eq 'cdrom' || $volid =~ m|^/|) {
+       return $volid;
+    }
+
+    # if its neither 'none' nor 'cdrom' nor a path, check if its a volume-id
+    $volid = eval { PVE::JSONSchema::check_format('pve-volume-id', $volid, '') };
+    if ($@) {
+       return undef if $noerr;
+       die $@;
+    }
+    return $volid;
+}
+
 my $drivename_hash;
 
 my %drivedesc_base = (
     volume => { alias => 'file' },
     file => {
-       type => 'pve-volume-id',
+       type => 'string',
+       format => 'pve-volume-id-or-qm-path',
        default_key => 1,
        format_description => 'volume',
        description => "The drive's backing volume.",
     },
     media => {
        type => 'string',
-       format_description => 'cdrom|disk',
        enum => [qw(cdrom disk)],
        description => "The drive's media type.",
        default => 'disk',
@@ -519,45 +698,39 @@ my %drivedesc_base = (
     },
     cyls => {
        type => 'integer',
-       format_description => 'count',
        description => "Force the drive's physical geometry to have a specific cylinder count.",
        optional => 1
     },
     heads => {
        type => 'integer',
-       format_description => 'count',
        description => "Force the drive's physical geometry to have a specific head count.",
        optional => 1
     },
     secs => {
        type => 'integer',
-       format_description => 'count',
        description => "Force the drive's physical geometry to have a specific sector count.",
        optional => 1
     },
     trans => {
        type => 'string',
-       format_description => 'none|lba|auto',
        enum => [qw(none lba auto)],
        description => "Force disk geometry bios translation mode.",
        optional => 1,
     },
     snapshot => {
        type => 'boolean',
-       format_description => 'on|off',
        description => "Whether the drive should be included when making snapshots.",
        optional => 1,
     },
     cache => {
        type => 'string',
-       format_description => 'none|writethrough|writeback|unsafe|directsync',
        enum => [qw(none writethrough writeback unsafe directsync)],
        description => "The drive's cache mode",
        optional => 1,
     },
     format => {
        type => 'string',
-       format_description => 'drive format',
+       format_description => 'image format',
        enum => [qw(raw cow qcow qed qcow2 vmdk cloop)],
        description => "The drive's backing file's data format.",
        optional => 1,
@@ -565,32 +738,29 @@ my %drivedesc_base = (
     size => {
        type => 'string',
        format => 'disk-size',
+       format_description => 'DiskSize',
        description => "Disk size. This is purely informational and has no effect.",
        optional => 1,
     },
     backup => {
        type => 'boolean',
-       format_description => 'on|off',
        description => "Whether the drive should be included when making backups.",
        optional => 1,
     },
     werror => {
        type => 'string',
-       format_description => 'enospc|ignore|report|stop',
        enum => [qw(enospc ignore report stop)],
        description => 'Write error action.',
        optional => 1,
     },
     aio => {
        type => 'string',
-       format_description => 'native|threads',
        enum => [qw(native threads)],
        description => 'AIO type to use.',
        optional => 1,
     },
     discard => {
        type => 'string',
-       format_description => 'ignore|on',
        enum => [qw(ignore on)],
        description => 'Controls whether to pass discard/trim requests to the underlying storage.',
        optional => 1,
@@ -602,8 +772,10 @@ my %drivedesc_base = (
     },
     serial => {
        type => 'string',
+       format => 'urlencoded',
        format_description => 'serial',
-       description => "The drive's reported serial number.",
+       maxLength => 20*3, # *3 since it's %xx url enoded
+       description => "The drive's reported serial number, url-encoded, up to 20 bytes long.",
        optional => 1,
     }
 );
@@ -611,7 +783,6 @@ my %drivedesc_base = (
 my %rerror_fmt = (
     rerror => {
        type => 'string',
-       format_description => 'ignore|report|stop',
        enum => [qw(ignore report stop)],
        description => 'Read error action.',
        optional => 1,
@@ -620,7 +791,6 @@ my %rerror_fmt = (
 
 my %iothread_fmt = ( iothread => {
        type => 'boolean',
-       format_description => 'off|on',
        description => "Whether to use iothreads for this drive",
        optional => 1,
 });
@@ -628,8 +798,10 @@ my %iothread_fmt = ( iothread => {
 my %model_fmt = (
     model => {
        type => 'string',
+       format => 'urlencoded',
        format_description => 'model',
-       description => "The drive's reported model name.",
+       maxLength => 40*3, # *3 since it's %xx url enoded
+       description => "The drive's reported model name, url-encoded, up to 40 bytes long.",
        optional => 1,
     },
 );
@@ -637,7 +809,6 @@ my %model_fmt = (
 my %queues_fmt = (
     queues => {
        type => 'integer',
-       format_description => 'nbqueues',
        description => "Number of queues.",
        minimum => 2,
        optional => 1
@@ -645,11 +816,11 @@ my %queues_fmt = (
 );
 
 my $add_throttle_desc = sub {
-    my ($key, $type, $what, $size, $longsize) = @_;
+    my ($key, $type, $what, $unit, $longunit) = @_;
     $drivedesc_base{$key} = {
        type => $type,
-       format_description => $size,
-       description => "Maximum $what speed in $longsize per second.",
+       format_description => $unit,
+       description => "Maximum $what speed in $longunit per second.",
        optional => 1,
     };
 };
@@ -657,17 +828,17 @@ my $add_throttle_desc = sub {
 $add_throttle_desc->('bps',     'integer', 'r/w speed',   'bps',  'bytes');
 $add_throttle_desc->('bps_rd',  'integer', 'read speed',  'bps',  'bytes');
 $add_throttle_desc->('bps_wr',  'integer', 'write speed', 'bps',  'bytes');
-$add_throttle_desc->('mbps',    'float',   'r/w speed',   'mbps', 'megabytes');
-$add_throttle_desc->('mbps_rd', 'float',   'read speed',  'mbps', 'megabytes');
-$add_throttle_desc->('mbps_wr', 'float',   'write speed', 'mbps', 'megabytes');
+$add_throttle_desc->('mbps',    'number',  'r/w speed',   'mbps', 'megabytes');
+$add_throttle_desc->('mbps_rd', 'number',  'read speed',  'mbps', 'megabytes');
+$add_throttle_desc->('mbps_wr', 'number',  'write speed', 'mbps', 'megabytes');
 $add_throttle_desc->('iops',    'integer', 'r/w I/O',     'iops', 'operations');
 $add_throttle_desc->('iops_rd', 'integer', 'read I/O',    'iops', 'operations');
 $add_throttle_desc->('iops_wr', 'integer', 'write I/O',   'iops', 'operations');
 
 # pools: (pool of IO before throttling starts taking effect)
-$add_throttle_desc->('mbps_max',    'float',   'unthrottled r/w pool',       'mbps', 'megabytes');
-$add_throttle_desc->('mbps_rd_max', 'float',   'unthrottled read pool',      'mbps', 'megabytes');
-$add_throttle_desc->('mbps_wr_max', 'float',   'unthrottled write pool',     'mbps', 'megabytes');
+$add_throttle_desc->('mbps_max',    'number',  'unthrottled r/w pool',       'mbps', 'megabytes');
+$add_throttle_desc->('mbps_rd_max', 'number',  'unthrottled read pool',      'mbps', 'megabytes');
+$add_throttle_desc->('mbps_wr_max', 'number',  'unthrottled write pool',     'mbps', 'megabytes');
 $add_throttle_desc->('iops_max',    'integer', 'unthrottled r/w I/O pool',   'iops', 'operations');
 $add_throttle_desc->('iops_rd_max', 'integer', 'unthrottled read I/O pool',  'iops', 'operations');
 $add_throttle_desc->('iops_wr_max', 'integer', 'unthrottled write I/O pool', 'iops', 'operations');
@@ -728,60 +899,89 @@ my $alldrive_fmt = {
     %queues_fmt,
 };
 
-my $usbformat = {
+my $usb_fmt = {
     host => {
        default_key => 1,
        type => 'string', format => 'pve-qm-usb-device',
        format_description => 'HOSTUSBDEVICE|spice',
-       description => 'The Host USB device or port or the value spice',
+        description => <<EODESCR,
+The Host USB device or port or the value 'spice'. HOSTUSBDEVICE syntax is:
+
+ 'bus-port(.port)*' (decimal numbers) or
+ 'vendor_id:product_id' (hexadeciaml numbers) or
+ 'spice'
+
+You can use the 'lsusb -t' command to list existing usb devices.
+
+NOTE: This option allows direct access to host hardware. So it is no longer possible to migrate such machines - use with special care.
+
+The value 'spice' can be used to add a usb redirection devices for spice.
+EODESCR
     },
     usb3 => {
        optional => 1,
        type => 'boolean',
-       format_description => 'yes|no',
-       description => 'Specifies whether if given host option is a USB3 device or port',
+       description => "Specifies whether if given host option is a USB3 device or port (this does currently not work reliably with spice redirection and is then ignored).",
+        default => 0,
     },
 };
 
 my $usbdesc = {
     optional => 1,
-    type => 'string', format => $usbformat,
-    description => <<EODESCR,
-Configure an USB device (n is 0 to 4). This can be used to
-pass-through usb devices to the guest. HOSTUSBDEVICE syntax is:
-
-'bus-port(.port)*' (decimal numbers) or
-'vendor_id:product_id' (hexadeciaml numbers) or
-'spice'
-
-You can use the 'lsusb -t' command to list existing usb devices.
-
-Note: This option allows direct access to host hardware. So it is no longer possible to migrate such machines - use with special care.
+    type => 'string', format => $usb_fmt,
+    description => "Configure an USB device (n is 0 to 4).",
+};
+PVE::JSONSchema::register_standard_option("pve-qm-usb", $usbdesc);
 
-The value 'spice' can be used to add a usb redirection devices for spice.
+# NOTE: the match-groups of this regex are used in parse_hostpci
+my $PCIRE = qr/([a-f0-9]{2}:[a-f0-9]{2})(?:\.([a-f0-9]))?/;
+my $hostpci_fmt = {
+    host => {
+       default_key => 1,
+       type => 'string',
+       pattern => qr/$PCIRE(;$PCIRE)*/,
+       format_description => 'HOSTPCIID[;HOSTPCIID2...]',
+       description => <<EODESCR,
+Host PCI device pass through. The PCI ID of a host's PCI device or a list 
+of PCI virtual functions of the host. HOSTPCIID syntax is:
 
-The 'usb3' option determines whether the device is a USB3 device or not (this does currently not work reliably with spice redirection and is then ignored).
+'bus:dev.func' (hexadecimal numbers)
 
+You can us the 'lspci' command to list existing PCI devices.
 EODESCR
+    },
+    rombar => {
+       type => 'boolean',
+        description =>  "Specify whether or not the device's ROM will be visible in the guest's memory map.",
+       optional => 1,
+       default => 1,
+    },
+    pcie => {
+       type => 'boolean',
+        description =>  "Choose the PCI-express bus (needs the 'q35' machine model).",
+       optional => 1,
+       default => 0,
+    },
+    'x-vga' => {
+       type => 'boolean',
+        description =>  "Enable vfio-vga device support.",
+       optional => 1,
+       default => 0,
+    },
 };
-PVE::JSONSchema::register_standard_option("pve-qm-usb", $usbdesc);
+PVE::JSONSchema::register_format('pve-qm-hostpci', $hostpci_fmt);
 
 my $hostpcidesc = {
         optional => 1,
         type => 'string', format => 'pve-qm-hostpci',
-        typetext => "[host=]HOSTPCIDEVICE [,rombar=on|off] [,pcie=0|1] [,x-vga=on|off]",
-        description => <<EODESCR,
-Map host pci devices. HOSTPCIDEVICE syntax is:
+        description => "Map host PCI devices into guest.",
+       verbose_description =>  <<EODESCR,
+Map host PCI devices into guest.
 
-'bus:dev.func' (hexadecimal numbers)
-
-You can us the 'lspci' command to list existing pci devices.
-
-The 'rombar' option determines whether or not the device's ROM will be visible in the guest's memory map (default is 'on').
+NOTE: This option allows direct access to host hardware. So it is no longer 
+possible to migrate such machines - use with special care.
 
-Note: This option allows direct access to host hardware. So it is no longer possible to migrate such machines - use with special care.
-
-Experimental: user reported problems with this option.
+CAUTION: Experimental! User reported problems with this option.
 EODESCR
 };
 PVE::JSONSchema::register_standard_option("pve-qm-hostpci", $hostpcidesc);
@@ -790,12 +990,15 @@ my $serialdesc = {
        optional => 1,
        type => 'string',
        pattern => '(/dev/.+|socket)',
-       description =>  <<EODESCR,
-Create a serial device inside the VM (n is 0 to 3), and pass through a host serial device (i.e. /dev/ttyS0), or create a unix socket on the host side (use 'qm terminal' to open a terminal connection).
+       description =>  "Create a serial device inside the VM (n is 0 to 3)",
+       verbose_description =>  <<EODESCR,
+Create a serial device inside the VM (n is 0 to 3), and pass through a
+host serial device (i.e. /dev/ttyS0), or create a unix socket on the
+host side (use 'qm terminal' to open a terminal connection).
 
-Note: If you pass through a host serial device, it is no longer possible to migrate such machines - use with special care.
+NOTE: If you pass through a host serial device, it is no longer possible to migrate such machines - use with special care.
 
-Experimental: user reported problems with this option.
+CAUTION: Experimental! User reported problems with this option.
 EODESCR
 };
 
@@ -803,12 +1006,13 @@ my $paralleldesc= {
        optional => 1,
        type => 'string',
         pattern => '/dev/parport\d+|/dev/usb/lp\d+',
-       description =>  <<EODESCR,
+       description =>  "Map host parallel devices (n is 0 to 2).",
+       verbose_description =>  <<EODESCR,
 Map host parallel devices (n is 0 to 2).
 
-Note: This option allows direct access to host hardware. So it is no longer possible to migrate such machines - use with special care.
+NOTE: This option allows direct access to host hardware. So it is no longer possible to migrate such machines - use with special care.
 
-Experimental: user reported problems with this option.
+CAUTION: Experimental! User reported problems with this option.
 EODESCR
 };
 
@@ -851,7 +1055,7 @@ for (my $i = 0; $i < $MAX_USB_DEVICES; $i++)  {
 my $unuseddesc = {
     optional => 1,
     type => 'string', format => 'pve-volume-id',
-    description => "Reference to unused volumes.",
+    description => "Reference to unused volumes. This is used internally, and should not be modified manually.",
 };
 
 for (my $i = 0; $i < $MAX_UNUSED_DISKS; $i++)  {
@@ -1034,7 +1238,7 @@ sub parse_hotplug_features {
        if ($feature =~ m/^(network|disk|cpu|memory|usb)$/) {
            $res->{$1} = 1;
        } else {
-           warn "ignoring unknown hotplug feature '$feature'\n";
+           die "invalid hotplug feature '$feature'\n";
        }
     }
     return $res;
@@ -1247,6 +1451,7 @@ sub print_drivedevice_full {
 
        $device = "ide-$devicetype,bus=ide.$controller,unit=$unit,drive=drive-$drive->{interface}$drive->{index},id=$drive->{interface}$drive->{index}";
        if ($devicetype eq 'hd' && (my $model = $drive->{model})) {
+           $model = URI::Escape::uri_unescape($model);
            $device .= ",model=$model";
        }
     } elsif ($drive->{interface} eq 'sata'){
@@ -1279,7 +1484,6 @@ sub get_initiator_name {
     return $initiator;
 }
 
-my @qemu_drive_options = qw(heads secs cyls trans media format cache snapshot rerror werror aio discard iops iops_rd iops_wr iops_max iops_rd_max iops_wr_max serial);
 sub print_drive_full {
     my ($storecfg, $vmid, $drive) = @_;
 
@@ -1302,10 +1506,14 @@ sub print_drive_full {
    }
 
     my $opts = '';
+    my @qemu_drive_options = qw(heads secs cyls trans media format cache snapshot rerror werror aio discard iops iops_rd iops_wr iops_max iops_rd_max iops_wr_max);
     foreach my $o (@qemu_drive_options) {
-       next if $o eq 'bootindex';
        $opts .= ",$o=$drive->{$o}" if $drive->{$o};
     }
+    if (my $serial = $drive->{serial}) {
+       $serial = URI::Escape::uri_unescape($serial);
+       $opts .= ",serial=$serial";
+    }
 
     $opts .= ",format=$format" if $format && !$drive->{format};
 
@@ -1430,28 +1638,26 @@ sub drive_is_cdrom {
 
 }
 
-sub parse_numa {
-    my ($data) = @_;
-
-    my $res = {};
-
-    foreach my $kvp (split(/,/, $data)) {
-
-       if ($kvp =~ m/^memory=(\S+)$/) {
-           $res->{memory} = $1;
-       } elsif ($kvp =~ m/^policy=(preferred|bind|interleave)$/) {
-           $res->{policy} = $1;
-       } elsif ($kvp =~ m/^cpus=(\d+)(-(\d+))?$/) {
-           $res->{cpus}->{start} = $1;
-           $res->{cpus}->{end} = $3;
-       } elsif ($kvp =~ m/^hostnodes=(\d+)(-(\d+))?$/) {
-           $res->{hostnodes}->{start} = $1;
-           $res->{hostnodes}->{end} = $3;
+sub parse_number_sets {
+    my ($set) = @_;
+    my $res = [];
+    foreach my $part (split(/;/, $set)) {
+       if ($part =~ /^\s*(\d+)(?:-(\d+))?\s*$/) {
+           die "invalid range: $part ($2 < $1)\n" if defined($2) && $2 < $1;
+           push @$res, [ $1, $2 ];
        } else {
-           return undef;
+           die "invalid range: $part\n";
        }
     }
+    return $res;
+}
+
+sub parse_numa {
+    my ($data) = @_;
 
+    my $res = PVE::JSONSchema::parse_property_string($numa_fmt, $data);
+    $res->{cpus} = parse_number_sets($res->{cpus}) if defined($res->{cpus});
+    $res->{hostnodes} = parse_number_sets($res->{hostnodes}) if defined($res->{hostnodes});
     return $res;
 }
 
@@ -1460,35 +1666,18 @@ sub parse_hostpci {
 
     return undef if !$value;
 
+    my $res = PVE::JSONSchema::parse_property_string($hostpci_fmt, $value);
 
-    my @list = split(/,/, $value);
-    my $found;
-
-    my $res = {};
-    foreach my $kv (@list) {
-
-       if ($kv =~ m/^(host=)?([a-f0-9]{2}:[a-f0-9]{2})(\.([a-f0-9]))?$/) {
-           $found = 1;
-           if(defined($4)){
-               push @{$res->{pciid}}, { id => $2 , function => $4};
-
-           }else{
-               my $pcidevices = lspci($2);
-               $res->{pciid} = $pcidevices->{$2};
-           }
-       } elsif ($kv =~ m/^rombar=(on|off)$/) {
-           $res->{rombar} = $1;
-       } elsif ($kv =~ m/^x-vga=(on|off)$/) {
-           $res->{'x-vga'} = $1;
-       } elsif ($kv =~ m/^pcie=(\d+)$/) {
-           $res->{pcie} = 1 if $1 == 1;
+    my @idlist = split(/;/, $res->{host});
+    delete $res->{host};
+    foreach my $id (@idlist) {
+       if ($id =~ /^$PCIRE$/) {
+           push @{$res->{pciid}}, { id => $1, function => ($2//'0') };
        } else {
-           warn "unknown hostpci setting '$kv'\n";
+           # should have been caught by parse_property_string already
+           die "failed to parse PCI id: $id\n";
        }
     }
-
-    return undef if !$found;
-
     return $res;
 }
 
@@ -1496,54 +1685,19 @@ sub parse_hostpci {
 sub parse_net {
     my ($data) = @_;
 
-    my $res = {};
-
-    foreach my $kvp (split(/,/, $data)) {
-
-       if ($kvp =~ m/^(ne2k_pci|e1000|e1000-82540em|e1000-82544gc|e1000-82545em|rtl8139|pcnet|virtio|ne2k_isa|i82551|i82557b|i82559er|vmxnet3)(=([0-9a-f]{2}(:[0-9a-f]{2}){5}))?$/i) {
-           my $model = lc($1);
-           my $mac = defined($3) ? uc($3) : PVE::Tools::random_ether_addr();
-           $res->{model} = $model;
-           $res->{macaddr} = $mac;
-       } elsif ($kvp =~ m/^bridge=(\S+)$/) {
-           $res->{bridge} = $1;
-       } elsif ($kvp =~ m/^queues=(\d+)$/) {
-           $res->{queues} = $1;
-       } elsif ($kvp =~ m/^rate=(\d+(\.\d+)?)$/) {
-           $res->{rate} = $1;
-        } elsif ($kvp =~ m/^tag=(\d+)$/) {
-            $res->{tag} = $1;
-        } elsif ($kvp =~ m/^trunks=([0-9;]+)$/) {
-           $res->{trunks} = $1;
-        } elsif ($kvp =~ m/^firewall=([01])$/) {
-           $res->{firewall} = $1;
-       } elsif ($kvp =~ m/^link_down=([01])$/) {
-           $res->{link_down} = $1;
-       } else {
-           return undef;
-       }
-
+    my $res = eval { PVE::JSONSchema::parse_property_string($net_fmt, $data) };
+    if ($@) {
+       warn $@;
+       return undef;
     }
-
-    return undef if !$res->{model};
-
+    $res->{macaddr} = PVE::Tools::random_ether_addr() if !defined($res->{macaddr});
     return $res;
 }
 
 sub print_net {
     my $net = shift;
 
-    my $res = "$net->{model}";
-    $res .= "=$net->{macaddr}" if $net->{macaddr};
-    $res .= ",bridge=$net->{bridge}" if $net->{bridge};
-    $res .= ",rate=$net->{rate}" if $net->{rate};
-    $res .= ",tag=$net->{tag}" if $net->{tag};
-    $res .= ",trunks=$net->{trunks}" if $net->{trunks};
-    $res .= ",firewall=1" if $net->{firewall};
-    $res .= ",link_down=1" if $net->{link_down};
-    $res .= ",queues=$net->{queues}" if $net->{queues};
-
-    return $res;
+    return PVE::JSONSchema::print_property_string($net, $net_fmt);
 }
 
 sub add_random_macs {
@@ -1557,26 +1711,6 @@ sub add_random_macs {
     }
 }
 
-sub add_unused_volume {
-    my ($config, $volid) = @_;
-
-    my $key;
-    for (my $ind = $MAX_UNUSED_DISKS - 1; $ind >= 0; $ind--) {
-       my $test = "unused$ind";
-       if (my $vid = $config->{$test}) {
-           return if $vid eq $volid; # do not add duplicates
-       } else {
-           $key = $test;
-       }
-    }
-
-    die "To many unused volume - please delete them first.\n" if !$key;
-
-    $config->{$key} = $volid;
-
-    return $key;
-}
-
 sub vm_is_volid_owner {
     my ($storecfg, $vmid, $volid) = @_;
 
@@ -1631,7 +1765,7 @@ sub vmconfig_register_unused_drive {
     if (!drive_is_cdrom($drive)) {
        my $volid = $drive->{file};
        if (vm_is_volid_owner($storecfg, $vmid, $volid)) {
-           add_unused_volume($conf, $volid, $vmid);
+           PVE::QemuConfig->add_unused_volume($conf, $volid, $vmid);
        }
     }
 }
@@ -1668,47 +1802,54 @@ sub vmconfig_cleanup_pending {
 }
 
 # smbios: [manufacturer=str][,product=str][,version=str][,serial=str][,uuid=uuid][,sku=str][,family=str]
-my $smbios1_desc = {
+my $smbios1_fmt = {
     uuid => {
        type => 'string',
        pattern => '[a-fA-F0-9]{8}(?:-[a-fA-F0-9]{4}){3}-[a-fA-F0-9]{12}',
        format_description => 'UUID',
+        description => "Set SMBIOS1 UUID.",
        optional => 1,
     },
     version => {
        type => 'string',
        pattern => '\S+',
-       format_description => 'str',
+       format_description => 'string',
+        description => "Set SMBIOS1 version.",
        optional => 1,
     },
     serial => {
        type => 'string',
        pattern => '\S+',
-       format_description => 'str',
+       format_description => 'string',
+        description => "Set SMBIOS1 serial number.",
        optional => 1,
     },
     manufacturer => {
        type => 'string',
        pattern => '\S+',
-       format_description => 'name',
+       format_description => 'string',
+        description => "Set SMBIOS1 manufacturer.",
        optional => 1,
     },
     product => {
        type => 'string',
        pattern => '\S+',
-       format_description => 'name',
+       format_description => 'string',
+        description => "Set SMBIOS1 product ID.",
        optional => 1,
     },
     sku => {
        type => 'string',
        pattern => '\S+',
-       format_description => 'str',
+       format_description => 'string',
+        description => "Set SMBIOS1 SKU string.",
        optional => 1,
     },
     family => {
        type => 'string',
        pattern => '\S+',
-       format_description => 'str',
+       format_description => 'string',
+        description => "Set SMBIOS1 family string.",
        optional => 1,
     },
 };
@@ -1716,17 +1857,17 @@ my $smbios1_desc = {
 sub parse_smbios1 {
     my ($data) = @_;
 
-    my $res = eval { PVE::JSONSchema::parse_property_string($smbios1_desc, $data) };
+    my $res = eval { PVE::JSONSchema::parse_property_string($smbios1_fmt, $data) };
     warn $@ if $@;
     return $res;
 }
 
 sub print_smbios1 {
     my ($smbios1) = @_;
-    return PVE::JSONSchema::print_property_string($smbios1, $smbios1_desc);
+    return PVE::JSONSchema::print_property_string($smbios1, $smbios1_fmt);
 }
 
-PVE::JSONSchema::register_format('pve-qm-smbios1', $smbios1_desc);
+PVE::JSONSchema::register_format('pve-qm-smbios1', $smbios1_fmt);
 
 PVE::JSONSchema::register_format('pve-qm-bootdisk', \&verify_bootdisk);
 sub verify_bootdisk {
@@ -1739,69 +1880,13 @@ sub verify_bootdisk {
     die "invalid boot disk '$value'\n";
 }
 
-PVE::JSONSchema::register_format('pve-qm-numanode', \&verify_numa);
-sub verify_numa {
-    my ($value, $noerr) = @_;
-
-    return $value if parse_numa($value);
-
-    return undef if $noerr;
-
-    die "unable to parse numa options\n";
-}
-
-PVE::JSONSchema::register_format('pve-qm-net', \&verify_net);
-sub verify_net {
-    my ($value, $noerr) = @_;
-
-    return $value if parse_net($value);
-
-    return undef if $noerr;
-
-    die "unable to parse network options\n";
-}
-
-PVE::JSONSchema::register_format('pve-qm-hostpci', \&verify_hostpci);
-sub verify_hostpci {
-    my ($value, $noerr) = @_;
-
-    return $value if parse_hostpci($value);
-
-    return undef if $noerr;
-
-    die "unable to parse pci id\n";
-}
-
-PVE::JSONSchema::register_format('pve-qm-watchdog', \&verify_watchdog);
-sub verify_watchdog {
-    my ($value, $noerr) = @_;
-
-    return $value if parse_watchdog($value);
-
-    return undef if $noerr;
-
-    die "unable to parse watchdog options\n";
-}
-
 sub parse_watchdog {
     my ($value) = @_;
 
     return undef if !$value;
 
-    my $res = {};
-
-    foreach my $p (split(/,/, $value)) {
-       next if $p =~ m/^\s*$/;
-
-       if ($p =~ m/^(model=)?(i6300esb|ib700)$/) {
-           $res->{model} = $2;
-       } elsif ($p =~ m/^(action=)?(reset|shutdown|poweroff|pause|debug|none)$/) {
-           $res->{action} = $2;
-       } else {
-           return undef;
-       }
-    }
-
+    my $res = eval { PVE::JSONSchema::parse_property_string($watchdog_fmt, $value) };
+    warn $@ if $@;
     return $res;
 }
 
@@ -2565,50 +2650,8 @@ sub vmstatus {
     return $res;
 }
 
-sub foreach_dimm {
-    my ($conf, $vmid, $memory, $sockets, $func) = @_;
-
-    my $dimm_id = 0;
-    my $current_size = 1024;
-    my $dimm_size = 512;
-    return if $current_size == $memory;
-
-    for (my $j = 0; $j < 8; $j++) {
-       for (my $i = 0; $i < 32; $i++) {
-           my $name = "dimm${dimm_id}";
-           $dimm_id++;
-           my $numanode = $i % $sockets;
-           $current_size += $dimm_size;
-           &$func($conf, $vmid, $name, $dimm_size, $numanode, $current_size, $memory);
-           return  $current_size if $current_size >= $memory;
-       }
-       $dimm_size *= 2;
-    }
-}
-
-sub foreach_reverse_dimm {
-    my ($conf, $vmid, $memory, $sockets, $func) = @_;
-
-    my $dimm_id = 253;
-    my $current_size = 4177920;
-    my $dimm_size = 65536;
-    return if $current_size == $memory;
-
-    for (my $j = 0; $j < 8; $j++) {
-       for (my $i = 0; $i < 32; $i++) {
-           my $name = "dimm${dimm_id}";
-           $dimm_id--;
-           my $numanode = $i % $sockets;
-           $current_size -= $dimm_size;
-           &$func($conf, $vmid, $name, $dimm_size, $numanode, $current_size, $memory);
-           return  $current_size if $current_size <= $memory;
-       }
-       $dimm_size /= 2;
-    }
-}
-
 sub foreach_drive {
-    my ($conf, $func) = @_;
+    my ($conf, $func, @param) = @_;
 
     foreach my $ds (valid_drive_names()) {
        next if !defined($conf->{$ds});
@@ -2616,12 +2659,12 @@ sub foreach_drive {
        my $drive = parse_drive($ds, $conf->{$ds});
        next if !$drive;
 
-       &$func($ds, $drive);
+       &$func($ds, $drive, @param);
     }
 }
 
 sub foreach_volid {
-    my ($conf, $func) = @_;
+    my ($conf, $func, @param) = @_;
 
     my $volhash = {};
 
@@ -2648,7 +2691,7 @@ sub foreach_volid {
     }
 
     foreach my $volid (keys %$volhash) {
-       &$func($volid, $volhash->{$volid});
+       &$func($volid, $volhash->{$volid}, @param);
     }
 }
 
@@ -2693,19 +2736,6 @@ sub config_to_command {
     my $cpuunits = defined($conf->{cpuunits}) ?
             $conf->{cpuunits} : $defaults->{cpuunits};
 
-    push @$cmd, '/usr/bin/systemd-run';
-    push @$cmd, '--scope';
-    push @$cmd, '--slice', "qemu";
-    push @$cmd, '--unit', $vmid;
-    # set KillMode=none, so that systemd don't kill those scopes
-    # at shutdown (pve-manager service should stop the VMs instead)
-    push @$cmd, '-p', "KillMode=none";
-    push @$cmd, '-p', "CPUShares=$cpuunits";
-    if ($conf->{cpulimit}) {
-       my $cpulimit = int($conf->{cpulimit} * 100);
-       push @$cmd, '-p', "CPUQuota=$cpulimit\%";
-    }
-
     push @$cmd, '/usr/bin/kvm';
 
     push @$cmd, '-id', $vmid;
@@ -2807,9 +2837,10 @@ sub config_to_command {
            $pciaddr = print_pci_addr("hostpci$i", $bridges);
        }
 
-       my $rombar = $d->{rombar} && $d->{rombar} eq 'off' ? ",rombar=0" : "";
-       my $xvga = $d->{'x-vga'} && $d->{'x-vga'} eq 'on' ? ",x-vga=on" : "";
-       if ($xvga && $xvga ne '') {
+       my $rombar = defined($d->{rombar}) && !$d->{rombar} ? ',rombar=0' : '';
+       my $xvga = '';
+       if ($d->{'x-vga'}) {
+           $xvga = ',x-vga=on';
            $kvm_off = 1;
            $vga = 'none';
            if ($ostype eq 'win7' || $ostype eq 'win8' || $ostype eq 'w2k8') {
@@ -2966,6 +2997,12 @@ sub config_to_command {
                push @$cpuFlags , 'hv_vapic' if !$nokvm;
                push @$cpuFlags , 'hv_time' if !$nokvm;
 
+               if (qemu_machine_feature_enabled ($machine_type, $kvmver, 2, 6)) {
+                   push @$cpuFlags , 'hv_reset' if !$nokvm;
+                   push @$cpuFlags , 'hv_vpindex' if !$nokvm;
+                   push @$cpuFlags , 'hv_runtime' if !$nokvm;
+               }
+
            } else {
                push @$cpuFlags , 'hv_spinlocks=0xffff' if !$nokvm;
            }
@@ -2996,7 +3033,7 @@ sub config_to_command {
 
     my $cpu = $nokvm ? "qemu64" : "kvm64";
     if (my $cputype = $conf->{cpu}) {
-       my $cpuconf = PVE::JSONSchema::parse_property_string($cpudesc, $cputype)
+       my $cpuconf = PVE::JSONSchema::parse_property_string($cpu_fmt, $cputype)
            or die "Cannot parse cpu description: $cputype\n";
        $cpu = $cpuconf->{cputype};
        $kvm_off = 1 if $cpuconf->{hidden};
@@ -3021,111 +3058,18 @@ sub config_to_command {
 
     push @$cpuFlags, 'kvm=off' if $kvm_off;
 
-    $cpu .= "," . join(',', @$cpuFlags) if scalar(@$cpuFlags);
+    my $cpu_vendor = $cpu_vendor_list->{$cpu} ||
+       die "internal error"; # should not happen
 
-    push @$cmd, '-cpu', $cpu;
-
-    my $memory = $conf->{memory} || $defaults->{memory};
-    my $static_memory = 0;
-    my $dimm_memory = 0;
-
-    if ($hotplug_features->{memory}) {
-       die "Numa need to be enabled for memory hotplug\n" if !$conf->{numa};
-       die "Total memory is bigger than ${MAX_MEM}MB\n" if $memory > $MAX_MEM;
-       $static_memory = $STATICMEM;
-       die "minimum memory must be ${static_memory}MB\n" if($memory < $static_memory);
-       $dimm_memory = $memory - $static_memory;
-       push @$cmd, '-m', "size=${static_memory},slots=255,maxmem=${MAX_MEM}M";
-
-    } else {
-
-       $static_memory = $memory;
-       push @$cmd, '-m', $static_memory;
-    }
-
-    if ($conf->{numa}) {
-
-       my $numa_totalmemory = undef;
-       for (my $i = 0; $i < $MAX_NUMA; $i++) {
-           next if !$conf->{"numa$i"};
-           my $numa = parse_numa($conf->{"numa$i"});
-           next if !$numa;
-           # memory
-           die "missing numa node$i memory value\n" if !$numa->{memory};
-           my $numa_memory = $numa->{memory};
-           $numa_totalmemory += $numa_memory;
-           my $numa_object = "memory-backend-ram,id=ram-node$i,size=${numa_memory}M";
-
-           # cpus
-           my $cpus_start = $numa->{cpus}->{start};
-           die "missing numa node$i cpus\n" if !defined($cpus_start);
-           my $cpus_end = $numa->{cpus}->{end} if defined($numa->{cpus}->{end});
-           my $cpus = $cpus_start;
-           if (defined($cpus_end)) {
-               $cpus .= "-$cpus_end";
-               die "numa node$i :  cpu range $cpus is incorrect\n" if $cpus_end <= $cpus_start;
-           }
-
-           # hostnodes
-           my $hostnodes_start = $numa->{hostnodes}->{start};
-           if (defined($hostnodes_start)) {
-               my $hostnodes_end = $numa->{hostnodes}->{end} if defined($numa->{hostnodes}->{end});
-               my $hostnodes = $hostnodes_start;
-               if (defined($hostnodes_end)) {
-                   $hostnodes .= "-$hostnodes_end";
-                   die "host node $hostnodes range is incorrect\n" if $hostnodes_end <= $hostnodes_start;
-               }
-
-               my $hostnodes_end_range = defined($hostnodes_end) ? $hostnodes_end : $hostnodes_start;
-               for (my $i = $hostnodes_start; $i <= $hostnodes_end_range; $i++ ) {
-                   die "host numa node$i don't exist\n" if ! -d "/sys/devices/system/node/node$i/";
-               }
-
-               # policy
-               my $policy = $numa->{policy};
-               die "you need to define a policy for hostnode $hostnodes\n" if !$policy;
-               $numa_object .= ",host-nodes=$hostnodes,policy=$policy";
-           }
-
-           push @$cmd, '-object', $numa_object;
-           push @$cmd, '-numa', "node,nodeid=$i,cpus=$cpus,memdev=ram-node$i";
-       }
+    push @$cpuFlags, "vendor=${cpu_vendor}"
+       if $cpu_vendor ne 'default';
 
-       die "total memory for NUMA nodes must be equal to vm static memory\n"
-           if $numa_totalmemory && $numa_totalmemory != $static_memory;
-
-       #if no custom tology, we split memory and cores across numa nodes
-       if(!$numa_totalmemory) {
-
-           my $numa_memory = ($static_memory / $sockets) . "M";
-
-           for (my $i = 0; $i < $sockets; $i++)  {
-
-               my $cpustart = ($cores * $i);
-               my $cpuend = ($cpustart + $cores - 1) if $cores && $cores > 1;
-               my $cpus = $cpustart;
-               $cpus .= "-$cpuend" if $cpuend;
-
-               push @$cmd, '-object', "memory-backend-ram,size=$numa_memory,id=ram-node$i";
-               push @$cmd, '-numa', "node,nodeid=$i,cpus=$cpus,memdev=ram-node$i";
-           }
-       }
-    }
-
-    if ($hotplug_features->{memory}) {
-       foreach_dimm($conf, $vmid, $memory, $sockets, sub {
-           my ($conf, $vmid, $name, $dimm_size, $numanode, $current_size, $memory) = @_;
-           push @$cmd, "-object" , "memory-backend-ram,id=mem-$name,size=${dimm_size}M";
-           push @$cmd, "-device", "pc-dimm,id=$name,memdev=mem-$name,node=$numanode";
+    $cpu .= "," . join(',', @$cpuFlags) if scalar(@$cpuFlags);
 
-           #if dimm_memory is not aligned to dimm map
-           if($current_size > $memory) {
-                $conf->{memory} = $current_size;
-                PVE::QemuConfig->write_config($vmid, $conf);
-           }
-       });
-    }
+    push @$cmd, '-cpu', $cpu;
 
+    PVE::QemuServer::Memory::config($conf, $vmid, $sockets, $cores, $defaults, $hotplug_features, $cmd);
+    
     push @$cmd, '-S' if $conf->{freeze};
 
     # set keyboard layout
@@ -3234,6 +3178,8 @@ sub config_to_command {
            if($conf->{scsihw} && $conf->{scsihw} eq "virtio-scsi-single" && $drive->{iothread}){
                $iothread .= ",iothread=iothread-$controller_prefix$controller";
                push @$cmd, '-object', "iothread,id=iothread-$controller_prefix$controller";
+           } elsif ($drive->{iothread}) {
+               warn "iothread is only valid with virtio disk or virtio-scsi-single controller, ignoring\n";
            }
 
            my $queues = '';
@@ -3739,92 +3685,6 @@ sub qemu_cpu_hotplug {
     }
 }
 
-sub qemu_memory_hotplug {
-    my ($vmid, $conf, $defaults, $opt, $value) = @_;
-
-    return $value if !check_running($vmid);
-
-    my $memory = $conf->{memory} || $defaults->{memory};
-    $value = $defaults->{memory} if !$value;
-    return $value if $value == $memory;
-
-    my $static_memory = $STATICMEM;
-    my $dimm_memory = $memory - $static_memory;
-
-    die "memory can't be lower than $static_memory MB" if $value < $static_memory;
-    die "you cannot add more memory than $MAX_MEM MB!\n" if $memory > $MAX_MEM;
-
-
-    my $sockets = 1;
-    $sockets = $conf->{sockets} if $conf->{sockets};
-
-    if($value > $memory) {
-
-       foreach_dimm($conf, $vmid, $value, $sockets, sub {
-           my ($conf, $vmid, $name, $dimm_size, $numanode, $current_size, $memory) = @_;
-
-               return if $current_size <= $conf->{memory};
-
-               eval { vm_mon_cmd($vmid, "object-add", 'qom-type' => "memory-backend-ram", id => "mem-$name", props => { size => int($dimm_size*1024*1024) } ) };
-               if (my $err = $@) {
-                   eval { qemu_objectdel($vmid, "mem-$name"); };
-                   die $err;
-               }
-
-               eval { vm_mon_cmd($vmid, "device_add", driver => "pc-dimm", id => "$name", memdev => "mem-$name", node => $numanode) };
-               if (my $err = $@) {
-                   eval { qemu_objectdel($vmid, "mem-$name"); };
-                   die $err;
-               }
-               #update conf after each succesful module hotplug
-               $conf->{memory} = $current_size;
-               PVE::QemuConfig->write_config($vmid, $conf);
-       });
-
-    } else {
-
-       foreach_reverse_dimm($conf, $vmid, $value, $sockets, sub {
-           my ($conf, $vmid, $name, $dimm_size, $numanode, $current_size, $memory) = @_;
-
-               return if $current_size >= $conf->{memory};
-               print "try to unplug memory dimm $name\n";
-
-               my $retry = 0;
-               while (1) {
-                   eval { qemu_devicedel($vmid, $name) };
-                   sleep 3;
-                   my $dimm_list = qemu_dimm_list($vmid);
-                   last if !$dimm_list->{$name};
-                   raise_param_exc({ $name => "error unplug memory module" }) if $retry > 5;
-                   $retry++;
-               }
-
-               #update conf after each succesful module unplug
-               $conf->{memory} = $current_size;
-
-               eval { qemu_objectdel($vmid, "mem-$name"); };
-               PVE::QemuConfig->write_config($vmid, $conf);
-       });
-    }
-}
-
-sub qemu_dimm_list {
-    my ($vmid) = @_;
-
-    my $dimmarray = vm_mon_cmd_nocheck($vmid, "query-memory-devices");
-    my $dimms = {};
-
-    foreach my $dimm (@$dimmarray) {
-
-        $dimms->{$dimm->{data}->{id}}->{id} = $dimm->{data}->{id};
-        $dimms->{$dimm->{data}->{id}}->{node} = $dimm->{data}->{node};
-        $dimms->{$dimm->{data}->{id}}->{addr} = $dimm->{data}->{addr};
-        $dimms->{$dimm->{data}->{id}}->{size} = $dimm->{data}->{size};
-        $dimms->{$dimm->{data}->{id}}->{slot} = $dimm->{data}->{slot};
-    }
-    return $dimms;
-}
-
 sub qemu_block_set_io_throttle {
     my ($vmid, $deviceid,
        $bps, $bps_rd, $bps_wr, $iops, $iops_rd, $iops_wr,
@@ -4092,7 +3952,7 @@ sub vmconfig_hotplug_pending {
                vmconfig_delete_or_detach_drive($vmid, $storecfg, $conf, $opt, $force);
            } elsif ($opt =~ m/^memory$/) {
                die "skip\n" if !$hotplug_features->{memory};
-               qemu_memory_hotplug($vmid, $conf, $defaults, $opt);
+               PVE::QemuServer::Memory::qemu_memory_hotplug($vmid, $conf, $defaults, $opt);
            } elsif ($opt eq 'cpuunits') {
                cgroups_write("cpu", $vmid, "cpu.shares", $defaults->{cpuunits});
            } elsif ($opt eq 'cpulimit') {
@@ -4149,7 +4009,7 @@ sub vmconfig_hotplug_pending {
                                     $vmid, $opt, $value, 1);
            } elsif ($opt =~ m/^memory$/) { #dimms
                die "skip\n" if !$hotplug_features->{memory};
-               $value = qemu_memory_hotplug($vmid, $conf, $defaults, $opt, $value);
+               $value = PVE::QemuServer::Memory::qemu_memory_hotplug($vmid, $conf, $defaults, $opt, $value);
            } elsif ($opt eq 'cpuunits') {
                cgroups_write("cpu", $vmid, "cpu.shares", $conf->{pending}->{$opt});
            } elsif ($opt eq 'cpulimit') {
@@ -4295,16 +4155,16 @@ sub vmconfig_update_net {
            die "internal error" if $opt !~ m/net(\d+)/;
            my $iface = "tap${vmid}i$1";
 
-           if (&$safe_num_ne($oldnet->{rate}, $newnet->{rate})) {
-               PVE::Network::tap_rate_limit($iface, $newnet->{rate});
-           }
-
            if (&$safe_string_ne($oldnet->{bridge}, $newnet->{bridge}) ||
                &$safe_num_ne($oldnet->{tag}, $newnet->{tag}) ||
                &$safe_string_ne($oldnet->{trunks}, $newnet->{trunks}) ||
                &$safe_num_ne($oldnet->{firewall}, $newnet->{firewall})) {
                PVE::Network::tap_unplug($iface);
-               PVE::Network::tap_plug($iface, $newnet->{bridge}, $newnet->{tag}, $newnet->{firewall}, $newnet->{trunks});
+               PVE::Network::tap_plug($iface, $newnet->{bridge}, $newnet->{tag}, $newnet->{firewall}, $newnet->{trunks}, $newnet->{rate});
+           } elsif (&$safe_num_ne($oldnet->{rate}, $newnet->{rate})) {
+               # Rate can be applied on its own but any change above needs to
+               # include the rate in tap_plug since OVS resets everything.
+               PVE::Network::tap_rate_limit($iface, $newnet->{rate});
            }
 
            if (&$safe_string_ne($oldnet->{link_down}, $newnet->{link_down})) {
@@ -4453,6 +4313,19 @@ sub vm_start {
                $migrate_uri = "tcp:${localip}:${migrate_port}";
                push @$cmd, '-incoming', $migrate_uri;
                push @$cmd, '-S';
+
+           } elsif ($statefile eq 'unix') {
+               # should be default for secure migrations as a ssh TCP forward
+               # tunnel is not deterministic reliable ready and fails regurarly
+               # to set up in time, so use UNIX socket forwards
+               my $socket_addr = "/run/qemu-server/$vmid.migrate";
+               unlink $socket_addr;
+
+               $migrate_uri = "unix:$socket_addr";
+
+               push @$cmd, '-incoming', $migrate_uri;
+               push @$cmd, '-S';
+
            } else {
                push @$cmd, '-loadstate', $statefile;
            }
@@ -4478,8 +4351,57 @@ sub vm_start {
 
        PVE::Storage::activate_volumes($storecfg, $vollist);
 
-       eval  { run_command($cmd, timeout => $statefile ? undef : 30,
-                   umask => 0077); };
+       if (!check_running($vmid, 1) && -d "/sys/fs/cgroup/systemd/qemu.slice/$vmid.scope") {
+           my $cmd = [];
+           push @$cmd, '/bin/systemctl', 'stop', "$vmid.scope";
+           eval  { run_command($cmd); };
+       }
+
+       my $cpuunits = defined($conf->{cpuunits}) ? $conf->{cpuunits}
+                                                 : $defaults->{cpuunits};
+
+       my %run_params = (timeout => $statefile ? undef : 30, umask => 0077);
+
+       my %properties = (
+           Slice => 'qemu.slice',
+           KillMode => 'none',
+           CPUShares => $cpuunits
+       );
+
+       if (my $cpulimit = $conf->{cpulimit}) {
+           $properties{CPUQuota} = int($cpulimit * 100);
+       }
+       $properties{timeout} = 10 if $statefile; # setting up the scope shoul be quick
+
+       if ($conf->{hugepages}) {
+
+           my $code = sub {
+               my $hugepages_topology = PVE::QemuServer::Memory::hugepages_topology($conf);
+               my $hugepages_host_topology = PVE::QemuServer::Memory::hugepages_host_topology();
+
+               PVE::QemuServer::Memory::hugepages_mount();
+               PVE::QemuServer::Memory::hugepages_allocate($hugepages_topology, $hugepages_host_topology);
+
+               eval  {
+                   PVE::Tools::enter_systemd_scope($vmid, "Proxmox VE VM $vmid", %properties);
+                   run_command($cmd, %run_params);
+               };
+
+               if (my $err = $@) {
+                   PVE::QemuServer::Memory::hugepages_reset($hugepages_host_topology);
+                   die $err;
+               }
+
+               PVE::QemuServer::Memory::hugepages_pre_deallocate($hugepages_topology);
+           };
+           eval { PVE::QemuServer::Memory::hugepages_update_locked($code); };
+
+       } else {
+           eval  {
+               PVE::Tools::enter_systemd_scope($vmid, "Proxmox VE VM $vmid", %properties);
+               run_command($cmd, %run_params);
+           };
+       }
 
        if (my $err = $@) {
            # deactivate volumes if start fails
@@ -4753,7 +4675,8 @@ sub vm_suspend {
 
        my $conf = PVE::QemuConfig->load_config($vmid);
 
-       PVE::QemuConfig->check_lock($conf) if !($skiplock || ($conf->{lock} && $conf->{lock} eq 'backup'));
+       PVE::QemuConfig->check_lock($conf)
+           if !($skiplock || PVE::QemuConfig->has_lock($conf, 'backup'));
 
        vm_mon_cmd($vmid, "stop");
     });
@@ -4768,7 +4691,8 @@ sub vm_resume {
 
            my $conf = PVE::QemuConfig->load_config($vmid);
 
-           PVE::QemuConfig->check_lock($conf) if !($skiplock || ($conf->{lock} && $conf->{lock} eq 'backup'));
+           PVE::QemuConfig->check_lock($conf)
+               if !($skiplock || PVE::QemuConfig->has_lock($conf, 'backup'));
 
            vm_mon_cmd($vmid, "cont");
 
@@ -5068,11 +4992,11 @@ sub tar_archive_read_firstfile {
     die "ERROR: file '$archive' does not exist\n" if ! -f $archive;
 
     # try to detect archive type first
-    my $pid = open (TMP, "tar tf '$archive'|") ||
+    my $pid = open (my $fh, '-|', 'tar', 'tf', $archive) ||
        die "unable to open file '$archive'\n";
-    my $firstfile = <TMP>;
+    my $firstfile = <$fh>;
     kill 15, $pid;
-    close TMP;
+    close $fh;
 
     die "ERROR: archive contaions no data\n" if !$firstfile;
     chomp $firstfile;
@@ -5305,7 +5229,7 @@ sub update_disksize {
        next if !$path; # just to be sure
        next if $usedpath->{$path};
        $changes = 1;
-       add_unused_volume($conf, $volid);
+       PVE::QemuConfig->add_unused_volume($conf, $volid);
        $usedpath->{$path} = 1; # avoid to add more than once (aliases)
     }
 
@@ -5315,7 +5239,7 @@ sub update_disksize {
 sub rescan {
     my ($vmid, $nolock) = @_;
 
-    my $cfg = PVE::Cluster::cfs_read_file("storage.cfg");
+    my $cfg = PVE::Storage::config();
 
     my $volid_hash = scan_volids($cfg, $vmid);
 
@@ -5454,7 +5378,7 @@ sub restore_vma_archive {
                if !$devinfo->{$devname}->{virtdev};
        }
 
-       my $cfg = cfs_read_file('storage.cfg');
+       my $cfg = PVE::Storage::config();
 
        # create empty/temp config
        if ($oldconf) {
@@ -5515,7 +5439,7 @@ sub restore_vma_archive {
                $write_zeros = 0;
            }
 
-           print $fifofh "${write_zeros}:$d->{devname}=$path\n";
+           print $fifofh "format=$d->{format}:${write_zeros}:$d->{devname}=$path\n";
 
            print "map '$d->{devname}' to '$path' (write zeros = ${write_zeros})\n";
            $map->{$virtdev} = $volid;
@@ -5579,7 +5503,7 @@ sub restore_vma_archive {
        push @$vollist, $volid if $volid;
     }
 
-    my $cfg = cfs_read_file('storage.cfg');
+    my $cfg = PVE::Storage::config();
     PVE::Storage::deactivate_volumes($cfg, $vollist);
 
     unlink $mapfifo;
@@ -5624,7 +5548,7 @@ sub restore_tar_archive {
            if $firstfile ne 'qemu-server.conf';
     }
 
-    my $storecfg = cfs_read_file('storage.cfg');
+    my $storecfg = PVE::Storage::config();
 
     # destroy existing data - keep empty config
     my $vmcfgfn = PVE::QemuConfig->config_file($vmid);
@@ -5798,7 +5722,7 @@ sub template_create {
 }
 
 sub qemu_img_convert {
-    my ($src_volid, $dst_volid, $size, $snapname) = @_;
+    my ($src_volid, $dst_volid, $size, $snapname, $is_zero_initialized) = @_;
 
     my $storecfg = PVE::Storage::config();
     my ($src_storeid, $src_volname) = PVE::Storage::parse_volume_id($src_volid, 1);
@@ -5820,7 +5744,12 @@ sub qemu_img_convert {
        my $cmd = [];
        push @$cmd, '/usr/bin/qemu-img', 'convert', '-t', 'writeback', '-p', '-n';
        push @$cmd, '-s', $snapname if($snapname && $src_format eq "qcow2");
-       push @$cmd, '-f', $src_format, '-O', $dst_format, $src_path, $dst_path;
+       push @$cmd, '-f', $src_format, '-O', $dst_format, $src_path;
+       if ($is_zero_initialized) {
+           push @$cmd, "zeroinit:$dst_path";
+       } else {
+           push @$cmd, $dst_path;
+       }
 
        my $parser = sub {
            my $line = shift;
@@ -5851,7 +5780,7 @@ sub qemu_img_format {
 }
 
 sub qemu_drive_mirror {
-    my ($vmid, $drive, $dst_volid, $vmiddst) = @_;
+    my ($vmid, $drive, $dst_volid, $vmiddst, $is_zero_initialized) = @_;
 
     my $storecfg = PVE::Storage::config();
     my ($dst_storeid, $dst_volname) = PVE::Storage::parse_volume_id($dst_volid);
@@ -5862,11 +5791,22 @@ sub qemu_drive_mirror {
 
     my $dst_path = PVE::Storage::path($storecfg, $dst_volid);
 
-    my $opts = { timeout => 10, device => "drive-$drive", mode => "existing", sync => "full", target => $dst_path };
+    my $qemu_target = $is_zero_initialized ? "zeroinit:$dst_path" : $dst_path;
+
+    my $opts = { timeout => 10, device => "drive-$drive", mode => "existing", sync => "full", target => $qemu_target };
     $opts->{format} = $format if $format;
 
     print "drive mirror is starting (scanning bitmap) : this step can take some minutes/hours, depend of disk size and storage speed\n";
 
+    my $finish_job = sub {
+       while (1) {
+           my $stats = vm_mon_cmd($vmid, "query-block-jobs");
+           my $stat = @$stats[0];
+           last if !$stat;
+           sleep 1;
+       }
+    };
+
     eval {
     vm_mon_cmd($vmid, "drive-mirror", %$opts);
        while (1) {
@@ -5893,7 +5833,10 @@ sub qemu_drive_mirror {
 
                # try to switch the disk if source and destination are on the same guest
                eval { vm_mon_cmd($vmid, "block-job-complete", device => "drive-$drive") };
-               last if !$@;
+               if (!$@) {
+                   &$finish_job();
+                   last;
+               }
                die $@ if $@ !~ m/cannot be completed/;
            }
            sleep 1;
@@ -5905,12 +5848,7 @@ sub qemu_drive_mirror {
 
     my $cancel_job = sub {
        vm_mon_cmd($vmid, "block-job-cancel", device => "drive-$drive");
-       while (1) {
-           my $stats = vm_mon_cmd($vmid, "query-block-jobs");
-           my $stat = @$stats[0];
-           last if !$stat;
-           sleep 1;
-       }
+       &$finish_job();
     };
 
     if ($err) {
@@ -5956,10 +5894,11 @@ sub clone_disk {
 
        PVE::Storage::activate_volumes($storecfg, $newvollist);
 
+       my $sparseinit = PVE::Storage::volume_has_feature($storecfg, 'sparseinit', $newvolid);
        if (!$running || $snapname) {
-           qemu_img_convert($drive->{file}, $newvolid, $size, $snapname);
+           qemu_img_convert($drive->{file}, $newvolid, $size, $snapname, $sparseinit);
        } else {
-           qemu_drive_mirror($vmid, $drivename, $newvolid, $newvmid);
+           qemu_drive_mirror($vmid, $drivename, $newvolid, $newvmid, $sparseinit);
        }
     }