]> git.proxmox.com Git - qemu-server.git/blobdiff - PVE/QemuServer.pm
add downtime && expected_downtime query-migrate info
[qemu-server.git] / PVE / QemuServer.pm
index 18b987f7c386ac0945eef453d323c3d01280e203..a9dd544629bd28e840c93758a41b10eee19bd07b 100644 (file)
@@ -22,6 +22,7 @@ use Storable qw(dclone);
 use PVE::Exception qw(raise raise_param_exc);
 use PVE::Storage;
 use PVE::Tools qw(run_command lock_file file_read_firstline);
+use PVE::JSONSchema qw(get_standard_option);
 use PVE::Cluster qw(cfs_register_file cfs_read_file cfs_write_file cfs_lock_file);
 use PVE::INotify;
 use PVE::ProcFSTools;
@@ -33,7 +34,7 @@ my $cpuinfo = PVE::ProcFSTools::read_cpuinfo();
 # Note about locking: we use flock on the config file protect
 # against concurent actions.
 # Aditionaly, we have a 'lock' setting in the config file. This
-# can be set to 'migrate' or 'backup'. Most actions are not
+# can be set to 'migrate', 'backup', 'snapshot' or 'rollback'. Most actions are not
 # allowed when such lock is set. But you can ignore this kind of
 # lock with the --skiplock flag.
 
@@ -54,6 +55,12 @@ PVE::JSONSchema::register_standard_option('pve-qm-stateuri', {
     optional => 1,
 });
 
+PVE::JSONSchema::register_standard_option('pve-snapshot-name', {
+    description => "The name of the snapshot.",
+    type => 'string', format => 'pve-configid',
+    maxLength => 40,
+});
+
 #no warnings 'redefine';
 
 unless(defined(&_VZSYSCALLS_H_)) {
@@ -171,7 +178,7 @@ my $confdesc = {
        optional => 1,
        type => 'string',
        description => "Lock/unlock the VM.",
-       enum => [qw(migrate backup)],
+       enum => [qw(migrate backup snapshot rollback)],
     },
     cpulimit => {
        optional => 1,
@@ -228,7 +235,7 @@ my $confdesc = {
     ostype => {
        optional => 1,
        type => 'string',
-        enum => [qw(other wxp w2k w2k3 w2k8 wvista win7 l24 l26)],
+        enum => [qw(other wxp w2k w2k3 w2k8 wvista win7 win8 l24 l26)],
        description => <<EODESC,
 Used to enable special optimization/features for specific
 operating systems:
@@ -240,11 +247,12 @@ w2k3   => Microsoft Windows 2003
 w2k8   => Microsoft Windows 2008
 wvista => Microsoft Windows Vista
 win7   => Microsoft Windows 7
+win8   => Microsoft Windows 8/2012
 l24    => Linux 2.4 Kernel
 l26    => Linux 2.6/3.X Kernel
 
-other|l24|l26                  ... no special behaviour
-wxp|w2k|w2k3|w2k8|wvista|win7  ... use --localtime switch
+other|l24|l26                       ... no special behaviour
+wxp|w2k|w2k3|w2k8|wvista|win7|win8  ... use --localtime switch
 EODESC
     },
     boot => {
@@ -291,7 +299,7 @@ EODESC
        optional => 1,
        type => 'boolean',
        description => "Enable/disable Qemu GuestAgent.",
-       default => 1,
+       default => 0,
     },
     kvm => {
        optional => 1,
@@ -302,8 +310,8 @@ EODESC
     tdf => {
        optional => 1,
        type => 'boolean',
-       description => "Enable/disable time drift fix. This is ignored for kvm versions newer that 1.0 (not needed anymore).",
-       default => 1,
+       description => "Enable/disable time drift fix.",
+       default => 0,
     },
     localtime => {
        optional => 1,
@@ -318,7 +326,7 @@ EODESC
     vga => {
        optional => 1,
        type => 'string',
-       description => "Select VGA type. If you want to use high resolution modes (>= 1280x1024x16) then you should use option 'std' or 'vmware'. Default is 'std' for win7/w2k8, and 'cirrur' for other OS types",
+       description => "Select VGA type. If you want to use high resolution modes (>= 1280x1024x16) then you should use option 'std' or 'vmware'. Default is 'std' for win8/win7/w2k8, and 'cirrur' for other OS types",
        enum => [qw(std cirrus vmware)],
     },
     watchdog => {
@@ -380,9 +388,24 @@ EODESCR
        optional => 1,
        description => "Emulated CPU type.",
        type => 'string',
-       enum => [ qw(486 athlon pentium pentium2 pentium3 coreduo core2duo kvm32 kvm64 qemu32 qemu64 phenom cpu64-rhel6 cpu64-rhel5 Conroe Penryn Nehalem Westmere Opteron_G1 Opteron_G2 Opteron_G3 host) ],
+       enum => [ qw(486 athlon pentium pentium2 pentium3 coreduo core2duo kvm32 kvm64 qemu32 qemu64 phenom Conroe Penryn Nehalem Westmere SandyBridge Haswell Opteron_G1 Opteron_G2 Opteron_G3 Opteron_G4 Opteron_G5 host) ],
        default => 'qemu64',
     },
+    parent => get_standard_option('pve-snapshot-name', {
+       optional => 1,
+       description => "Parent snapshot name. This is used internally, and should not be modified.",
+    }),
+    snaptime => {
+       optional => 1,
+       description => "Timestamp for snapshots.",
+       type => 'integer',
+       minimum => 0,
+    },
+    vmstate => {
+       optional => 1,
+       type => 'string', format => 'pve-volume-id',
+       description => "Reference to a volume which stores the VM state. This is used internally for snapshots.",
+    },
 };
 
 # what about other qemu settings ?
@@ -625,7 +648,7 @@ sub kvm_user_version {
 
     my $tmp = `kvm -help 2>/dev/null`;
 
-    if ($tmp =~ m/^QEMU( PC)? emulator version (\d+\.\d+(\.\d+)?) /) {
+    if ($tmp =~ m/^QEMU( PC)? emulator version (\d+\.\d+(\.\d+)?)[,\s]/) {
        $kvm_user_version = $2;
     }
 
@@ -668,6 +691,7 @@ sub os_list_description {
        w2k8 => 'Windows 2008',
        wvista => 'Windows Vista',
        win7 => 'Windows 7',
+       win8 => 'Windows 8/2012',
        l24 => 'Linux 2.4',
        l26 => 'Linux 2.6',
     };
@@ -1382,6 +1406,7 @@ sub json_config_properties {
     my $prop = shift;
 
     foreach my $opt (keys %$confdesc) {
+       next if $opt eq 'parent' || $opt eq 'snaptime' || $opt eq 'vmstate';
        $prop->{$opt} = $confdesc->{$opt};
     }
 
@@ -1547,6 +1572,7 @@ sub parse_vm_config {
 
     my $res = {
        digest => Digest::SHA::sha1_hex($raw),
+       snapshots => {},
     };
 
     $filename =~ m|/qemu-server/(\d+)\.conf$|
@@ -1554,12 +1580,20 @@ sub parse_vm_config {
 
     my $vmid = $1;
 
+    my $conf = $res;
     my $descr = '';
 
-    while ($raw && $raw =~ s/^(.*?)(\n|$)//) {
-       my $line = $1;
-
+    my @lines = split(/\n/, $raw);
+    foreach my $line (@lines) {
        next if $line =~ m/^\s*$/;
+       
+       if ($line =~ m/^\[([a-z][a-z0-9_\-]+)\]\s*$/i) {
+           my $snapname = $1;
+           $conf->{description} = $descr if $descr;
+           $descr = '';
+           $conf = $res->{snapshots}->{$snapname} = {}; 
+           next;
+       }
 
        if ($line =~ m/^\#(.*)\s*$/) {
            $descr .= PVE::Tools::decode_text($1) . "\n";
@@ -1568,10 +1602,12 @@ sub parse_vm_config {
 
        if ($line =~ m/^(description):\s*(.*\S)\s*$/) {
            $descr .= PVE::Tools::decode_text($2);
+       } elsif ($line =~ m/snapstate:\s*(prepare|delete)\s*$/) {
+           $conf->{snapstate} = $1;
        } elsif ($line =~ m/^(args):\s*(.*\S)\s*$/) {
            my $key = $1;
            my $value = $2;
-           $res->{$key} = $value;
+           $conf->{$key} = $value;
        } elsif ($line =~ m/^([a-z][a-z_]*\d*):\s*(\S+)\s*$/) {
            my $key = $1;
            my $value = $2;
@@ -1592,21 +1628,17 @@ sub parse_vm_config {
                }
 
                if ($key eq 'cdrom') {
-                   $res->{ide2} = $value;
+                   $conf->{ide2} = $value;
                } else {
-                   $res->{$key} = $value;
+                   $conf->{$key} = $value;
                }
            }
        }
     }
 
-    $res->{description} = $descr if $descr;
+    $conf->{description} = $descr if $descr;
 
-    # convert old smp to sockets
-    if ($res->{smp} && !$res->{sockets}) {
-       $res->{sockets} = $res->{smp};
-    }
-    delete $res->{smp};
+    delete $res->{snapstate}; # just to be sure
 
     return $res;
 }
@@ -1614,6 +1646,8 @@ sub parse_vm_config {
 sub write_vm_config {
     my ($filename, $conf) = @_;
 
+    delete $conf->{snapstate}; # just to be sure
+
     if ($conf->{cdrom}) {
        die "option ide2 conflicts with cdrom\n" if $conf->{ide2};
        $conf->{ide2} = $conf->{cdrom};
@@ -1629,41 +1663,62 @@ sub write_vm_config {
        delete $conf->{smp};
     }
 
-    my $new_volids = {};
-    foreach my $key (keys %$conf) {
-       next if $key eq 'digest' || $key eq 'description';
-       my $value = $conf->{$key};
-       eval { $value = check_type($key, $value); };
-       die "unable to parse value of '$key' - $@" if $@;
+    my $used_volids = {};
 
-       $conf->{$key} = $value;
+    my $cleanup_config = sub {
+       my ($cref) = @_;
 
-       if (valid_drivename($key)) {
-           my $drive = PVE::QemuServer::parse_drive($key, $value);
-           $new_volids->{$drive->{file}} = 1 if $drive && $drive->{file};
+       foreach my $key (keys %$cref) {
+           next if $key eq 'digest' || $key eq 'description' || $key eq 'snapshots' ||
+               $key eq 'snapstate';
+           my $value = $cref->{$key};
+           eval { $value = check_type($key, $value); };
+           die "unable to parse value of '$key' - $@" if $@;
+
+           $cref->{$key} = $value;
+
+           if (valid_drivename($key)) {
+               my $drive = PVE::QemuServer::parse_drive($key, $value);
+               $used_volids->{$drive->{file}} = 1 if $drive && $drive->{file};
+           }
        }
+    };
+
+    &$cleanup_config($conf);
+    foreach my $snapname (keys %{$conf->{snapshots}}) {
+       &$cleanup_config($conf->{snapshots}->{$snapname});
     }
 
     # remove 'unusedX' settings if we re-add a volume
     foreach my $key (keys %$conf) {
        my $value = $conf->{$key};
-       if ($key =~ m/^unused/ && $new_volids->{$value}) {
+       if ($key =~ m/^unused/ && $used_volids->{$value}) {
            delete $conf->{$key};
        }
     }
+  
+    my $generate_raw_config = sub {
+       my ($conf) = @_;
 
-    # gererate RAW data
-    my $raw = '';
+       my $raw = '';
 
-    # add description as comment to top of file
-    my $descr = $conf->{description} || '';
-    foreach my $cl (split(/\n/, $descr)) {
-       $raw .= '#' .  PVE::Tools::encode_text($cl) . "\n";
-    }
+       # add description as comment to top of file
+       my $descr = $conf->{description} || '';
+       foreach my $cl (split(/\n/, $descr)) {
+           $raw .= '#' .  PVE::Tools::encode_text($cl) . "\n";
+       }
 
-    foreach my $key (sort keys %$conf) {
-       next if $key eq 'digest' || $key eq 'description';
-       $raw .= "$key: $conf->{$key}\n";
+       foreach my $key (sort keys %$conf) {
+           next if $key eq 'digest' || $key eq 'description' || $key eq 'snapshots';
+           $raw .= "$key: $conf->{$key}\n";
+       }
+       return $raw;
+    };
+
+    my $raw = &$generate_raw_config($conf);
+    foreach my $snapname (sort keys %{$conf->{snapshots}}) {
+       $raw .= "\n[$snapname]\n";
+       $raw .= &$generate_raw_config($conf->{snapshots}->{$snapname});
     }
 
     return $raw;
@@ -2029,10 +2084,45 @@ sub foreach_drive {
     }
 }
 
+sub foreach_volid {
+    my ($conf, $func) = @_;
+    
+    my $volhash = {};
+
+    my $test_volid = sub {
+       my ($volid, $is_cdrom) = @_;
+
+       return if !$volid;
+       
+       $volhash->{$volid} = $is_cdrom || 0;
+    };
+
+    PVE::QemuServer::foreach_drive($conf, sub {
+       my ($ds, $drive) = @_;
+       &$test_volid($drive->{file}, drive_is_cdrom($drive));
+    });
+
+    foreach my $snapname (keys %{$conf->{snapshots}}) {
+       my $snap = $conf->{snapshots}->{$snapname};
+       &$test_volid($snap->{vmstate}, 0);
+       PVE::QemuServer::foreach_drive($snap, sub {
+           my ($ds, $drive) = @_;
+           &$test_volid($drive->{file}, drive_is_cdrom($drive));
+        });
+    }
+
+    foreach my $volid (keys %$volhash) {
+       &$func($volid, $volhash->{$volid});     
+    }
+}
+
 sub config_to_command {
-    my ($storecfg, $vmid, $conf, $defaults, $migrate_uri) = @_;
+    my ($storecfg, $vmid, $conf, $defaults) = @_;
 
     my $cmd = [];
+    my $globalFlags = [];
+    my $machineFlags = [];
+    my $rtcFlags = [];
     my $devices = [];
     my $pciaddr = '';
     my $bridges = {};
@@ -2065,10 +2155,6 @@ sub config_to_command {
 
     push @$cmd, '-daemonize';
 
-    push @$cmd, '-incoming', $migrate_uri if $migrate_uri;
-
-    push @$cmd, '-S' if $migrate_uri;
-
     my $use_usb2 = 0;
     for (my $i = 0; $i < $MAX_USB_DEVICES; $i++)  {
        next if !$conf->{"usb$i"};
@@ -2157,7 +2243,7 @@ sub config_to_command {
 
     my $vga = $conf->{vga};
     if (!$vga) {
-       if ($conf->{ostype} && ($conf->{ostype} eq 'win7' || $conf->{ostype} eq 'w2k8')) {
+       if ($conf->{ostype} && ($conf->{ostype} eq 'win8' || $conf->{ostype} eq 'win7' || $conf->{ostype} eq 'w2k8')) {
            $vga = 'std';
        } else {
            $vga = 'cirrus';
@@ -2168,43 +2254,42 @@ sub config_to_command {
 
     # time drift fix
     my $tdf = defined($conf->{tdf}) ? $conf->{tdf} : $defaults->{tdf};
-    # ignore - no longer supported by newer kvm
-    # push @$cmd, '-tdf' if $tdf;
 
     my $nokvm = defined($conf->{kvm}) && $conf->{kvm} == 0 ? 1 : 0;
+    my $useLocaltime = $conf->{localtime};
 
     if (my $ost = $conf->{ostype}) {
-       # other, wxp, w2k, w2k3, w2k8, wvista, win7, l24, l26
+       # other, wxp, w2k, w2k3, w2k8, wvista, win7, win8, l24, l26
 
        if ($ost =~ m/^w/) { # windows
-           push @$cmd, '-localtime' if !defined($conf->{localtime});
+           $useLocaltime = 1 if !defined($conf->{localtime});
 
-           # use rtc-td-hack when acpi is enabled
+           # use time drift fix when acpi is enabled
            if (!(defined($conf->{acpi}) && $conf->{acpi} == 0)) {
-               push @$cmd, '-rtc-td-hack';
+               $tdf = 1 if !defined($conf->{tdf});
            }
        }
 
-       if ($ost eq 'win7' || $ost eq 'w2k8' || $ost eq 'wvista') {
-           push @$cmd, '-no-kvm-pit-reinjection';
+       if ($ost eq 'win7' || $ost eq 'win8' || $ost eq 'w2k8' || 
+           $ost eq 'wvista') {
+           push @$globalFlags, 'kvm-pit.lost_tick_policy=discard';
            push @$cmd, '-no-hpet';
        }
-
-       # -tdf ?
-       # -no-acpi
-       # -no-kvm
-       # -win2k-hack ?
     }
 
+    push @$rtcFlags, 'driftfix=slew' if $tdf;
+
     if ($nokvm) {
-       push @$cmd, '-no-kvm';
+       push @$machineFlags, 'accel=tcg';
     } else {
        die "No accelerator found!\n" if !$cpuinfo->{hvm};
     }
 
-    push @$cmd, '-localtime' if $conf->{localtime};
-
-    push @$cmd, '-startdate', $conf->{startdate} if $conf->{startdate};
+    if ($conf->{startdate}) {
+       push @$rtcFlags, "base=$conf->{startdate}";
+    } elsif ($useLocaltime) {
+       push @$rtcFlags, 'base=localtime';
+    }
 
     push @$cmd, '-S' if $conf->{freeze};
 
@@ -2330,6 +2415,13 @@ sub config_to_command {
     }
 
     push @$cmd, @$devices;
+    push @$cmd, '-rtc', join(',', @$rtcFlags) 
+       if scalar(@$rtcFlags);
+    push @$cmd, '-machine', join(',', @$machineFlags) 
+       if scalar(@$machineFlags);
+    push @$cmd, '-global', join(',', @$globalFlags)
+       if scalar(@$globalFlags);
+
     return wantarray ? ($cmd, $vollist) : $cmd;
 }
 
@@ -2753,6 +2845,43 @@ sub qemu_block_resize {
 
 }
 
+sub qemu_volume_snapshot {
+    my ($vmid, $deviceid, $storecfg, $volid, $snap) = @_;
+
+    my $running = PVE::QemuServer::check_running($vmid);
+
+    return if !PVE::Storage::volume_snapshot($storecfg, $volid, $snap, $running);
+
+    return if !$running;
+
+    vm_mon_cmd($vmid, "snapshot-drive", device => $deviceid, name => $snap);
+
+}
+
+sub qemu_volume_snapshot_delete {
+    my ($vmid, $deviceid, $storecfg, $volid, $snap) = @_;
+
+    my $running = PVE::QemuServer::check_running($vmid);
+
+    return if !PVE::Storage::volume_snapshot_delete($storecfg, $volid, $snap, $running);
+
+    return if !$running;
+
+    vm_mon_cmd($vmid, "delete-drive-snapshot", device => $deviceid, name => $snap);
+}
+
+sub qga_freezefs {
+    my ($vmid) = @_;
+
+    #need to impplement call to qemu-ga
+}
+
+sub qga_unfreezefs {
+    my ($vmid) = @_;
+
+    #need to impplement call to qemu-ga
+}
+
 sub vm_start {
     my ($storecfg, $vmid, $statefile, $skiplock, $migratedfrom) = @_;
 
@@ -2763,28 +2892,26 @@ sub vm_start {
 
        die "VM $vmid already running\n" if check_running($vmid, undef, $migratedfrom);
 
-       my $migrate_uri;
+       my $defaults = load_defaults();
+
+       # set environment variable useful inside network script
+       $ENV{PVE_MIGRATED_FROM} = $migratedfrom if $migratedfrom;
+
+       my ($cmd, $vollist) = config_to_command($storecfg, $vmid, $conf, $defaults);
+
        my $migrate_port = 0;
 
        if ($statefile) {
            if ($statefile eq 'tcp') {
                $migrate_port = next_migrate_port();
-               $migrate_uri = "tcp:localhost:${migrate_port}";
+               my $migrate_uri = "tcp:localhost:${migrate_port}";
+               push @$cmd, '-incoming', $migrate_uri;
+               push @$cmd, '-S';
            } else {
-               if (-f $statefile) {
-                   $migrate_uri = "exec:cat $statefile";
-               } else {
-                   warn "state file '$statefile' does not exist - doing normal startup\n";
-               }
+               push @$cmd, '-loadstate', $statefile;
            }
        }
 
-       my $defaults = load_defaults();
-
-       # set environment variable useful inside network script
-       $ENV{PVE_MIGRATED_FROM} = $migratedfrom if $migratedfrom;
-
-       my ($cmd, $vollist) = config_to_command($storecfg, $vmid, $conf, $defaults, $migrate_uri);
        # host pci devices
         for (my $i = 0; $i < $MAX_HOSTPCI_DEVICES; $i++)  {
           my $d = parse_hostpci($conf->{"hostpci$i"});
@@ -2798,34 +2925,16 @@ sub vm_start {
 
        PVE::Storage::activate_volumes($storecfg, $vollist);
 
-       eval  { run_command($cmd, timeout => $migrate_uri ? undef : 30); };
+       eval  { run_command($cmd, timeout => $statefile ? undef : 30,
+                   umask => 0077); };
        my $err = $@;
        die "start failed: $err" if $err;
 
-       if ($statefile) {
+       print "migration listens on port $migrate_port\n" if $migrate_port;
 
-           if ($statefile eq 'tcp') {
-               print "migration listens on port $migrate_port\n";
-           } else {
-               unlink $statefile;
-               # fixme: send resume - is that necessary ?
-               eval { vm_mon_cmd($vmid, "cont"); };
-           }
-       }
-
-       # always set migrate speed (overwrite kvm default of 32m)
-       # we set a very hight default of 8192m which is basically unlimited
-       my $migrate_speed = $defaults->{migrate_speed} || 8192;
-       $migrate_speed = $conf->{migrate_speed} || $migrate_speed;
-       $migrate_speed = $migrate_speed * 1048576;
-       eval {
-           vm_mon_cmd($vmid, "migrate_set_speed", value => $migrate_speed);
-       };
-
-       my $migrate_downtime = $defaults->{migrate_downtime};
-       $migrate_downtime = $conf->{migrate_downtime} if defined($conf->{migrate_downtime});
-       if (defined($migrate_downtime)) {
-           eval { vm_mon_cmd($vmid, "migrate_set_downtime", value => $migrate_downtime); };
+       if ($statefile && $statefile ne 'tcp')  {
+           eval { vm_mon_cmd_nocheck($vmid, "cont"); };
+           warn $@ if $@;
        }
 
        if($migratedfrom) {
@@ -2835,8 +2944,8 @@ sub vm_start {
            eval { PVE::QemuServer::vm_mon_cmd_nocheck($vmid, "migrate-set-capabilities", capabilities => [$capabilities]); };
        }
 
-       vm_balloonset($vmid, $conf->{balloon}) if $conf->{balloon};
-
+       vm_mon_cmd_nocheck($vmid, "balloon", value => $conf->{balloon}*1024*1024) 
+           if $conf->{balloon};
     });
 }
 
@@ -2930,14 +3039,13 @@ sub get_vm_volumes {
     my ($conf) = @_;
 
     my $vollist = [];
-    foreach_drive($conf, sub {
-       my ($ds, $drive) = @_;
+    foreach_volid($conf, sub {
+       my ($volid, $is_cdrom) = @_;
 
-       my ($sid, $volname) = PVE::Storage::parse_volume_id($drive->{file}, 1);
-       return if !$sid;
+       return if $volid =~ m|^/|;
 
-       my $volid = $drive->{file};
-       return if !$volid || $volid =~ m|^/|;
+       my ($sid, $volname) = PVE::Storage::parse_volume_id($volid, 1);
+       return if !$sid;
 
        push @$vollist, $volid;
     });
@@ -3270,7 +3378,7 @@ sub print_pci_addr {
 sub vm_balloonset {
     my ($vmid, $value) = @_;
 
-    vm_mon_cmd($vmid, "balloon", value => $value);
+    vm_mon_cmd($vmid, "balloon", value => $value*1024*1024);
 }
 
 # vzdump restore implementaion
@@ -3422,7 +3530,7 @@ sub restore_archive {
                $net->{macaddr} = PVE::Tools::random_ether_addr() if $net->{macaddr};
                $netstr = print_net($net);
                print $outfd "$id: $netstr\n";
-           } elsif ($line =~ m/^((ide|scsi|virtio)\d+):\s*(\S+)\s*$/) {
+           } elsif ($line =~ m/^((ide|scsi|virtio|sata)\d+):\s*(\S+)\s*$/) {
                my $virtdev = $1;
                my $value = $2;
                if ($line =~ m/backup=no/) {
@@ -3460,4 +3568,452 @@ sub restore_archive {
        die "unable to commit configuration file '$conffile'\n";
 };
 
+
+# Internal snapshots
+
+# NOTE: Snapshot create/delete involves several non-atomic
+# action, and can take a long time.
+# So we try to avoid locking the file and use 'lock' variable
+# inside the config file instead.
+
+my $snapshot_copy_config = sub {
+    my ($source, $dest) = @_;
+
+    foreach my $k (keys %$source) {
+       next if $k eq 'snapshots';
+       next if $k eq 'snapstate';
+       next if $k eq 'snaptime';
+       next if $k eq 'vmstate';
+       next if $k eq 'lock';
+       next if $k eq 'digest';
+       next if $k eq 'description';
+       next if $k =~ m/^unused\d+$/;
+               
+       $dest->{$k} = $source->{$k};
+    }
+};
+
+my $snapshot_apply_config = sub {
+    my ($conf, $snap) = @_;
+
+    # copy snapshot list
+    my $newconf = {
+       snapshots => $conf->{snapshots},
+    };
+
+    # keep description and list of unused disks
+    foreach my $k (keys %$conf) {
+       next if !($k =~ m/^unused\d+$/ || $k eq 'description');
+       $newconf->{$k} = $conf->{$k};
+    }
+
+    &$snapshot_copy_config($snap, $newconf);
+
+    return $newconf;
+};
+
+sub foreach_writable_storage {
+    my ($conf, $func) = @_;
+
+    my $sidhash = {};
+
+    foreach my $ds (keys %$conf) {
+       next if !valid_drivename($ds);
+
+       my $drive = parse_drive($ds, $conf->{$ds});
+       next if !$drive;
+       next if drive_is_cdrom($drive);
+
+       my $volid = $drive->{file};
+
+       my ($sid, $volname) = PVE::Storage::parse_volume_id($volid, 1);
+       $sidhash->{$sid} = $sid if $sid;        
+    }
+
+    foreach my $sid (sort keys %$sidhash) {
+       &$func($sid);
+    }
+}
+
+my $alloc_vmstate_volid = sub {
+    my ($storecfg, $vmid, $conf, $snapname) = @_;
+    
+    # Note: we try to be smart when selecting a $target storage
+
+    my $target;
+
+    # search shared storage first
+    foreach_writable_storage($conf, sub {
+       my ($sid) = @_;
+       my $scfg = PVE::Storage::storage_config($storecfg, $sid);
+       return if !$scfg->{shared};
+
+       $target = $sid if !$target || $scfg->{path}; # prefer file based storage
+    });
+
+    if (!$target) {
+       # now search local storage
+       foreach_writable_storage($conf, sub {
+           my ($sid) = @_;
+           my $scfg = PVE::Storage::storage_config($storecfg, $sid);
+           return if $scfg->{shared};
+
+           $target = $sid if !$target || $scfg->{path}; # prefer file based storage;
+       });
+    }
+
+    $target = 'local' if !$target;
+
+    my $driver_state_size = 500; # assume 32MB is enough to safe all driver state;
+    # we abort live save after $conf->{memory}, so we need at max twice that space
+    my $size = $conf->{memory}*2 + $driver_state_size;
+
+    my $name = "vm-$vmid-state-$snapname";
+    my $scfg = PVE::Storage::storage_config($storecfg, $target);
+    $name .= ".raw" if $scfg->{path}; # add filename extension for file base storage
+    my $volid = PVE::Storage::vdisk_alloc($storecfg, $target, $vmid, 'raw', $name, $size*1024);
+
+    return $volid;
+};
+
+my $snapshot_prepare = sub {
+    my ($vmid, $snapname, $save_vmstate, $comment) = @_;
+
+    my $snap;
+
+    my $updatefn =  sub {
+
+       my $conf = load_config($vmid);
+
+       check_lock($conf);
+
+       $conf->{lock} = 'snapshot';
+
+       die "snapshot name '$snapname' already used\n" 
+           if defined($conf->{snapshots}->{$snapname}); 
+
+       my $storecfg = PVE::Storage::config();
+
+       foreach_drive($conf, sub {
+           my ($ds, $drive) = @_;
+
+           return if drive_is_cdrom($drive);
+           my $volid = $drive->{file};
+
+           my ($storeid, $volname) = PVE::Storage::parse_volume_id($volid, 1);
+           if ($storeid) {
+               my $scfg = PVE::Storage::storage_config($storecfg, $storeid);
+               die "can't snapshot volume '$volid'\n"          
+                   if !(($scfg->{path} && $volname =~ m/\.qcow2$/) ||
+                        ($scfg->{type} eq 'nexenta') || 
+                        ($scfg->{type} eq 'rbd') || 
+                        ($scfg->{type} eq 'sheepdog'));
+           } elsif ($volid =~ m|^(/.+)$| && -e $volid) {
+               die "snapshot device '$volid' is not possible\n";
+           } else {
+               die "can't snapshot volume '$volid'\n";
+           }
+       });
+
+
+       $snap = $conf->{snapshots}->{$snapname} = {};
+
+       if ($save_vmstate && check_running($vmid)) {
+           $snap->{vmstate} = &$alloc_vmstate_volid($storecfg, $vmid, $conf, $snapname);
+       }
+
+       &$snapshot_copy_config($conf, $snap);
+
+       $snap->{snapstate} = "prepare";
+       $snap->{snaptime} = time();
+       $snap->{description} = $comment if $comment;
+
+       update_config_nolock($vmid, $conf, 1);
+    };
+
+    lock_config($vmid, $updatefn);
+
+    return $snap;
+};
+
+my $snapshot_commit = sub {
+    my ($vmid, $snapname) = @_;
+
+    my $updatefn = sub {
+
+       my $conf = load_config($vmid);
+
+       die "missing snapshot lock\n" 
+           if !($conf->{lock} && $conf->{lock} eq 'snapshot'); 
+
+       my $snap = $conf->{snapshots}->{$snapname};
+
+       die "snapshot '$snapname' does not exist\n" if !defined($snap); 
+
+       die "wrong snapshot state\n" 
+           if !($snap->{snapstate} && $snap->{snapstate} eq "prepare"); 
+       
+       delete $snap->{snapstate};
+       delete $conf->{lock};
+
+       my $newconf = &$snapshot_apply_config($conf, $snap);
+
+       $newconf->{parent} = $snapname;
+
+       update_config_nolock($vmid, $newconf, 1);
+    };
+
+    lock_config($vmid, $updatefn);
+};
+
+sub snapshot_rollback {
+    my ($vmid, $snapname) = @_;
+
+    my $snap;
+
+    my $prepare = 1;
+
+    my $storecfg = PVE::Storage::config();
+    my $updatefn = sub {
+
+       my $conf = load_config($vmid);
+
+       $snap = $conf->{snapshots}->{$snapname};
+
+       die "snapshot '$snapname' does not exist\n" if !defined($snap); 
+
+       die "unable to rollback to incomplete snapshot (snapstate = $snap->{snapstate})\n" 
+           if $snap->{snapstate};
+
+       if ($prepare) {
+           check_lock($conf);
+           vm_stop($storecfg, $vmid, undef, undef, 5, undef, undef);
+       }
+
+       die "unable to rollback vm $vmid: vm is running\n"
+           if check_running($vmid);
+
+       if ($prepare) {
+           $conf->{lock} = 'rollback';
+       } else {
+           die "got wrong lock\n" if !($conf->{lock} && $conf->{lock} eq 'rollback');
+           delete $conf->{lock};
+       }
+
+       if (!$prepare) {
+           # copy snapshot config to current config
+           $conf = &$snapshot_apply_config($conf, $snap);
+           $conf->{parent} = $snapname;
+       }
+
+       update_config_nolock($vmid, $conf, 1);
+
+       if (!$prepare && $snap->{vmstate}) {
+           my $statefile = PVE::Storage::path($storecfg, $snap->{vmstate});
+           # fixme: this only forws for files currently
+           vm_start($storecfg, $vmid, $statefile);
+       }
+
+    };
+
+    lock_config($vmid, $updatefn);
+    
+    foreach_drive($snap, sub {
+       my ($ds, $drive) = @_;
+
+       return if drive_is_cdrom($drive);
+
+       my $volid = $drive->{file};
+       my $device = "drive-$ds";
+
+       PVE::Storage::volume_snapshot_rollback($storecfg, $volid, $snapname);
+    });
+
+    $prepare = 0;
+    lock_config($vmid, $updatefn);
+}
+
+my $savevm_wait = sub {
+    my ($vmid) = @_;
+
+    for(;;) {
+       my $stat = PVE::QemuServer::vm_mon_cmd_nocheck($vmid, "query-savevm");
+       if (!$stat->{status}) {
+           die "savevm not active\n";
+       } elsif ($stat->{status} eq 'active') {
+           sleep(1);
+           next;
+       } elsif ($stat->{status} eq 'completed') {
+           last;
+       } else {
+           die "query-savevm returned status '$stat->{status}'\n";
+       }
+    }
+};
+
+sub snapshot_create {
+    my ($vmid, $snapname, $save_vmstate, $freezefs, $comment) = @_;
+
+    my $snap = &$snapshot_prepare($vmid, $snapname, $save_vmstate, $comment);
+
+    $freezefs = $save_vmstate = 0 if !$snap->{vmstate}; # vm is not running
+
+    my $drivehash = {};
+
+    my $running = check_running($vmid);
+
+    eval {
+       # create internal snapshots of all drives
+
+       my $storecfg = PVE::Storage::config();
+
+       if ($running) {
+           if ($snap->{vmstate}) {
+               my $path = PVE::Storage::path($storecfg, $snap->{vmstate});     
+               vm_mon_cmd($vmid, "savevm-start", statefile => $path);
+               &$savevm_wait($vmid);
+           } else {
+               vm_mon_cmd($vmid, "savevm-start");
+           }
+       };
+
+       qga_freezefs($vmid) if $running && $freezefs;
+       foreach_drive($snap, sub {
+           my ($ds, $drive) = @_;
+
+           return if drive_is_cdrom($drive);
+
+           my $volid = $drive->{file};
+           my $device = "drive-$ds";
+
+           qemu_volume_snapshot($vmid, $device, $storecfg, $volid, $snapname);
+           $drivehash->{$ds} = 1;
+       });
+    };
+    my $err = $@;
+
+    eval { gqa_unfreezefs($vmid) if $running && $freezefs; };
+    warn $@ if $@;
+
+    eval { vm_mon_cmd($vmid, "savevm-end") if $running; };
+    warn $@ if $@;
+
+    if ($err) {
+       warn "snapshot create failed: starting cleanup\n";
+       eval { snapshot_delete($vmid, $snapname, 0, $drivehash); };
+       warn $@ if $@;
+       die $err;
+    }
+
+    &$snapshot_commit($vmid, $snapname);
+}
+
+# Note: $drivehash is only set when called from snapshot_create.
+sub snapshot_delete {
+    my ($vmid, $snapname, $force, $drivehash) = @_;
+
+    my $prepare = 1;
+
+    my $snap;
+    my $unused = [];
+
+    my $unlink_parent = sub {
+       my ($confref, $new_parent) = @_;
+
+       if ($confref->{parent} && $confref->{parent} eq $snapname) {
+           if ($new_parent) {
+               $confref->{parent} = $new_parent;
+           } else {
+               delete $confref->{parent};
+           }
+       }
+    };
+    my $updatefn =  sub {
+       my ($remove_drive) = @_;
+
+       my $conf = load_config($vmid);
+
+       check_lock($conf) if !$drivehash;
+
+       $snap = $conf->{snapshots}->{$snapname};
+
+       die "snapshot '$snapname' does not exist\n" if !defined($snap); 
+
+       # remove parent refs
+       &$unlink_parent($conf, $snap->{parent});
+       foreach my $sn (keys %{$conf->{snapshots}}) {
+           next if $sn eq $snapname;
+           &$unlink_parent($conf->{snapshots}->{$sn}, $snap->{parent});
+       }
+
+       if ($remove_drive) {
+           if ($remove_drive eq 'vmstate') {
+               delete $snap->{$remove_drive};
+           } else {
+               my $drive = parse_drive($remove_drive, $snap->{$remove_drive});
+               my $volid = $drive->{file};
+               delete $snap->{$remove_drive};
+               add_unused_volume($conf, $volid);
+           }
+       }
+
+       if ($prepare) {
+           $snap->{snapstate} = 'delete';
+       } else {
+           delete $conf->{snapshots}->{$snapname};
+           delete $conf->{lock} if $drivehash;
+           foreach my $volid (@$unused) {
+               add_unused_volume($conf, $volid);
+           }
+       }
+
+       update_config_nolock($vmid, $conf, 1);
+    };
+
+    lock_config($vmid, $updatefn);
+
+    # now remove vmstate file
+
+    my $storecfg = PVE::Storage::config();
+
+    if ($snap->{vmstate}) {
+       eval {  PVE::Storage::vdisk_free($storecfg, $snap->{vmstate}); };
+       if (my $err = $@) {
+           die $err if !$force;
+           warn $err;
+       }
+       # save changes (remove vmstate from snapshot)
+       lock_config($vmid, $updatefn, 'vmstate') if !$force;
+    };
+
+    # now remove all internal snapshots
+    foreach_drive($snap, sub {
+       my ($ds, $drive) = @_;
+
+       return if drive_is_cdrom($drive);
+
+       my $volid = $drive->{file};
+       my $device = "drive-$ds";
+
+       if (!$drivehash || $drivehash->{$ds}) {
+           eval { qemu_volume_snapshot_delete($vmid, $device, $storecfg, $volid, $snapname); };
+           if (my $err = $@) {
+               die $err if !$force;
+               warn $err;
+           }
+       }
+
+       # save changes (remove drive fron snapshot)
+       lock_config($vmid, $updatefn, $ds) if !$force;
+       push @$unused, $volid;
+    });
+
+    # now cleanup config
+    $prepare = 0;
+    lock_config($vmid, $updatefn);
+}
+
 1;