drivers/block/rbd.c

   1 /*
   2    rbd.c -- Export ceph rados objects as a Linux block device
   3
   4
   5    based on drivers/block/osdblk.c:
   6
   7    Copyright 2009 Red Hat, Inc.
   8
   9    This program is free software; you can redistribute it and/or modify
  10    it under the terms of the GNU General Public License as published by
  11    the Free Software Foundation.
  12
  13    This program is distributed in the hope that it will be useful,
  14    but WITHOUT ANY WARRANTY; without even the implied warranty of
  15    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  16    GNU General Public License for more details.
  17
  18    You should have received a copy of the GNU General Public License
  19    along with this program; see the file COPYING.  If not, write to
  20    the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
  21
  22
  23
  24    For usage instructions, please refer to:
  25
  26                  Documentation/ABI/testing/sysfs-bus-rbd
  27
  28  */
  29
  30 #include <linux/ceph/libceph.h>
  31 #include <linux/ceph/osd_client.h>
  32 #include <linux/ceph/mon_client.h>
  33 #include <linux/ceph/decode.h>
  34 #include <linux/parser.h>
  35
  36 #include <linux/kernel.h>
  37 #include <linux/device.h>
  38 #include <linux/module.h>
  39 #include <linux/fs.h>
  40 #include <linux/blkdev.h>
  41
  42 #include "rbd_types.h"
  43
  44 #define RBD_DEBUG       /* Activate rbd_assert() calls */
  45
  46 /*
  47  * The basic unit of block I/O is a sector.  It is interpreted in a
  48  * number of contexts in Linux (blk, bio, genhd), but the default is
  49  * universally 512 bytes.  These symbols are just slightly more
  50  * meaningful than the bare numbers they represent.
  51  */
  52 #define SECTOR_SHIFT    9
  53 #define SECTOR_SIZE     (1ULL << SECTOR_SHIFT)
  54
  55 #define RBD_DRV_NAME "rbd"
  56 #define RBD_DRV_NAME_LONG "rbd (rados block device)"
  57
  58 #define RBD_MINORS_PER_MAJOR    256             /* max minors per blkdev */
  59
  60 #define RBD_SNAP_DEV_NAME_PREFIX        "snap_"
  61 #define RBD_MAX_SNAP_NAME_LEN   \
  62                         (NAME_MAX - (sizeof (RBD_SNAP_DEV_NAME_PREFIX) - 1))
  63
  64 #define RBD_MAX_SNAP_COUNT      510     /* allows max snapc to fit in 4KB */
  65
  66 #define RBD_SNAP_HEAD_NAME      "-"
  67
  68 /* This allows a single page to hold an image name sent by OSD */
  69 #define RBD_IMAGE_NAME_LEN_MAX  (PAGE_SIZE - sizeof (__le32) - 1)
  70 #define RBD_IMAGE_ID_LEN_MAX    64
  71
  72 #define RBD_OBJ_PREFIX_LEN_MAX  64
  73
  74 /* Feature bits */
  75
  76 #define RBD_FEATURE_LAYERING      1
  77
  78 /* Features supported by this (client software) implementation. */
  79
  80 #define RBD_FEATURES_ALL          (0)
  81
  82 /*
  83  * An RBD device name will be "rbd#", where the "rbd" comes from
  84  * RBD_DRV_NAME above, and # is a unique integer identifier.
  85  * MAX_INT_FORMAT_WIDTH is used in ensuring DEV_NAME_LEN is big
  86  * enough to hold all possible device names.
  87  */
  88 #define DEV_NAME_LEN            32
  89 #define MAX_INT_FORMAT_WIDTH    ((5 * sizeof (int)) / 2 + 1)
  90
  91 /*
  92  * block device image metadata (in-memory version)
  93  */
  94 struct rbd_image_header {
  95         /* These four fields never change for a given rbd image */
  96         char *object_prefix;
  97         u64 features;
  98         __u8 obj_order;
  99         __u8 crypt_type;
 100         __u8 comp_type;
 101
 102         /* The remaining fields need to be updated occasionally */
 103         u64 image_size;
 104         struct ceph_snap_context *snapc;
 105         char *snap_names;
 106         u64 *snap_sizes;
 107
 108         u64 obj_version;
 109 };
 110
 111 /*
 112  * An rbd image specification.
 113  *
 114  * The tuple (pool_id, image_id, snap_id) is sufficient to uniquely
 115  * identify an image.  Each rbd_dev structure includes a pointer to
 116  * an rbd_spec structure that encapsulates this identity.
 117  *
 118  * Each of the id's in an rbd_spec has an associated name.  For a
 119  * user-mapped image, the names are supplied and the id's associated
 120  * with them are looked up.  For a layered image, a parent image is
 121  * defined by the tuple, and the names are looked up.
 122  *
 123  * An rbd_dev structure contains a parent_spec pointer which is
 124  * non-null if the image it represents is a child in a layered
 125  * image.  This pointer will refer to the rbd_spec structure used
 126  * by the parent rbd_dev for its own identity (i.e., the structure
 127  * is shared between the parent and child).
 128  *
 129  * Since these structures are populated once, during the discovery
 130  * phase of image construction, they are effectively immutable so
 131  * we make no effort to synchronize access to them.
 132  *
 133  * Note that code herein does not assume the image name is known (it
 134  * could be a null pointer).
 135  */
 136 struct rbd_spec {
 137         u64             pool_id;
 138         char            *pool_name;
 139
 140         char            *image_id;
 141         char            *image_name;
 142
 143         u64             snap_id;
 144         char            *snap_name;
 145
 146         struct kref     kref;
 147 };
 148
 149 /*
 150  * an instance of the client.  multiple devices may share an rbd client.
 151  */
 152 struct rbd_client {
 153         struct ceph_client      *client;
 154         struct kref             kref;
 155         struct list_head        node;
 156 };
 157
 158 struct rbd_img_request;
 159 typedef void (*rbd_img_callback_t)(struct rbd_img_request *);
 160
 161 #define BAD_WHICH       U32_MAX         /* Good which or bad which, which? */
 162
 163 struct rbd_obj_request;
 164 typedef void (*rbd_obj_callback_t)(struct rbd_obj_request *);
 165
 166 enum obj_request_type {
 167         OBJ_REQUEST_NODATA, OBJ_REQUEST_BIO, OBJ_REQUEST_PAGES
 168 };
 169
 170 struct rbd_obj_request {
 171         const char              *object_name;
 172         u64                     offset;         /* object start byte */
 173         u64                     length;         /* bytes from offset */
 174
 175         struct rbd_img_request  *img_request;
 176         struct list_head        links;          /* img_request->obj_requests */
 177         u32                     which;          /* posn image request list */
 178
 179         enum obj_request_type   type;
 180         union {
 181                 struct bio      *bio_list;
 182                 struct {
 183                         struct page     **pages;
 184                         u32             page_count;
 185                 };
 186         };
 187
 188         struct ceph_osd_request *osd_req;
 189
 190         u64                     xferred;        /* bytes transferred */
 191         u64                     version;
 192         int                     result;
 193         atomic_t                done;
 194
 195         rbd_obj_callback_t      callback;
 196         struct completion       completion;
 197
 198         struct kref             kref;
 199 };
 200
 201 struct rbd_img_request {
 202         struct request          *rq;
 203         struct rbd_device       *rbd_dev;
 204         u64                     offset; /* starting image byte offset */
 205         u64                     length; /* byte count from offset */
 206         bool                    write_request;  /* false for read */
 207         union {
 208                 struct ceph_snap_context *snapc;        /* for writes */
 209                 u64             snap_id;                /* for reads */
 210         };
 211         spinlock_t              completion_lock;/* protects next_completion */
 212         u32                     next_completion;
 213         rbd_img_callback_t      callback;
 214
 215         u32                     obj_request_count;
 216         struct list_head        obj_requests;   /* rbd_obj_request structs */
 217
 218         struct kref             kref;
 219 };
 220
 221 #define for_each_obj_request(ireq, oreq) \
 222         list_for_each_entry(oreq, &(ireq)->obj_requests, links)
 223 #define for_each_obj_request_from(ireq, oreq) \
 224         list_for_each_entry_from(oreq, &(ireq)->obj_requests, links)
 225 #define for_each_obj_request_safe(ireq, oreq, n) \
 226         list_for_each_entry_safe_reverse(oreq, n, &(ireq)->obj_requests, links)
 227
 228 struct rbd_snap {
 229         struct  device          dev;
 230         const char              *name;
 231         u64                     size;
 232         struct list_head        node;
 233         u64                     id;
 234         u64                     features;
 235 };
 236
 237 struct rbd_mapping {
 238         u64                     size;
 239         u64                     features;
 240         bool                    read_only;
 241 };
 242
 243 /*
 244  * a single device
 245  */
 246 struct rbd_device {
 247         int                     dev_id;         /* blkdev unique id */
 248
 249         int                     major;          /* blkdev assigned major */
 250         struct gendisk          *disk;          /* blkdev's gendisk and rq */
 251
 252         u32                     image_format;   /* Either 1 or 2 */
 253         struct rbd_client       *rbd_client;
 254
 255         char                    name[DEV_NAME_LEN]; /* blkdev name, e.g. rbd3 */
 256
 257         spinlock_t              lock;           /* queue, flags, open_count */
 258
 259         struct rbd_image_header header;
 260         unsigned long           flags;          /* possibly lock protected */
 261         struct rbd_spec         *spec;
 262
 263         char                    *header_name;
 264
 265         struct ceph_file_layout layout;
 266
 267         struct ceph_osd_event   *watch_event;
 268         struct rbd_obj_request  *watch_request;
 269
 270         struct rbd_spec         *parent_spec;
 271         u64                     parent_overlap;
 272
 273         /* protects updating the header */
 274         struct rw_semaphore     header_rwsem;
 275
 276         struct rbd_mapping      mapping;
 277
 278         struct list_head        node;
 279
 280         /* list of snapshots */
 281         struct list_head        snaps;
 282
 283         /* sysfs related */
 284         struct device           dev;
 285         unsigned long           open_count;     /* protected by lock */
 286 };
 287
 288 /*
 289  * Flag bits for rbd_dev->flags.  If atomicity is required,
 290  * rbd_dev->lock is used to protect access.
 291  *
 292  * Currently, only the "removing" flag (which is coupled with the
 293  * "open_count" field) requires atomic access.
 294  */
 295 enum rbd_dev_flags {
 296         RBD_DEV_FLAG_EXISTS,    /* mapped snapshot has not been deleted */
 297         RBD_DEV_FLAG_REMOVING,  /* this mapping is being removed */
 298 };
 299
 300 static DEFINE_MUTEX(ctl_mutex);   /* Serialize open/close/setup/teardown */
 301
 302 static LIST_HEAD(rbd_dev_list);    /* devices */
 303 static DEFINE_SPINLOCK(rbd_dev_list_lock);
 304
 305 static LIST_HEAD(rbd_client_list);              /* clients */
 306 static DEFINE_SPINLOCK(rbd_client_list_lock);
 307
 308 static int rbd_dev_snaps_update(struct rbd_device *rbd_dev);
 309 static int rbd_dev_snaps_register(struct rbd_device *rbd_dev);
 310
 311 static void rbd_dev_release(struct device *dev);
 312 static void rbd_remove_snap_dev(struct rbd_snap *snap);
 313
 314 static ssize_t rbd_add(struct bus_type *bus, const char *buf,
 315                        size_t count);
 316 static ssize_t rbd_remove(struct bus_type *bus, const char *buf,
 317                           size_t count);
 318
 319 static struct bus_attribute rbd_bus_attrs[] = {
 320         __ATTR(add, S_IWUSR, NULL, rbd_add),
 321         __ATTR(remove, S_IWUSR, NULL, rbd_remove),
 322         __ATTR_NULL
 323 };
 324
 325 static struct bus_type rbd_bus_type = {
 326         .name           = "rbd",
 327         .bus_attrs      = rbd_bus_attrs,
 328 };
 329
 330 static void rbd_root_dev_release(struct device *dev)
 331 {
 332 }
 333
 334 static struct device rbd_root_dev = {
 335         .init_name =    "rbd",
 336         .release =      rbd_root_dev_release,
 337 };
 338
 339 static __printf(2, 3)
 340 void rbd_warn(struct rbd_device *rbd_dev, const char *fmt, ...)
 341 {
 342         struct va_format vaf;
 343         va_list args;
 344
 345         va_start(args, fmt);
 346         vaf.fmt = fmt;
 347         vaf.va = &args;
 348
 349         if (!rbd_dev)
 350                 printk(KERN_WARNING "%s: %pV\n", RBD_DRV_NAME, &vaf);
 351         else if (rbd_dev->disk)
 352                 printk(KERN_WARNING "%s: %s: %pV\n",
 353                         RBD_DRV_NAME, rbd_dev->disk->disk_name, &vaf);
 354         else if (rbd_dev->spec && rbd_dev->spec->image_name)
 355                 printk(KERN_WARNING "%s: image %s: %pV\n",
 356                         RBD_DRV_NAME, rbd_dev->spec->image_name, &vaf);
 357         else if (rbd_dev->spec && rbd_dev->spec->image_id)
 358                 printk(KERN_WARNING "%s: id %s: %pV\n",
 359                         RBD_DRV_NAME, rbd_dev->spec->image_id, &vaf);
 360         else    /* punt */
 361                 printk(KERN_WARNING "%s: rbd_dev %p: %pV\n",
 362                         RBD_DRV_NAME, rbd_dev, &vaf);
 363         va_end(args);
 364 }
 365
 366 #ifdef RBD_DEBUG
 367 #define rbd_assert(expr)                                                \
 368                 if (unlikely(!(expr))) {                                \
 369                         printk(KERN_ERR "\nAssertion failure in %s() "  \
 370                                                 "at line %d:\n\n"       \
 371                                         "\trbd_assert(%s);\n\n",        \
 372                                         __func__, __LINE__, #expr);     \
 373                         BUG();                                          \
 374                 }
 375 #else /* !RBD_DEBUG */
 376 #  define rbd_assert(expr)      ((void) 0)
 377 #endif /* !RBD_DEBUG */
 378
 379 static int rbd_dev_refresh(struct rbd_device *rbd_dev, u64 *hver);
 380 static int rbd_dev_v2_refresh(struct rbd_device *rbd_dev, u64 *hver);
 381
 382 static int rbd_open(struct block_device *bdev, fmode_t mode)
 383 {
 384         struct rbd_device *rbd_dev = bdev->bd_disk->private_data;
 385         bool removing = false;
 386
 387         if ((mode & FMODE_WRITE) && rbd_dev->mapping.read_only)
 388                 return -EROFS;
 389
 390         spin_lock_irq(&rbd_dev->lock);
 391         if (test_bit(RBD_DEV_FLAG_REMOVING, &rbd_dev->flags))
 392                 removing = true;
 393         else
 394                 rbd_dev->open_count++;
 395         spin_unlock_irq(&rbd_dev->lock);
 396         if (removing)
 397                 return -ENOENT;
 398
 399         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
 400         (void) get_device(&rbd_dev->dev);
 401         set_device_ro(bdev, rbd_dev->mapping.read_only);
 402         mutex_unlock(&ctl_mutex);
 403
 404         return 0;
 405 }
 406
 407 static int rbd_release(struct gendisk *disk, fmode_t mode)
 408 {
 409         struct rbd_device *rbd_dev = disk->private_data;
 410         unsigned long open_count_before;
 411
 412         spin_lock_irq(&rbd_dev->lock);
 413         open_count_before = rbd_dev->open_count--;
 414         spin_unlock_irq(&rbd_dev->lock);
 415         rbd_assert(open_count_before > 0);
 416
 417         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
 418         put_device(&rbd_dev->dev);
 419         mutex_unlock(&ctl_mutex);
 420
 421         return 0;
 422 }
 423
 424 static const struct block_device_operations rbd_bd_ops = {
 425         .owner                  = THIS_MODULE,
 426         .open                   = rbd_open,
 427         .release                = rbd_release,
 428 };
 429
 430 /*
 431  * Initialize an rbd client instance.
 432  * We own *ceph_opts.
 433  */
 434 static struct rbd_client *rbd_client_create(struct ceph_options *ceph_opts)
 435 {
 436         struct rbd_client *rbdc;
 437         int ret = -ENOMEM;
 438
 439         dout("%s:\n", __func__);
 440         rbdc = kmalloc(sizeof(struct rbd_client), GFP_KERNEL);
 441         if (!rbdc)
 442                 goto out_opt;
 443
 444         kref_init(&rbdc->kref);
 445         INIT_LIST_HEAD(&rbdc->node);
 446
 447         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
 448
 449         rbdc->client = ceph_create_client(ceph_opts, rbdc, 0, 0);
 450         if (IS_ERR(rbdc->client))
 451                 goto out_mutex;
 452         ceph_opts = NULL; /* Now rbdc->client is responsible for ceph_opts */
 453
 454         ret = ceph_open_session(rbdc->client);
 455         if (ret < 0)
 456                 goto out_err;
 457
 458         spin_lock(&rbd_client_list_lock);
 459         list_add_tail(&rbdc->node, &rbd_client_list);
 460         spin_unlock(&rbd_client_list_lock);
 461
 462         mutex_unlock(&ctl_mutex);
 463         dout("%s: rbdc %p\n", __func__, rbdc);
 464
 465         return rbdc;
 466
 467 out_err:
 468         ceph_destroy_client(rbdc->client);
 469 out_mutex:
 470         mutex_unlock(&ctl_mutex);
 471         kfree(rbdc);
 472 out_opt:
 473         if (ceph_opts)
 474                 ceph_destroy_options(ceph_opts);
 475         dout("%s: error %d\n", __func__, ret);
 476
 477         return ERR_PTR(ret);
 478 }
 479
 480 /*
 481  * Find a ceph client with specific addr and configuration.  If
 482  * found, bump its reference count.
 483  */
 484 static struct rbd_client *rbd_client_find(struct ceph_options *ceph_opts)
 485 {
 486         struct rbd_client *client_node;
 487         bool found = false;
 488
 489         if (ceph_opts->flags & CEPH_OPT_NOSHARE)
 490                 return NULL;
 491
 492         spin_lock(&rbd_client_list_lock);
 493         list_for_each_entry(client_node, &rbd_client_list, node) {
 494                 if (!ceph_compare_options(ceph_opts, client_node->client)) {
 495                         kref_get(&client_node->kref);
 496                         found = true;
 497                         break;
 498                 }
 499         }
 500         spin_unlock(&rbd_client_list_lock);
 501
 502         return found ? client_node : NULL;
 503 }
 504
 505 /*
 506  * mount options
 507  */
 508 enum {
 509         Opt_last_int,
 510         /* int args above */
 511         Opt_last_string,
 512         /* string args above */
 513         Opt_read_only,
 514         Opt_read_write,
 515         /* Boolean args above */
 516         Opt_last_bool,
 517 };
 518
 519 static match_table_t rbd_opts_tokens = {
 520         /* int args above */
 521         /* string args above */
 522         {Opt_read_only, "read_only"},
 523         {Opt_read_only, "ro"},          /* Alternate spelling */
 524         {Opt_read_write, "read_write"},
 525         {Opt_read_write, "rw"},         /* Alternate spelling */
 526         /* Boolean args above */
 527         {-1, NULL}
 528 };
 529
 530 struct rbd_options {
 531         bool    read_only;
 532 };
 533
 534 #define RBD_READ_ONLY_DEFAULT   false
 535
 536 static int parse_rbd_opts_token(char *c, void *private)
 537 {
 538         struct rbd_options *rbd_opts = private;
 539         substring_t argstr[MAX_OPT_ARGS];
 540         int token, intval, ret;
 541
 542         token = match_token(c, rbd_opts_tokens, argstr);
 543         if (token < 0)
 544                 return -EINVAL;
 545
 546         if (token < Opt_last_int) {
 547                 ret = match_int(&argstr[0], &intval);
 548                 if (ret < 0) {
 549                         pr_err("bad mount option arg (not int) "
 550                                "at '%s'\n", c);
 551                         return ret;
 552                 }
 553                 dout("got int token %d val %d\n", token, intval);
 554         } else if (token > Opt_last_int && token < Opt_last_string) {
 555                 dout("got string token %d val %s\n", token,
 556                      argstr[0].from);
 557         } else if (token > Opt_last_string && token < Opt_last_bool) {
 558                 dout("got Boolean token %d\n", token);
 559         } else {
 560                 dout("got token %d\n", token);
 561         }
 562
 563         switch (token) {
 564         case Opt_read_only:
 565                 rbd_opts->read_only = true;
 566                 break;
 567         case Opt_read_write:
 568                 rbd_opts->read_only = false;
 569                 break;
 570         default:
 571                 rbd_assert(false);
 572                 break;
 573         }
 574         return 0;
 575 }
 576
 577 /*
 578  * Get a ceph client with specific addr and configuration, if one does
 579  * not exist create it.
 580  */
 581 static struct rbd_client *rbd_get_client(struct ceph_options *ceph_opts)
 582 {
 583         struct rbd_client *rbdc;
 584
 585         rbdc = rbd_client_find(ceph_opts);
 586         if (rbdc)       /* using an existing client */
 587                 ceph_destroy_options(ceph_opts);
 588         else
 589                 rbdc = rbd_client_create(ceph_opts);
 590
 591         return rbdc;
 592 }
 593
 594 /*
 595  * Destroy ceph client
 596  *
 597  * Caller must hold rbd_client_list_lock.
 598  */
 599 static void rbd_client_release(struct kref *kref)
 600 {
 601         struct rbd_client *rbdc = container_of(kref, struct rbd_client, kref);
 602
 603         dout("%s: rbdc %p\n", __func__, rbdc);
 604         spin_lock(&rbd_client_list_lock);
 605         list_del(&rbdc->node);
 606         spin_unlock(&rbd_client_list_lock);
 607
 608         ceph_destroy_client(rbdc->client);
 609         kfree(rbdc);
 610 }
 611
 612 /*
 613  * Drop reference to ceph client node. If it's not referenced anymore, release
 614  * it.
 615  */
 616 static void rbd_put_client(struct rbd_client *rbdc)
 617 {
 618         if (rbdc)
 619                 kref_put(&rbdc->kref, rbd_client_release);
 620 }
 621
 622 static bool rbd_image_format_valid(u32 image_format)
 623 {
 624         return image_format == 1 || image_format == 2;
 625 }
 626
 627 static bool rbd_dev_ondisk_valid(struct rbd_image_header_ondisk *ondisk)
 628 {
 629         size_t size;
 630         u32 snap_count;
 631
 632         /* The header has to start with the magic rbd header text */
 633         if (memcmp(&ondisk->text, RBD_HEADER_TEXT, sizeof (RBD_HEADER_TEXT)))
 634                 return false;
 635
 636         /* The bio layer requires at least sector-sized I/O */
 637
 638         if (ondisk->options.order < SECTOR_SHIFT)
 639                 return false;
 640
 641         /* If we use u64 in a few spots we may be able to loosen this */
 642
 643         if (ondisk->options.order > 8 * sizeof (int) - 1)
 644                 return false;
 645
 646         /*
 647          * The size of a snapshot header has to fit in a size_t, and
 648          * that limits the number of snapshots.
 649          */
 650         snap_count = le32_to_cpu(ondisk->snap_count);
 651         size = SIZE_MAX - sizeof (struct ceph_snap_context);
 652         if (snap_count > size / sizeof (__le64))
 653                 return false;
 654
 655         /*
 656          * Not only that, but the size of the entire the snapshot
 657          * header must also be representable in a size_t.
 658          */
 659         size -= snap_count * sizeof (__le64);
 660         if ((u64) size < le64_to_cpu(ondisk->snap_names_len))
 661                 return false;
 662
 663         return true;
 664 }
 665
 666 /*
 667  * Create a new header structure, translate header format from the on-disk
 668  * header.
 669  */
 670 static int rbd_header_from_disk(struct rbd_image_header *header,
 671                                  struct rbd_image_header_ondisk *ondisk)
 672 {
 673         u32 snap_count;
 674         size_t len;
 675         size_t size;
 676         u32 i;
 677
 678         memset(header, 0, sizeof (*header));
 679
 680         snap_count = le32_to_cpu(ondisk->snap_count);
 681
 682         len = strnlen(ondisk->object_prefix, sizeof (ondisk->object_prefix));
 683         header->object_prefix = kmalloc(len + 1, GFP_KERNEL);
 684         if (!header->object_prefix)
 685                 return -ENOMEM;
 686         memcpy(header->object_prefix, ondisk->object_prefix, len);
 687         header->object_prefix[len] = '\0';
 688
 689         if (snap_count) {
 690                 u64 snap_names_len = le64_to_cpu(ondisk->snap_names_len);
 691
 692                 /* Save a copy of the snapshot names */
 693
 694                 if (snap_names_len > (u64) SIZE_MAX)
 695                         return -EIO;
 696                 header->snap_names = kmalloc(snap_names_len, GFP_KERNEL);
 697                 if (!header->snap_names)
 698                         goto out_err;
 699                 /*
 700                  * Note that rbd_dev_v1_header_read() guarantees
 701                  * the ondisk buffer we're working with has
 702                  * snap_names_len bytes beyond the end of the
 703                  * snapshot id array, this memcpy() is safe.
 704                  */
 705                 memcpy(header->snap_names, &ondisk->snaps[snap_count],
 706                         snap_names_len);
 707
 708                 /* Record each snapshot's size */
 709
 710                 size = snap_count * sizeof (*header->snap_sizes);
 711                 header->snap_sizes = kmalloc(size, GFP_KERNEL);
 712                 if (!header->snap_sizes)
 713                         goto out_err;
 714                 for (i = 0; i < snap_count; i++)
 715                         header->snap_sizes[i] =
 716                                 le64_to_cpu(ondisk->snaps[i].image_size);
 717         } else {
 718                 WARN_ON(ondisk->snap_names_len);
 719                 header->snap_names = NULL;
 720                 header->snap_sizes = NULL;
 721         }
 722
 723         header->features = 0;   /* No features support in v1 images */
 724         header->obj_order = ondisk->options.order;
 725         header->crypt_type = ondisk->options.crypt_type;
 726         header->comp_type = ondisk->options.comp_type;
 727
 728         /* Allocate and fill in the snapshot context */
 729
 730         header->image_size = le64_to_cpu(ondisk->image_size);
 731         size = sizeof (struct ceph_snap_context);
 732         size += snap_count * sizeof (header->snapc->snaps[0]);
 733         header->snapc = kzalloc(size, GFP_KERNEL);
 734         if (!header->snapc)
 735                 goto out_err;
 736
 737         atomic_set(&header->snapc->nref, 1);
 738         header->snapc->seq = le64_to_cpu(ondisk->snap_seq);
 739         header->snapc->num_snaps = snap_count;
 740         for (i = 0; i < snap_count; i++)
 741                 header->snapc->snaps[i] =
 742                         le64_to_cpu(ondisk->snaps[i].id);
 743
 744         return 0;
 745
 746 out_err:
 747         kfree(header->snap_sizes);
 748         header->snap_sizes = NULL;
 749         kfree(header->snap_names);
 750         header->snap_names = NULL;
 751         kfree(header->object_prefix);
 752         header->object_prefix = NULL;
 753
 754         return -ENOMEM;
 755 }
 756
 757 static const char *rbd_snap_name(struct rbd_device *rbd_dev, u64 snap_id)
 758 {
 759         struct rbd_snap *snap;
 760
 761         if (snap_id == CEPH_NOSNAP)
 762                 return RBD_SNAP_HEAD_NAME;
 763
 764         list_for_each_entry(snap, &rbd_dev->snaps, node)
 765                 if (snap_id == snap->id)
 766                         return snap->name;
 767
 768         return NULL;
 769 }
 770
 771 static int snap_by_name(struct rbd_device *rbd_dev, const char *snap_name)
 772 {
 773
 774         struct rbd_snap *snap;
 775
 776         list_for_each_entry(snap, &rbd_dev->snaps, node) {
 777                 if (!strcmp(snap_name, snap->name)) {
 778                         rbd_dev->spec->snap_id = snap->id;
 779                         rbd_dev->mapping.size = snap->size;
 780                         rbd_dev->mapping.features = snap->features;
 781
 782                         return 0;
 783                 }
 784         }
 785
 786         return -ENOENT;
 787 }
 788
 789 static int rbd_dev_set_mapping(struct rbd_device *rbd_dev)
 790 {
 791         int ret;
 792
 793         if (!memcmp(rbd_dev->spec->snap_name, RBD_SNAP_HEAD_NAME,
 794                     sizeof (RBD_SNAP_HEAD_NAME))) {
 795                 rbd_dev->spec->snap_id = CEPH_NOSNAP;
 796                 rbd_dev->mapping.size = rbd_dev->header.image_size;
 797                 rbd_dev->mapping.features = rbd_dev->header.features;
 798                 ret = 0;
 799         } else {
 800                 ret = snap_by_name(rbd_dev, rbd_dev->spec->snap_name);
 801                 if (ret < 0)
 802                         goto done;
 803                 rbd_dev->mapping.read_only = true;
 804         }
 805         set_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags);
 806
 807 done:
 808         return ret;
 809 }
 810
 811 static void rbd_header_free(struct rbd_image_header *header)
 812 {
 813         kfree(header->object_prefix);
 814         header->object_prefix = NULL;
 815         kfree(header->snap_sizes);
 816         header->snap_sizes = NULL;
 817         kfree(header->snap_names);
 818         header->snap_names = NULL;
 819         ceph_put_snap_context(header->snapc);
 820         header->snapc = NULL;
 821 }
 822
 823 static const char *rbd_segment_name(struct rbd_device *rbd_dev, u64 offset)
 824 {
 825         char *name;
 826         u64 segment;
 827         int ret;
 828
 829         name = kmalloc(MAX_OBJ_NAME_SIZE + 1, GFP_NOIO);
 830         if (!name)
 831                 return NULL;
 832         segment = offset >> rbd_dev->header.obj_order;
 833         ret = snprintf(name, MAX_OBJ_NAME_SIZE + 1, "%s.%012llx",
 834                         rbd_dev->header.object_prefix, segment);
 835         if (ret < 0 || ret > MAX_OBJ_NAME_SIZE) {
 836                 pr_err("error formatting segment name for #%llu (%d)\n",
 837                         segment, ret);
 838                 kfree(name);
 839                 name = NULL;
 840         }
 841
 842         return name;
 843 }
 844
 845 static u64 rbd_segment_offset(struct rbd_device *rbd_dev, u64 offset)
 846 {
 847         u64 segment_size = (u64) 1 << rbd_dev->header.obj_order;
 848
 849         return offset & (segment_size - 1);
 850 }
 851
 852 static u64 rbd_segment_length(struct rbd_device *rbd_dev,
 853                                 u64 offset, u64 length)
 854 {
 855         u64 segment_size = (u64) 1 << rbd_dev->header.obj_order;
 856
 857         offset &= segment_size - 1;
 858
 859         rbd_assert(length <= U64_MAX - offset);
 860         if (offset + length > segment_size)
 861                 length = segment_size - offset;
 862
 863         return length;
 864 }
 865
 866 /*
 867  * returns the size of an object in the image
 868  */
 869 static u64 rbd_obj_bytes(struct rbd_image_header *header)
 870 {
 871         return 1 << header->obj_order;
 872 }
 873
 874 /*
 875  * bio helpers
 876  */
 877
 878 static void bio_chain_put(struct bio *chain)
 879 {
 880         struct bio *tmp;
 881
 882         while (chain) {
 883                 tmp = chain;
 884                 chain = chain->bi_next;
 885                 bio_put(tmp);
 886         }
 887 }
 888
 889 /*
 890  * zeros a bio chain, starting at specific offset
 891  */
 892 static void zero_bio_chain(struct bio *chain, int start_ofs)
 893 {
 894         struct bio_vec *bv;
 895         unsigned long flags;
 896         void *buf;
 897         int i;
 898         int pos = 0;
 899
 900         while (chain) {
 901                 bio_for_each_segment(bv, chain, i) {
 902                         if (pos + bv->bv_len > start_ofs) {
 903                                 int remainder = max(start_ofs - pos, 0);
 904                                 buf = bvec_kmap_irq(bv, &flags);
 905                                 memset(buf + remainder, 0,
 906                                        bv->bv_len - remainder);
 907                                 bvec_kunmap_irq(buf, &flags);
 908                         }
 909                         pos += bv->bv_len;
 910                 }
 911
 912                 chain = chain->bi_next;
 913         }
 914 }
 915
 916 /*
 917  * Clone a portion of a bio, starting at the given byte offset
 918  * and continuing for the number of bytes indicated.
 919  */
 920 static struct bio *bio_clone_range(struct bio *bio_src,
 921                                         unsigned int offset,
 922                                         unsigned int len,
 923                                         gfp_t gfpmask)
 924 {
 925         struct bio_vec *bv;
 926         unsigned int resid;
 927         unsigned short idx;
 928         unsigned int voff;
 929         unsigned short end_idx;
 930         unsigned short vcnt;
 931         struct bio *bio;
 932
 933         /* Handle the easy case for the caller */
 934
 935         if (!offset && len == bio_src->bi_size)
 936                 return bio_clone(bio_src, gfpmask);
 937
 938         if (WARN_ON_ONCE(!len))
 939                 return NULL;
 940         if (WARN_ON_ONCE(len > bio_src->bi_size))
 941                 return NULL;
 942         if (WARN_ON_ONCE(offset > bio_src->bi_size - len))
 943                 return NULL;
 944
 945         /* Find first affected segment... */
 946
 947         resid = offset;
 948         __bio_for_each_segment(bv, bio_src, idx, 0) {
 949                 if (resid < bv->bv_len)
 950                         break;
 951                 resid -= bv->bv_len;
 952         }
 953         voff = resid;
 954
 955         /* ...and the last affected segment */
 956
 957         resid += len;
 958         __bio_for_each_segment(bv, bio_src, end_idx, idx) {
 959                 if (resid <= bv->bv_len)
 960                         break;
 961                 resid -= bv->bv_len;
 962         }
 963         vcnt = end_idx - idx + 1;
 964
 965         /* Build the clone */
 966
 967         bio = bio_alloc(gfpmask, (unsigned int) vcnt);
 968         if (!bio)
 969                 return NULL;    /* ENOMEM */
 970
 971         bio->bi_bdev = bio_src->bi_bdev;
 972         bio->bi_sector = bio_src->bi_sector + (offset >> SECTOR_SHIFT);
 973         bio->bi_rw = bio_src->bi_rw;
 974         bio->bi_flags |= 1 << BIO_CLONED;
 975
 976         /*
 977          * Copy over our part of the bio_vec, then update the first
 978          * and last (or only) entries.
 979          */
 980         memcpy(&bio->bi_io_vec[0], &bio_src->bi_io_vec[idx],
 981                         vcnt * sizeof (struct bio_vec));
 982         bio->bi_io_vec[0].bv_offset += voff;
 983         if (vcnt > 1) {
 984                 bio->bi_io_vec[0].bv_len -= voff;
 985                 bio->bi_io_vec[vcnt - 1].bv_len = resid;
 986         } else {
 987                 bio->bi_io_vec[0].bv_len = len;
 988         }
 989
 990         bio->bi_vcnt = vcnt;
 991         bio->bi_size = len;
 992         bio->bi_idx = 0;
 993
 994         return bio;
 995 }
 996
 997 /*
 998  * Clone a portion of a bio chain, starting at the given byte offset
 999  * into the first bio in the source chain and continuing for the
1000  * number of bytes indicated.  The result is another bio chain of
1001  * exactly the given length, or a null pointer on error.
1002  *
1003  * The bio_src and offset parameters are both in-out.  On entry they
1004  * refer to the first source bio and the offset into that bio where
1005  * the start of data to be cloned is located.
1006  *
1007  * On return, bio_src is updated to refer to the bio in the source
1008  * chain that contains first un-cloned byte, and *offset will
1009  * contain the offset of that byte within that bio.
1010  */
1011 static struct bio *bio_chain_clone_range(struct bio **bio_src,
1012                                         unsigned int *offset,
1013                                         unsigned int len,
1014                                         gfp_t gfpmask)
1015 {
1016         struct bio *bi = *bio_src;
1017         unsigned int off = *offset;
1018         struct bio *chain = NULL;
1019         struct bio **end;
1020
1021         /* Build up a chain of clone bios up to the limit */
1022
1023         if (!bi || off >= bi->bi_size || !len)
1024                 return NULL;            /* Nothing to clone */
1025
1026         end = &chain;
1027         while (len) {
1028                 unsigned int bi_size;
1029                 struct bio *bio;
1030
1031                 if (!bi) {
1032                         rbd_warn(NULL, "bio_chain exhausted with %u left", len);
1033                         goto out_err;   /* EINVAL; ran out of bio's */
1034                 }
1035                 bi_size = min_t(unsigned int, bi->bi_size - off, len);
1036                 bio = bio_clone_range(bi, off, bi_size, gfpmask);
1037                 if (!bio)
1038                         goto out_err;   /* ENOMEM */
1039
1040                 *end = bio;
1041                 end = &bio->bi_next;
1042
1043                 off += bi_size;
1044                 if (off == bi->bi_size) {
1045                         bi = bi->bi_next;
1046                         off = 0;
1047                 }
1048                 len -= bi_size;
1049         }
1050         *bio_src = bi;
1051         *offset = off;
1052
1053         return chain;
1054 out_err:
1055         bio_chain_put(chain);
1056
1057         return NULL;
1058 }
1059
1060 static void rbd_obj_request_get(struct rbd_obj_request *obj_request)
1061 {
1062         dout("%s: obj %p (was %d)\n", __func__, obj_request,
1063                 atomic_read(&obj_request->kref.refcount));
1064         kref_get(&obj_request->kref);
1065 }
1066
1067 static void rbd_obj_request_destroy(struct kref *kref);
1068 static void rbd_obj_request_put(struct rbd_obj_request *obj_request)
1069 {
1070         rbd_assert(obj_request != NULL);
1071         dout("%s: obj %p (was %d)\n", __func__, obj_request,
1072                 atomic_read(&obj_request->kref.refcount));
1073         kref_put(&obj_request->kref, rbd_obj_request_destroy);
1074 }
1075
1076 static void rbd_img_request_get(struct rbd_img_request *img_request)
1077 {
1078         dout("%s: img %p (was %d)\n", __func__, img_request,
1079                 atomic_read(&img_request->kref.refcount));
1080         kref_get(&img_request->kref);
1081 }
1082
1083 static void rbd_img_request_destroy(struct kref *kref);
1084 static void rbd_img_request_put(struct rbd_img_request *img_request)
1085 {
1086         rbd_assert(img_request != NULL);
1087         dout("%s: img %p (was %d)\n", __func__, img_request,
1088                 atomic_read(&img_request->kref.refcount));
1089         kref_put(&img_request->kref, rbd_img_request_destroy);
1090 }
1091
1092 static inline void rbd_img_obj_request_add(struct rbd_img_request *img_request,
1093                                         struct rbd_obj_request *obj_request)
1094 {
1095         rbd_assert(obj_request->img_request == NULL);
1096
1097         rbd_obj_request_get(obj_request);
1098         obj_request->img_request = img_request;
1099         obj_request->which = img_request->obj_request_count;
1100         rbd_assert(obj_request->which != BAD_WHICH);
1101         img_request->obj_request_count++;
1102         list_add_tail(&obj_request->links, &img_request->obj_requests);
1103         dout("%s: img %p obj %p w=%u\n", __func__, img_request, obj_request,
1104                 obj_request->which);
1105 }
1106
1107 static inline void rbd_img_obj_request_del(struct rbd_img_request *img_request,
1108                                         struct rbd_obj_request *obj_request)
1109 {
1110         rbd_assert(obj_request->which != BAD_WHICH);
1111
1112         dout("%s: img %p obj %p w=%u\n", __func__, img_request, obj_request,
1113                 obj_request->which);
1114         list_del(&obj_request->links);
1115         rbd_assert(img_request->obj_request_count > 0);
1116         img_request->obj_request_count--;
1117         rbd_assert(obj_request->which == img_request->obj_request_count);
1118         obj_request->which = BAD_WHICH;
1119         rbd_assert(obj_request->img_request == img_request);
1120         obj_request->img_request = NULL;
1121         obj_request->callback = NULL;
1122         rbd_obj_request_put(obj_request);
1123 }
1124
1125 static bool obj_request_type_valid(enum obj_request_type type)
1126 {
1127         switch (type) {
1128         case OBJ_REQUEST_NODATA:
1129         case OBJ_REQUEST_BIO:
1130         case OBJ_REQUEST_PAGES:
1131                 return true;
1132         default:
1133                 return false;
1134         }
1135 }
1136
1137 static int rbd_obj_request_submit(struct ceph_osd_client *osdc,
1138                                 struct rbd_obj_request *obj_request)
1139 {
1140         dout("%s: osdc %p obj %p\n", __func__, osdc, obj_request);
1141
1142         return ceph_osdc_start_request(osdc, obj_request->osd_req, false);
1143 }
1144
1145 static void rbd_img_request_complete(struct rbd_img_request *img_request)
1146 {
1147         dout("%s: img %p\n", __func__, img_request);
1148         if (img_request->callback)
1149                 img_request->callback(img_request);
1150         else
1151                 rbd_img_request_put(img_request);
1152 }
1153
1154 /* Caller is responsible for rbd_obj_request_destroy(obj_request) */
1155
1156 static int rbd_obj_request_wait(struct rbd_obj_request *obj_request)
1157 {
1158         dout("%s: obj %p\n", __func__, obj_request);
1159
1160         return wait_for_completion_interruptible(&obj_request->completion);
1161 }
1162
1163 static void obj_request_done_init(struct rbd_obj_request *obj_request)
1164 {
1165         atomic_set(&obj_request->done, 0);
1166         smp_wmb();
1167 }
1168
1169 static void obj_request_done_set(struct rbd_obj_request *obj_request)
1170 {
1171         int done;
1172
1173         done = atomic_inc_return(&obj_request->done);
1174         if (done > 1) {
1175                 struct rbd_img_request *img_request = obj_request->img_request;
1176                 struct rbd_device *rbd_dev;
1177
1178                 rbd_dev = img_request ? img_request->rbd_dev : NULL;
1179                 rbd_warn(rbd_dev, "obj_request %p was already done\n",
1180                         obj_request);
1181         }
1182 }
1183
1184 static bool obj_request_done_test(struct rbd_obj_request *obj_request)
1185 {
1186         smp_mb();
1187         return atomic_read(&obj_request->done) != 0;
1188 }
1189
1190 static void
1191 rbd_img_obj_request_read_callback(struct rbd_obj_request *obj_request)
1192 {
1193         dout("%s: obj %p img %p result %d %llu/%llu\n", __func__,
1194                 obj_request, obj_request->img_request, obj_request->result,
1195                 obj_request->xferred, obj_request->length);
1196         /*
1197          * ENOENT means a hole in the image.  We zero-fill the
1198          * entire length of the request.  A short read also implies
1199          * zero-fill to the end of the request.  Either way we
1200          * update the xferred count to indicate the whole request
1201          * was satisfied.
1202          */
1203         BUG_ON(obj_request->type != OBJ_REQUEST_BIO);
1204         if (obj_request->result == -ENOENT) {
1205                 zero_bio_chain(obj_request->bio_list, 0);
1206                 obj_request->result = 0;
1207                 obj_request->xferred = obj_request->length;
1208         } else if (obj_request->xferred < obj_request->length &&
1209                         !obj_request->result) {
1210                 zero_bio_chain(obj_request->bio_list, obj_request->xferred);
1211                 obj_request->xferred = obj_request->length;
1212         }
1213         obj_request_done_set(obj_request);
1214 }
1215
1216 static void rbd_obj_request_complete(struct rbd_obj_request *obj_request)
1217 {
1218         dout("%s: obj %p cb %p\n", __func__, obj_request,
1219                 obj_request->callback);
1220         if (obj_request->callback)
1221                 obj_request->callback(obj_request);
1222         else
1223                 complete_all(&obj_request->completion);
1224 }
1225
1226 static void rbd_osd_trivial_callback(struct rbd_obj_request *obj_request)
1227 {
1228         dout("%s: obj %p\n", __func__, obj_request);
1229         obj_request_done_set(obj_request);
1230 }
1231
1232 static void rbd_osd_read_callback(struct rbd_obj_request *obj_request)
1233 {
1234         dout("%s: obj %p result %d %llu/%llu\n", __func__, obj_request,
1235                 obj_request->result, obj_request->xferred, obj_request->length);
1236         if (obj_request->img_request)
1237                 rbd_img_obj_request_read_callback(obj_request);
1238         else
1239                 obj_request_done_set(obj_request);
1240 }
1241
1242 static void rbd_osd_write_callback(struct rbd_obj_request *obj_request)
1243 {
1244         dout("%s: obj %p result %d %llu\n", __func__, obj_request,
1245                 obj_request->result, obj_request->length);
1246         /*
1247          * There is no such thing as a successful short write.
1248          * Our xferred value is the number of bytes transferred
1249          * back.  Set it to our originally-requested length.
1250          */
1251         obj_request->xferred = obj_request->length;
1252         obj_request_done_set(obj_request);
1253 }
1254
1255 /*
1256  * For a simple stat call there's nothing to do.  We'll do more if
1257  * this is part of a write sequence for a layered image.
1258  */
1259 static void rbd_osd_stat_callback(struct rbd_obj_request *obj_request)
1260 {
1261         dout("%s: obj %p\n", __func__, obj_request);
1262         obj_request_done_set(obj_request);
1263 }
1264
1265 static void rbd_osd_req_callback(struct ceph_osd_request *osd_req,
1266                                 struct ceph_msg *msg)
1267 {
1268         struct rbd_obj_request *obj_request = osd_req->r_priv;
1269         u16 opcode;
1270
1271         dout("%s: osd_req %p msg %p\n", __func__, osd_req, msg);
1272         rbd_assert(osd_req == obj_request->osd_req);
1273         rbd_assert(!!obj_request->img_request ^
1274                                 (obj_request->which == BAD_WHICH));
1275
1276         if (osd_req->r_result < 0)
1277                 obj_request->result = osd_req->r_result;
1278         obj_request->version = le64_to_cpu(osd_req->r_reassert_version.version);
1279
1280         WARN_ON(osd_req->r_num_ops != 1);       /* For now */
1281
1282         /*
1283          * We support a 64-bit length, but ultimately it has to be
1284          * passed to blk_end_request(), which takes an unsigned int.
1285          */
1286         obj_request->xferred = osd_req->r_reply_op_len[0];
1287         rbd_assert(obj_request->xferred < (u64) UINT_MAX);
1288         opcode = osd_req->r_ops[0].op;
1289         switch (opcode) {
1290         case CEPH_OSD_OP_READ:
1291                 rbd_osd_read_callback(obj_request);
1292                 break;
1293         case CEPH_OSD_OP_WRITE:
1294                 rbd_osd_write_callback(obj_request);
1295                 break;
1296         case CEPH_OSD_OP_STAT:
1297                 rbd_osd_stat_callback(obj_request);
1298                 break;
1299         case CEPH_OSD_OP_CALL:
1300         case CEPH_OSD_OP_NOTIFY_ACK:
1301         case CEPH_OSD_OP_WATCH:
1302                 rbd_osd_trivial_callback(obj_request);
1303                 break;
1304         default:
1305                 rbd_warn(NULL, "%s: unsupported op %hu\n",
1306                         obj_request->object_name, (unsigned short) opcode);
1307                 break;
1308         }
1309
1310         if (obj_request_done_test(obj_request))
1311                 rbd_obj_request_complete(obj_request);
1312 }
1313
1314 static void rbd_osd_req_format(struct rbd_obj_request *obj_request,
1315                                         bool write_request)
1316 {
1317         struct rbd_img_request *img_request = obj_request->img_request;
1318         struct ceph_osd_request *osd_req = obj_request->osd_req;
1319         struct ceph_snap_context *snapc = NULL;
1320         u64 snap_id = CEPH_NOSNAP;
1321         struct timespec *mtime = NULL;
1322         struct timespec now;
1323
1324         rbd_assert(osd_req != NULL);
1325
1326         if (write_request) {
1327                 now = CURRENT_TIME;
1328                 mtime = &now;
1329                 if (img_request)
1330                         snapc = img_request->snapc;
1331         } else if (img_request) {
1332                 snap_id = img_request->snap_id;
1333         }
1334         ceph_osdc_build_request(osd_req, obj_request->offset,
1335                         snapc, snap_id, mtime);
1336 }
1337
1338 static struct ceph_osd_request *rbd_osd_req_create(
1339                                         struct rbd_device *rbd_dev,
1340                                         bool write_request,
1341                                         struct rbd_obj_request *obj_request)
1342 {
1343         struct rbd_img_request *img_request = obj_request->img_request;
1344         struct ceph_snap_context *snapc = NULL;
1345         struct ceph_osd_client *osdc;
1346         struct ceph_osd_request *osd_req;
1347
1348         if (img_request) {
1349                 rbd_assert(img_request->write_request == write_request);
1350                 if (img_request->write_request)
1351                         snapc = img_request->snapc;
1352         }
1353
1354         /* Allocate and initialize the request, for the single op */
1355
1356         osdc = &rbd_dev->rbd_client->client->osdc;
1357         osd_req = ceph_osdc_alloc_request(osdc, snapc, 1, false, GFP_ATOMIC);
1358         if (!osd_req)
1359                 return NULL;    /* ENOMEM */
1360
1361         if (write_request)
1362                 osd_req->r_flags = CEPH_OSD_FLAG_WRITE | CEPH_OSD_FLAG_ONDISK;
1363         else
1364                 osd_req->r_flags = CEPH_OSD_FLAG_READ;
1365
1366         osd_req->r_callback = rbd_osd_req_callback;
1367         osd_req->r_priv = obj_request;
1368
1369         osd_req->r_oid_len = strlen(obj_request->object_name);
1370         rbd_assert(osd_req->r_oid_len < sizeof (osd_req->r_oid));
1371         memcpy(osd_req->r_oid, obj_request->object_name, osd_req->r_oid_len);
1372
1373         osd_req->r_file_layout = rbd_dev->layout;       /* struct */
1374
1375         return osd_req;
1376 }
1377
1378 static void rbd_osd_req_destroy(struct ceph_osd_request *osd_req)
1379 {
1380         ceph_osdc_put_request(osd_req);
1381 }
1382
1383 /* object_name is assumed to be a non-null pointer and NUL-terminated */
1384
1385 static struct rbd_obj_request *rbd_obj_request_create(const char *object_name,
1386                                                 u64 offset, u64 length,
1387                                                 enum obj_request_type type)
1388 {
1389         struct rbd_obj_request *obj_request;
1390         size_t size;
1391         char *name;
1392
1393         rbd_assert(obj_request_type_valid(type));
1394
1395         size = strlen(object_name) + 1;
1396         obj_request = kzalloc(sizeof (*obj_request) + size, GFP_KERNEL);
1397         if (!obj_request)
1398                 return NULL;
1399
1400         name = (char *)(obj_request + 1);
1401         obj_request->object_name = memcpy(name, object_name, size);
1402         obj_request->offset = offset;
1403         obj_request->length = length;
1404         obj_request->which = BAD_WHICH;
1405         obj_request->type = type;
1406         INIT_LIST_HEAD(&obj_request->links);
1407         obj_request_done_init(obj_request);
1408         init_completion(&obj_request->completion);
1409         kref_init(&obj_request->kref);
1410
1411         dout("%s: \"%s\" %llu/%llu %d -> obj %p\n", __func__, object_name,
1412                 offset, length, (int)type, obj_request);
1413
1414         return obj_request;
1415 }
1416
1417 static void rbd_obj_request_destroy(struct kref *kref)
1418 {
1419         struct rbd_obj_request *obj_request;
1420
1421         obj_request = container_of(kref, struct rbd_obj_request, kref);
1422
1423         dout("%s: obj %p\n", __func__, obj_request);
1424
1425         rbd_assert(obj_request->img_request == NULL);
1426         rbd_assert(obj_request->which == BAD_WHICH);
1427
1428         if (obj_request->osd_req)
1429                 rbd_osd_req_destroy(obj_request->osd_req);
1430
1431         rbd_assert(obj_request_type_valid(obj_request->type));
1432         switch (obj_request->type) {
1433         case OBJ_REQUEST_NODATA:
1434                 break;          /* Nothing to do */
1435         case OBJ_REQUEST_BIO:
1436                 if (obj_request->bio_list)
1437                         bio_chain_put(obj_request->bio_list);
1438                 break;
1439         case OBJ_REQUEST_PAGES:
1440                 if (obj_request->pages)
1441                         ceph_release_page_vector(obj_request->pages,
1442                                                 obj_request->page_count);
1443                 break;
1444         }
1445
1446         kfree(obj_request);
1447 }
1448
1449 /*
1450  * Caller is responsible for filling in the list of object requests
1451  * that comprises the image request, and the Linux request pointer
1452  * (if there is one).
1453  */
1454 static struct rbd_img_request *rbd_img_request_create(
1455                                         struct rbd_device *rbd_dev,
1456                                         u64 offset, u64 length,
1457                                         bool write_request)
1458 {
1459         struct rbd_img_request *img_request;
1460         struct ceph_snap_context *snapc = NULL;
1461
1462         img_request = kmalloc(sizeof (*img_request), GFP_ATOMIC);
1463         if (!img_request)
1464                 return NULL;
1465
1466         if (write_request) {
1467                 down_read(&rbd_dev->header_rwsem);
1468                 snapc = ceph_get_snap_context(rbd_dev->header.snapc);
1469                 up_read(&rbd_dev->header_rwsem);
1470                 if (WARN_ON(!snapc)) {
1471                         kfree(img_request);
1472                         return NULL;    /* Shouldn't happen */
1473                 }
1474         }
1475
1476         img_request->rq = NULL;
1477         img_request->rbd_dev = rbd_dev;
1478         img_request->offset = offset;
1479         img_request->length = length;
1480         img_request->write_request = write_request;
1481         if (write_request)
1482                 img_request->snapc = snapc;
1483         else
1484                 img_request->snap_id = rbd_dev->spec->snap_id;
1485         spin_lock_init(&img_request->completion_lock);
1486         img_request->next_completion = 0;
1487         img_request->callback = NULL;
1488         img_request->obj_request_count = 0;
1489         INIT_LIST_HEAD(&img_request->obj_requests);
1490         kref_init(&img_request->kref);
1491
1492         rbd_img_request_get(img_request);       /* Avoid a warning */
1493         rbd_img_request_put(img_request);       /* TEMPORARY */
1494
1495         dout("%s: rbd_dev %p %s %llu/%llu -> img %p\n", __func__, rbd_dev,
1496                 write_request ? "write" : "read", offset, length,
1497                 img_request);
1498
1499         return img_request;
1500 }
1501
1502 static void rbd_img_request_destroy(struct kref *kref)
1503 {
1504         struct rbd_img_request *img_request;
1505         struct rbd_obj_request *obj_request;
1506         struct rbd_obj_request *next_obj_request;
1507
1508         img_request = container_of(kref, struct rbd_img_request, kref);
1509
1510         dout("%s: img %p\n", __func__, img_request);
1511
1512         for_each_obj_request_safe(img_request, obj_request, next_obj_request)
1513                 rbd_img_obj_request_del(img_request, obj_request);
1514         rbd_assert(img_request->obj_request_count == 0);
1515
1516         if (img_request->write_request)
1517                 ceph_put_snap_context(img_request->snapc);
1518
1519         kfree(img_request);
1520 }
1521
1522 static void rbd_img_obj_callback(struct rbd_obj_request *obj_request)
1523 {
1524         struct rbd_img_request *img_request;
1525         u32 which = obj_request->which;
1526         bool more = true;
1527
1528         img_request = obj_request->img_request;
1529
1530         dout("%s: img %p obj %p\n", __func__, img_request, obj_request);
1531         rbd_assert(img_request != NULL);
1532         rbd_assert(img_request->rq != NULL);
1533         rbd_assert(img_request->obj_request_count > 0);
1534         rbd_assert(which != BAD_WHICH);
1535         rbd_assert(which < img_request->obj_request_count);
1536         rbd_assert(which >= img_request->next_completion);
1537
1538         spin_lock_irq(&img_request->completion_lock);
1539         if (which != img_request->next_completion)
1540                 goto out;
1541
1542         for_each_obj_request_from(img_request, obj_request) {
1543                 unsigned int xferred;
1544                 int result;
1545
1546                 rbd_assert(more);
1547                 rbd_assert(which < img_request->obj_request_count);
1548
1549                 if (!obj_request_done_test(obj_request))
1550                         break;
1551
1552                 rbd_assert(obj_request->xferred <= (u64) UINT_MAX);
1553                 xferred = (unsigned int) obj_request->xferred;
1554                 result = (int) obj_request->result;
1555                 if (result)
1556                         rbd_warn(NULL, "obj_request %s result %d xferred %u\n",
1557                                 img_request->write_request ? "write" : "read",
1558                                 result, xferred);
1559
1560                 more = blk_end_request(img_request->rq, result, xferred);
1561                 which++;
1562         }
1563
1564         rbd_assert(more ^ (which == img_request->obj_request_count));
1565         img_request->next_completion = which;
1566 out:
1567         spin_unlock_irq(&img_request->completion_lock);
1568
1569         if (!more)
1570                 rbd_img_request_complete(img_request);
1571 }
1572
1573 static int rbd_img_request_fill_bio(struct rbd_img_request *img_request,
1574                                         struct bio *bio_list)
1575 {
1576         struct rbd_device *rbd_dev = img_request->rbd_dev;
1577         struct rbd_obj_request *obj_request = NULL;
1578         struct rbd_obj_request *next_obj_request;
1579         bool write_request = img_request->write_request;
1580         unsigned int bio_offset;
1581         u64 image_offset;
1582         u64 resid;
1583         u16 opcode;
1584
1585         dout("%s: img %p bio %p\n", __func__, img_request, bio_list);
1586
1587         opcode = write_request ? CEPH_OSD_OP_WRITE : CEPH_OSD_OP_READ;
1588         bio_offset = 0;
1589         image_offset = img_request->offset;
1590         rbd_assert(image_offset == bio_list->bi_sector << SECTOR_SHIFT);
1591         resid = img_request->length;
1592         rbd_assert(resid > 0);
1593         while (resid) {
1594                 struct ceph_osd_request *osd_req;
1595                 struct ceph_osd_data *osd_data;
1596                 const char *object_name;
1597                 unsigned int clone_size;
1598                 u64 offset;
1599                 u64 length;
1600
1601                 object_name = rbd_segment_name(rbd_dev, image_offset);
1602                 if (!object_name)
1603                         goto out_unwind;
1604                 offset = rbd_segment_offset(rbd_dev, image_offset);
1605                 length = rbd_segment_length(rbd_dev, image_offset, resid);
1606                 obj_request = rbd_obj_request_create(object_name,
1607                                                 offset, length,
1608                                                 OBJ_REQUEST_BIO);
1609                 kfree(object_name);     /* object request has its own copy */
1610                 if (!obj_request)
1611                         goto out_unwind;
1612
1613                 rbd_assert(length <= (u64) UINT_MAX);
1614                 clone_size = (unsigned int) length;
1615                 obj_request->bio_list = bio_chain_clone_range(&bio_list,
1616                                                 &bio_offset, clone_size,
1617                                                 GFP_ATOMIC);
1618                 if (!obj_request->bio_list)
1619                         goto out_partial;
1620
1621                 osd_req = rbd_osd_req_create(rbd_dev, write_request,
1622                                                 obj_request);
1623                 if (!osd_req)
1624                         goto out_partial;
1625                 obj_request->osd_req = osd_req;
1626                 obj_request->callback = rbd_img_obj_callback;
1627
1628                 osd_data = write_request ? &osd_req->r_data_out
1629                                          : &osd_req->r_data_in;
1630                 osd_req_op_extent_init(osd_req, 0, opcode, offset, length,
1631                                                 0, 0);
1632                 ceph_osd_data_bio_init(osd_data, obj_request->bio_list,
1633                                         obj_request->length);
1634                 osd_req_op_extent_osd_data(osd_req, 0, osd_data);
1635                 rbd_osd_req_format(obj_request, write_request);
1636
1637                 rbd_img_obj_request_add(img_request, obj_request);
1638
1639                 image_offset += length;
1640                 resid -= length;
1641         }
1642
1643         return 0;
1644
1645 out_partial:
1646         rbd_obj_request_put(obj_request);
1647 out_unwind:
1648         for_each_obj_request_safe(img_request, obj_request, next_obj_request)
1649                 rbd_obj_request_put(obj_request);
1650
1651         return -ENOMEM;
1652 }
1653
1654 static int rbd_img_request_submit(struct rbd_img_request *img_request)
1655 {
1656         struct rbd_device *rbd_dev = img_request->rbd_dev;
1657         struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
1658         struct rbd_obj_request *obj_request;
1659         struct rbd_obj_request *next_obj_request;
1660
1661         dout("%s: img %p\n", __func__, img_request);
1662         for_each_obj_request_safe(img_request, obj_request, next_obj_request) {
1663                 int ret;
1664
1665                 ret = rbd_obj_request_submit(osdc, obj_request);
1666                 if (ret)
1667                         return ret;
1668                 /*
1669                  * The image request has its own reference to each
1670                  * of its object requests, so we can safely drop the
1671                  * initial one here.
1672                  */
1673                 rbd_obj_request_put(obj_request);
1674         }
1675
1676         return 0;
1677 }
1678
1679 static int rbd_obj_notify_ack(struct rbd_device *rbd_dev,
1680                                    u64 ver, u64 notify_id)
1681 {
1682         struct rbd_obj_request *obj_request;
1683         struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
1684         int ret;
1685
1686         obj_request = rbd_obj_request_create(rbd_dev->header_name, 0, 0,
1687                                                         OBJ_REQUEST_NODATA);
1688         if (!obj_request)
1689                 return -ENOMEM;
1690
1691         ret = -ENOMEM;
1692         obj_request->osd_req = rbd_osd_req_create(rbd_dev, false, obj_request);
1693         if (!obj_request->osd_req)
1694                 goto out;
1695         obj_request->callback = rbd_obj_request_put;
1696
1697         osd_req_op_watch_init(obj_request->osd_req, 0, CEPH_OSD_OP_NOTIFY_ACK,
1698                                         notify_id, ver, 0);
1699         rbd_osd_req_format(obj_request, false);
1700
1701         ret = rbd_obj_request_submit(osdc, obj_request);
1702 out:
1703         if (ret)
1704                 rbd_obj_request_put(obj_request);
1705
1706         return ret;
1707 }
1708
1709 static void rbd_watch_cb(u64 ver, u64 notify_id, u8 opcode, void *data)
1710 {
1711         struct rbd_device *rbd_dev = (struct rbd_device *)data;
1712         u64 hver;
1713         int rc;
1714
1715         if (!rbd_dev)
1716                 return;
1717
1718         dout("%s: \"%s\" notify_id %llu opcode %u\n", __func__,
1719                 rbd_dev->header_name, (unsigned long long) notify_id,
1720                 (unsigned int) opcode);
1721         rc = rbd_dev_refresh(rbd_dev, &hver);
1722         if (rc)
1723                 rbd_warn(rbd_dev, "got notification but failed to "
1724                            " update snaps: %d\n", rc);
1725
1726         rbd_obj_notify_ack(rbd_dev, hver, notify_id);
1727 }
1728
1729 /*
1730  * Request sync osd watch/unwatch.  The value of "start" determines
1731  * whether a watch request is being initiated or torn down.
1732  */
1733 static int rbd_dev_header_watch_sync(struct rbd_device *rbd_dev, int start)
1734 {
1735         struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
1736         struct rbd_obj_request *obj_request;
1737         int ret;
1738
1739         rbd_assert(start ^ !!rbd_dev->watch_event);
1740         rbd_assert(start ^ !!rbd_dev->watch_request);
1741
1742         if (start) {
1743                 ret = ceph_osdc_create_event(osdc, rbd_watch_cb, rbd_dev,
1744                                                 &rbd_dev->watch_event);
1745                 if (ret < 0)
1746                         return ret;
1747                 rbd_assert(rbd_dev->watch_event != NULL);
1748         }
1749
1750         ret = -ENOMEM;
1751         obj_request = rbd_obj_request_create(rbd_dev->header_name, 0, 0,
1752                                                         OBJ_REQUEST_NODATA);
1753         if (!obj_request)
1754                 goto out_cancel;
1755
1756         obj_request->osd_req = rbd_osd_req_create(rbd_dev, true, obj_request);
1757         if (!obj_request->osd_req)
1758                 goto out_cancel;
1759
1760         if (start)
1761                 ceph_osdc_set_request_linger(osdc, obj_request->osd_req);
1762         else
1763                 ceph_osdc_unregister_linger_request(osdc,
1764                                         rbd_dev->watch_request->osd_req);
1765
1766         osd_req_op_watch_init(obj_request->osd_req, 0, CEPH_OSD_OP_WATCH,
1767                                 rbd_dev->watch_event->cookie,
1768                                 rbd_dev->header.obj_version, start);
1769         rbd_osd_req_format(obj_request, true);
1770
1771         ret = rbd_obj_request_submit(osdc, obj_request);
1772         if (ret)
1773                 goto out_cancel;
1774         ret = rbd_obj_request_wait(obj_request);
1775         if (ret)
1776                 goto out_cancel;
1777         ret = obj_request->result;
1778         if (ret)
1779                 goto out_cancel;
1780
1781         /*
1782          * A watch request is set to linger, so the underlying osd
1783          * request won't go away until we unregister it.  We retain
1784          * a pointer to the object request during that time (in
1785          * rbd_dev->watch_request), so we'll keep a reference to
1786          * it.  We'll drop that reference (below) after we've
1787          * unregistered it.
1788          */
1789         if (start) {
1790                 rbd_dev->watch_request = obj_request;
1791
1792                 return 0;
1793         }
1794
1795         /* We have successfully torn down the watch request */
1796
1797         rbd_obj_request_put(rbd_dev->watch_request);
1798         rbd_dev->watch_request = NULL;
1799 out_cancel:
1800         /* Cancel the event if we're tearing down, or on error */
1801         ceph_osdc_cancel_event(rbd_dev->watch_event);
1802         rbd_dev->watch_event = NULL;
1803         if (obj_request)
1804                 rbd_obj_request_put(obj_request);
1805
1806         return ret;
1807 }
1808
1809 /*
1810  * Synchronous osd object method call
1811  */
1812 static int rbd_obj_method_sync(struct rbd_device *rbd_dev,
1813                              const char *object_name,
1814                              const char *class_name,
1815                              const char *method_name,
1816                              const char *outbound,
1817                              size_t outbound_size,
1818                              char *inbound,
1819                              size_t inbound_size,
1820                              u64 *version)
1821 {
1822         struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
1823         struct rbd_obj_request *obj_request;
1824         struct ceph_osd_data *osd_data;
1825         struct page **pages;
1826         u32 page_count;
1827         int ret;
1828
1829         /*
1830          * Method calls are ultimately read operations.  The result
1831          * should placed into the inbound buffer provided.  They
1832          * also supply outbound data--parameters for the object
1833          * method.  Currently if this is present it will be a
1834          * snapshot id.
1835          */
1836         page_count = (u32) calc_pages_for(0, inbound_size);
1837         pages = ceph_alloc_page_vector(page_count, GFP_KERNEL);
1838         if (IS_ERR(pages))
1839                 return PTR_ERR(pages);
1840
1841         ret = -ENOMEM;
1842         obj_request = rbd_obj_request_create(object_name, 0, inbound_size,
1843                                                         OBJ_REQUEST_PAGES);
1844         if (!obj_request)
1845                 goto out;
1846
1847         obj_request->pages = pages;
1848         obj_request->page_count = page_count;
1849
1850         obj_request->osd_req = rbd_osd_req_create(rbd_dev, false, obj_request);
1851         if (!obj_request->osd_req)
1852                 goto out;
1853
1854         osd_data = &obj_request->osd_req->r_data_in;
1855         osd_req_op_cls_init(obj_request->osd_req, 0, CEPH_OSD_OP_CALL,
1856                                         class_name, method_name,
1857                                         outbound, outbound_size);
1858         ceph_osd_data_pages_init(osd_data, obj_request->pages, inbound_size,
1859                                         0, false, false);
1860         osd_req_op_cls_response_data(obj_request->osd_req, 0, osd_data);
1861         rbd_osd_req_format(obj_request, false);
1862
1863         ret = rbd_obj_request_submit(osdc, obj_request);
1864         if (ret)
1865                 goto out;
1866         ret = rbd_obj_request_wait(obj_request);
1867         if (ret)
1868                 goto out;
1869
1870         ret = obj_request->result;
1871         if (ret < 0)
1872                 goto out;
1873         ret = 0;
1874         ceph_copy_from_page_vector(pages, inbound, 0, obj_request->xferred);
1875         if (version)
1876                 *version = obj_request->version;
1877 out:
1878         if (obj_request)
1879                 rbd_obj_request_put(obj_request);
1880         else
1881                 ceph_release_page_vector(pages, page_count);
1882
1883         return ret;
1884 }
1885
1886 static void rbd_request_fn(struct request_queue *q)
1887                 __releases(q->queue_lock) __acquires(q->queue_lock)
1888 {
1889         struct rbd_device *rbd_dev = q->queuedata;
1890         bool read_only = rbd_dev->mapping.read_only;
1891         struct request *rq;
1892         int result;
1893
1894         while ((rq = blk_fetch_request(q))) {
1895                 bool write_request = rq_data_dir(rq) == WRITE;
1896                 struct rbd_img_request *img_request;
1897                 u64 offset;
1898                 u64 length;
1899
1900                 /* Ignore any non-FS requests that filter through. */
1901
1902                 if (rq->cmd_type != REQ_TYPE_FS) {
1903                         dout("%s: non-fs request type %d\n", __func__,
1904                                 (int) rq->cmd_type);
1905                         __blk_end_request_all(rq, 0);
1906                         continue;
1907                 }
1908
1909                 /* Ignore/skip any zero-length requests */
1910
1911                 offset = (u64) blk_rq_pos(rq) << SECTOR_SHIFT;
1912                 length = (u64) blk_rq_bytes(rq);
1913
1914                 if (!length) {
1915                         dout("%s: zero-length request\n", __func__);
1916                         __blk_end_request_all(rq, 0);
1917                         continue;
1918                 }
1919
1920                 spin_unlock_irq(q->queue_lock);
1921
1922                 /* Disallow writes to a read-only device */
1923
1924                 if (write_request) {
1925                         result = -EROFS;
1926                         if (read_only)
1927                                 goto end_request;
1928                         rbd_assert(rbd_dev->spec->snap_id == CEPH_NOSNAP);
1929                 }
1930
1931                 /*
1932                  * Quit early if the mapped snapshot no longer
1933                  * exists.  It's still possible the snapshot will
1934                  * have disappeared by the time our request arrives
1935                  * at the osd, but there's no sense in sending it if
1936                  * we already know.
1937                  */
1938                 if (!test_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags)) {
1939                         dout("request for non-existent snapshot");
1940                         rbd_assert(rbd_dev->spec->snap_id != CEPH_NOSNAP);
1941                         result = -ENXIO;
1942                         goto end_request;
1943                 }
1944
1945                 result = -EINVAL;
1946                 if (WARN_ON(offset && length > U64_MAX - offset + 1))
1947                         goto end_request;       /* Shouldn't happen */
1948
1949                 result = -ENOMEM;
1950                 img_request = rbd_img_request_create(rbd_dev, offset, length,
1951                                                         write_request);
1952                 if (!img_request)
1953                         goto end_request;
1954
1955                 img_request->rq = rq;
1956
1957                 result = rbd_img_request_fill_bio(img_request, rq->bio);
1958                 if (!result)
1959                         result = rbd_img_request_submit(img_request);
1960                 if (result)
1961                         rbd_img_request_put(img_request);
1962 end_request:
1963                 spin_lock_irq(q->queue_lock);
1964                 if (result < 0) {
1965                         rbd_warn(rbd_dev, "obj_request %s result %d\n",
1966                                 write_request ? "write" : "read", result);
1967                         __blk_end_request_all(rq, result);
1968                 }
1969         }
1970 }
1971
1972 /*
1973  * a queue callback. Makes sure that we don't create a bio that spans across
1974  * multiple osd objects. One exception would be with a single page bios,
1975  * which we handle later at bio_chain_clone_range()
1976  */
1977 static int rbd_merge_bvec(struct request_queue *q, struct bvec_merge_data *bmd,
1978                           struct bio_vec *bvec)
1979 {
1980         struct rbd_device *rbd_dev = q->queuedata;
1981         sector_t sector_offset;
1982         sector_t sectors_per_obj;
1983         sector_t obj_sector_offset;
1984         int ret;
1985
1986         /*
1987          * Find how far into its rbd object the partition-relative
1988          * bio start sector is to offset relative to the enclosing
1989          * device.
1990          */
1991         sector_offset = get_start_sect(bmd->bi_bdev) + bmd->bi_sector;
1992         sectors_per_obj = 1 << (rbd_dev->header.obj_order - SECTOR_SHIFT);
1993         obj_sector_offset = sector_offset & (sectors_per_obj - 1);
1994
1995         /*
1996          * Compute the number of bytes from that offset to the end
1997          * of the object.  Account for what's already used by the bio.
1998          */
1999         ret = (int) (sectors_per_obj - obj_sector_offset) << SECTOR_SHIFT;
2000         if (ret > bmd->bi_size)
2001                 ret -= bmd->bi_size;
2002         else
2003                 ret = 0;
2004
2005         /*
2006          * Don't send back more than was asked for.  And if the bio
2007          * was empty, let the whole thing through because:  "Note
2008          * that a block device *must* allow a single page to be
2009          * added to an empty bio."
2010          */
2011         rbd_assert(bvec->bv_len <= PAGE_SIZE);
2012         if (ret > (int) bvec->bv_len || !bmd->bi_size)
2013                 ret = (int) bvec->bv_len;
2014
2015         return ret;
2016 }
2017
2018 static void rbd_free_disk(struct rbd_device *rbd_dev)
2019 {
2020         struct gendisk *disk = rbd_dev->disk;
2021
2022         if (!disk)
2023                 return;
2024
2025         if (disk->flags & GENHD_FL_UP)
2026                 del_gendisk(disk);
2027         if (disk->queue)
2028                 blk_cleanup_queue(disk->queue);
2029         put_disk(disk);
2030 }
2031
2032 static int rbd_obj_read_sync(struct rbd_device *rbd_dev,
2033                                 const char *object_name,
2034                                 u64 offset, u64 length,
2035                                 char *buf, u64 *version)
2036
2037 {
2038         struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
2039         struct rbd_obj_request *obj_request;
2040         struct ceph_osd_data *osd_data;
2041         struct page **pages = NULL;
2042         u32 page_count;
2043         size_t size;
2044         int ret;
2045
2046         page_count = (u32) calc_pages_for(offset, length);
2047         pages = ceph_alloc_page_vector(page_count, GFP_KERNEL);
2048         if (IS_ERR(pages))
2049                 ret = PTR_ERR(pages);
2050
2051         ret = -ENOMEM;
2052         obj_request = rbd_obj_request_create(object_name, offset, length,
2053                                                         OBJ_REQUEST_PAGES);
2054         if (!obj_request)
2055                 goto out;
2056
2057         obj_request->pages = pages;
2058         obj_request->page_count = page_count;
2059
2060         obj_request->osd_req = rbd_osd_req_create(rbd_dev, false, obj_request);
2061         if (!obj_request->osd_req)
2062                 goto out;
2063
2064         osd_data = &obj_request->osd_req->r_data_in;
2065         osd_req_op_extent_init(obj_request->osd_req, 0, CEPH_OSD_OP_READ,
2066                                         offset, length, 0, 0);
2067         ceph_osd_data_pages_init(osd_data, obj_request->pages,
2068                                         obj_request->length,
2069                                         obj_request->offset & ~PAGE_MASK,
2070                                         false, false);
2071         osd_req_op_extent_osd_data(obj_request->osd_req, 0, osd_data);
2072         rbd_osd_req_format(obj_request, false);
2073
2074         ret = rbd_obj_request_submit(osdc, obj_request);
2075         if (ret)
2076                 goto out;
2077         ret = rbd_obj_request_wait(obj_request);
2078         if (ret)
2079                 goto out;
2080
2081         ret = obj_request->result;
2082         if (ret < 0)
2083                 goto out;
2084
2085         rbd_assert(obj_request->xferred <= (u64) SIZE_MAX);
2086         size = (size_t) obj_request->xferred;
2087         ceph_copy_from_page_vector(pages, buf, 0, size);
2088         rbd_assert(size <= (size_t) INT_MAX);
2089         ret = (int) size;
2090         if (version)
2091                 *version = obj_request->version;
2092 out:
2093         if (obj_request)
2094                 rbd_obj_request_put(obj_request);
2095         else
2096                 ceph_release_page_vector(pages, page_count);
2097
2098         return ret;
2099 }
2100
2101 /*
2102  * Read the complete header for the given rbd device.
2103  *
2104  * Returns a pointer to a dynamically-allocated buffer containing
2105  * the complete and validated header.  Caller can pass the address
2106  * of a variable that will be filled in with the version of the
2107  * header object at the time it was read.
2108  *
2109  * Returns a pointer-coded errno if a failure occurs.
2110  */
2111 static struct rbd_image_header_ondisk *
2112 rbd_dev_v1_header_read(struct rbd_device *rbd_dev, u64 *version)
2113 {
2114         struct rbd_image_header_ondisk *ondisk = NULL;
2115         u32 snap_count = 0;
2116         u64 names_size = 0;
2117         u32 want_count;
2118         int ret;
2119
2120         /*
2121          * The complete header will include an array of its 64-bit
2122          * snapshot ids, followed by the names of those snapshots as
2123          * a contiguous block of NUL-terminated strings.  Note that
2124          * the number of snapshots could change by the time we read
2125          * it in, in which case we re-read it.
2126          */
2127         do {
2128                 size_t size;
2129
2130                 kfree(ondisk);
2131
2132                 size = sizeof (*ondisk);
2133                 size += snap_count * sizeof (struct rbd_image_snap_ondisk);
2134                 size += names_size;
2135                 ondisk = kmalloc(size, GFP_KERNEL);
2136                 if (!ondisk)
2137                         return ERR_PTR(-ENOMEM);
2138
2139                 ret = rbd_obj_read_sync(rbd_dev, rbd_dev->header_name,
2140                                        0, size,
2141                                        (char *) ondisk, version);
2142                 if (ret < 0)
2143                         goto out_err;
2144                 if (WARN_ON((size_t) ret < size)) {
2145                         ret = -ENXIO;
2146                         rbd_warn(rbd_dev, "short header read (want %zd got %d)",
2147                                 size, ret);
2148                         goto out_err;
2149                 }
2150                 if (!rbd_dev_ondisk_valid(ondisk)) {
2151                         ret = -ENXIO;
2152                         rbd_warn(rbd_dev, "invalid header");
2153                         goto out_err;
2154                 }
2155
2156                 names_size = le64_to_cpu(ondisk->snap_names_len);
2157                 want_count = snap_count;
2158                 snap_count = le32_to_cpu(ondisk->snap_count);
2159         } while (snap_count != want_count);
2160
2161         return ondisk;
2162
2163 out_err:
2164         kfree(ondisk);
2165
2166         return ERR_PTR(ret);
2167 }
2168
2169 /*
2170  * reload the ondisk the header
2171  */
2172 static int rbd_read_header(struct rbd_device *rbd_dev,
2173                            struct rbd_image_header *header)
2174 {
2175         struct rbd_image_header_ondisk *ondisk;
2176         u64 ver = 0;
2177         int ret;
2178
2179         ondisk = rbd_dev_v1_header_read(rbd_dev, &ver);
2180         if (IS_ERR(ondisk))
2181                 return PTR_ERR(ondisk);
2182         ret = rbd_header_from_disk(header, ondisk);
2183         if (ret >= 0)
2184                 header->obj_version = ver;
2185         kfree(ondisk);
2186
2187         return ret;
2188 }
2189
2190 static void rbd_remove_all_snaps(struct rbd_device *rbd_dev)
2191 {
2192         struct rbd_snap *snap;
2193         struct rbd_snap *next;
2194
2195         list_for_each_entry_safe(snap, next, &rbd_dev->snaps, node)
2196                 rbd_remove_snap_dev(snap);
2197 }
2198
2199 static void rbd_update_mapping_size(struct rbd_device *rbd_dev)
2200 {
2201         sector_t size;
2202
2203         if (rbd_dev->spec->snap_id != CEPH_NOSNAP)
2204                 return;
2205
2206         size = (sector_t) rbd_dev->header.image_size / SECTOR_SIZE;
2207         dout("setting size to %llu sectors", (unsigned long long) size);
2208         rbd_dev->mapping.size = (u64) size;
2209         set_capacity(rbd_dev->disk, size);
2210 }
2211
2212 /*
2213  * only read the first part of the ondisk header, without the snaps info
2214  */
2215 static int rbd_dev_v1_refresh(struct rbd_device *rbd_dev, u64 *hver)
2216 {
2217         int ret;
2218         struct rbd_image_header h;
2219
2220         ret = rbd_read_header(rbd_dev, &h);
2221         if (ret < 0)
2222                 return ret;
2223
2224         down_write(&rbd_dev->header_rwsem);
2225
2226         /* Update image size, and check for resize of mapped image */
2227         rbd_dev->header.image_size = h.image_size;
2228         rbd_update_mapping_size(rbd_dev);
2229
2230         /* rbd_dev->header.object_prefix shouldn't change */
2231         kfree(rbd_dev->header.snap_sizes);
2232         kfree(rbd_dev->header.snap_names);
2233         /* osd requests may still refer to snapc */
2234         ceph_put_snap_context(rbd_dev->header.snapc);
2235
2236         if (hver)
2237                 *hver = h.obj_version;
2238         rbd_dev->header.obj_version = h.obj_version;
2239         rbd_dev->header.image_size = h.image_size;
2240         rbd_dev->header.snapc = h.snapc;
2241         rbd_dev->header.snap_names = h.snap_names;
2242         rbd_dev->header.snap_sizes = h.snap_sizes;
2243         /* Free the extra copy of the object prefix */
2244         WARN_ON(strcmp(rbd_dev->header.object_prefix, h.object_prefix));
2245         kfree(h.object_prefix);
2246
2247         ret = rbd_dev_snaps_update(rbd_dev);
2248         if (!ret)
2249                 ret = rbd_dev_snaps_register(rbd_dev);
2250
2251         up_write(&rbd_dev->header_rwsem);
2252
2253         return ret;
2254 }
2255
2256 static int rbd_dev_refresh(struct rbd_device *rbd_dev, u64 *hver)
2257 {
2258         int ret;
2259
2260         rbd_assert(rbd_image_format_valid(rbd_dev->image_format));
2261         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
2262         if (rbd_dev->image_format == 1)
2263                 ret = rbd_dev_v1_refresh(rbd_dev, hver);
2264         else
2265                 ret = rbd_dev_v2_refresh(rbd_dev, hver);
2266         mutex_unlock(&ctl_mutex);
2267
2268         return ret;
2269 }
2270
2271 static int rbd_init_disk(struct rbd_device *rbd_dev)
2272 {
2273         struct gendisk *disk;
2274         struct request_queue *q;
2275         u64 segment_size;
2276
2277         /* create gendisk info */
2278         disk = alloc_disk(RBD_MINORS_PER_MAJOR);
2279         if (!disk)
2280                 return -ENOMEM;
2281
2282         snprintf(disk->disk_name, sizeof(disk->disk_name), RBD_DRV_NAME "%d",
2283                  rbd_dev->dev_id);
2284         disk->major = rbd_dev->major;
2285         disk->first_minor = 0;
2286         disk->fops = &rbd_bd_ops;
2287         disk->private_data = rbd_dev;
2288
2289         q = blk_init_queue(rbd_request_fn, &rbd_dev->lock);
2290         if (!q)
2291                 goto out_disk;
2292
2293         /* We use the default size, but let's be explicit about it. */
2294         blk_queue_physical_block_size(q, SECTOR_SIZE);
2295
2296         /* set io sizes to object size */
2297         segment_size = rbd_obj_bytes(&rbd_dev->header);
2298         blk_queue_max_hw_sectors(q, segment_size / SECTOR_SIZE);
2299         blk_queue_max_segment_size(q, segment_size);
2300         blk_queue_io_min(q, segment_size);
2301         blk_queue_io_opt(q, segment_size);
2302
2303         blk_queue_merge_bvec(q, rbd_merge_bvec);
2304         disk->queue = q;
2305
2306         q->queuedata = rbd_dev;
2307
2308         rbd_dev->disk = disk;
2309
2310         set_capacity(rbd_dev->disk, rbd_dev->mapping.size / SECTOR_SIZE);
2311
2312         return 0;
2313 out_disk:
2314         put_disk(disk);
2315
2316         return -ENOMEM;
2317 }
2318
2319 /*
2320   sysfs
2321 */
2322
2323 static struct rbd_device *dev_to_rbd_dev(struct device *dev)
2324 {
2325         return container_of(dev, struct rbd_device, dev);
2326 }
2327
2328 static ssize_t rbd_size_show(struct device *dev,
2329                              struct device_attribute *attr, char *buf)
2330 {
2331         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2332         sector_t size;
2333
2334         down_read(&rbd_dev->header_rwsem);
2335         size = get_capacity(rbd_dev->disk);
2336         up_read(&rbd_dev->header_rwsem);
2337
2338         return sprintf(buf, "%llu\n", (unsigned long long) size * SECTOR_SIZE);
2339 }
2340
2341 /*
2342  * Note this shows the features for whatever's mapped, which is not
2343  * necessarily the base image.
2344  */
2345 static ssize_t rbd_features_show(struct device *dev,
2346                              struct device_attribute *attr, char *buf)
2347 {
2348         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2349
2350         return sprintf(buf, "0x%016llx\n",
2351                         (unsigned long long) rbd_dev->mapping.features);
2352 }
2353
2354 static ssize_t rbd_major_show(struct device *dev,
2355                               struct device_attribute *attr, char *buf)
2356 {
2357         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2358
2359         return sprintf(buf, "%d\n", rbd_dev->major);
2360 }
2361
2362 static ssize_t rbd_client_id_show(struct device *dev,
2363                                   struct device_attribute *attr, char *buf)
2364 {
2365         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2366
2367         return sprintf(buf, "client%lld\n",
2368                         ceph_client_id(rbd_dev->rbd_client->client));
2369 }
2370
2371 static ssize_t rbd_pool_show(struct device *dev,
2372                              struct device_attribute *attr, char *buf)
2373 {
2374         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2375
2376         return sprintf(buf, "%s\n", rbd_dev->spec->pool_name);
2377 }
2378
2379 static ssize_t rbd_pool_id_show(struct device *dev,
2380                              struct device_attribute *attr, char *buf)
2381 {
2382         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2383
2384         return sprintf(buf, "%llu\n",
2385                 (unsigned long long) rbd_dev->spec->pool_id);
2386 }
2387
2388 static ssize_t rbd_name_show(struct device *dev,
2389                              struct device_attribute *attr, char *buf)
2390 {
2391         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2392
2393         if (rbd_dev->spec->image_name)
2394                 return sprintf(buf, "%s\n", rbd_dev->spec->image_name);
2395
2396         return sprintf(buf, "(unknown)\n");
2397 }
2398
2399 static ssize_t rbd_image_id_show(struct device *dev,
2400                              struct device_attribute *attr, char *buf)
2401 {
2402         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2403
2404         return sprintf(buf, "%s\n", rbd_dev->spec->image_id);
2405 }
2406
2407 /*
2408  * Shows the name of the currently-mapped snapshot (or
2409  * RBD_SNAP_HEAD_NAME for the base image).
2410  */
2411 static ssize_t rbd_snap_show(struct device *dev,
2412                              struct device_attribute *attr,
2413                              char *buf)
2414 {
2415         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2416
2417         return sprintf(buf, "%s\n", rbd_dev->spec->snap_name);
2418 }
2419
2420 /*
2421  * For an rbd v2 image, shows the pool id, image id, and snapshot id
2422  * for the parent image.  If there is no parent, simply shows
2423  * "(no parent image)".
2424  */
2425 static ssize_t rbd_parent_show(struct device *dev,
2426                              struct device_attribute *attr,
2427                              char *buf)
2428 {
2429         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2430         struct rbd_spec *spec = rbd_dev->parent_spec;
2431         int count;
2432         char *bufp = buf;
2433
2434         if (!spec)
2435                 return sprintf(buf, "(no parent image)\n");
2436
2437         count = sprintf(bufp, "pool_id %llu\npool_name %s\n",
2438                         (unsigned long long) spec->pool_id, spec->pool_name);
2439         if (count < 0)
2440                 return count;
2441         bufp += count;
2442
2443         count = sprintf(bufp, "image_id %s\nimage_name %s\n", spec->image_id,
2444                         spec->image_name ? spec->image_name : "(unknown)");
2445         if (count < 0)
2446                 return count;
2447         bufp += count;
2448
2449         count = sprintf(bufp, "snap_id %llu\nsnap_name %s\n",
2450                         (unsigned long long) spec->snap_id, spec->snap_name);
2451         if (count < 0)
2452                 return count;
2453         bufp += count;
2454
2455         count = sprintf(bufp, "overlap %llu\n", rbd_dev->parent_overlap);
2456         if (count < 0)
2457                 return count;
2458         bufp += count;
2459
2460         return (ssize_t) (bufp - buf);
2461 }
2462
2463 static ssize_t rbd_image_refresh(struct device *dev,
2464                                  struct device_attribute *attr,
2465                                  const char *buf,
2466                                  size_t size)
2467 {
2468         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2469         int ret;
2470
2471         ret = rbd_dev_refresh(rbd_dev, NULL);
2472
2473         return ret < 0 ? ret : size;
2474 }
2475
2476 static DEVICE_ATTR(size, S_IRUGO, rbd_size_show, NULL);
2477 static DEVICE_ATTR(features, S_IRUGO, rbd_features_show, NULL);
2478 static DEVICE_ATTR(major, S_IRUGO, rbd_major_show, NULL);
2479 static DEVICE_ATTR(client_id, S_IRUGO, rbd_client_id_show, NULL);
2480 static DEVICE_ATTR(pool, S_IRUGO, rbd_pool_show, NULL);
2481 static DEVICE_ATTR(pool_id, S_IRUGO, rbd_pool_id_show, NULL);
2482 static DEVICE_ATTR(name, S_IRUGO, rbd_name_show, NULL);
2483 static DEVICE_ATTR(image_id, S_IRUGO, rbd_image_id_show, NULL);
2484 static DEVICE_ATTR(refresh, S_IWUSR, NULL, rbd_image_refresh);
2485 static DEVICE_ATTR(current_snap, S_IRUGO, rbd_snap_show, NULL);
2486 static DEVICE_ATTR(parent, S_IRUGO, rbd_parent_show, NULL);
2487
2488 static struct attribute *rbd_attrs[] = {
2489         &dev_attr_size.attr,
2490         &dev_attr_features.attr,
2491         &dev_attr_major.attr,
2492         &dev_attr_client_id.attr,
2493         &dev_attr_pool.attr,
2494         &dev_attr_pool_id.attr,
2495         &dev_attr_name.attr,
2496         &dev_attr_image_id.attr,
2497         &dev_attr_current_snap.attr,
2498         &dev_attr_parent.attr,
2499         &dev_attr_refresh.attr,
2500         NULL
2501 };
2502
2503 static struct attribute_group rbd_attr_group = {
2504         .attrs = rbd_attrs,
2505 };
2506
2507 static const struct attribute_group *rbd_attr_groups[] = {
2508         &rbd_attr_group,
2509         NULL
2510 };
2511
2512 static void rbd_sysfs_dev_release(struct device *dev)
2513 {
2514 }
2515
2516 static struct device_type rbd_device_type = {
2517         .name           = "rbd",
2518         .groups         = rbd_attr_groups,
2519         .release        = rbd_sysfs_dev_release,
2520 };
2521
2522
2523 /*
2524   sysfs - snapshots
2525 */
2526
2527 static ssize_t rbd_snap_size_show(struct device *dev,
2528                                   struct device_attribute *attr,
2529                                   char *buf)
2530 {
2531         struct rbd_snap *snap = container_of(dev, struct rbd_snap, dev);
2532
2533         return sprintf(buf, "%llu\n", (unsigned long long)snap->size);
2534 }
2535
2536 static ssize_t rbd_snap_id_show(struct device *dev,
2537                                 struct device_attribute *attr,
2538                                 char *buf)
2539 {
2540         struct rbd_snap *snap = container_of(dev, struct rbd_snap, dev);
2541
2542         return sprintf(buf, "%llu\n", (unsigned long long)snap->id);
2543 }
2544
2545 static ssize_t rbd_snap_features_show(struct device *dev,
2546                                 struct device_attribute *attr,
2547                                 char *buf)
2548 {
2549         struct rbd_snap *snap = container_of(dev, struct rbd_snap, dev);
2550
2551         return sprintf(buf, "0x%016llx\n",
2552                         (unsigned long long) snap->features);
2553 }
2554
2555 static DEVICE_ATTR(snap_size, S_IRUGO, rbd_snap_size_show, NULL);
2556 static DEVICE_ATTR(snap_id, S_IRUGO, rbd_snap_id_show, NULL);
2557 static DEVICE_ATTR(snap_features, S_IRUGO, rbd_snap_features_show, NULL);
2558
2559 static struct attribute *rbd_snap_attrs[] = {
2560         &dev_attr_snap_size.attr,
2561         &dev_attr_snap_id.attr,
2562         &dev_attr_snap_features.attr,
2563         NULL,
2564 };
2565
2566 static struct attribute_group rbd_snap_attr_group = {
2567         .attrs = rbd_snap_attrs,
2568 };
2569
2570 static void rbd_snap_dev_release(struct device *dev)
2571 {
2572         struct rbd_snap *snap = container_of(dev, struct rbd_snap, dev);
2573         kfree(snap->name);
2574         kfree(snap);
2575 }
2576
2577 static const struct attribute_group *rbd_snap_attr_groups[] = {
2578         &rbd_snap_attr_group,
2579         NULL
2580 };
2581
2582 static struct device_type rbd_snap_device_type = {
2583         .groups         = rbd_snap_attr_groups,
2584         .release        = rbd_snap_dev_release,
2585 };
2586
2587 static struct rbd_spec *rbd_spec_get(struct rbd_spec *spec)
2588 {
2589         kref_get(&spec->kref);
2590
2591         return spec;
2592 }
2593
2594 static void rbd_spec_free(struct kref *kref);
2595 static void rbd_spec_put(struct rbd_spec *spec)
2596 {
2597         if (spec)
2598                 kref_put(&spec->kref, rbd_spec_free);
2599 }
2600
2601 static struct rbd_spec *rbd_spec_alloc(void)
2602 {
2603         struct rbd_spec *spec;
2604
2605         spec = kzalloc(sizeof (*spec), GFP_KERNEL);
2606         if (!spec)
2607                 return NULL;
2608         kref_init(&spec->kref);
2609
2610         rbd_spec_put(rbd_spec_get(spec));       /* TEMPORARY */
2611
2612         return spec;
2613 }
2614
2615 static void rbd_spec_free(struct kref *kref)
2616 {
2617         struct rbd_spec *spec = container_of(kref, struct rbd_spec, kref);
2618
2619         kfree(spec->pool_name);
2620         kfree(spec->image_id);
2621         kfree(spec->image_name);
2622         kfree(spec->snap_name);
2623         kfree(spec);
2624 }
2625
2626 static struct rbd_device *rbd_dev_create(struct rbd_client *rbdc,
2627                                 struct rbd_spec *spec)
2628 {
2629         struct rbd_device *rbd_dev;
2630
2631         rbd_dev = kzalloc(sizeof (*rbd_dev), GFP_KERNEL);
2632         if (!rbd_dev)
2633                 return NULL;
2634
2635         spin_lock_init(&rbd_dev->lock);
2636         rbd_dev->flags = 0;
2637         INIT_LIST_HEAD(&rbd_dev->node);
2638         INIT_LIST_HEAD(&rbd_dev->snaps);
2639         init_rwsem(&rbd_dev->header_rwsem);
2640
2641         rbd_dev->spec = spec;
2642         rbd_dev->rbd_client = rbdc;
2643
2644         /* Initialize the layout used for all rbd requests */
2645
2646         rbd_dev->layout.fl_stripe_unit = cpu_to_le32(1 << RBD_MAX_OBJ_ORDER);
2647         rbd_dev->layout.fl_stripe_count = cpu_to_le32(1);
2648         rbd_dev->layout.fl_object_size = cpu_to_le32(1 << RBD_MAX_OBJ_ORDER);
2649         rbd_dev->layout.fl_pg_pool = cpu_to_le32((u32) spec->pool_id);
2650
2651         return rbd_dev;
2652 }
2653
2654 static void rbd_dev_destroy(struct rbd_device *rbd_dev)
2655 {
2656         rbd_spec_put(rbd_dev->parent_spec);
2657         kfree(rbd_dev->header_name);
2658         rbd_put_client(rbd_dev->rbd_client);
2659         rbd_spec_put(rbd_dev->spec);
2660         kfree(rbd_dev);
2661 }
2662
2663 static bool rbd_snap_registered(struct rbd_snap *snap)
2664 {
2665         bool ret = snap->dev.type == &rbd_snap_device_type;
2666         bool reg = device_is_registered(&snap->dev);
2667
2668         rbd_assert(!ret ^ reg);
2669
2670         return ret;
2671 }
2672
2673 static void rbd_remove_snap_dev(struct rbd_snap *snap)
2674 {
2675         list_del(&snap->node);
2676         if (device_is_registered(&snap->dev))
2677                 device_unregister(&snap->dev);
2678 }
2679
2680 static int rbd_register_snap_dev(struct rbd_snap *snap,
2681                                   struct device *parent)
2682 {
2683         struct device *dev = &snap->dev;
2684         int ret;
2685
2686         dev->type = &rbd_snap_device_type;
2687         dev->parent = parent;
2688         dev->release = rbd_snap_dev_release;
2689         dev_set_name(dev, "%s%s", RBD_SNAP_DEV_NAME_PREFIX, snap->name);
2690         dout("%s: registering device for snapshot %s\n", __func__, snap->name);
2691
2692         ret = device_register(dev);
2693
2694         return ret;
2695 }
2696
2697 static struct rbd_snap *__rbd_add_snap_dev(struct rbd_device *rbd_dev,
2698                                                 const char *snap_name,
2699                                                 u64 snap_id, u64 snap_size,
2700                                                 u64 snap_features)
2701 {
2702         struct rbd_snap *snap;
2703         int ret;
2704
2705         snap = kzalloc(sizeof (*snap), GFP_KERNEL);
2706         if (!snap)
2707                 return ERR_PTR(-ENOMEM);
2708
2709         ret = -ENOMEM;
2710         snap->name = kstrdup(snap_name, GFP_KERNEL);
2711         if (!snap->name)
2712                 goto err;
2713
2714         snap->id = snap_id;
2715         snap->size = snap_size;
2716         snap->features = snap_features;
2717
2718         return snap;
2719
2720 err:
2721         kfree(snap->name);
2722         kfree(snap);
2723
2724         return ERR_PTR(ret);
2725 }
2726
2727 static char *rbd_dev_v1_snap_info(struct rbd_device *rbd_dev, u32 which,
2728                 u64 *snap_size, u64 *snap_features)
2729 {
2730         char *snap_name;
2731
2732         rbd_assert(which < rbd_dev->header.snapc->num_snaps);
2733
2734         *snap_size = rbd_dev->header.snap_sizes[which];
2735         *snap_features = 0;     /* No features for v1 */
2736
2737         /* Skip over names until we find the one we are looking for */
2738
2739         snap_name = rbd_dev->header.snap_names;
2740         while (which--)
2741                 snap_name += strlen(snap_name) + 1;
2742
2743         return snap_name;
2744 }
2745
2746 /*
2747  * Get the size and object order for an image snapshot, or if
2748  * snap_id is CEPH_NOSNAP, gets this information for the base
2749  * image.
2750  */
2751 static int _rbd_dev_v2_snap_size(struct rbd_device *rbd_dev, u64 snap_id,
2752                                 u8 *order, u64 *snap_size)
2753 {
2754         __le64 snapid = cpu_to_le64(snap_id);
2755         int ret;
2756         struct {
2757                 u8 order;
2758                 __le64 size;
2759         } __attribute__ ((packed)) size_buf = { 0 };
2760
2761         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
2762                                 "rbd", "get_size",
2763                                 (char *) &snapid, sizeof (snapid),
2764                                 (char *) &size_buf, sizeof (size_buf), NULL);
2765         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
2766         if (ret < 0)
2767                 return ret;
2768
2769         *order = size_buf.order;
2770         *snap_size = le64_to_cpu(size_buf.size);
2771
2772         dout("  snap_id 0x%016llx order = %u, snap_size = %llu\n",
2773                 (unsigned long long) snap_id, (unsigned int) *order,
2774                 (unsigned long long) *snap_size);
2775
2776         return 0;
2777 }
2778
2779 static int rbd_dev_v2_image_size(struct rbd_device *rbd_dev)
2780 {
2781         return _rbd_dev_v2_snap_size(rbd_dev, CEPH_NOSNAP,
2782                                         &rbd_dev->header.obj_order,
2783                                         &rbd_dev->header.image_size);
2784 }
2785
2786 static int rbd_dev_v2_object_prefix(struct rbd_device *rbd_dev)
2787 {
2788         void *reply_buf;
2789         int ret;
2790         void *p;
2791
2792         reply_buf = kzalloc(RBD_OBJ_PREFIX_LEN_MAX, GFP_KERNEL);
2793         if (!reply_buf)
2794                 return -ENOMEM;
2795
2796         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
2797                                 "rbd", "get_object_prefix",
2798                                 NULL, 0,
2799                                 reply_buf, RBD_OBJ_PREFIX_LEN_MAX, NULL);
2800         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
2801         if (ret < 0)
2802                 goto out;
2803
2804         p = reply_buf;
2805         rbd_dev->header.object_prefix = ceph_extract_encoded_string(&p,
2806                                                 p + RBD_OBJ_PREFIX_LEN_MAX,
2807                                                 NULL, GFP_NOIO);
2808
2809         if (IS_ERR(rbd_dev->header.object_prefix)) {
2810                 ret = PTR_ERR(rbd_dev->header.object_prefix);
2811                 rbd_dev->header.object_prefix = NULL;
2812         } else {
2813                 dout("  object_prefix = %s\n", rbd_dev->header.object_prefix);
2814         }
2815
2816 out:
2817         kfree(reply_buf);
2818
2819         return ret;
2820 }
2821
2822 static int _rbd_dev_v2_snap_features(struct rbd_device *rbd_dev, u64 snap_id,
2823                 u64 *snap_features)
2824 {
2825         __le64 snapid = cpu_to_le64(snap_id);
2826         struct {
2827                 __le64 features;
2828                 __le64 incompat;
2829         } features_buf = { 0 };
2830         u64 incompat;
2831         int ret;
2832
2833         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
2834                                 "rbd", "get_features",
2835                                 (char *) &snapid, sizeof (snapid),
2836                                 (char *) &features_buf, sizeof (features_buf),
2837                                 NULL);
2838         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
2839         if (ret < 0)
2840                 return ret;
2841
2842         incompat = le64_to_cpu(features_buf.incompat);
2843         if (incompat & ~RBD_FEATURES_ALL)
2844                 return -ENXIO;
2845
2846         *snap_features = le64_to_cpu(features_buf.features);
2847
2848         dout("  snap_id 0x%016llx features = 0x%016llx incompat = 0x%016llx\n",
2849                 (unsigned long long) snap_id,
2850                 (unsigned long long) *snap_features,
2851                 (unsigned long long) le64_to_cpu(features_buf.incompat));
2852
2853         return 0;
2854 }
2855
2856 static int rbd_dev_v2_features(struct rbd_device *rbd_dev)
2857 {
2858         return _rbd_dev_v2_snap_features(rbd_dev, CEPH_NOSNAP,
2859                                                 &rbd_dev->header.features);
2860 }
2861
2862 static int rbd_dev_v2_parent_info(struct rbd_device *rbd_dev)
2863 {
2864         struct rbd_spec *parent_spec;
2865         size_t size;
2866         void *reply_buf = NULL;
2867         __le64 snapid;
2868         void *p;
2869         void *end;
2870         char *image_id;
2871         u64 overlap;
2872         int ret;
2873
2874         parent_spec = rbd_spec_alloc();
2875         if (!parent_spec)
2876                 return -ENOMEM;
2877
2878         size = sizeof (__le64) +                                /* pool_id */
2879                 sizeof (__le32) + RBD_IMAGE_ID_LEN_MAX +        /* image_id */
2880                 sizeof (__le64) +                               /* snap_id */
2881                 sizeof (__le64);                                /* overlap */
2882         reply_buf = kmalloc(size, GFP_KERNEL);
2883         if (!reply_buf) {
2884                 ret = -ENOMEM;
2885                 goto out_err;
2886         }
2887
2888         snapid = cpu_to_le64(CEPH_NOSNAP);
2889         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
2890                                 "rbd", "get_parent",
2891                                 (char *) &snapid, sizeof (snapid),
2892                                 (char *) reply_buf, size, NULL);
2893         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
2894         if (ret < 0)
2895                 goto out_err;
2896
2897         ret = -ERANGE;
2898         p = reply_buf;
2899         end = (char *) reply_buf + size;
2900         ceph_decode_64_safe(&p, end, parent_spec->pool_id, out_err);
2901         if (parent_spec->pool_id == CEPH_NOPOOL)
2902                 goto out;       /* No parent?  No problem. */
2903
2904         /* The ceph file layout needs to fit pool id in 32 bits */
2905
2906         ret = -EIO;
2907         if (WARN_ON(parent_spec->pool_id > (u64) U32_MAX))
2908                 goto out;
2909
2910         image_id = ceph_extract_encoded_string(&p, end, NULL, GFP_KERNEL);
2911         if (IS_ERR(image_id)) {
2912                 ret = PTR_ERR(image_id);
2913                 goto out_err;
2914         }
2915         parent_spec->image_id = image_id;
2916         ceph_decode_64_safe(&p, end, parent_spec->snap_id, out_err);
2917         ceph_decode_64_safe(&p, end, overlap, out_err);
2918
2919         rbd_dev->parent_overlap = overlap;
2920         rbd_dev->parent_spec = parent_spec;
2921         parent_spec = NULL;     /* rbd_dev now owns this */
2922 out:
2923         ret = 0;
2924 out_err:
2925         kfree(reply_buf);
2926         rbd_spec_put(parent_spec);
2927
2928         return ret;
2929 }
2930
2931 static char *rbd_dev_image_name(struct rbd_device *rbd_dev)
2932 {
2933         size_t image_id_size;
2934         char *image_id;
2935         void *p;
2936         void *end;
2937         size_t size;
2938         void *reply_buf = NULL;
2939         size_t len = 0;
2940         char *image_name = NULL;
2941         int ret;
2942
2943         rbd_assert(!rbd_dev->spec->image_name);
2944
2945         len = strlen(rbd_dev->spec->image_id);
2946         image_id_size = sizeof (__le32) + len;
2947         image_id = kmalloc(image_id_size, GFP_KERNEL);
2948         if (!image_id)
2949                 return NULL;
2950
2951         p = image_id;
2952         end = (char *) image_id + image_id_size;
2953         ceph_encode_string(&p, end, rbd_dev->spec->image_id, (u32) len);
2954
2955         size = sizeof (__le32) + RBD_IMAGE_NAME_LEN_MAX;
2956         reply_buf = kmalloc(size, GFP_KERNEL);
2957         if (!reply_buf)
2958                 goto out;
2959
2960         ret = rbd_obj_method_sync(rbd_dev, RBD_DIRECTORY,
2961                                 "rbd", "dir_get_name",
2962                                 image_id, image_id_size,
2963                                 (char *) reply_buf, size, NULL);
2964         if (ret < 0)
2965                 goto out;
2966         p = reply_buf;
2967         end = (char *) reply_buf + size;
2968         image_name = ceph_extract_encoded_string(&p, end, &len, GFP_KERNEL);
2969         if (IS_ERR(image_name))
2970                 image_name = NULL;
2971         else
2972                 dout("%s: name is %s len is %zd\n", __func__, image_name, len);
2973 out:
2974         kfree(reply_buf);
2975         kfree(image_id);
2976
2977         return image_name;
2978 }
2979
2980 /*
2981  * When a parent image gets probed, we only have the pool, image,
2982  * and snapshot ids but not the names of any of them.  This call
2983  * is made later to fill in those names.  It has to be done after
2984  * rbd_dev_snaps_update() has completed because some of the
2985  * information (in particular, snapshot name) is not available
2986  * until then.
2987  */
2988 static int rbd_dev_probe_update_spec(struct rbd_device *rbd_dev)
2989 {
2990         struct ceph_osd_client *osdc;
2991         const char *name;
2992         void *reply_buf = NULL;
2993         int ret;
2994
2995         if (rbd_dev->spec->pool_name)
2996                 return 0;       /* Already have the names */
2997
2998         /* Look up the pool name */
2999
3000         osdc = &rbd_dev->rbd_client->client->osdc;
3001         name = ceph_pg_pool_name_by_id(osdc->osdmap, rbd_dev->spec->pool_id);
3002         if (!name) {
3003                 rbd_warn(rbd_dev, "there is no pool with id %llu",
3004                         rbd_dev->spec->pool_id);        /* Really a BUG() */
3005                 return -EIO;
3006         }
3007
3008         rbd_dev->spec->pool_name = kstrdup(name, GFP_KERNEL);
3009         if (!rbd_dev->spec->pool_name)
3010                 return -ENOMEM;
3011
3012         /* Fetch the image name; tolerate failure here */
3013
3014         name = rbd_dev_image_name(rbd_dev);
3015         if (name)
3016                 rbd_dev->spec->image_name = (char *) name;
3017         else
3018                 rbd_warn(rbd_dev, "unable to get image name");
3019
3020         /* Look up the snapshot name. */
3021
3022         name = rbd_snap_name(rbd_dev, rbd_dev->spec->snap_id);
3023         if (!name) {
3024                 rbd_warn(rbd_dev, "no snapshot with id %llu",
3025                         rbd_dev->spec->snap_id);        /* Really a BUG() */
3026                 ret = -EIO;
3027                 goto out_err;
3028         }
3029         rbd_dev->spec->snap_name = kstrdup(name, GFP_KERNEL);
3030         if(!rbd_dev->spec->snap_name)
3031                 goto out_err;
3032
3033         return 0;
3034 out_err:
3035         kfree(reply_buf);
3036         kfree(rbd_dev->spec->pool_name);
3037         rbd_dev->spec->pool_name = NULL;
3038
3039         return ret;
3040 }
3041
3042 static int rbd_dev_v2_snap_context(struct rbd_device *rbd_dev, u64 *ver)
3043 {
3044         size_t size;
3045         int ret;
3046         void *reply_buf;
3047         void *p;
3048         void *end;
3049         u64 seq;
3050         u32 snap_count;
3051         struct ceph_snap_context *snapc;
3052         u32 i;
3053
3054         /*
3055          * We'll need room for the seq value (maximum snapshot id),
3056          * snapshot count, and array of that many snapshot ids.
3057          * For now we have a fixed upper limit on the number we're
3058          * prepared to receive.
3059          */
3060         size = sizeof (__le64) + sizeof (__le32) +
3061                         RBD_MAX_SNAP_COUNT * sizeof (__le64);
3062         reply_buf = kzalloc(size, GFP_KERNEL);
3063         if (!reply_buf)
3064                 return -ENOMEM;
3065
3066         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
3067                                 "rbd", "get_snapcontext",
3068                                 NULL, 0,
3069                                 reply_buf, size, ver);
3070         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
3071         if (ret < 0)
3072                 goto out;
3073
3074         ret = -ERANGE;
3075         p = reply_buf;
3076         end = (char *) reply_buf + size;
3077         ceph_decode_64_safe(&p, end, seq, out);
3078         ceph_decode_32_safe(&p, end, snap_count, out);
3079
3080         /*
3081          * Make sure the reported number of snapshot ids wouldn't go
3082          * beyond the end of our buffer.  But before checking that,
3083          * make sure the computed size of the snapshot context we
3084          * allocate is representable in a size_t.
3085          */
3086         if (snap_count > (SIZE_MAX - sizeof (struct ceph_snap_context))
3087                                  / sizeof (u64)) {
3088                 ret = -EINVAL;
3089                 goto out;
3090         }
3091         if (!ceph_has_room(&p, end, snap_count * sizeof (__le64)))
3092                 goto out;
3093
3094         size = sizeof (struct ceph_snap_context) +
3095                                 snap_count * sizeof (snapc->snaps[0]);
3096         snapc = kmalloc(size, GFP_KERNEL);
3097         if (!snapc) {
3098                 ret = -ENOMEM;
3099                 goto out;
3100         }
3101
3102         atomic_set(&snapc->nref, 1);
3103         snapc->seq = seq;
3104         snapc->num_snaps = snap_count;
3105         for (i = 0; i < snap_count; i++)
3106                 snapc->snaps[i] = ceph_decode_64(&p);
3107
3108         rbd_dev->header.snapc = snapc;
3109
3110         dout("  snap context seq = %llu, snap_count = %u\n",
3111                 (unsigned long long) seq, (unsigned int) snap_count);
3112
3113 out:
3114         kfree(reply_buf);
3115
3116         return 0;
3117 }
3118
3119 static char *rbd_dev_v2_snap_name(struct rbd_device *rbd_dev, u32 which)
3120 {
3121         size_t size;
3122         void *reply_buf;
3123         __le64 snap_id;
3124         int ret;
3125         void *p;
3126         void *end;
3127         char *snap_name;
3128
3129         size = sizeof (__le32) + RBD_MAX_SNAP_NAME_LEN;
3130         reply_buf = kmalloc(size, GFP_KERNEL);
3131         if (!reply_buf)
3132                 return ERR_PTR(-ENOMEM);
3133
3134         snap_id = cpu_to_le64(rbd_dev->header.snapc->snaps[which]);
3135         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
3136                                 "rbd", "get_snapshot_name",
3137                                 (char *) &snap_id, sizeof (snap_id),
3138                                 reply_buf, size, NULL);
3139         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
3140         if (ret < 0)
3141                 goto out;
3142
3143         p = reply_buf;
3144         end = (char *) reply_buf + size;
3145         snap_name = ceph_extract_encoded_string(&p, end, NULL, GFP_KERNEL);
3146         if (IS_ERR(snap_name)) {
3147                 ret = PTR_ERR(snap_name);
3148                 goto out;
3149         } else {
3150                 dout("  snap_id 0x%016llx snap_name = %s\n",
3151                         (unsigned long long) le64_to_cpu(snap_id), snap_name);
3152         }
3153         kfree(reply_buf);
3154
3155         return snap_name;
3156 out:
3157         kfree(reply_buf);
3158
3159         return ERR_PTR(ret);
3160 }
3161
3162 static char *rbd_dev_v2_snap_info(struct rbd_device *rbd_dev, u32 which,
3163                 u64 *snap_size, u64 *snap_features)
3164 {
3165         u64 snap_id;
3166         u8 order;
3167         int ret;
3168
3169         snap_id = rbd_dev->header.snapc->snaps[which];
3170         ret = _rbd_dev_v2_snap_size(rbd_dev, snap_id, &order, snap_size);
3171         if (ret)
3172                 return ERR_PTR(ret);
3173         ret = _rbd_dev_v2_snap_features(rbd_dev, snap_id, snap_features);
3174         if (ret)
3175                 return ERR_PTR(ret);
3176
3177         return rbd_dev_v2_snap_name(rbd_dev, which);
3178 }
3179
3180 static char *rbd_dev_snap_info(struct rbd_device *rbd_dev, u32 which,
3181                 u64 *snap_size, u64 *snap_features)
3182 {
3183         if (rbd_dev->image_format == 1)
3184                 return rbd_dev_v1_snap_info(rbd_dev, which,
3185                                         snap_size, snap_features);
3186         if (rbd_dev->image_format == 2)
3187                 return rbd_dev_v2_snap_info(rbd_dev, which,
3188                                         snap_size, snap_features);
3189         return ERR_PTR(-EINVAL);
3190 }
3191
3192 static int rbd_dev_v2_refresh(struct rbd_device *rbd_dev, u64 *hver)
3193 {
3194         int ret;
3195         __u8 obj_order;
3196
3197         down_write(&rbd_dev->header_rwsem);
3198
3199         /* Grab old order first, to see if it changes */
3200
3201         obj_order = rbd_dev->header.obj_order,
3202         ret = rbd_dev_v2_image_size(rbd_dev);
3203         if (ret)
3204                 goto out;
3205         if (rbd_dev->header.obj_order != obj_order) {
3206                 ret = -EIO;
3207                 goto out;
3208         }
3209         rbd_update_mapping_size(rbd_dev);
3210
3211         ret = rbd_dev_v2_snap_context(rbd_dev, hver);
3212         dout("rbd_dev_v2_snap_context returned %d\n", ret);
3213         if (ret)
3214                 goto out;
3215         ret = rbd_dev_snaps_update(rbd_dev);
3216         dout("rbd_dev_snaps_update returned %d\n", ret);
3217         if (ret)
3218                 goto out;
3219         ret = rbd_dev_snaps_register(rbd_dev);
3220         dout("rbd_dev_snaps_register returned %d\n", ret);
3221 out:
3222         up_write(&rbd_dev->header_rwsem);
3223
3224         return ret;
3225 }
3226
3227 /*
3228  * Scan the rbd device's current snapshot list and compare it to the
3229  * newly-received snapshot context.  Remove any existing snapshots
3230  * not present in the new snapshot context.  Add a new snapshot for
3231  * any snaphots in the snapshot context not in the current list.
3232  * And verify there are no changes to snapshots we already know
3233  * about.
3234  *
3235  * Assumes the snapshots in the snapshot context are sorted by
3236  * snapshot id, highest id first.  (Snapshots in the rbd_dev's list
3237  * are also maintained in that order.)
3238  */
3239 static int rbd_dev_snaps_update(struct rbd_device *rbd_dev)
3240 {
3241         struct ceph_snap_context *snapc = rbd_dev->header.snapc;
3242         const u32 snap_count = snapc->num_snaps;
3243         struct list_head *head = &rbd_dev->snaps;
3244         struct list_head *links = head->next;
3245         u32 index = 0;
3246
3247         dout("%s: snap count is %u\n", __func__, (unsigned int) snap_count);
3248         while (index < snap_count || links != head) {
3249                 u64 snap_id;
3250                 struct rbd_snap *snap;
3251                 char *snap_name;
3252                 u64 snap_size = 0;
3253                 u64 snap_features = 0;
3254
3255                 snap_id = index < snap_count ? snapc->snaps[index]
3256                                              : CEPH_NOSNAP;
3257                 snap = links != head ? list_entry(links, struct rbd_snap, node)
3258                                      : NULL;
3259                 rbd_assert(!snap || snap->id != CEPH_NOSNAP);
3260
3261                 if (snap_id == CEPH_NOSNAP || (snap && snap->id > snap_id)) {
3262                         struct list_head *next = links->next;
3263
3264                         /*
3265                          * A previously-existing snapshot is not in
3266                          * the new snap context.
3267                          *
3268                          * If the now missing snapshot is the one the
3269                          * image is mapped to, clear its exists flag
3270                          * so we can avoid sending any more requests
3271                          * to it.
3272                          */
3273                         if (rbd_dev->spec->snap_id == snap->id)
3274                                 clear_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags);
3275                         rbd_remove_snap_dev(snap);
3276                         dout("%ssnap id %llu has been removed\n",
3277                                 rbd_dev->spec->snap_id == snap->id ?
3278                                                         "mapped " : "",
3279                                 (unsigned long long) snap->id);
3280
3281                         /* Done with this list entry; advance */
3282
3283                         links = next;
3284                         continue;
3285                 }
3286
3287                 snap_name = rbd_dev_snap_info(rbd_dev, index,
3288                                         &snap_size, &snap_features);
3289                 if (IS_ERR(snap_name))
3290                         return PTR_ERR(snap_name);
3291
3292                 dout("entry %u: snap_id = %llu\n", (unsigned int) snap_count,
3293                         (unsigned long long) snap_id);
3294                 if (!snap || (snap_id != CEPH_NOSNAP && snap->id < snap_id)) {
3295                         struct rbd_snap *new_snap;
3296
3297                         /* We haven't seen this snapshot before */
3298
3299                         new_snap = __rbd_add_snap_dev(rbd_dev, snap_name,
3300                                         snap_id, snap_size, snap_features);
3301                         if (IS_ERR(new_snap)) {
3302                                 int err = PTR_ERR(new_snap);
3303
3304                                 dout("  failed to add dev, error %d\n", err);
3305
3306                                 return err;
3307                         }
3308
3309                         /* New goes before existing, or at end of list */
3310
3311                         dout("  added dev%s\n", snap ? "" : " at end\n");
3312                         if (snap)
3313                                 list_add_tail(&new_snap->node, &snap->node);
3314                         else
3315                                 list_add_tail(&new_snap->node, head);
3316                 } else {
3317                         /* Already have this one */
3318
3319                         dout("  already present\n");
3320
3321                         rbd_assert(snap->size == snap_size);
3322                         rbd_assert(!strcmp(snap->name, snap_name));
3323                         rbd_assert(snap->features == snap_features);
3324
3325                         /* Done with this list entry; advance */
3326
3327                         links = links->next;
3328                 }
3329
3330                 /* Advance to the next entry in the snapshot context */
3331
3332                 index++;
3333         }
3334         dout("%s: done\n", __func__);
3335
3336         return 0;
3337 }
3338
3339 /*
3340  * Scan the list of snapshots and register the devices for any that
3341  * have not already been registered.
3342  */
3343 static int rbd_dev_snaps_register(struct rbd_device *rbd_dev)
3344 {
3345         struct rbd_snap *snap;
3346         int ret = 0;
3347
3348         dout("%s:\n", __func__);
3349         if (WARN_ON(!device_is_registered(&rbd_dev->dev)))
3350                 return -EIO;
3351
3352         list_for_each_entry(snap, &rbd_dev->snaps, node) {
3353                 if (!rbd_snap_registered(snap)) {
3354                         ret = rbd_register_snap_dev(snap, &rbd_dev->dev);
3355                         if (ret < 0)
3356                                 break;
3357                 }
3358         }
3359         dout("%s: returning %d\n", __func__, ret);
3360
3361         return ret;
3362 }
3363
3364 static int rbd_bus_add_dev(struct rbd_device *rbd_dev)
3365 {
3366         struct device *dev;
3367         int ret;
3368
3369         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
3370
3371         dev = &rbd_dev->dev;
3372         dev->bus = &rbd_bus_type;
3373         dev->type = &rbd_device_type;
3374         dev->parent = &rbd_root_dev;
3375         dev->release = rbd_dev_release;
3376         dev_set_name(dev, "%d", rbd_dev->dev_id);
3377         ret = device_register(dev);
3378
3379         mutex_unlock(&ctl_mutex);
3380
3381         return ret;
3382 }
3383
3384 static void rbd_bus_del_dev(struct rbd_device *rbd_dev)
3385 {
3386         device_unregister(&rbd_dev->dev);
3387 }
3388
3389 static atomic64_t rbd_dev_id_max = ATOMIC64_INIT(0);
3390
3391 /*
3392  * Get a unique rbd identifier for the given new rbd_dev, and add
3393  * the rbd_dev to the global list.  The minimum rbd id is 1.
3394  */
3395 static void rbd_dev_id_get(struct rbd_device *rbd_dev)
3396 {
3397         rbd_dev->dev_id = atomic64_inc_return(&rbd_dev_id_max);
3398
3399         spin_lock(&rbd_dev_list_lock);
3400         list_add_tail(&rbd_dev->node, &rbd_dev_list);
3401         spin_unlock(&rbd_dev_list_lock);
3402         dout("rbd_dev %p given dev id %llu\n", rbd_dev,
3403                 (unsigned long long) rbd_dev->dev_id);
3404 }
3405
3406 /*
3407  * Remove an rbd_dev from the global list, and record that its
3408  * identifier is no longer in use.
3409  */
3410 static void rbd_dev_id_put(struct rbd_device *rbd_dev)
3411 {
3412         struct list_head *tmp;
3413         int rbd_id = rbd_dev->dev_id;
3414         int max_id;
3415
3416         rbd_assert(rbd_id > 0);
3417
3418         dout("rbd_dev %p released dev id %llu\n", rbd_dev,
3419                 (unsigned long long) rbd_dev->dev_id);
3420         spin_lock(&rbd_dev_list_lock);
3421         list_del_init(&rbd_dev->node);
3422
3423         /*
3424          * If the id being "put" is not the current maximum, there
3425          * is nothing special we need to do.
3426          */
3427         if (rbd_id != atomic64_read(&rbd_dev_id_max)) {
3428                 spin_unlock(&rbd_dev_list_lock);
3429                 return;
3430         }
3431
3432         /*
3433          * We need to update the current maximum id.  Search the
3434          * list to find out what it is.  We're more likely to find
3435          * the maximum at the end, so search the list backward.
3436          */
3437         max_id = 0;
3438         list_for_each_prev(tmp, &rbd_dev_list) {
3439                 struct rbd_device *rbd_dev;
3440
3441                 rbd_dev = list_entry(tmp, struct rbd_device, node);
3442                 if (rbd_dev->dev_id > max_id)
3443                         max_id = rbd_dev->dev_id;
3444         }
3445         spin_unlock(&rbd_dev_list_lock);
3446
3447         /*
3448          * The max id could have been updated by rbd_dev_id_get(), in
3449          * which case it now accurately reflects the new maximum.
3450          * Be careful not to overwrite the maximum value in that
3451          * case.
3452          */
3453         atomic64_cmpxchg(&rbd_dev_id_max, rbd_id, max_id);
3454         dout("  max dev id has been reset\n");
3455 }
3456
3457 /*
3458  * Skips over white space at *buf, and updates *buf to point to the
3459  * first found non-space character (if any). Returns the length of
3460  * the token (string of non-white space characters) found.  Note
3461  * that *buf must be terminated with '\0'.
3462  */
3463 static inline size_t next_token(const char **buf)
3464 {
3465         /*
3466         * These are the characters that produce nonzero for
3467         * isspace() in the "C" and "POSIX" locales.
3468         */
3469         const char *spaces = " \f\n\r\t\v";
3470
3471         *buf += strspn(*buf, spaces);   /* Find start of token */
3472
3473         return strcspn(*buf, spaces);   /* Return token length */
3474 }
3475
3476 /*
3477  * Finds the next token in *buf, and if the provided token buffer is
3478  * big enough, copies the found token into it.  The result, if
3479  * copied, is guaranteed to be terminated with '\0'.  Note that *buf
3480  * must be terminated with '\0' on entry.
3481  *
3482  * Returns the length of the token found (not including the '\0').
3483  * Return value will be 0 if no token is found, and it will be >=
3484  * token_size if the token would not fit.
3485  *
3486  * The *buf pointer will be updated to point beyond the end of the
3487  * found token.  Note that this occurs even if the token buffer is
3488  * too small to hold it.
3489  */
3490 static inline size_t copy_token(const char **buf,
3491                                 char *token,
3492                                 size_t token_size)
3493 {
3494         size_t len;
3495
3496         len = next_token(buf);
3497         if (len < token_size) {
3498                 memcpy(token, *buf, len);
3499                 *(token + len) = '\0';
3500         }
3501         *buf += len;
3502
3503         return len;
3504 }
3505
3506 /*
3507  * Finds the next token in *buf, dynamically allocates a buffer big
3508  * enough to hold a copy of it, and copies the token into the new
3509  * buffer.  The copy is guaranteed to be terminated with '\0'.  Note
3510  * that a duplicate buffer is created even for a zero-length token.
3511  *
3512  * Returns a pointer to the newly-allocated duplicate, or a null
3513  * pointer if memory for the duplicate was not available.  If
3514  * the lenp argument is a non-null pointer, the length of the token
3515  * (not including the '\0') is returned in *lenp.
3516  *
3517  * If successful, the *buf pointer will be updated to point beyond
3518  * the end of the found token.
3519  *
3520  * Note: uses GFP_KERNEL for allocation.
3521  */
3522 static inline char *dup_token(const char **buf, size_t *lenp)
3523 {
3524         char *dup;
3525         size_t len;
3526
3527         len = next_token(buf);
3528         dup = kmemdup(*buf, len + 1, GFP_KERNEL);
3529         if (!dup)
3530                 return NULL;
3531         *(dup + len) = '\0';
3532         *buf += len;
3533
3534         if (lenp)
3535                 *lenp = len;
3536
3537         return dup;
3538 }
3539
3540 /*
3541  * Parse the options provided for an "rbd add" (i.e., rbd image
3542  * mapping) request.  These arrive via a write to /sys/bus/rbd/add,
3543  * and the data written is passed here via a NUL-terminated buffer.
3544  * Returns 0 if successful or an error code otherwise.
3545  *
3546  * The information extracted from these options is recorded in
3547  * the other parameters which return dynamically-allocated
3548  * structures:
3549  *  ceph_opts
3550  *      The address of a pointer that will refer to a ceph options
3551  *      structure.  Caller must release the returned pointer using
3552  *      ceph_destroy_options() when it is no longer needed.
3553  *  rbd_opts
3554  *      Address of an rbd options pointer.  Fully initialized by
3555  *      this function; caller must release with kfree().
3556  *  spec
3557  *      Address of an rbd image specification pointer.  Fully
3558  *      initialized by this function based on parsed options.
3559  *      Caller must release with rbd_spec_put().
3560  *
3561  * The options passed take this form:
3562  *  <mon_addrs> <options> <pool_name> <image_name> [<snap_id>]
3563  * where:
3564  *  <mon_addrs>
3565  *      A comma-separated list of one or more monitor addresses.
3566  *      A monitor address is an ip address, optionally followed
3567  *      by a port number (separated by a colon).
3568  *        I.e.:  ip1[:port1][,ip2[:port2]...]
3569  *  <options>
3570  *      A comma-separated list of ceph and/or rbd options.
3571  *  <pool_name>
3572  *      The name of the rados pool containing the rbd image.
3573  *  <image_name>
3574  *      The name of the image in that pool to map.
3575  *  <snap_id>
3576  *      An optional snapshot id.  If provided, the mapping will
3577  *      present data from the image at the time that snapshot was
3578  *      created.  The image head is used if no snapshot id is
3579  *      provided.  Snapshot mappings are always read-only.
3580  */
3581 static int rbd_add_parse_args(const char *buf,
3582                                 struct ceph_options **ceph_opts,
3583                                 struct rbd_options **opts,
3584                                 struct rbd_spec **rbd_spec)
3585 {
3586         size_t len;
3587         char *options;
3588         const char *mon_addrs;
3589         size_t mon_addrs_size;
3590         struct rbd_spec *spec = NULL;
3591         struct rbd_options *rbd_opts = NULL;
3592         struct ceph_options *copts;
3593         int ret;
3594
3595         /* The first four tokens are required */
3596
3597         len = next_token(&buf);
3598         if (!len) {
3599                 rbd_warn(NULL, "no monitor address(es) provided");
3600                 return -EINVAL;
3601         }
3602         mon_addrs = buf;
3603         mon_addrs_size = len + 1;
3604         buf += len;
3605
3606         ret = -EINVAL;
3607         options = dup_token(&buf, NULL);
3608         if (!options)
3609                 return -ENOMEM;
3610         if (!*options) {
3611                 rbd_warn(NULL, "no options provided");
3612                 goto out_err;
3613         }
3614
3615         spec = rbd_spec_alloc();
3616         if (!spec)
3617                 goto out_mem;
3618
3619         spec->pool_name = dup_token(&buf, NULL);
3620         if (!spec->pool_name)
3621                 goto out_mem;
3622         if (!*spec->pool_name) {
3623                 rbd_warn(NULL, "no pool name provided");
3624                 goto out_err;
3625         }
3626
3627         spec->image_name = dup_token(&buf, NULL);
3628         if (!spec->image_name)
3629                 goto out_mem;
3630         if (!*spec->image_name) {
3631                 rbd_warn(NULL, "no image name provided");
3632                 goto out_err;
3633         }
3634
3635         /*
3636          * Snapshot name is optional; default is to use "-"
3637          * (indicating the head/no snapshot).
3638          */
3639         len = next_token(&buf);
3640         if (!len) {
3641                 buf = RBD_SNAP_HEAD_NAME; /* No snapshot supplied */
3642                 len = sizeof (RBD_SNAP_HEAD_NAME) - 1;
3643         } else if (len > RBD_MAX_SNAP_NAME_LEN) {
3644                 ret = -ENAMETOOLONG;
3645                 goto out_err;
3646         }
3647         spec->snap_name = kmemdup(buf, len + 1, GFP_KERNEL);
3648         if (!spec->snap_name)
3649                 goto out_mem;
3650         *(spec->snap_name + len) = '\0';
3651
3652         /* Initialize all rbd options to the defaults */
3653
3654         rbd_opts = kzalloc(sizeof (*rbd_opts), GFP_KERNEL);
3655         if (!rbd_opts)
3656                 goto out_mem;
3657
3658         rbd_opts->read_only = RBD_READ_ONLY_DEFAULT;
3659
3660         copts = ceph_parse_options(options, mon_addrs,
3661                                         mon_addrs + mon_addrs_size - 1,
3662                                         parse_rbd_opts_token, rbd_opts);
3663         if (IS_ERR(copts)) {
3664                 ret = PTR_ERR(copts);
3665                 goto out_err;
3666         }
3667         kfree(options);
3668
3669         *ceph_opts = copts;
3670         *opts = rbd_opts;
3671         *rbd_spec = spec;
3672
3673         return 0;
3674 out_mem:
3675         ret = -ENOMEM;
3676 out_err:
3677         kfree(rbd_opts);
3678         rbd_spec_put(spec);
3679         kfree(options);
3680
3681         return ret;
3682 }
3683
3684 /*
3685  * An rbd format 2 image has a unique identifier, distinct from the
3686  * name given to it by the user.  Internally, that identifier is
3687  * what's used to specify the names of objects related to the image.
3688  *
3689  * A special "rbd id" object is used to map an rbd image name to its
3690  * id.  If that object doesn't exist, then there is no v2 rbd image
3691  * with the supplied name.
3692  *
3693  * This function will record the given rbd_dev's image_id field if
3694  * it can be determined, and in that case will return 0.  If any
3695  * errors occur a negative errno will be returned and the rbd_dev's
3696  * image_id field will be unchanged (and should be NULL).
3697  */
3698 static int rbd_dev_image_id(struct rbd_device *rbd_dev)
3699 {
3700         int ret;
3701         size_t size;
3702         char *object_name;
3703         void *response;
3704         void *p;
3705
3706         /*
3707          * When probing a parent image, the image id is already
3708          * known (and the image name likely is not).  There's no
3709          * need to fetch the image id again in this case.
3710          */
3711         if (rbd_dev->spec->image_id)
3712                 return 0;
3713
3714         /*
3715          * First, see if the format 2 image id file exists, and if
3716          * so, get the image's persistent id from it.
3717          */
3718         size = sizeof (RBD_ID_PREFIX) + strlen(rbd_dev->spec->image_name);
3719         object_name = kmalloc(size, GFP_NOIO);
3720         if (!object_name)
3721                 return -ENOMEM;
3722         sprintf(object_name, "%s%s", RBD_ID_PREFIX, rbd_dev->spec->image_name);
3723         dout("rbd id object name is %s\n", object_name);
3724
3725         /* Response will be an encoded string, which includes a length */
3726
3727         size = sizeof (__le32) + RBD_IMAGE_ID_LEN_MAX;
3728         response = kzalloc(size, GFP_NOIO);
3729         if (!response) {
3730                 ret = -ENOMEM;
3731                 goto out;
3732         }
3733
3734         ret = rbd_obj_method_sync(rbd_dev, object_name,
3735                                 "rbd", "get_id",
3736                                 NULL, 0,
3737                                 response, RBD_IMAGE_ID_LEN_MAX, NULL);
3738         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
3739         if (ret < 0)
3740                 goto out;
3741
3742         p = response;
3743         rbd_dev->spec->image_id = ceph_extract_encoded_string(&p,
3744                                                 p + RBD_IMAGE_ID_LEN_MAX,
3745                                                 NULL, GFP_NOIO);
3746         if (IS_ERR(rbd_dev->spec->image_id)) {
3747                 ret = PTR_ERR(rbd_dev->spec->image_id);
3748                 rbd_dev->spec->image_id = NULL;
3749         } else {
3750                 dout("image_id is %s\n", rbd_dev->spec->image_id);
3751         }
3752 out:
3753         kfree(response);
3754         kfree(object_name);
3755
3756         return ret;
3757 }
3758
3759 static int rbd_dev_v1_probe(struct rbd_device *rbd_dev)
3760 {
3761         int ret;
3762         size_t size;
3763
3764         /* Version 1 images have no id; empty string is used */
3765
3766         rbd_dev->spec->image_id = kstrdup("", GFP_KERNEL);
3767         if (!rbd_dev->spec->image_id)
3768                 return -ENOMEM;
3769
3770         /* Record the header object name for this rbd image. */
3771
3772         size = strlen(rbd_dev->spec->image_name) + sizeof (RBD_SUFFIX);
3773         rbd_dev->header_name = kmalloc(size, GFP_KERNEL);
3774         if (!rbd_dev->header_name) {
3775                 ret = -ENOMEM;
3776                 goto out_err;
3777         }
3778         sprintf(rbd_dev->header_name, "%s%s",
3779                 rbd_dev->spec->image_name, RBD_SUFFIX);
3780
3781         /* Populate rbd image metadata */
3782
3783         ret = rbd_read_header(rbd_dev, &rbd_dev->header);
3784         if (ret < 0)
3785                 goto out_err;
3786
3787         /* Version 1 images have no parent (no layering) */
3788
3789         rbd_dev->parent_spec = NULL;
3790         rbd_dev->parent_overlap = 0;
3791
3792         rbd_dev->image_format = 1;
3793
3794         dout("discovered version 1 image, header name is %s\n",
3795                 rbd_dev->header_name);
3796
3797         return 0;
3798
3799 out_err:
3800         kfree(rbd_dev->header_name);
3801         rbd_dev->header_name = NULL;
3802         kfree(rbd_dev->spec->image_id);
3803         rbd_dev->spec->image_id = NULL;
3804
3805         return ret;
3806 }
3807
3808 static int rbd_dev_v2_probe(struct rbd_device *rbd_dev)
3809 {
3810         size_t size;
3811         int ret;
3812         u64 ver = 0;
3813
3814         /*
3815          * Image id was filled in by the caller.  Record the header
3816          * object name for this rbd image.
3817          */
3818         size = sizeof (RBD_HEADER_PREFIX) + strlen(rbd_dev->spec->image_id);
3819         rbd_dev->header_name = kmalloc(size, GFP_KERNEL);
3820         if (!rbd_dev->header_name)
3821                 return -ENOMEM;
3822         sprintf(rbd_dev->header_name, "%s%s",
3823                         RBD_HEADER_PREFIX, rbd_dev->spec->image_id);
3824
3825         /* Get the size and object order for the image */
3826
3827         ret = rbd_dev_v2_image_size(rbd_dev);
3828         if (ret < 0)
3829                 goto out_err;
3830
3831         /* Get the object prefix (a.k.a. block_name) for the image */
3832
3833         ret = rbd_dev_v2_object_prefix(rbd_dev);
3834         if (ret < 0)
3835                 goto out_err;
3836
3837         /* Get the and check features for the image */
3838
3839         ret = rbd_dev_v2_features(rbd_dev);
3840         if (ret < 0)
3841                 goto out_err;
3842
3843         /* If the image supports layering, get the parent info */
3844
3845         if (rbd_dev->header.features & RBD_FEATURE_LAYERING) {
3846                 ret = rbd_dev_v2_parent_info(rbd_dev);
3847                 if (ret < 0)
3848                         goto out_err;
3849         }
3850
3851         /* crypto and compression type aren't (yet) supported for v2 images */
3852
3853         rbd_dev->header.crypt_type = 0;
3854         rbd_dev->header.comp_type = 0;
3855
3856         /* Get the snapshot context, plus the header version */
3857
3858         ret = rbd_dev_v2_snap_context(rbd_dev, &ver);
3859         if (ret)
3860                 goto out_err;
3861         rbd_dev->header.obj_version = ver;
3862
3863         rbd_dev->image_format = 2;
3864
3865         dout("discovered version 2 image, header name is %s\n",
3866                 rbd_dev->header_name);
3867
3868         return 0;
3869 out_err:
3870         rbd_dev->parent_overlap = 0;
3871         rbd_spec_put(rbd_dev->parent_spec);
3872         rbd_dev->parent_spec = NULL;
3873         kfree(rbd_dev->header_name);
3874         rbd_dev->header_name = NULL;
3875         kfree(rbd_dev->header.object_prefix);
3876         rbd_dev->header.object_prefix = NULL;
3877
3878         return ret;
3879 }
3880
3881 static int rbd_dev_probe_finish(struct rbd_device *rbd_dev)
3882 {
3883         int ret;
3884
3885         /* no need to lock here, as rbd_dev is not registered yet */
3886         ret = rbd_dev_snaps_update(rbd_dev);
3887         if (ret)
3888                 return ret;
3889
3890         ret = rbd_dev_probe_update_spec(rbd_dev);
3891         if (ret)
3892                 goto err_out_snaps;
3893
3894         ret = rbd_dev_set_mapping(rbd_dev);
3895         if (ret)
3896                 goto err_out_snaps;
3897
3898         /* generate unique id: find highest unique id, add one */
3899         rbd_dev_id_get(rbd_dev);
3900
3901         /* Fill in the device name, now that we have its id. */
3902         BUILD_BUG_ON(DEV_NAME_LEN
3903                         < sizeof (RBD_DRV_NAME) + MAX_INT_FORMAT_WIDTH);
3904         sprintf(rbd_dev->name, "%s%d", RBD_DRV_NAME, rbd_dev->dev_id);
3905
3906         /* Get our block major device number. */
3907
3908         ret = register_blkdev(0, rbd_dev->name);
3909         if (ret < 0)
3910                 goto err_out_id;
3911         rbd_dev->major = ret;
3912
3913         /* Set up the blkdev mapping. */
3914
3915         ret = rbd_init_disk(rbd_dev);
3916         if (ret)
3917                 goto err_out_blkdev;
3918
3919         ret = rbd_bus_add_dev(rbd_dev);
3920         if (ret)
3921                 goto err_out_disk;
3922
3923         /*
3924          * At this point cleanup in the event of an error is the job
3925          * of the sysfs code (initiated by rbd_bus_del_dev()).
3926          */
3927         down_write(&rbd_dev->header_rwsem);
3928         ret = rbd_dev_snaps_register(rbd_dev);
3929         up_write(&rbd_dev->header_rwsem);
3930         if (ret)
3931                 goto err_out_bus;
3932
3933         ret = rbd_dev_header_watch_sync(rbd_dev, 1);
3934         if (ret)
3935                 goto err_out_bus;
3936
3937         /* Everything's ready.  Announce the disk to the world. */
3938
3939         add_disk(rbd_dev->disk);
3940
3941         pr_info("%s: added with size 0x%llx\n", rbd_dev->disk->disk_name,
3942                 (unsigned long long) rbd_dev->mapping.size);
3943
3944         return ret;
3945 err_out_bus:
3946         /* this will also clean up rest of rbd_dev stuff */
3947
3948         rbd_bus_del_dev(rbd_dev);
3949
3950         return ret;
3951 err_out_disk:
3952         rbd_free_disk(rbd_dev);
3953 err_out_blkdev:
3954         unregister_blkdev(rbd_dev->major, rbd_dev->name);
3955 err_out_id:
3956         rbd_dev_id_put(rbd_dev);
3957 err_out_snaps:
3958         rbd_remove_all_snaps(rbd_dev);
3959
3960         return ret;
3961 }
3962
3963 /*
3964  * Probe for the existence of the header object for the given rbd
3965  * device.  For format 2 images this includes determining the image
3966  * id.
3967  */
3968 static int rbd_dev_probe(struct rbd_device *rbd_dev)
3969 {
3970         int ret;
3971
3972         /*
3973          * Get the id from the image id object.  If it's not a
3974          * format 2 image, we'll get ENOENT back, and we'll assume
3975          * it's a format 1 image.
3976          */
3977         ret = rbd_dev_image_id(rbd_dev);
3978         if (ret)
3979                 ret = rbd_dev_v1_probe(rbd_dev);
3980         else
3981                 ret = rbd_dev_v2_probe(rbd_dev);
3982         if (ret) {
3983                 dout("probe failed, returning %d\n", ret);
3984
3985                 return ret;
3986         }
3987
3988         ret = rbd_dev_probe_finish(rbd_dev);
3989         if (ret)
3990                 rbd_header_free(&rbd_dev->header);
3991
3992         return ret;
3993 }
3994
3995 static ssize_t rbd_add(struct bus_type *bus,
3996                        const char *buf,
3997                        size_t count)
3998 {
3999         struct rbd_device *rbd_dev = NULL;
4000         struct ceph_options *ceph_opts = NULL;
4001         struct rbd_options *rbd_opts = NULL;
4002         struct rbd_spec *spec = NULL;
4003         struct rbd_client *rbdc;
4004         struct ceph_osd_client *osdc;
4005         int rc = -ENOMEM;
4006
4007         if (!try_module_get(THIS_MODULE))
4008                 return -ENODEV;
4009
4010         /* parse add command */
4011         rc = rbd_add_parse_args(buf, &ceph_opts, &rbd_opts, &spec);
4012         if (rc < 0)
4013                 goto err_out_module;
4014
4015         rbdc = rbd_get_client(ceph_opts);
4016         if (IS_ERR(rbdc)) {
4017                 rc = PTR_ERR(rbdc);
4018                 goto err_out_args;
4019         }
4020         ceph_opts = NULL;       /* rbd_dev client now owns this */
4021
4022         /* pick the pool */
4023         osdc = &rbdc->client->osdc;
4024         rc = ceph_pg_poolid_by_name(osdc->osdmap, spec->pool_name);
4025         if (rc < 0)
4026                 goto err_out_client;
4027         spec->pool_id = (u64) rc;
4028
4029         /* The ceph file layout needs to fit pool id in 32 bits */
4030
4031         if (WARN_ON(spec->pool_id > (u64) U32_MAX)) {
4032                 rc = -EIO;
4033                 goto err_out_client;
4034         }
4035
4036         rbd_dev = rbd_dev_create(rbdc, spec);
4037         if (!rbd_dev)
4038                 goto err_out_client;
4039         rbdc = NULL;            /* rbd_dev now owns this */
4040         spec = NULL;            /* rbd_dev now owns this */
4041
4042         rbd_dev->mapping.read_only = rbd_opts->read_only;
4043         kfree(rbd_opts);
4044         rbd_opts = NULL;        /* done with this */
4045
4046         rc = rbd_dev_probe(rbd_dev);
4047         if (rc < 0)
4048                 goto err_out_rbd_dev;
4049
4050         return count;
4051 err_out_rbd_dev:
4052         rbd_dev_destroy(rbd_dev);
4053 err_out_client:
4054         rbd_put_client(rbdc);
4055 err_out_args:
4056         if (ceph_opts)
4057                 ceph_destroy_options(ceph_opts);
4058         kfree(rbd_opts);
4059         rbd_spec_put(spec);
4060 err_out_module:
4061         module_put(THIS_MODULE);
4062
4063         dout("Error adding device %s\n", buf);
4064
4065         return (ssize_t) rc;
4066 }
4067
4068 static struct rbd_device *__rbd_get_dev(unsigned long dev_id)
4069 {
4070         struct list_head *tmp;
4071         struct rbd_device *rbd_dev;
4072
4073         spin_lock(&rbd_dev_list_lock);
4074         list_for_each(tmp, &rbd_dev_list) {
4075                 rbd_dev = list_entry(tmp, struct rbd_device, node);
4076                 if (rbd_dev->dev_id == dev_id) {
4077                         spin_unlock(&rbd_dev_list_lock);
4078                         return rbd_dev;
4079                 }
4080         }
4081         spin_unlock(&rbd_dev_list_lock);
4082         return NULL;
4083 }
4084
4085 static void rbd_dev_release(struct device *dev)
4086 {
4087         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
4088
4089         if (rbd_dev->watch_event)
4090                 rbd_dev_header_watch_sync(rbd_dev, 0);
4091
4092         /* clean up and free blkdev */
4093         rbd_free_disk(rbd_dev);
4094         unregister_blkdev(rbd_dev->major, rbd_dev->name);
4095
4096         /* release allocated disk header fields */
4097         rbd_header_free(&rbd_dev->header);
4098
4099         /* done with the id, and with the rbd_dev */
4100         rbd_dev_id_put(rbd_dev);
4101         rbd_assert(rbd_dev->rbd_client != NULL);
4102         rbd_dev_destroy(rbd_dev);
4103
4104         /* release module ref */
4105         module_put(THIS_MODULE);
4106 }
4107
4108 static ssize_t rbd_remove(struct bus_type *bus,
4109                           const char *buf,
4110                           size_t count)
4111 {
4112         struct rbd_device *rbd_dev = NULL;
4113         int target_id, rc;
4114         unsigned long ul;
4115         int ret = count;
4116
4117         rc = strict_strtoul(buf, 10, &ul);
4118         if (rc)
4119                 return rc;
4120
4121         /* convert to int; abort if we lost anything in the conversion */
4122         target_id = (int) ul;
4123         if (target_id != ul)
4124                 return -EINVAL;
4125
4126         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
4127
4128         rbd_dev = __rbd_get_dev(target_id);
4129         if (!rbd_dev) {
4130                 ret = -ENOENT;
4131                 goto done;
4132         }
4133
4134         spin_lock_irq(&rbd_dev->lock);
4135         if (rbd_dev->open_count)
4136                 ret = -EBUSY;
4137         else
4138                 set_bit(RBD_DEV_FLAG_REMOVING, &rbd_dev->flags);
4139         spin_unlock_irq(&rbd_dev->lock);
4140         if (ret < 0)
4141                 goto done;
4142
4143         rbd_remove_all_snaps(rbd_dev);
4144         rbd_bus_del_dev(rbd_dev);
4145
4146 done:
4147         mutex_unlock(&ctl_mutex);
4148
4149         return ret;
4150 }
4151
4152 /*
4153  * create control files in sysfs
4154  * /sys/bus/rbd/...
4155  */
4156 static int rbd_sysfs_init(void)
4157 {
4158         int ret;
4159
4160         ret = device_register(&rbd_root_dev);
4161         if (ret < 0)
4162                 return ret;
4163
4164         ret = bus_register(&rbd_bus_type);
4165         if (ret < 0)
4166                 device_unregister(&rbd_root_dev);
4167
4168         return ret;
4169 }
4170
4171 static void rbd_sysfs_cleanup(void)
4172 {
4173         bus_unregister(&rbd_bus_type);
4174         device_unregister(&rbd_root_dev);
4175 }
4176
4177 static int __init rbd_init(void)
4178 {
4179         int rc;
4180
4181         if (!libceph_compatible(NULL)) {
4182                 rbd_warn(NULL, "libceph incompatibility (quitting)");
4183
4184                 return -EINVAL;
4185         }
4186         rc = rbd_sysfs_init();
4187         if (rc)
4188                 return rc;
4189         pr_info("loaded " RBD_DRV_NAME_LONG "\n");
4190         return 0;
4191 }
4192
4193 static void __exit rbd_exit(void)
4194 {
4195         rbd_sysfs_cleanup();
4196 }
4197
4198 module_init(rbd_init);
4199 module_exit(rbd_exit);
4200
4201 MODULE_AUTHOR("Sage Weil <sage@newdream.net>");
4202 MODULE_AUTHOR("Yehuda Sadeh <yehuda@hq.newdream.net>");
4203 MODULE_DESCRIPTION("rados block device");
4204
4205 /* following authorship retained from original osdblk.c */
4206 MODULE_AUTHOR("Jeff Garzik <jeff@garzik.org>");
4207
4208 MODULE_LICENSE("GPL");