]> git.proxmox.com Git - mirror_zfs-debian.git/log
mirror_zfs-debian.git
12 years agoFHS conformance and DKMS multiarch, ZFS interface.
Darik Horn [Sat, 14 Jan 2012 06:15:03 +0000 (00:15 -0600)]
FHS conformance and DKMS multiarch, ZFS interface.

Improve FHS conformance by installing intermediary build products --
currently the zfs_config.h and Module.symvers files -- into the
/var/lib/dkms area instead of /usr/src.

This has the beneficial side-effect of enabling DKMS multiarch
support for ZFS because the autoconf templates and `make install`
rules are not aware of the target architecture.

Mitigates: zfsonlinux/zfs#511

12 years agoPPA 0.6.0.44-0ubuntu1 release.
Darik Horn [Fri, 13 Jan 2012 01:37:58 +0000 (19:37 -0600)]
PPA 0.6.0.44-0ubuntu1 release.

12 years agoRefresh debian/patches after upstream merge.
Darik Horn [Fri, 13 Jan 2012 01:34:06 +0000 (19:34 -0600)]
Refresh debian/patches after upstream merge.

12 years agoRevert "Add security_inode_init_security.patch"
Darik Horn [Fri, 13 Jan 2012 01:31:38 +0000 (19:31 -0600)]
Revert "Add security_inode_init_security.patch"

This reverts commit 071df06b6a6b7f22149d883b57f30ff1acdc84d5.

12 years agoMerge branch 'upstream'
Darik Horn [Fri, 13 Jan 2012 01:30:46 +0000 (19:30 -0600)]
Merge branch 'upstream'

12 years agoAdd overlay(-O) mount option support
Suman Chakravartula [Thu, 12 Jan 2012 00:48:02 +0000 (16:48 -0800)]
Add overlay(-O) mount option support

Linux supports mounting over non-empty directories by default.
In Solaris this is not the case and -O option is required for
zfs mount to mount a zfs filesystem over a non-empty directory.

For compatibility, I've added support for -O option to mount
zfs filesystems over non-empty directories if the user wants
to, just like in Solaris.

I've defined MS_OVERLAY to record it in the flags variable if
the -O option is supplied.  The flags variable passes through
a few functions and its checked before performing the empty
directory check in zfs_mount function.  If -O is given, the
check is not performed.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #473

12 years agoApply the ZoL coding standard to zpl_xattr.c
Darik Horn [Thu, 5 Jan 2012 20:27:36 +0000 (14:27 -0600)]
Apply the ZoL coding standard to zpl_xattr.c

Make the indenting in the zpl_xattr.c file consistent with the Sun
coding standard by removing soft tabs.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoLinux 3.2 compat, security_inode_init_security()
Brian Behlendorf [Thu, 12 Jan 2012 21:59:44 +0000 (13:59 -0800)]
Linux 3.2 compat, security_inode_init_security()

The security_inode_init_security() API has been changed to include
a filesystem specific callback to write security extended attributes.
This was done to support the initialization of multiple LSM xattrs
and the EVM xattr.

This change updates the code to use the new API when it's available.
Otherwise it falls back to the previous implementation.

In addition, the ZFS_AC_KERNEL_6ARGS_SECURITY_INODE_INIT_SECURITY
autoconf test has been made more rigerous by passing the expected
types.  This is done to ensure we always properly the detect the
correct form for the security_inode_init_security() API.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #516

12 years agoTreat /dev/vd* as whole disks
Richard Laager [Mon, 9 Jan 2012 22:50:26 +0000 (16:50 -0600)]
Treat /dev/vd* as whole disks

Correctly detect /dev/vd devices as whole disks and attempt to
create an EFI partition table.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoAvoid using awk in the zpool_id script.
Darik Horn [Fri, 30 Dec 2011 20:18:58 +0000 (14:18 -0600)]
Avoid using awk in the zpool_id script.

Some implementations of `awk` incorrectly parse the \< and \> regex
symbols, so use a `while read` loop and regular globbing instead.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes: #259
12 years agoLinux 3.1 compat, super_block->s_shrink
Brian Behlendorf [Thu, 22 Dec 2011 20:20:43 +0000 (12:20 -0800)]
Linux 3.1 compat, super_block->s_shrink

The Linux 3.1 kernel has introduced the concept of per-filesystem
shrinkers which are directly assoicated with a super block.  Prior
to this change there was one shared global shrinker.

The zfs code relied on being able to call the global shrinker when
the arc_meta_limit was exceeded.  This would cause the VFS to drop
references on a fraction of the dentries in the dcache.  The ARC
could then safely reclaim the memory used by these entries and
honor the arc_meta_limit.  Unfortunately, when per-filesystem
shrinkers were added the old interfaces were made unavailable.

This change adds support to use the new per-filesystem shrinker
interface so we can continue to honor the arc_meta_limit.  The
major benefit of the new interface is that we can now target
only the zfs filesystem for dentry and inode pruning.  Thus we
can minimize any impact on the caching of other filesystems.

In the context of making this change several other important
issues related to managing the ARC were addressed, they include:

* The dnlc_reduce_cache() function which was called by the ARC
to drop dentries for the Posix layer was replaced with a generic
zfs_prune_t callback.  The ZPL layer now registers a callback to
drop these dentries removing a layering violation which dates
back to the Solaris code.  This callback can also be used by
other ARC consumers such as Lustre.

  arc_add_prune_callback()
  arc_remove_prune_callback()

* The arc_reduce_dnlc_percent module option has been changed to
arc_meta_prune for clarity.  The dnlc functions are specific to
Solaris's VFS and have already been largely eliminated already.
The replacement tunable now represents the number of bytes the
prune callback will request when invoked.

* Less aggressively invoke the prune callback.  We used to call
this whenever we exceeded the arc_meta_limit however that's not
strictly correct since it results in over zeleous reclaim of
dentries and inodes.  It is now only called once the arc_meta_limit
is exceeded and every effort has been made to evict other data from
the ARC cache.

* More promptly manage exceeding the arc_meta_limit.  When reading
meta data in to the cache if a buffer was unable to be recycled
notify the arc_reclaim thread to invoke the required prune.

* Added arcstat_prune kstat which is incremented when the ARC
is forced to request that a consumer prune its cache.  Remember
this will only occur when the ARC has no other choice.  If it
can evict buffers safely without invoking the prune callback
it will.

* This change is also expected to resolve the unexpect collapses
of the ARC cache.  This would occur because when exceeded just the
arc_meta_limit reclaim presure would be excerted on the arc_c
value via arc_shrink().  This effectively shrunk the entire cache
when really we just needed to reclaim meta data.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #466
Closes #292

12 years agoAdd /sbin/blkid to the initramfs manifest.
Darik Horn [Sun, 8 Jan 2012 16:58:01 +0000 (10:58 -0600)]
Add /sbin/blkid to the initramfs manifest.

If the root pool contains a zvol, then udev tries /sbin/blkid and
emits a warning, which is usually invisible because it happens
after GRUB changes the console mode for Plymouth.

Adding /sbin/blkid to the initramfs manifest satisfies the udev
warning and results in a small boot time improvement.

12 years agoMerge branch 'issue9'
Darik Horn [Sat, 7 Jan 2012 19:47:58 +0000 (13:47 -0600)]
Merge branch 'issue9'

12 years agoPPA 0.6.0.43-0ubuntu1 release.
Darik Horn [Sat, 7 Jan 2012 17:06:26 +0000 (11:06 -0600)]
PPA 0.6.0.43-0ubuntu1 release.

12 years agoAdd precise to the PPA build list.
Darik Horn [Sat, 7 Jan 2012 17:03:08 +0000 (11:03 -0600)]
Add precise to the PPA build list.

Begin building packages for the Ubuntu 12.04 LTS Precise Pangolin
alpha release.

The linux-image-3.2.0-8-generic kernel package is the first Ubuntu
P-series release that is compatible and somewhat stable with ZFS.

12 years agoAdd security_inode_init_security.patch
Darik Horn [Sat, 7 Jan 2012 16:59:02 +0000 (10:59 -0600)]
Add security_inode_init_security.patch

Add an interim fix for issue #516, which is required for running ZoL
on a Linux 3.2 kernel.

12 years agoAdd bash command completion to zfsutils.
Darik Horn [Thu, 5 Jan 2012 18:55:05 +0000 (12:55 -0600)]
Add bash command completion to zfsutils.

12 years agoadded contrib/zfs_completion.bash
Seth Heeren [Thu, 27 May 2010 19:12:56 +0000 (21:12 +0200)]
added contrib/zfs_completion.bash

received from Aneurin Price
http://groups.google.com/group/zfs-fuse/browse_thread/thread/fd17ab76e5bddc35

12 years agoAdd libselinux1-dev to build-depends.
Darik Horn [Sun, 1 Jan 2012 03:28:55 +0000 (21:28 -0600)]
Add libselinux1-dev to build-depends.

The /sbin/zfs utility can be selinux aware if the libselinux1-dev
package is installed at build time.

The libselinux1 package is in the Debian base system.

This change is enabled by upstream commit
  SHA afd7da0ce72c3b3554079644d73e90fe6d2bf955

12 years agoWrap long lines in the debian/control file.
Darik Horn [Sun, 1 Jan 2012 03:28:17 +0000 (21:28 -0600)]
Wrap long lines in the debian/control file.

12 years agoRemove the mountall dependency from zfs-initramfs.
Darik Horn [Sun, 1 Jan 2012 03:16:58 +0000 (21:16 -0600)]
Remove the mountall dependency from zfs-initramfs.

The mountall utility is not in the regular initrd manifest for Ubuntu,
and it is not used to start a native ZFS root filesystem.

Depending on mountall unnecessarily prevents zfs-initramfs from being
installed on vanilla Debian systems.

Closes: dajhorn/pkg-zfs#9
12 years agoPPA 0.6.0.42-0ubuntu1 release.
Darik Horn [Fri, 23 Dec 2011 13:28:02 +0000 (07:28 -0600)]
PPA 0.6.0.42-0ubuntu1 release.

12 years agoRefresh debian/patches after upstream merge.
Darik Horn [Fri, 23 Dec 2011 13:26:09 +0000 (07:26 -0600)]
Refresh debian/patches after upstream merge.

12 years agoMerge branch 'upstream'
Darik Horn [Fri, 23 Dec 2011 13:25:29 +0000 (07:25 -0600)]
Merge branch 'upstream'

12 years agoMove Arch Linux's VENDOR check above Ubuntu's
Prakash Surya [Sat, 17 Dec 2011 06:32:54 +0000 (22:32 -0800)]
Move Arch Linux's VENDOR check above Ubuntu's

If the lsb-release package is installed on an Arch Linux distribution,
the configure step will incorrectly detect the running distribution as
Ubuntu. This is a result of both distributions providing an
/etc/lsb-release file, and the Ubuntu VENDOR check being performed
first.

Since the Arch Linux test check's for a file more specific to the Arch
Linux distribution, moving Arch Linux's VENDOR check above Unbuntu's
check provides a quick and easy solution.

Signed-off-by: Prakash Surya <surya1@llnl.gov>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoAdd LIBSELINUX to mount_zfs_LDFLAGS.
Darik Horn [Sat, 17 Dec 2011 01:02:41 +0000 (19:02 -0600)]
Add LIBSELINUX to mount_zfs_LDFLAGS.

Regenerating the autotools configuration on Debian and Ubuntu systems
causes compilation to fail with this error message:

  cmd/mount_zfs/../../cmd/mount_zfs/mount_zfs.c:403:
    undefined reference to `is_selinux_enabled'

In the automake template, set "mount_zfs_LDFLAGS = ... $(LIBSELINUX)"
so that the /sbin/mount.zfs utility is linked to libselinux.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoLinux 3.2 compat: set_nlink()
Darik Horn [Fri, 16 Dec 2011 21:15:12 +0000 (15:15 -0600)]
Linux 3.2 compat: set_nlink()

Directly changing inode->i_nlink is deprecated in Linux 3.2 by commit

  SHA: bfe8684869601dacfcb2cd69ef8cfd9045f62170

Use the new set_nlink() kernel function instead.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes: #462
12 years agoUpdate the character class in the zpool man page.
Darik Horn [Fri, 16 Dec 2011 20:17:00 +0000 (14:17 -0600)]
Update the character class in the zpool man page.

ZoL and all Solaris derivatives allow pool names to contain the colon
and space characters. Update the man page to reflect current behavior.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes: #438
12 years agoPPA 0.6.0.41-0ubuntu1 release.
Darik Horn [Thu, 15 Dec 2011 16:12:57 +0000 (10:12 -0600)]
PPA 0.6.0.41-0ubuntu1 release.

12 years agoMerge branch 'upstream'
Darik Horn [Thu, 15 Dec 2011 16:11:49 +0000 (10:11 -0600)]
Merge branch 'upstream'

12 years agoAdd make rule for building Arch Linux packages
Prakash Surya [Thu, 8 Dec 2011 01:02:42 +0000 (17:02 -0800)]
Add make rule for building Arch Linux packages

Added the necessary build infrastructure for building packages
compatible with the Arch Linux distribution. As such, one can now run:

    $ ./configure
    $ make pkg     # Alternatively, one can run 'make arch' as well

on the Arch Linux machine to create two binary packages compatible with
the pacman package manager, one for the zfs userland utilities and
another for the zfs kernel modules. The new packages can then be
installed by running:

    # pacman -U $package.pkg.tar.xz

In addition, source-only packages suitable for an Arch Linux chroot
environment or remote builder can also be build using the 'sarch' make
rule.

NOTE: Since the source dist tarball is created on the fly from the head
of the build tree, it's MD5 hash signature will be continually influx.
As a result, the md5sum variable was intentionally omitted from the
PKGBUILD files, and the '--skipinteg' makepkg option is used. This may
or may not have any serious security implications, as the source tarball
is not being downloaded from an outside source.

Signed-off-by: Prakash Surya <surya1@llnl.gov>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #491

12 years agoIllumos #734: Use taskq_dispatch_ent() interface
Garrett D'Amore [Tue, 8 Nov 2011 00:26:52 +0000 (16:26 -0800)]
Illumos #734: Use taskq_dispatch_ent() interface

It has been observed that some of the hottest locks are those
of the zio taskqs.  Contention on these locks can limit the
rate at which zios are dispatched which limits performance.

This upstream change from Illumos uses new interface to the
taskqs which allow them to utilize a prealloc'ed taskq_ent_t.
This removes the need to perform an allocation at dispatch
time while holding the contended lock.  This has the effect
of improving system performance.

Reviewed by: Albert Lee <trisk@nexenta.com>
Reviewed by: Richard Lowe <richlowe@richlowe.net>
Reviewed by: Alexey Zaytsev <alexey.zaytsev@nexenta.com>
Reviewed by: Jason Brian King <jason.brian.king@gmail.com>
Reviewed by: George Wilson <gwilson@zfsmail.com>
Reviewed by: Adam Leventhal <ahl@delphix.com>
Approved by: Gordon Ross <gwr@nexenta.com>

References to Illumos issue:
  https://www.illumos.org/issues/734

Ported-by: Prakash Surya <surya1@llnl.gov>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #482

12 years agoSet zvol_major/zvol_threads permissions
Brian Behlendorf [Wed, 7 Dec 2011 17:23:44 +0000 (09:23 -0800)]
Set zvol_major/zvol_threads permissions

The zvol_major and zvol_threads module options were being created
with 0 permission bits.  This prevented them from being listed in
the /sys/module/zfs/parameters/ directory, although they were
visible in `modinfo zfs`.  This patch fixes the issue by updating
the permission bits to 0444.  For the moment these options must
be read-only because they are used during module initialization.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Issue #392

12 years agoPPA 0.6.0.40-0ubuntu1 release.
Darik Horn [Tue, 6 Dec 2011 02:15:34 +0000 (20:15 -0600)]
PPA 0.6.0.40-0ubuntu1 release.

12 years agoRevert "Depend on udev that provides stand-alone path_id."
Darik Horn [Tue, 6 Dec 2011 02:13:17 +0000 (20:13 -0600)]
Revert "Depend on udev that provides stand-alone path_id."

This reverts commit ad41a1ca2de555873638d2ed042ad6a6ecd8611d.

12 years agoMerge branch 'upstream'
Darik Horn [Tue, 6 Dec 2011 02:09:57 +0000 (20:09 -0600)]
Merge branch 'upstream'

12 years agoUpdate default ARC memory limits
Brian Behlendorf [Mon, 5 Dec 2011 18:08:29 +0000 (10:08 -0800)]
Update default ARC memory limits

In the upstream OpenSolaris ZFS code the maximum ARC usage is
limited to 3/4 of memory or all but 1GB, whichever is larger.
Because of how Linux's VM subsystem is organized these defaults
have proven to be too large which can lead to stability issues.

To avoid making everyone manually tune the ARC the defaults are
being changed to 1/2 of memory or all but 4GB.  The rational for
this is as follows:

* Desktop Systems (less than 8GB of memory)

  Limiting the ARC to 1/2 of memory is desirable for desktop
  systems which have highly dynamic memory requirements.  For
  example, launching your web browser can suddenly result in a
  demand for several gigabytes of memory.  This memory must be
  reclaimed from the ARC cache which can take some time.  The
  user will experience this reclaim time as a sluggish system
  with poor interactive performance.  Thus in this case it is
  preferable to leave the memory as free and available for
  immediate use.

* Server Systems (more than 8GB of memory)

  Using all but 4GB of memory for the ARC is preferable for
  server systems.  These systems often run with minimal user
  interaction and have long running daemons with relatively
  stable memory demands.  These systems will benefit most by
  having as much data cached in memory as possible.

These values should work well for most configurations.  However,
if you have a desktop system with more than 8GB of memory you may
wish to further restrict the ARC.  This can still be accomplished
by setting the 'zfs_arc_max' module option.

Additionally, keep in mind these aren't currently hard limits.
The ARC is based on a slab implementation which can suffer from
memory fragmentation.  Because this fragmentation is not visible
from the ARC it may believe it is within the specified limits while
actually consuming slightly more memory.  How much more memory get's
consumed will be determined by how badly fragmented the slabs are.

In the long term this can be mitigated by slab defragmentation code
which was OpenSolaris solution.  Or preferably, using the page cache
to back the ARC under Linux would be even better.  See issue #75
for the benefits of more tightly integrating with the page cache.

This change also fixes a issue where the default ARC max was being
set incorrectly for machines with less than 2GB of memory.  The
constant in the arc_c_max comparison must be explicitly cast to
a uint64_t type to prevent overflow and the wrong conditional
branch being taken.  This failure was typically observed in VMs
which are commonly created with less than 2GB of memory.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Issue #75

12 years agoQuote variables in the zfs.lsb script.
Darik Horn [Sun, 4 Dec 2011 21:32:18 +0000 (15:32 -0600)]
Quote variables in the zfs.lsb script.

For consistency and safety, quote all variables in the zfs.lsb script.
This protects in the unlikely case that any of the file names contain
whitespace.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Issue #439

12 years agoSource /etc/default/zfs after setting defaults.
Darik Horn [Sun, 4 Dec 2011 20:18:28 +0000 (14:18 -0600)]
Source /etc/default/zfs after setting defaults.

Let the administrator override all script variables by sourcing the
/etc/default/zfs file after the default values are set.

The spelling mistake in the old path name makes it unlikely that this
bug affected any users.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes: #371
12 years agoDemote the whackbang in the zpool_id script.
Darik Horn [Sun, 4 Dec 2011 20:01:58 +0000 (14:01 -0600)]
Demote the whackbang in the zpool_id script.

The zpool_id script is posixly correct and does not use bash
features, so change its whackbang from /bin/bash to /bin/sh.

Debian policy also stipulates that system scripts be dash compatible.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoDemote egrep to grep in the zpool_id script.
Darik Horn [Sun, 4 Dec 2011 19:58:53 +0000 (13:58 -0600)]
Demote egrep to grep in the zpool_id script.

Direct invocation of GNU egrep is deprecated by its man page, and the
its argument in the zpool_id script is not an extended expression.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoQuote variables in the zpool_id script.
Darik Horn [Sun, 4 Dec 2011 19:50:27 +0000 (13:50 -0600)]
Quote variables in the zpool_id script.

For consistency and safety, quote all variables in the zpool_id
script. This accomodates a `-c CONFIG` parameter value with
whitespace in the path name.

Also fix a typo in the usage synopsis for `-h`.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Issue #439

12 years agoSupport path_id changes in udev 174.
Darik Horn [Sun, 4 Dec 2011 19:10:46 +0000 (13:10 -0600)]
Support path_id changes in udev 174.

The /lib/udev/path_id helper became a builtin command in the udev 174
release, so test whether path_id is external in the zpool_id script.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes: #429
12 years agoAdded comments for libshare's NFS functions.
Gunnar Beutner [Sat, 3 Dec 2011 22:01:06 +0000 (23:01 +0100)]
Added comments for libshare's NFS functions.

Some of the functions' purpose wasn't immediately obvious without
additional explanations. This commit adds these missing comments.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoFix configure tests to play nice with GCC 4.6
Prakash Surya [Tue, 29 Nov 2011 22:31:20 +0000 (14:31 -0800)]
Fix configure tests to play nice with GCC 4.6

As of GCC 4.6, specific kernel 2.6.32 header files do not compile
cleanly without warnings. One specific example of this is the
arch/x86/include/asm/percpu.h file. Thus, a few of the configure tests
were getting hung up on this and the '-Wno-unsued-but-set-variables'
compile option had to be introduced.

Signed-off-by: Prakash Surya <surya1@llnl.gov>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #459

12 years agoAllow xattrs on symlinks
Brian Behlendorf [Tue, 29 Nov 2011 17:05:04 +0000 (09:05 -0800)]
Allow xattrs on symlinks

The Solaris version of ZFS does not allow xattrs to be set on
symlinks due to the way they implemented the attropen() system
call.  Linux however implements xattrs through the lgetxattr()
and lsetxattr() system calls which do not have this limitation.

The only reason this hasn't always worked under ZFS on Linux
is that the xattr handlers were not registered for symlink type
inodes.  This was done simply to be consistent with the Solaris
behavior.

Upon futher reflection I believe this should be allowed under
Linux.  The only ill effect would be that the xattrs on symlinks
will not be visible when the pool is imported on a Solaris
system.  This also has the benefit that it allows for SELinux
style security xattr labeling which expects to be able to set
xattrs on all inode types.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #272

12 years agoImplement SA based xattrs
Brian Behlendorf [Mon, 24 Oct 2011 23:55:20 +0000 (16:55 -0700)]
Implement SA based xattrs

The current ZFS implementation stores xattrs on disk using a hidden
directory.  In this directory a file name represents the xattr name
and the file contexts are the xattr binary data.  This approach is
very flexible and allows for arbitrarily large xattrs.  However,
it also suffers from a significant performance penalty.  Accessing
a single xattr can requires up to three disk seeks.

  1) Lookup the dnode object.
  2) Lookup the dnodes's xattr directory object.
  3) Lookup the xattr object in the directory.

To avoid this performance penalty Linux filesystems such as ext3
and xfs try to store the xattr as part of the inode on disk.  When
the xattr is to large to store in the inode then a single external
block is allocated for them.  In practice most xattrs are small
and this approach works well.

The addition of System Attributes (SA) to zfs provides us a clean
way to make this optimization.  When the dataset property 'xattr=sa'
is set then xattrs will be preferentially stored as System Attributes.
This allows tiny xattrs (~100 bytes) to be stored with the dnode and
up to 64k of xattrs to be stored in the spill block.  If additional
xattr space is required, which is unlikely under Linux, they will be
stored using the traditional directory approach.

This optimization results in roughly a 3x performance improvement
when accessing xattrs which brings zfs roughly to parity with ext4
and xfs (see table below).  When multiple xattrs are stored per-file
the performance improvements are even greater because all of the
xattrs stored in the spill block will be cached.

However, by default SA based xattrs are disabled in the Linux port
to maximize compatibility with other implementations.  If you do
enable SA based xattrs then they will not be visible on platforms
which do not support this feature.

----------------------------------------------------------------------
   Time in seconds to get/set one xattr of N bytes on 100,000 files
------+--------------------------------+------------------------------
      |            setxattr            |            getxattr
bytes |  ext4     xfs zfs-dir  zfs-sa  |  ext4     xfs zfs-dir  zfs-sa
------+--------------------------------+------------------------------
1     |  2.33   31.88   21.50    4.57  |  2.35    2.64    6.29    2.43
32    |  2.79   30.68   21.98    4.60  |  2.44    2.59    6.78    2.48
256   |  3.25   31.99   21.36    5.92  |  2.32    2.71    6.22    3.14
1024  |  3.30   32.61   22.83    8.45  |  2.40    2.79    6.24    3.27
4096  |  3.57  317.46   22.52   10.73  |  2.78   28.62    6.90    3.94
16384 |   n/a 2342.39   34.30   19.20  |   n/a   45.44  145.90    7.55
65536 |   n/a 2941.39  128.15  131.32* |   n/a  141.92  256.85  262.12*

Legend:
* ext4      - Stock RHEL6.1 ext4 mounted with '-o user_xattr'.
* xfs       - Stock RHEL6.1 xfs mounted with default options.
* zfs-dir   - Directory based xattrs only.
* zfs-sa    - Prefer SAs but spill in to directories as needed, a
              trailing * indicates overflow in to directories occured.

NOTE: Ext4 supports 4096 bytes of xattr name/value pairs per file.
NOTE: XFS and ZFS have no limit on xattr name/value pairs per file.
NOTE: Linux limits individual name/value pairs to 65536 bytes.
NOTE: All setattr/getattr's were done after dropping the cache.
NOTE: All tests were run against a single hard drive.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Issue #443

12 years agoIn autoconf v2.68, AC_LANG_PROGRAM must be quoted
Prakash Surya [Fri, 25 Nov 2011 00:37:27 +0000 (16:37 -0800)]
In autoconf v2.68, AC_LANG_PROGRAM must be quoted

This change updates the AC_LANG_PROGRAM autoconf macro invocations to be
wrapped in quotes. As of autoconf version 2.68, the quotes are necessary
to prevent warnings from appearing. Specifically, the autoconf v2.68
Forward Porting Notes specifies:

    It is important to note that you need to ensure that the call to
    AC_LANG_SOURCE is quoted and not expanded, otherwise that will
    cause the warning to appear nonetheless.

Finally, because of the additional quoting we can drop the extra
quotas used by the ZFS_AC_CONFIG_USER_STACK_GUARD autoconf check.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #464

12 years agoPPA 0.6.0.39-0ubuntu1 release.
Darik Horn [Tue, 22 Nov 2011 14:37:35 +0000 (08:37 -0600)]
PPA 0.6.0.39-0ubuntu1 release.

12 years agoMerge branch 'upstream'
Darik Horn [Tue, 22 Nov 2011 14:35:41 +0000 (08:35 -0600)]
Merge branch 'upstream'

12 years agoAllow leading digits in userquota/groupquota names
Suman Chakravartula [Sat, 19 Nov 2011 19:53:12 +0000 (11:53 -0800)]
Allow leading digits in userquota/groupquota names

While setting/getting userquota and groupquota properties, the input
was not treated as a possible username or groupname if it had a
leading digit. While useradd in linux recommends the regexp
[a-z_][a-z0-9_-]*[$]? , it is not enforced. This causes problem for
usernames with leading digits in them. We need to be able to support
getting and setting properties for this unconventional but possible
input category

I've updated the code to validate the username or groupname directly
via the API. Also, note that I moved this validation to the beginning
before the check for SID names with @. This also supports usernames
with @ character in them which are valid. Only when input with @ is
not a valid username, it is interpreted as a potential SID name.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #428

12 years agoLimit maximum ashift value to 12
Brian Behlendorf [Fri, 11 Nov 2011 22:50:15 +0000 (14:50 -0800)]
Limit maximum ashift value to 12

While we initially allowed you to set your ashift as large as 17
(SPA_MAXBLOCKSIZE) that is actually unsafe.  What wasn't considered
at the time is that each uberblock written to the vdev label ring
buffer will be of this size.  Now the buffer is statically sized
to 128k and we need to be able to fit several uberblocks in it.
With a large ashift that becomes a problem.

Therefore I'm reducing the maximum configurable ashift value to 12.
This is large enough for the 4k sector drives and small enough that
we can still keep the most recent 32 uberblock in the vdev label
ring buffer.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #425

12 years agoPPA 0.6.0.38-0ubuntu1 release.
Darik Horn [Fri, 11 Nov 2011 15:07:36 +0000 (09:07 -0600)]
PPA 0.6.0.38-0ubuntu1 release.

12 years agoRefresh debian/patches after upstream merge.
Darik Horn [Fri, 11 Nov 2011 15:05:17 +0000 (09:05 -0600)]
Refresh debian/patches after upstream merge.

12 years agoMerge branch 'upstream'
Darik Horn [Fri, 11 Nov 2011 15:02:44 +0000 (09:02 -0600)]
Merge branch 'upstream'

12 years agoFix depmod warning
Brian Behlendorf [Thu, 10 Nov 2011 18:22:39 +0000 (10:22 -0800)]
Fix depmod warning

The depmod utility from module-init-tools 3.12-pre3 generates a
warning when the -e option is used without -E or -F.  This was
observed under OpenSuse 11.4.  To resolve the issue when the
exact System.map-* for your kernel cannot be found fallback to
a generic safe '/sbin/depmod -a'.

  WARNING: -e needs -E or -F

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoLinux 3.1 compat, fops->fsync()
Brian Behlendorf [Thu, 10 Nov 2011 04:47:59 +0000 (20:47 -0800)]
Linux 3.1 compat, fops->fsync()

The Linux 3.1 kernel updated the fops->fsync() callback yet again.
They now pass the requested range and delegate the responsibility
for calling filemap_write_and_wait_range() to the callback.  In
addition imutex is no longer held by the caller and the callback
is responsible for taking the lock if required.

This commit updates the code to provide a zpl_fsync() function
for the updated API.  Implementations for the previous two APIs
are also maintained for compatibility.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #445

12 years agoSuppress packaging warning
Brian Behlendorf [Tue, 8 Nov 2011 19:07:02 +0000 (11:07 -0800)]
Suppress packaging warning

Only under Ubuntu Lucid the rpm packaging step mistakenly adds
the following files twice to the package because of the /lib
naming convention.  This is harmless but results in a warning
which the buildot flags as a failure.  Suppress this warning.

  warning: File listed twice: /lib/udev/rules.d
  warning: File listed twice: /lib/udev/rules.d/60-zpool.rules
  warning: File listed twice: /lib/udev/rules.d/60-zvol.rules
  warning: File listed twice: /lib/udev/rules.d/90-zfs.rules
  warning: File listed twice: /lib/udev/sas_switch_id
  warning: File listed twice: /lib/udev/zpool_id
  warning: File listed twice: /lib/udev/zvol_id

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoSimplify BDI integration
Brian Behlendorf [Tue, 8 Nov 2011 00:39:03 +0000 (16:39 -0800)]
Simplify BDI integration

Update the code to use the bdi_setup_and_register() helper to
simplify the bdi integration code.  The updated code now just
registers the bdi during mount and destroys it during unmount.

The only complication is that for 2.6.32 - 2.6.33 kernels the
helper wasn't available so in these cases the zfs code must
provide it.  Luckily the bdi_setup_and_register() function
is trivial.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #367

12 years agoDisown dataset in zfs_sb_create()
Brian Behlendorf [Tue, 8 Nov 2011 00:25:49 +0000 (16:25 -0800)]
Disown dataset in zfs_sb_create()

Fix an unlikely failure cause in zfs_sb_create() which could
leave the dataset owned on error and thus unavailable until
after a reboot.  Disown the dataset if SA are expected but
are in fact missing.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoPPA 0.6.0.37-0ubuntu1 release.
Darik Horn [Sat, 5 Nov 2011 15:30:40 +0000 (10:30 -0500)]
PPA 0.6.0.37-0ubuntu1 release.

12 years agoMerge branch 'upstream'
Darik Horn [Sat, 5 Nov 2011 15:27:43 +0000 (10:27 -0500)]
Merge branch 'upstream'

12 years agoImprove meta data performance
Brian Behlendorf [Tue, 1 Nov 2011 23:56:48 +0000 (16:56 -0700)]
Improve meta data performance

Profiling the system during meta data intensive workloads such
as creating/removing millions of files, revealed that the system
was cpu bound.  A large fraction of that cpu time was being spent
waiting on the virtual address space spin lock.

It turns out this was caused by certain heavily used kmem_caches
being backed by virtual memory.  By default a kmem_cache will
dynamically determine the type of memory used based on the object
size.  For large objects virtual memory is usually preferable
and for small object physical memory is a better choice.  See
the spl_slab_alloc() function for a longer discussion on this.

However, there is a certain amount of gray area when defining a
'large' object.  For the following caches it turns out they were
just over the line:

  * dnode_cache
  * zio_cache
  * zio_link_cache
  * zio_buf_512_cache
  * zfs_data_buf_512_cache

Now because we know there will be a lot of churn in these caches,
and because we know the slabs will still be reasonably sized.
We can safely request with the KMC_KMEM flag that the caches be
backed with physical memory addresses.  This entirely avoids the
need to serialize on the virtual address space lock.

As a bonus this also reduces our vmalloc usage which will be good
for 32-bit kernels which have a very small virtual address space.
It will also probably be good for interactive performance since
unrelated processes could also block of this same global lock.
Finally, we may see less cpu time being burned in the arc_reclaim
and txg_sync_threads.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Issue #258

12 years agoFix NULL deref in balance_pgdat()
Brian Behlendorf [Tue, 1 Nov 2011 20:07:41 +0000 (13:07 -0700)]
Fix NULL deref in balance_pgdat()

Be careful not to unconditionally clear the PF_MEMALLOC bit in
the task structure.  It may have already been set when entering
zpl_putpage() in which case it must remain set on exit.  In
particular the kswapd thread will have PF_MEMALLOC set in
order to prevent it from entering direct reclaim.  By clearing
it we allow the following NULL deref to potentially occur.

  BUG: unable to handle kernel NULL pointer dereference at (null)
  IP: [<ffffffff8109c7ab>] balance_pgdat+0x25b/0x4ff

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Issue #287

12 years agoFix a race condition in zfs_getattr_fast()
Gunnar Beutner [Thu, 3 Nov 2011 05:48:13 +0000 (06:48 +0100)]
Fix a race condition in zfs_getattr_fast()

zfs_getattr_fast() was missing a lock on the ZFS superblock which
could result in zfs_znode_dmu_fini() clearing the zp->z_sa_hdl member
while zfs_getattr_fast() was accessing the znode. The result of this
would usually be a panic.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Fixes #431

12 years agoPPA 0.6.0.36-0ubuntu1 release.
Darik Horn [Sat, 29 Oct 2011 00:40:00 +0000 (19:40 -0500)]
PPA 0.6.0.36-0ubuntu1 release.

12 years agoMerge branch 'upstream'
Darik Horn [Sat, 29 Oct 2011 00:38:41 +0000 (19:38 -0500)]
Merge branch 'upstream'

12 years agoDepend on udev that provides stand-alone path_id.
Darik Horn [Sat, 29 Oct 2011 00:21:08 +0000 (19:21 -0500)]
Depend on udev that provides stand-alone path_id.

Per issue zfsonlinux/zfs#147 by @jvolkman:

The `zpool_id` script invokes `/lib/udev/path_id`, which was removed
in udev-174, so depend the zfsutils package on earlier releases.

12 years agoIllumos #1661: Fix flaw in sa_find_sizes() calculation
Xin Li [Fri, 21 Oct 2011 23:39:53 +0000 (16:39 -0700)]
Illumos #1661: Fix flaw in sa_find_sizes() calculation

When calculating space needed for SA_BONUS buffers, hdrsize is
always rounded up to next 8-aligned boundary. However, in two places
the round up was done against sum of 'total' plus hdrsize. On the
other hand, hdrsize increments by 4 each time, which means in certain
conditions, we would end up returning with will_spill == 0 and
(total + hdrsize) larger than full_space, leading to a failed
assertion because it's invalid for dmu_set_bonus.

Reviewed by: Matthew Ahrens <matt@delphix.com>
Reviewed by: Dan McDonald <danmcd@nexenta.com>
Approved by: Gordon Ross <gwr@nexenta.com>

References to Illumos issue:
  https://www.illumos.org/issues/1661

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #426

12 years agoChange sun.com URLs to zfsonlinux.org
Darik Horn [Sat, 22 Oct 2011 15:44:03 +0000 (10:44 -0500)]
Change sun.com URLs to zfsonlinux.org

ZFS contains error messages that point to the defunct www.sun.com
domain, which is currently offline.  Change these error messages
to use the zfsonlinux.org mirror instead.

This commit depends on:

  zfsonlinux/zfsonlinux.github.com@8e10ead3dc66e2204ae893d81528371405f107e7

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoPPA 0.6.0.35-0ubuntu2 release.
Darik Horn [Wed, 19 Oct 2011 23:12:41 +0000 (18:12 -0500)]
PPA 0.6.0.35-0ubuntu2 release.

Increment the META version. The previous build was bad because the
volatile-version.patch was not updated, which caused this error:

  Setting up zfs-dkms (0.6.0.35-0ubuntu1~oneiric1) ...
  First Installation: checking all kernels...
  Building only for 3.0.0-12-generic
  This package appears to be a binaries-only package
   you will not be able to build against kernel 3.0.0-12-generic
   since the package source was not provided

12 years agoPPA 0.6.0.35-0ubuntu1 release.
Darik Horn [Wed, 19 Oct 2011 20:27:58 +0000 (15:27 -0500)]
PPA 0.6.0.35-0ubuntu1 release.

12 years agoMerge branch 'upstream'
Darik Horn [Wed, 19 Oct 2011 20:25:21 +0000 (15:25 -0500)]
Merge branch 'upstream'

12 years agoInclude distribution in release
Brian Behlendorf [Wed, 19 Oct 2011 18:43:11 +0000 (11:43 -0700)]
Include distribution in release

Common practice is to include the distribution in the package release.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoSet mtime on symbolic links
Brian Behlendorf [Tue, 18 Oct 2011 21:51:03 +0000 (14:51 -0700)]
Set mtime on symbolic links

Register the setattr/getattr callbacks for symlinks.  Without these
the generic inode_setattr() and generic_fillattr() functions will
be used.  In the setattr case this will only result in the inode being
updated in memory, the dirty_inode callback would also normally run
but none is registered for zfs.

The straight forward fix is to set the setattr/getattr callbacks
for symlinks so they are handled just like files and directories.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #412

12 years agoIllumos #755: dmu_recv_stream builds incomplete guid_to_ds_map
Alexander Stetsenko [Sun, 16 Oct 2011 06:41:05 +0000 (08:41 +0200)]
Illumos #755: dmu_recv_stream builds incomplete guid_to_ds_map

An incomplete guid_to_ds_map would cause restore_write_byref() to fail
while receiving a de-duplicated backup stream.

Reviewed by: Matthew Ahrens <mahrens@delphix.com>
Reviewed by: Garrett D`Amore <garrett@nexenta.com>
Reviewed by: Gordon Ross <gwr@nexenta.com>
Approved by: Gordon Ross <gwr@nexenta.com>

References to Illumos issue and patch:
- https://www.illumos.org/issues/755
- https://github.com/illumos/illumos-gate/commit/ec5cf9d53a

Signed-off-by: Gunnar Beutner <gunnar@beutner.name>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #372

12 years agoUse @ZFS_META LICENSE@ in spec.in files
Ned Bass [Mon, 17 Oct 2011 18:43:55 +0000 (11:43 -0700)]
Use @ZFS_META LICENSE@ in spec.in files

zfs.spec.in and zfs-modules.spec.in had the License field incorrectly
set to @LICENSE@, causing generated rpm packages to report an invalid
license string.  Fix this by using @ZFS_META_LICENSE@.

Signed-off-by: Ned Bass <bass6@llnl.gov>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #422

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoPPA 0.6.0.34-0ubuntu1 release.
Darik Horn [Wed, 12 Oct 2011 02:18:50 +0000 (21:18 -0500)]
PPA 0.6.0.34-0ubuntu1 release.

12 years agoAdd provides lustre-backend-fs to deb
Darik Horn [Wed, 12 Oct 2011 01:21:23 +0000 (20:21 -0500)]
Add provides lustre-backend-fs to deb

Reflect upstream commit 571837e130e313cdc5bd91497540de8379e4ea23 in
the debian packaging.

  The Lustre packages satify their backend fs requirement by
  checking that lustre-backend-fs is provided.  Update the zfs
  packaging accordingly.

12 years agoAdd patch: Use /bin/bash to invoke dracut scripts.
Darik Horn [Wed, 12 Oct 2011 00:57:42 +0000 (19:57 -0500)]
Add patch: Use /bin/bash to invoke dracut scripts.

The system shell on most Debian and Ubuntu systems is dash, so change
the whack-bang in the Dracut scripts from /bin/sh to /bin/bash.

The `printf "\x$DD\x$CC\x$BB\x$AA" >$TMP` line is problematic because
dash builtin does not implement the hex format.

The dracut/ tree needs more testing and tweaking for the older
dracut-005 package that is in Debian Squeeze and Ubuntu Oneiric.

12 years agoAdd news item: The PPA for ZFS is moving.
Darik Horn [Wed, 12 Oct 2011 00:36:18 +0000 (19:36 -0500)]
Add news item: The PPA for ZFS is moving.

12 years agoMerge branch 'upstream'
Darik Horn [Wed, 12 Oct 2011 00:23:36 +0000 (19:23 -0500)]
Merge branch 'upstream'

12 years agoDisable 90-zfs.rules for test suite
Brian Behlendorf [Tue, 11 Oct 2011 21:36:42 +0000 (14:36 -0700)]
Disable 90-zfs.rules for test suite

When running the zconfig.sh, zpios-sanity.sh, and zfault.sh
from the installed packages the 90-zfs.rules can cause failures.
These will occur because the test suite assumes it has full
control over loading/unloading the module stack.  If the stack
gets asynchronously loaded by the udev rule the test suite
will treat it as a failure.  Resolve the issue by disabling
the offending rule during the tests and enabling it on exit.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoExport symbols for the VFS API
Brian Behlendorf [Mon, 10 Oct 2011 17:42:59 +0000 (10:42 -0700)]
Export symbols for the VFS API

Export all symbols already marked extern in the zfs_vfsops.h
header.  Several non-static symbols have also been added to
the header and exportewd.  This allows external modules to
more easily create and manipulate properly created ZFS
filesystem type datasets.

Rename zfsvfs_teardown() to zfs_sb_teardown and export it.
This is done simply for consistency with the rest of the code
base.  All other zfsvfs_* functions have already been renamed.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoAdd provides lustre-backend-fs to rpm
Brian Behlendorf [Fri, 7 Oct 2011 16:14:12 +0000 (09:14 -0700)]
Add provides lustre-backend-fs to rpm

The Lustre packages satify their backend fs requirement by
checking that lustre-backend-fs is provided.  Update the zfs
packaging accordingly.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoPrep zfs-0.6.0-rc6 tag
Brian Behlendorf [Thu, 6 Oct 2011 21:10:45 +0000 (14:10 -0700)]
Prep zfs-0.6.0-rc6 tag

Create the sixth 0.6.0 release candidate tag (rc6).

12 years agoExport symbols for the full SA API
Brian Behlendorf [Fri, 30 Sep 2011 17:33:26 +0000 (10:33 -0700)]
Export symbols for the full SA API

Export all the symbols for the system attribute (SA) API.  This
allows external module to cleanly manipulate the SAs associated
with a dnode.  Documention for the SA API can be found in the
module/zfs/sa.c source.

This change also removes the zfs_sa_uprade_pre, and
zfs_sa_uprade_post prototypes.  The functions themselves were
dropped some time ago.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoSynchronize initramfs and system hostid
Brian Behlendorf [Fri, 30 Sep 2011 17:33:26 +0000 (10:33 -0700)]
Synchronize initramfs and system hostid

Relying on an /etc/hostid file which is installed in the system
image breaks diskless systems which share an image.  Certain
cluster infrastructure such as MPI relies on all nodes having
a unique hostid.  However, we still must be careful to ensure
the hostid is syncronized between the initramfs and system
images when using zfs root filesystems.

To accompish this the automatically created /etc/hostid file has
been removed from the spl rpm packaging.  The /etc/hostid file
is now dynamically created for your initramfs as part of the
dracut install process.  This avoids the need to install it in
the actual system images.

This change also resolves the spl_hostid parameter handling
for dracut.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #398
Closes #399

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoFix 'unexpected operator' bashism
Oleg Stepura [Thu, 29 Sep 2011 20:59:07 +0000 (23:59 +0300)]
Fix 'unexpected operator' bashism

The == operator is specific to bash, replace it with the more
correct = operator for sh.  This bug can prevent correct booting
when using a zfs root pool.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #416

12 years agoAdd "activate update-initramfs" dpkg trigger.
Darik Horn [Thu, 29 Sep 2011 18:23:13 +0000 (13:23 -0500)]
Add "activate update-initramfs" dpkg trigger.

Use the deb-triggers infrastructure to automatically call
`update-initramfs` whenever the zfs-initramfs package changes.

12 years agoPPA 0.6.0.33-0ubuntu1 release.
Darik Horn [Thu, 29 Sep 2011 03:40:22 +0000 (22:40 -0500)]
PPA 0.6.0.33-0ubuntu1 release.

12 years agoMerge branch 'upstream'
Darik Horn [Thu, 29 Sep 2011 03:38:43 +0000 (22:38 -0500)]
Merge branch 'upstream'

12 years agozpl: Fix "df -i" to have better free inodes value
Andreas Dilger [Fri, 16 Sep 2011 09:22:00 +0000 (03:22 -0600)]
zpl: Fix "df -i" to have better free inodes value

Due to the confusion in Linux statfs between f_frsize and f_bsize
the blocks counts were changed to be in units of z_max_blksize
instead of SPA_MINBLOCKSIZE as it is on other platforms.

However, the free files calculation in zfs_statvfs() is limited by
the free blocks count, since each dnode consumes one block/sector.
This provided a reasonable estimate of free inodes, but on Linux
this meant that the free inodes count was underestimated by a large
amount, since 256 512-byte dnodes can fit into a 128kB block, and
more if the max blocksize is increased to 1MB or larger.

Also, the use of SPA_MINBLOCKSIZE is semantically incorrect since
DNODE_SIZE may change to a value other than SPA_MINBLOCKSIZE and
may even change per dataset, and devices with large sectors setting
ashift will also use a larger blocksize.

Correct the f_ffree calculation to use (availbytes >> DNODE_SHIFT)
to more accurately compute the maximum number of dnodes that can
be created.

Signed-off-by: Andreas Dilger <adilger@whamcloud.com>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #413
Closes #400

12 years agoFix uninitialized varible in zfs_do_userspace()
Brian Behlendorf [Tue, 27 Sep 2011 23:32:53 +0000 (16:32 -0700)]
Fix uninitialized varible in zfs_do_userspace()

When compiling under Debian Lenny with gcc version 4.3.2
(Debian 4.3.2-1.1) the following warning occurs.  To quiet
the warning initialize 'error' to zero.  Newer versions of
gcc correctly determine that this uninitialized varible is
impossible because ZFS_NUM_USERQUOTA_PROPS is known to be
greater than zero.

  cmd/zfs/zfs_main.c:2377: warning: "error" may be
  used uninitialized in this function

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoExport symbols for the full ZAP API
Brian Behlendorf [Tue, 27 Sep 2011 23:07:35 +0000 (16:07 -0700)]
Export symbols for the full ZAP API

Export all the symbols for the ZAP API.  This allows external modules
to cleanly interface with ZAP type objects.  Previously only a subset
of the functionality was exposed.  Documention for the ZAP API can be
found in the sys/zap.h header.

This change also removes a duplicate zap_increment_int() prototype.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoMake libefi-created GPT compatible with gptfdisk
Zachary Bedell [Mon, 19 Sep 2011 01:35:42 +0000 (21:35 -0400)]
Make libefi-created GPT compatible with gptfdisk

GPT's created by libefi set the HeaderSize attribute in the GPT
header to 512 -- size of the GPT header INCLUDING the 420 padding
bytes at the end.  Most other tools set the size to 92 -- size of
the actual header itself excluding the padding.  Most tools check
the recorded HeaderSize when verifying CRC, but gptfdisk hardcodes
92 and thus reports CRC verification problems for full-disk vdevs
created IE with `zpool create pool sdc`.

This commit changes libefi's behavior for GPT creation and also
fixes several edge cases where libefi's behavior was similar
(though in an incompatible manner) to gptfdisk.  Libefi assumed
HeaderSize was always 512 even if the GPT recorded a different
value.  Sanity checks of the GPT headersize read from disk were
added before applying checksum calculation -- this will prevent
segfault in cases of bogus on-disk values.

Zpools created with the resuling libefi are verified as correct
both by parted and gptfdisk.  Also pool have been tested to
import correctly on ZFS on Linux as well as Solaris Express 11
livecd.

Signed-off-by: Zachary Bedell <zac@thebedells.org>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #344

12 years agoFix boot failure in Dracut scripts.
Zachary Bedell [Sun, 18 Sep 2011 03:42:43 +0000 (23:42 -0400)]
Fix boot failure in Dracut scripts.

mount-zfs.sh script incorrectly parsed results from zpool list.  Correct
bootfs attribute was only found on systems with a single pool or where
the bootable pool's name alphabetized to before all other pool names.
Boot failed when the bootable pool's name came after other pools
(IE 'rpool' and 'mypool' would fail to find bootfs on rpool.)

Patch correctly discards pools whose bootfs attribute is blank ('-').

Signed-off-by: Zachary Bedell <zac@thebedells.org>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #402

12 years agoUse automatic variable in Makefile
Ned Bass [Thu, 22 Sep 2011 22:36:42 +0000 (15:36 -0700)]
Use automatic variable in Makefile

As written, the $(init_SCRIPTS) rule in etc/init.d/Makefule.am
would not work as expected if the init_SCRIPTS variable were
to contain any elements other than zfs.  Fix this by replacing
the hard-coded 'zfs' reference with $@.

Signed-off-by: Ned Bass <bass6@llnl.gov>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Closes #410

12 years agoSuppress kmem_alloc() warning in zfs_prop_set_special()
Brian Behlendorf [Fri, 16 Sep 2011 03:23:50 +0000 (20:23 -0700)]
Suppress kmem_alloc() warning in zfs_prop_set_special()

Suppress the warning for this large kmem_alloc() because it is not
that far over the warning threshhold (8k) and it is short lived.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
12 years agoInstall zfs-devel headers in /usr/include
Brian Behlendorf [Mon, 12 Sep 2011 18:42:33 +0000 (11:42 -0700)]
Install zfs-devel headers in /usr/include

The zfs-devel header files for linking with the libspl/libzfs
libraries should be installed under /usr/include not /include.
Ensure the correct install location is used when building an
rpm package.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>