]> git.proxmox.com Git - rustc.git/blobdiff - src/jemalloc/include/jemalloc/internal/arena.h
Imported Upstream version 1.9.0+dfsg1
[rustc.git] / src / jemalloc / include / jemalloc / internal / arena.h
index 1f9857239c8ac11a4eea1986a02be3202224ccf3..3519873ce5009b99759cef37e846c8fd37eca8f4 100644 (file)
@@ -1,6 +1,8 @@
 /******************************************************************************/
 #ifdef JEMALLOC_H_TYPES
 
+#define        LARGE_MINCLASS          (ZU(1) << LG_LARGE_MINCLASS)
+
 /* Maximum number of regions in one run. */
 #define        LG_RUN_MAXREGS          (LG_PAGE - LG_TINY_MIN)
 #define        RUN_MAXREGS             (1U << LG_RUN_MAXREGS)
 /*
  * The minimum ratio of active:dirty pages per arena is computed as:
  *
- *   (nactive >> opt_lg_dirty_mult) >= ndirty
+ *   (nactive >> lg_dirty_mult) >= ndirty
  *
- * So, supposing that opt_lg_dirty_mult is 3, there can be no less than 8 times
- * as many active pages as dirty pages.
+ * So, supposing that lg_dirty_mult is 3, there can be no less than 8 times as
+ * many active pages as dirty pages.
  */
 #define        LG_DIRTY_MULT_DEFAULT   3
 
+typedef enum {
+       purge_mode_ratio = 0,
+       purge_mode_decay = 1,
+
+       purge_mode_limit = 2
+} purge_mode_t;
+#define        PURGE_DEFAULT           purge_mode_ratio
+/* Default decay time in seconds. */
+#define        DECAY_TIME_DEFAULT      10
+/* Number of event ticks between time checks. */
+#define        DECAY_NTICKS_PER_UPDATE 1000
+
+typedef struct arena_runs_dirty_link_s arena_runs_dirty_link_t;
 typedef struct arena_run_s arena_run_t;
 typedef struct arena_chunk_map_bits_s arena_chunk_map_bits_t;
 typedef struct arena_chunk_map_misc_s arena_chunk_map_misc_t;
@@ -28,17 +43,16 @@ typedef struct arena_chunk_s arena_chunk_t;
 typedef struct arena_bin_info_s arena_bin_info_t;
 typedef struct arena_bin_s arena_bin_t;
 typedef struct arena_s arena_t;
+typedef struct arena_tdata_s arena_tdata_t;
 
 #endif /* JEMALLOC_H_TYPES */
 /******************************************************************************/
 #ifdef JEMALLOC_H_STRUCTS
 
+#ifdef JEMALLOC_ARENA_STRUCTS_A
 struct arena_run_s {
-       /* Bin this run is associated with. */
-       arena_bin_t     *bin;
-
-       /* Index of next region that has never been allocated, or nregs. */
-       uint32_t        nextind;
+       /* Index of bin this run is associated with. */
+       szind_t         binind;
 
        /* Number of free regions in run. */
        unsigned        nfree;
@@ -53,15 +67,16 @@ struct arena_chunk_map_bits_s {
         * Run address (or size) and various flags are stored together.  The bit
         * layout looks like (assuming 32-bit system):
         *
-        *   ???????? ???????? ????nnnn nnnndula
+        *   ???????? ???????? ???nnnnn nnndumla
         *
         * ? : Unallocated: Run address for first/last pages, unset for internal
         *                  pages.
         *     Small: Run page offset.
-        *     Large: Run size for first page, unset for trailing pages.
+        *     Large: Run page count for first page, unset for trailing pages.
         * n : binind for small size class, BININD_INVALID for large size class.
         * d : dirty?
         * u : unzeroed?
+        * m : decommitted?
         * l : large?
         * a : allocated?
         *
@@ -73,47 +88,62 @@ struct arena_chunk_map_bits_s {
         * x : don't care
         * - : 0
         * + : 1
-        * [DULA] : bit set
-        * [dula] : bit unset
+        * [DUMLA] : bit set
+        * [dumla] : bit unset
         *
         *   Unallocated (clean):
-        *     ssssssss ssssssss ssss++++ ++++du-a
-        *     xxxxxxxx xxxxxxxx xxxxxxxx xxxx-Uxx
-        *     ssssssss ssssssss ssss++++ ++++dU-a
+        *     ssssssss ssssssss sss+++++ +++dum-a
+        *     xxxxxxxx xxxxxxxx xxxxxxxx xxx-Uxxx
+        *     ssssssss ssssssss sss+++++ +++dUm-a
         *
         *   Unallocated (dirty):
-        *     ssssssss ssssssss ssss++++ ++++D--a
+        *     ssssssss ssssssss sss+++++ +++D-m-a
         *     xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx
-        *     ssssssss ssssssss ssss++++ ++++D--a
+        *     ssssssss ssssssss sss+++++ +++D-m-a
         *
         *   Small:
-        *     pppppppp pppppppp ppppnnnn nnnnd--A
-        *     pppppppp pppppppp ppppnnnn nnnn---A
-        *     pppppppp pppppppp ppppnnnn nnnnd--A
+        *     pppppppp pppppppp pppnnnnn nnnd---A
+        *     pppppppp pppppppp pppnnnnn nnn----A
+        *     pppppppp pppppppp pppnnnnn nnnd---A
         *
         *   Large:
-        *     ssssssss ssssssss ssss++++ ++++D-LA
+        *     ssssssss ssssssss sss+++++ +++D--LA
         *     xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx
-        *     -------- -------- ----++++ ++++D-LA
+        *     -------- -------- ---+++++ +++D--LA
         *
-        *   Large (sampled, size <= PAGE):
-        *     ssssssss ssssssss ssssnnnn nnnnD-LA
+        *   Large (sampled, size <= LARGE_MINCLASS):
+        *     ssssssss ssssssss sssnnnnn nnnD--LA
+        *     xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx
+        *     -------- -------- ---+++++ +++D--LA
         *
-        *   Large (not sampled, size == PAGE):
-        *     ssssssss ssssssss ssss++++ ++++D-LA
+        *   Large (not sampled, size == LARGE_MINCLASS):
+        *     ssssssss ssssssss sss+++++ +++D--LA
+        *     xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx
+        *     -------- -------- ---+++++ +++D--LA
         */
        size_t                          bits;
-#define        CHUNK_MAP_BININD_SHIFT  4
+#define        CHUNK_MAP_ALLOCATED     ((size_t)0x01U)
+#define        CHUNK_MAP_LARGE         ((size_t)0x02U)
+#define        CHUNK_MAP_STATE_MASK    ((size_t)0x3U)
+
+#define        CHUNK_MAP_DECOMMITTED   ((size_t)0x04U)
+#define        CHUNK_MAP_UNZEROED      ((size_t)0x08U)
+#define        CHUNK_MAP_DIRTY         ((size_t)0x10U)
+#define        CHUNK_MAP_FLAGS_MASK    ((size_t)0x1cU)
+
+#define        CHUNK_MAP_BININD_SHIFT  5
 #define        BININD_INVALID          ((size_t)0xffU)
-/*     CHUNK_MAP_BININD_MASK == (BININD_INVALID << CHUNK_MAP_BININD_SHIFT) */
-#define        CHUNK_MAP_BININD_MASK   ((size_t)0xff0U)
+#define        CHUNK_MAP_BININD_MASK   (BININD_INVALID << CHUNK_MAP_BININD_SHIFT)
 #define        CHUNK_MAP_BININD_INVALID CHUNK_MAP_BININD_MASK
-#define        CHUNK_MAP_FLAGS_MASK    ((size_t)0xcU)
-#define        CHUNK_MAP_DIRTY         ((size_t)0x8U)
-#define        CHUNK_MAP_UNZEROED      ((size_t)0x4U)
-#define        CHUNK_MAP_LARGE         ((size_t)0x2U)
-#define        CHUNK_MAP_ALLOCATED     ((size_t)0x1U)
-#define        CHUNK_MAP_KEY           CHUNK_MAP_ALLOCATED
+
+#define        CHUNK_MAP_RUNIND_SHIFT  (CHUNK_MAP_BININD_SHIFT + 8)
+#define        CHUNK_MAP_SIZE_SHIFT    (CHUNK_MAP_RUNIND_SHIFT - LG_PAGE)
+#define        CHUNK_MAP_SIZE_MASK                                             \
+    (~(CHUNK_MAP_BININD_MASK | CHUNK_MAP_FLAGS_MASK | CHUNK_MAP_STATE_MASK))
+};
+
+struct arena_runs_dirty_link_s {
+       qr(arena_runs_dirty_link_t)     rd_link;
 };
 
 /*
@@ -127,29 +157,36 @@ struct arena_chunk_map_misc_s {
         *
         * 1) arena_t's runs_avail tree.
         * 2) arena_run_t conceptually uses this linkage for in-use non-full
-        * runs, rather than directly embedding linkage.
+        *    runs, rather than directly embedding linkage.
         */
        rb_node(arena_chunk_map_misc_t)         rb_link;
 
        union {
                /* Linkage for list of dirty runs. */
-               ql_elm(arena_chunk_map_misc_t)  dr_link;
+               arena_runs_dirty_link_t         rd;
 
                /* Profile counters, used for large object runs. */
-               prof_tctx_t                     *prof_tctx;
+               union {
+                       void                    *prof_tctx_pun;
+                       prof_tctx_t             *prof_tctx;
+               };
 
                /* Small region run metadata. */
                arena_run_t                     run;
        };
 };
-typedef rb_tree(arena_chunk_map_misc_t) arena_avail_tree_t;
 typedef rb_tree(arena_chunk_map_misc_t) arena_run_tree_t;
-typedef ql_head(arena_chunk_map_misc_t) arena_chunk_miscelms_t;
+#endif /* JEMALLOC_ARENA_STRUCTS_A */
 
+#ifdef JEMALLOC_ARENA_STRUCTS_B
 /* Arena chunk header. */
 struct arena_chunk_s {
-       /* Arena that owns the chunk. */
-       arena_t                 *arena;
+       /*
+        * A pointer to the arena that owns the chunk is stored within the node.
+        * This field as a whole is used by chunks_rtree to support both
+        * ivsalloc() and core-based debugging.
+        */
+       extent_node_t           node;
 
        /*
         * Map of pages within chunk that keeps track of free/large/small.  The
@@ -195,28 +232,28 @@ struct arena_chunk_s {
  */
 struct arena_bin_info_s {
        /* Size of regions in a run for this bin's size class. */
-       size_t          reg_size;
+       size_t                  reg_size;
 
        /* Redzone size. */
-       size_t          redzone_size;
+       size_t                  redzone_size;
 
        /* Interval between regions (reg_size + (redzone_size << 1)). */
-       size_t          reg_interval;
+       size_t                  reg_interval;
 
        /* Total size of a run for this bin's size class. */
-       size_t          run_size;
+       size_t                  run_size;
 
        /* Total number of regions in a run for this bin's size class. */
-       uint32_t        nregs;
+       uint32_t                nregs;
 
        /*
         * Metadata used to manipulate bitmaps for runs associated with this
         * bin.
         */
-       bitmap_info_t   bitmap_info;
+       bitmap_info_t           bitmap_info;
 
        /* Offset of first region in a run for this bin's size class. */
-       uint32_t        reg0_offset;
+       uint32_t                reg0_offset;
 };
 
 struct arena_bin_s {
@@ -226,13 +263,13 @@ struct arena_bin_s {
         * which may be acquired while holding one or more bin locks, but not
         * vise versa.
         */
-       malloc_mutex_t  lock;
+       malloc_mutex_t          lock;
 
        /*
         * Current run being used to service allocations of this bin's size
         * class.
         */
-       arena_run_t     *runcur;
+       arena_run_t             *runcur;
 
        /*
         * Tree of non-full runs.  This tree is used when looking for an
@@ -241,10 +278,10 @@ struct arena_bin_s {
         * objects packed well, and it can also help reduce the number of
         * almost-empty chunks.
         */
-       arena_run_tree_t runs;
+       arena_run_tree_t        runs;
 
        /* Bin statistics. */
-       malloc_bin_stats_t stats;
+       malloc_bin_stats_t      stats;
 };
 
 struct arena_s {
@@ -253,15 +290,14 @@ struct arena_s {
 
        /*
         * Number of threads currently assigned to this arena.  This field is
-        * protected by arenas_lock.
+        * synchronized via atomic operations.
         */
        unsigned                nthreads;
 
        /*
         * There are three classes of arena operations from a locking
         * perspective:
-        * 1) Thread asssignment (modifies nthreads) is protected by
-        *    arenas_lock.
+        * 1) Thread assignment (modifies nthreads) is synchronized via atomics.
         * 2) Bin-related operations are protected by bin locks.
         * 3) Chunk- and run-related operations are protected by this mutex.
         */
@@ -270,12 +306,19 @@ struct arena_s {
        arena_stats_t           stats;
        /*
         * List of tcaches for extant threads associated with this arena.
-        * Stats from these are merged incrementally, and at exit.
+        * Stats from these are merged incrementally, and at exit if
+        * opt_stats_print is enabled.
         */
        ql_head(tcache_t)       tcache_ql;
 
        uint64_t                prof_accumbytes;
 
+       /*
+        * PRNG state for cache index randomization of large allocation base
+        * pointers.
+        */
+       uint64_t                offset_state;
+
        dss_prec_t              dss_prec;
 
        /*
@@ -290,6 +333,12 @@ struct arena_s {
         */
        arena_chunk_t           *spare;
 
+       /* Minimum ratio (log base 2) of nactive:ndirty. */
+       ssize_t                 lg_dirty_mult;
+
+       /* True if a thread is currently executing arena_purge_to_limit(). */
+       bool                    purging;
+
        /* Number of pages in active runs and huge regions. */
        size_t                  nactive;
 
@@ -302,53 +351,179 @@ struct arena_s {
        size_t                  ndirty;
 
        /*
-        * Size/address-ordered trees of this arena's available runs.  The trees
-        * are used for first-best-fit run allocation.
+        * Unused dirty memory this arena manages.  Dirty memory is conceptually
+        * tracked as an arbitrarily interleaved LRU of dirty runs and cached
+        * chunks, but the list linkage is actually semi-duplicated in order to
+        * avoid extra arena_chunk_map_misc_t space overhead.
+        *
+        *   LRU-----------------------------------------------------------MRU
+        *
+        *        /-- arena ---\
+        *        |            |
+        *        |            |
+        *        |------------|                             /- chunk -\
+        *   ...->|chunks_cache|<--------------------------->|  /----\ |<--...
+        *        |------------|                             |  |node| |
+        *        |            |                             |  |    | |
+        *        |            |    /- run -\    /- run -\   |  |    | |
+        *        |            |    |       |    |       |   |  |    | |
+        *        |            |    |       |    |       |   |  |    | |
+        *        |------------|    |-------|    |-------|   |  |----| |
+        *   ...->|runs_dirty  |<-->|rd     |<-->|rd     |<---->|rd  |<----...
+        *        |------------|    |-------|    |-------|   |  |----| |
+        *        |            |    |       |    |       |   |  |    | |
+        *        |            |    |       |    |       |   |  \----/ |
+        *        |            |    \-------/    \-------/   |         |
+        *        |            |                             |         |
+        *        |            |                             |         |
+        *        \------------/                             \---------/
+        */
+       arena_runs_dirty_link_t runs_dirty;
+       extent_node_t           chunks_cache;
+
+       /*
+        * Approximate time in seconds from the creation of a set of unused
+        * dirty pages until an equivalent set of unused dirty pages is purged
+        * and/or reused.
+        */
+       ssize_t                 decay_time;
+       /* decay_time / SMOOTHSTEP_NSTEPS. */
+       nstime_t                decay_interval;
+       /*
+        * Time at which the current decay interval logically started.  We do
+        * not actually advance to a new epoch until sometime after it starts
+        * because of scheduling and computation delays, and it is even possible
+        * to completely skip epochs.  In all cases, during epoch advancement we
+        * merge all relevant activity into the most recently recorded epoch.
+        */
+       nstime_t                decay_epoch;
+       /* decay_deadline randomness generator. */
+       uint64_t                decay_jitter_state;
+       /*
+        * Deadline for current epoch.  This is the sum of decay_interval and
+        * per epoch jitter which is a uniform random variable in
+        * [0..decay_interval).  Epochs always advance by precise multiples of
+        * decay_interval, but we randomize the deadline to reduce the
+        * likelihood of arenas purging in lockstep.
+        */
+       nstime_t                decay_deadline;
+       /*
+        * Number of dirty pages at beginning of current epoch.  During epoch
+        * advancement we use the delta between decay_ndirty and ndirty to
+        * determine how many dirty pages, if any, were generated, and record
+        * the result in decay_backlog.
+        */
+       size_t                  decay_ndirty;
+       /*
+        * Memoized result of arena_decay_backlog_npages_limit() corresponding
+        * to the current contents of decay_backlog, i.e. the limit on how many
+        * pages are allowed to exist for the decay epochs.
+        */
+       size_t                  decay_backlog_npages_limit;
+       /*
+        * Trailing log of how many unused dirty pages were generated during
+        * each of the past SMOOTHSTEP_NSTEPS decay epochs, where the last
+        * element is the most recent epoch.  Corresponding epoch times are
+        * relative to decay_epoch.
         */
-       arena_avail_tree_t      runs_avail;
+       size_t                  decay_backlog[SMOOTHSTEP_NSTEPS];
 
-       /* List of dirty runs this arena manages. */
-       arena_chunk_miscelms_t  runs_dirty;
+       /* Extant huge allocations. */
+       ql_head(extent_node_t)  huge;
+       /* Synchronizes all huge allocation/update/deallocation. */
+       malloc_mutex_t          huge_mtx;
 
        /*
-        * user-configureable chunk allocation and deallocation functions.
+        * Trees of chunks that were previously allocated (trees differ only in
+        * node ordering).  These are used when allocating chunks, in an attempt
+        * to re-use address space.  Depending on function, different tree
+        * orderings are needed, which is why there are two trees with the same
+        * contents.
         */
-       chunk_alloc_t           *chunk_alloc;
-       chunk_dalloc_t          *chunk_dalloc;
+       extent_tree_t           chunks_szad_cached;
+       extent_tree_t           chunks_ad_cached;
+       extent_tree_t           chunks_szad_retained;
+       extent_tree_t           chunks_ad_retained;
+
+       malloc_mutex_t          chunks_mtx;
+       /* Cache of nodes that were allocated via base_alloc(). */
+       ql_head(extent_node_t)  node_cache;
+       malloc_mutex_t          node_cache_mtx;
+
+       /* User-configurable chunk hook functions. */
+       chunk_hooks_t           chunk_hooks;
 
        /* bins is used to store trees of free regions. */
        arena_bin_t             bins[NBINS];
+
+       /*
+        * Quantized address-ordered trees of this arena's available runs.  The
+        * trees are used for first-best-fit run allocation.
+        */
+       arena_run_tree_t        runs_avail[1]; /* Dynamically sized. */
 };
 
+/* Used in conjunction with tsd for fast arena-related context lookup. */
+struct arena_tdata_s {
+       ticker_t                decay_ticker;
+};
+#endif /* JEMALLOC_ARENA_STRUCTS_B */
+
 #endif /* JEMALLOC_H_STRUCTS */
 /******************************************************************************/
 #ifdef JEMALLOC_H_EXTERNS
 
-extern ssize_t opt_lg_dirty_mult;
-/*
- * small_size2bin_tab is a compact lookup table that rounds request sizes up to
- * size classes.  In order to reduce cache footprint, the table is compressed,
- * and all accesses are via small_size2bin().
- */
-extern uint8_t const   small_size2bin_tab[];
-/*
- * small_bin2size_tab duplicates information in arena_bin_info, but in a const
- * array, for which it is easier for the compiler to optimize repeated
- * dereferences.
- */
-extern uint32_t const  small_bin2size_tab[NBINS];
+static const size_t    large_pad =
+#ifdef JEMALLOC_CACHE_OBLIVIOUS
+    PAGE
+#else
+    0
+#endif
+    ;
+
+extern purge_mode_t    opt_purge;
+extern const char      *purge_mode_names[];
+extern ssize_t         opt_lg_dirty_mult;
+extern ssize_t         opt_decay_time;
 
 extern arena_bin_info_t        arena_bin_info[NBINS];
 
-/* Number of large size classes. */
-#define                        nlclasses (chunk_npages - map_bias)
+extern size_t          map_bias; /* Number of arena chunk header pages. */
+extern size_t          map_misc_offset;
+extern size_t          arena_maxrun; /* Max run size for arenas. */
+extern size_t          large_maxclass; /* Max large size class. */
+extern size_t          run_quantize_max; /* Max run_quantize_*() input. */
+extern unsigned                nlclasses; /* Number of large size classes. */
+extern unsigned                nhclasses; /* Number of huge size classes. */
 
-void   *arena_chunk_alloc_huge(arena_t *arena, void *new_addr, size_t size,
-    size_t alignment, bool *zero);
-void   arena_chunk_dalloc_huge(arena_t *arena, void *chunk, size_t size);
-void   arena_purge_all(arena_t *arena);
-void   arena_tcache_fill_small(arena_t *arena, tcache_bin_t *tbin,
-    size_t binind, uint64_t prof_accumbytes);
+#ifdef JEMALLOC_JET
+typedef size_t (run_quantize_t)(size_t);
+extern run_quantize_t *run_quantize_floor;
+extern run_quantize_t *run_quantize_ceil;
+#endif
+void   arena_chunk_cache_maybe_insert(arena_t *arena, extent_node_t *node,
+    bool cache);
+void   arena_chunk_cache_maybe_remove(arena_t *arena, extent_node_t *node,
+    bool cache);
+extent_node_t  *arena_node_alloc(arena_t *arena);
+void   arena_node_dalloc(arena_t *arena, extent_node_t *node);
+void   *arena_chunk_alloc_huge(arena_t *arena, size_t usize, size_t alignment,
+    bool *zero);
+void   arena_chunk_dalloc_huge(arena_t *arena, void *chunk, size_t usize);
+void   arena_chunk_ralloc_huge_similar(arena_t *arena, void *chunk,
+    size_t oldsize, size_t usize);
+void   arena_chunk_ralloc_huge_shrink(arena_t *arena, void *chunk,
+    size_t oldsize, size_t usize);
+bool   arena_chunk_ralloc_huge_expand(arena_t *arena, void *chunk,
+    size_t oldsize, size_t usize, bool *zero);
+ssize_t        arena_lg_dirty_mult_get(arena_t *arena);
+bool   arena_lg_dirty_mult_set(arena_t *arena, ssize_t lg_dirty_mult);
+ssize_t        arena_decay_time_get(arena_t *arena);
+bool   arena_decay_time_set(arena_t *arena, ssize_t decay_time);
+void   arena_maybe_purge(arena_t *arena);
+void   arena_purge(arena_t *arena, bool all);
+void   arena_tcache_fill_small(tsd_t *tsd, arena_t *arena, tcache_bin_t *tbin,
+    szind_t binind, uint64_t prof_accumbytes);
 void   arena_alloc_junk_small(void *ptr, arena_bin_info_t *bin_info,
     bool zero);
 #ifdef JEMALLOC_JET
@@ -361,39 +536,54 @@ extern arena_dalloc_junk_small_t *arena_dalloc_junk_small;
 void   arena_dalloc_junk_small(void *ptr, arena_bin_info_t *bin_info);
 #endif
 void   arena_quarantine_junk_small(void *ptr, size_t usize);
-void   *arena_malloc_small(arena_t *arena, size_t size, bool zero);
-void   *arena_malloc_large(arena_t *arena, size_t size, bool zero);
-void   *arena_palloc(arena_t *arena, size_t size, size_t alignment, bool zero);
+void   *arena_malloc_large(tsd_t *tsd, arena_t *arena, szind_t ind, bool zero);
+void   *arena_malloc_hard(tsd_t *tsd, arena_t *arena, size_t size, szind_t ind,
+    bool zero, tcache_t *tcache);
+void   *arena_palloc(tsd_t *tsd, arena_t *arena, size_t usize,
+    size_t alignment, bool zero, tcache_t *tcache);
 void   arena_prof_promoted(const void *ptr, size_t size);
-void   arena_dalloc_bin_locked(arena_t *arena, arena_chunk_t *chunk, void *ptr,
-    arena_chunk_map_bits_t *bitselm);
+void   arena_dalloc_bin_junked_locked(arena_t *arena, arena_chunk_t *chunk,
+    void *ptr, arena_chunk_map_bits_t *bitselm);
 void   arena_dalloc_bin(arena_t *arena, arena_chunk_t *chunk, void *ptr,
     size_t pageind, arena_chunk_map_bits_t *bitselm);
-void   arena_dalloc_small(arena_t *arena, arena_chunk_t *chunk, void *ptr,
-    size_t pageind);
+void   arena_dalloc_small(tsd_t *tsd, arena_t *arena, arena_chunk_t *chunk,
+    void *ptr, size_t pageind);
 #ifdef JEMALLOC_JET
 typedef void (arena_dalloc_junk_large_t)(void *, size_t);
 extern arena_dalloc_junk_large_t *arena_dalloc_junk_large;
+#else
+void   arena_dalloc_junk_large(void *ptr, size_t usize);
 #endif
-void   arena_dalloc_large_locked(arena_t *arena, arena_chunk_t *chunk,
+void   arena_dalloc_large_junked_locked(arena_t *arena, arena_chunk_t *chunk,
+    void *ptr);
+void   arena_dalloc_large(tsd_t *tsd, arena_t *arena, arena_chunk_t *chunk,
     void *ptr);
-void   arena_dalloc_large(arena_t *arena, arena_chunk_t *chunk, void *ptr);
 #ifdef JEMALLOC_JET
 typedef void (arena_ralloc_junk_large_t)(void *, size_t, size_t);
 extern arena_ralloc_junk_large_t *arena_ralloc_junk_large;
 #endif
-bool   arena_ralloc_no_move(void *ptr, size_t oldsize, size_t size,
+bool   arena_ralloc_no_move(tsd_t *tsd, void *ptr, size_t oldsize, size_t size,
     size_t extra, bool zero);
 void   *arena_ralloc(tsd_t *tsd, arena_t *arena, void *ptr, size_t oldsize,
-    size_t size, size_t extra, size_t alignment, bool zero,
-    bool try_tcache_alloc, bool try_tcache_dalloc);
+    size_t size, size_t alignment, bool zero, tcache_t *tcache);
 dss_prec_t     arena_dss_prec_get(arena_t *arena);
 bool   arena_dss_prec_set(arena_t *arena, dss_prec_t dss_prec);
-void   arena_stats_merge(arena_t *arena, const char **dss, size_t *nactive,
+ssize_t        arena_lg_dirty_mult_default_get(void);
+bool   arena_lg_dirty_mult_default_set(ssize_t lg_dirty_mult);
+ssize_t        arena_decay_time_default_get(void);
+bool   arena_decay_time_default_set(ssize_t decay_time);
+void   arena_basic_stats_merge(arena_t *arena, unsigned *nthreads,
+    const char **dss, ssize_t *lg_dirty_mult, ssize_t *decay_time,
+    size_t *nactive, size_t *ndirty);
+void   arena_stats_merge(arena_t *arena, unsigned *nthreads, const char **dss,
+    ssize_t *lg_dirty_mult, ssize_t *decay_time, size_t *nactive,
     size_t *ndirty, arena_stats_t *astats, malloc_bin_stats_t *bstats,
-    malloc_large_stats_t *lstats);
-bool   arena_new(arena_t *arena, unsigned ind);
-void   arena_boot(void);
+    malloc_large_stats_t *lstats, malloc_huge_stats_t *hstats);
+unsigned       arena_nthreads_get(arena_t *arena);
+void   arena_nthreads_inc(arena_t *arena);
+void   arena_nthreads_dec(arena_t *arena);
+arena_t        *arena_new(unsigned ind);
+bool   arena_boot(void);
 void   arena_prefork(arena_t *arena);
 void   arena_postfork_parent(arena_t *arena);
 void   arena_postfork_child(arena_t *arena);
@@ -403,209 +593,68 @@ void     arena_postfork_child(arena_t *arena);
 #ifdef JEMALLOC_H_INLINES
 
 #ifndef JEMALLOC_ENABLE_INLINE
-size_t small_size2bin_compute(size_t size);
-size_t small_size2bin_lookup(size_t size);
-size_t small_size2bin(size_t size);
-size_t small_bin2size_compute(size_t binind);
-size_t small_bin2size_lookup(size_t binind);
-size_t small_bin2size(size_t binind);
-size_t small_s2u_compute(size_t size);
-size_t small_s2u_lookup(size_t size);
-size_t small_s2u(size_t size);
 arena_chunk_map_bits_t *arena_bitselm_get(arena_chunk_t *chunk,
     size_t pageind);
 arena_chunk_map_misc_t *arena_miscelm_get(arena_chunk_t *chunk,
     size_t pageind);
-size_t arena_miscelm_to_pageind(arena_chunk_map_misc_t *miscelm);
+size_t arena_miscelm_to_pageind(const arena_chunk_map_misc_t *miscelm);
 void   *arena_miscelm_to_rpages(arena_chunk_map_misc_t *miscelm);
+arena_chunk_map_misc_t *arena_rd_to_miscelm(arena_runs_dirty_link_t *rd);
 arena_chunk_map_misc_t *arena_run_to_miscelm(arena_run_t *run);
 size_t *arena_mapbitsp_get(arena_chunk_t *chunk, size_t pageind);
 size_t arena_mapbitsp_read(size_t *mapbitsp);
 size_t arena_mapbits_get(arena_chunk_t *chunk, size_t pageind);
+size_t arena_mapbits_size_decode(size_t mapbits);
 size_t arena_mapbits_unallocated_size_get(arena_chunk_t *chunk,
     size_t pageind);
 size_t arena_mapbits_large_size_get(arena_chunk_t *chunk, size_t pageind);
 size_t arena_mapbits_small_runind_get(arena_chunk_t *chunk, size_t pageind);
-size_t arena_mapbits_binind_get(arena_chunk_t *chunk, size_t pageind);
+szind_t        arena_mapbits_binind_get(arena_chunk_t *chunk, size_t pageind);
 size_t arena_mapbits_dirty_get(arena_chunk_t *chunk, size_t pageind);
 size_t arena_mapbits_unzeroed_get(arena_chunk_t *chunk, size_t pageind);
+size_t arena_mapbits_decommitted_get(arena_chunk_t *chunk, size_t pageind);
 size_t arena_mapbits_large_get(arena_chunk_t *chunk, size_t pageind);
 size_t arena_mapbits_allocated_get(arena_chunk_t *chunk, size_t pageind);
 void   arena_mapbitsp_write(size_t *mapbitsp, size_t mapbits);
+size_t arena_mapbits_size_encode(size_t size);
 void   arena_mapbits_unallocated_set(arena_chunk_t *chunk, size_t pageind,
     size_t size, size_t flags);
 void   arena_mapbits_unallocated_size_set(arena_chunk_t *chunk, size_t pageind,
     size_t size);
+void   arena_mapbits_internal_set(arena_chunk_t *chunk, size_t pageind,
+    size_t flags);
 void   arena_mapbits_large_set(arena_chunk_t *chunk, size_t pageind,
     size_t size, size_t flags);
 void   arena_mapbits_large_binind_set(arena_chunk_t *chunk, size_t pageind,
-    size_t binind);
+    szind_t binind);
 void   arena_mapbits_small_set(arena_chunk_t *chunk, size_t pageind,
-    size_t runind, size_t binind, size_t flags);
-void   arena_mapbits_unzeroed_set(arena_chunk_t *chunk, size_t pageind,
-    size_t unzeroed);
+    size_t runind, szind_t binind, size_t flags);
+void   arena_metadata_allocated_add(arena_t *arena, size_t size);
+void   arena_metadata_allocated_sub(arena_t *arena, size_t size);
+size_t arena_metadata_allocated_get(arena_t *arena);
 bool   arena_prof_accum_impl(arena_t *arena, uint64_t accumbytes);
 bool   arena_prof_accum_locked(arena_t *arena, uint64_t accumbytes);
 bool   arena_prof_accum(arena_t *arena, uint64_t accumbytes);
-size_t arena_ptr_small_binind_get(const void *ptr, size_t mapbits);
-size_t arena_bin_index(arena_t *arena, arena_bin_t *bin);
-unsigned       arena_run_regind(arena_run_t *run, arena_bin_info_t *bin_info,
+szind_t        arena_ptr_small_binind_get(const void *ptr, size_t mapbits);
+szind_t        arena_bin_index(arena_t *arena, arena_bin_t *bin);
+size_t arena_run_regind(arena_run_t *run, arena_bin_info_t *bin_info,
     const void *ptr);
 prof_tctx_t    *arena_prof_tctx_get(const void *ptr);
-void   arena_prof_tctx_set(const void *ptr, prof_tctx_t *tctx);
-void   *arena_malloc(tsd_t *tsd, arena_t *arena, size_t size, bool zero,
-    bool try_tcache);
+void   arena_prof_tctx_set(const void *ptr, size_t usize, prof_tctx_t *tctx);
+void   arena_prof_tctx_reset(const void *ptr, size_t usize,
+    const void *old_ptr, prof_tctx_t *old_tctx);
+void   arena_decay_ticks(tsd_t *tsd, arena_t *arena, unsigned nticks);
+void   arena_decay_tick(tsd_t *tsd, arena_t *arena);
+void   *arena_malloc(tsd_t *tsd, arena_t *arena, size_t size, szind_t ind,
+    bool zero, tcache_t *tcache, bool slow_path);
+arena_t        *arena_aalloc(const void *ptr);
 size_t arena_salloc(const void *ptr, bool demote);
-void   arena_dalloc(tsd_t *tsd, arena_chunk_t *chunk, void *ptr,
-    bool try_tcache);
-void   arena_sdalloc(tsd_t *tsd, arena_chunk_t *chunk, void *ptr, size_t size,
-    bool try_tcache);
+void   arena_dalloc(tsd_t *tsd, void *ptr, tcache_t *tcache, bool slow_path);
+void   arena_sdalloc(tsd_t *tsd, void *ptr, size_t size, tcache_t *tcache);
 #endif
 
 #if (defined(JEMALLOC_ENABLE_INLINE) || defined(JEMALLOC_ARENA_C_))
 #  ifdef JEMALLOC_ARENA_INLINE_A
-JEMALLOC_INLINE size_t
-small_size2bin_compute(size_t size)
-{
-#if (NTBINS != 0)
-       if (size <= (ZU(1) << LG_TINY_MAXCLASS)) {
-               size_t lg_tmin = LG_TINY_MAXCLASS - NTBINS + 1;
-               size_t lg_ceil = lg_floor(pow2_ceil(size));
-               return (lg_ceil < lg_tmin ? 0 : lg_ceil - lg_tmin);
-       } else
-#endif
-       {
-               size_t x = lg_floor((size<<1)-1);
-               size_t shift = (x < LG_SIZE_CLASS_GROUP + LG_QUANTUM) ? 0 :
-                   x - (LG_SIZE_CLASS_GROUP + LG_QUANTUM);
-               size_t grp = shift << LG_SIZE_CLASS_GROUP;
-
-               size_t lg_delta = (x < LG_SIZE_CLASS_GROUP + LG_QUANTUM + 1)
-                   ? LG_QUANTUM : x - LG_SIZE_CLASS_GROUP - 1;
-
-               size_t delta_inverse_mask = ZI(-1) << lg_delta;
-               size_t mod = ((((size-1) & delta_inverse_mask) >> lg_delta)) &
-                   ((ZU(1) << LG_SIZE_CLASS_GROUP) - 1);
-
-               size_t bin = NTBINS + grp + mod;
-               return (bin);
-       }
-}
-
-JEMALLOC_ALWAYS_INLINE size_t
-small_size2bin_lookup(size_t size)
-{
-
-       assert(size <= LOOKUP_MAXCLASS);
-       {
-               size_t ret = ((size_t)(small_size2bin_tab[(size-1) >>
-                   LG_TINY_MIN]));
-               assert(ret == small_size2bin_compute(size));
-               return (ret);
-       }
-}
-
-JEMALLOC_ALWAYS_INLINE size_t
-small_size2bin(size_t size)
-{
-
-       assert(size > 0);
-       if (likely(size <= LOOKUP_MAXCLASS))
-               return (small_size2bin_lookup(size));
-       else
-               return (small_size2bin_compute(size));
-}
-
-JEMALLOC_INLINE size_t
-small_bin2size_compute(size_t binind)
-{
-#if (NTBINS > 0)
-       if (binind < NTBINS)
-               return (ZU(1) << (LG_TINY_MAXCLASS - NTBINS + 1 + binind));
-       else
-#endif
-       {
-               size_t reduced_binind = binind - NTBINS;
-               size_t grp = reduced_binind >> LG_SIZE_CLASS_GROUP;
-               size_t mod = reduced_binind & ((ZU(1) << LG_SIZE_CLASS_GROUP) -
-                   1);
-
-               size_t grp_size_mask = ~((!!grp)-1);
-               size_t grp_size = ((ZU(1) << (LG_QUANTUM +
-                   (LG_SIZE_CLASS_GROUP-1))) << grp) & grp_size_mask;
-
-               size_t shift = (grp == 0) ? 1 : grp;
-               size_t lg_delta = shift + (LG_QUANTUM-1);
-               size_t mod_size = (mod+1) << lg_delta;
-
-               size_t usize = grp_size + mod_size;
-               return (usize);
-       }
-}
-
-JEMALLOC_ALWAYS_INLINE size_t
-small_bin2size_lookup(size_t binind)
-{
-
-       assert(binind < NBINS);
-       {
-               size_t ret = (size_t)small_bin2size_tab[binind];
-               assert(ret == small_bin2size_compute(binind));
-               return (ret);
-       }
-}
-
-JEMALLOC_ALWAYS_INLINE size_t
-small_bin2size(size_t binind)
-{
-
-       return (small_bin2size_lookup(binind));
-}
-
-JEMALLOC_ALWAYS_INLINE size_t
-small_s2u_compute(size_t size)
-{
-#if (NTBINS > 0)
-       if (size <= (ZU(1) << LG_TINY_MAXCLASS)) {
-               size_t lg_tmin = LG_TINY_MAXCLASS - NTBINS + 1;
-               size_t lg_ceil = lg_floor(pow2_ceil(size));
-               return (lg_ceil < lg_tmin ? (ZU(1) << lg_tmin) :
-                   (ZU(1) << lg_ceil));
-       } else
-#endif
-       {
-               size_t x = lg_floor((size<<1)-1);
-               size_t lg_delta = (x < LG_SIZE_CLASS_GROUP + LG_QUANTUM + 1)
-                   ?  LG_QUANTUM : x - LG_SIZE_CLASS_GROUP - 1;
-               size_t delta = ZU(1) << lg_delta;
-               size_t delta_mask = delta - 1;
-               size_t usize = (size + delta_mask) & ~delta_mask;
-               return (usize);
-       }
-}
-
-JEMALLOC_ALWAYS_INLINE size_t
-small_s2u_lookup(size_t size)
-{
-       size_t ret = small_bin2size(small_size2bin(size));
-
-       assert(ret == small_s2u_compute(size));
-       return (ret);
-}
-
-JEMALLOC_ALWAYS_INLINE size_t
-small_s2u(size_t size)
-{
-
-       assert(size > 0);
-       if (likely(size <= LOOKUP_MAXCLASS))
-               return (small_s2u_lookup(size));
-       else
-               return (small_s2u_compute(size));
-}
-#  endif /* JEMALLOC_ARENA_INLINE_A */
-
-#  ifdef JEMALLOC_ARENA_INLINE_B
 JEMALLOC_ALWAYS_INLINE arena_chunk_map_bits_t *
 arena_bitselm_get(arena_chunk_t *chunk, size_t pageind)
 {
@@ -628,7 +677,7 @@ arena_miscelm_get(arena_chunk_t *chunk, size_t pageind)
 }
 
 JEMALLOC_ALWAYS_INLINE size_t
-arena_miscelm_to_pageind(arena_chunk_map_misc_t *miscelm)
+arena_miscelm_to_pageind(const arena_chunk_map_misc_t *miscelm)
 {
        arena_chunk_t *chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(miscelm);
        size_t pageind = ((uintptr_t)miscelm - ((uintptr_t)chunk +
@@ -649,6 +698,18 @@ arena_miscelm_to_rpages(arena_chunk_map_misc_t *miscelm)
        return ((void *)((uintptr_t)chunk + (pageind << LG_PAGE)));
 }
 
+JEMALLOC_ALWAYS_INLINE arena_chunk_map_misc_t *
+arena_rd_to_miscelm(arena_runs_dirty_link_t *rd)
+{
+       arena_chunk_map_misc_t *miscelm = (arena_chunk_map_misc_t
+           *)((uintptr_t)rd - offsetof(arena_chunk_map_misc_t, rd));
+
+       assert(arena_miscelm_to_pageind(miscelm) >= map_bias);
+       assert(arena_miscelm_to_pageind(miscelm) < chunk_npages);
+
+       return (miscelm);
+}
+
 JEMALLOC_ALWAYS_INLINE arena_chunk_map_misc_t *
 arena_run_to_miscelm(arena_run_t *run)
 {
@@ -682,6 +743,22 @@ arena_mapbits_get(arena_chunk_t *chunk, size_t pageind)
        return (arena_mapbitsp_read(arena_mapbitsp_get(chunk, pageind)));
 }
 
+JEMALLOC_ALWAYS_INLINE size_t
+arena_mapbits_size_decode(size_t mapbits)
+{
+       size_t size;
+
+#if CHUNK_MAP_SIZE_SHIFT > 0
+       size = (mapbits & CHUNK_MAP_SIZE_MASK) >> CHUNK_MAP_SIZE_SHIFT;
+#elif CHUNK_MAP_SIZE_SHIFT == 0
+       size = mapbits & CHUNK_MAP_SIZE_MASK;
+#else
+       size = (mapbits & CHUNK_MAP_SIZE_MASK) << -CHUNK_MAP_SIZE_SHIFT;
+#endif
+
+       return (size);
+}
+
 JEMALLOC_ALWAYS_INLINE size_t
 arena_mapbits_unallocated_size_get(arena_chunk_t *chunk, size_t pageind)
 {
@@ -689,7 +766,7 @@ arena_mapbits_unallocated_size_get(arena_chunk_t *chunk, size_t pageind)
 
        mapbits = arena_mapbits_get(chunk, pageind);
        assert((mapbits & (CHUNK_MAP_LARGE|CHUNK_MAP_ALLOCATED)) == 0);
-       return (mapbits & ~PAGE_MASK);
+       return (arena_mapbits_size_decode(mapbits));
 }
 
 JEMALLOC_ALWAYS_INLINE size_t
@@ -700,7 +777,7 @@ arena_mapbits_large_size_get(arena_chunk_t *chunk, size_t pageind)
        mapbits = arena_mapbits_get(chunk, pageind);
        assert((mapbits & (CHUNK_MAP_LARGE|CHUNK_MAP_ALLOCATED)) ==
            (CHUNK_MAP_LARGE|CHUNK_MAP_ALLOCATED));
-       return (mapbits & ~PAGE_MASK);
+       return (arena_mapbits_size_decode(mapbits));
 }
 
 JEMALLOC_ALWAYS_INLINE size_t
@@ -711,14 +788,14 @@ arena_mapbits_small_runind_get(arena_chunk_t *chunk, size_t pageind)
        mapbits = arena_mapbits_get(chunk, pageind);
        assert((mapbits & (CHUNK_MAP_LARGE|CHUNK_MAP_ALLOCATED)) ==
            CHUNK_MAP_ALLOCATED);
-       return (mapbits >> LG_PAGE);
+       return (mapbits >> CHUNK_MAP_RUNIND_SHIFT);
 }
 
-JEMALLOC_ALWAYS_INLINE size_t
+JEMALLOC_ALWAYS_INLINE szind_t
 arena_mapbits_binind_get(arena_chunk_t *chunk, size_t pageind)
 {
        size_t mapbits;
-       size_t binind;
+       szind_t binind;
 
        mapbits = arena_mapbits_get(chunk, pageind);
        binind = (mapbits & CHUNK_MAP_BININD_MASK) >> CHUNK_MAP_BININD_SHIFT;
@@ -732,6 +809,8 @@ arena_mapbits_dirty_get(arena_chunk_t *chunk, size_t pageind)
        size_t mapbits;
 
        mapbits = arena_mapbits_get(chunk, pageind);
+       assert((mapbits & CHUNK_MAP_DECOMMITTED) == 0 || (mapbits &
+           (CHUNK_MAP_DIRTY|CHUNK_MAP_UNZEROED)) == 0);
        return (mapbits & CHUNK_MAP_DIRTY);
 }
 
@@ -741,9 +820,22 @@ arena_mapbits_unzeroed_get(arena_chunk_t *chunk, size_t pageind)
        size_t mapbits;
 
        mapbits = arena_mapbits_get(chunk, pageind);
+       assert((mapbits & CHUNK_MAP_DECOMMITTED) == 0 || (mapbits &
+           (CHUNK_MAP_DIRTY|CHUNK_MAP_UNZEROED)) == 0);
        return (mapbits & CHUNK_MAP_UNZEROED);
 }
 
+JEMALLOC_ALWAYS_INLINE size_t
+arena_mapbits_decommitted_get(arena_chunk_t *chunk, size_t pageind)
+{
+       size_t mapbits;
+
+       mapbits = arena_mapbits_get(chunk, pageind);
+       assert((mapbits & CHUNK_MAP_DECOMMITTED) == 0 || (mapbits &
+           (CHUNK_MAP_DIRTY|CHUNK_MAP_UNZEROED)) == 0);
+       return (mapbits & CHUNK_MAP_DECOMMITTED);
+}
+
 JEMALLOC_ALWAYS_INLINE size_t
 arena_mapbits_large_get(arena_chunk_t *chunk, size_t pageind)
 {
@@ -769,6 +861,23 @@ arena_mapbitsp_write(size_t *mapbitsp, size_t mapbits)
        *mapbitsp = mapbits;
 }
 
+JEMALLOC_ALWAYS_INLINE size_t
+arena_mapbits_size_encode(size_t size)
+{
+       size_t mapbits;
+
+#if CHUNK_MAP_SIZE_SHIFT > 0
+       mapbits = size << CHUNK_MAP_SIZE_SHIFT;
+#elif CHUNK_MAP_SIZE_SHIFT == 0
+       mapbits = size;
+#else
+       mapbits = size >> -CHUNK_MAP_SIZE_SHIFT;
+#endif
+
+       assert((mapbits & ~CHUNK_MAP_SIZE_MASK) == 0);
+       return (mapbits);
+}
+
 JEMALLOC_ALWAYS_INLINE void
 arena_mapbits_unallocated_set(arena_chunk_t *chunk, size_t pageind, size_t size,
     size_t flags)
@@ -776,9 +885,11 @@ arena_mapbits_unallocated_set(arena_chunk_t *chunk, size_t pageind, size_t size,
        size_t *mapbitsp = arena_mapbitsp_get(chunk, pageind);
 
        assert((size & PAGE_MASK) == 0);
-       assert((flags & ~CHUNK_MAP_FLAGS_MASK) == 0);
-       assert((flags & (CHUNK_MAP_DIRTY|CHUNK_MAP_UNZEROED)) == flags);
-       arena_mapbitsp_write(mapbitsp, size | CHUNK_MAP_BININD_INVALID | flags);
+       assert((flags & CHUNK_MAP_FLAGS_MASK) == flags);
+       assert((flags & CHUNK_MAP_DECOMMITTED) == 0 || (flags &
+           (CHUNK_MAP_DIRTY|CHUNK_MAP_UNZEROED)) == 0);
+       arena_mapbitsp_write(mapbitsp, arena_mapbits_size_encode(size) |
+           CHUNK_MAP_BININD_INVALID | flags);
 }
 
 JEMALLOC_ALWAYS_INLINE void
@@ -790,7 +901,17 @@ arena_mapbits_unallocated_size_set(arena_chunk_t *chunk, size_t pageind,
 
        assert((size & PAGE_MASK) == 0);
        assert((mapbits & (CHUNK_MAP_LARGE|CHUNK_MAP_ALLOCATED)) == 0);
-       arena_mapbitsp_write(mapbitsp, size | (mapbits & PAGE_MASK));
+       arena_mapbitsp_write(mapbitsp, arena_mapbits_size_encode(size) |
+           (mapbits & ~CHUNK_MAP_SIZE_MASK));
+}
+
+JEMALLOC_ALWAYS_INLINE void
+arena_mapbits_internal_set(arena_chunk_t *chunk, size_t pageind, size_t flags)
+{
+       size_t *mapbitsp = arena_mapbitsp_get(chunk, pageind);
+
+       assert((flags & CHUNK_MAP_UNZEROED) == flags);
+       arena_mapbitsp_write(mapbitsp, flags);
 }
 
 JEMALLOC_ALWAYS_INLINE void
@@ -798,54 +919,62 @@ arena_mapbits_large_set(arena_chunk_t *chunk, size_t pageind, size_t size,
     size_t flags)
 {
        size_t *mapbitsp = arena_mapbitsp_get(chunk, pageind);
-       size_t mapbits = arena_mapbitsp_read(mapbitsp);
-       size_t unzeroed;
 
        assert((size & PAGE_MASK) == 0);
-       assert((flags & CHUNK_MAP_DIRTY) == flags);
-       unzeroed = mapbits & CHUNK_MAP_UNZEROED; /* Preserve unzeroed. */
-       arena_mapbitsp_write(mapbitsp, size | CHUNK_MAP_BININD_INVALID | flags
-           | unzeroed | CHUNK_MAP_LARGE | CHUNK_MAP_ALLOCATED);
+       assert((flags & CHUNK_MAP_FLAGS_MASK) == flags);
+       assert((flags & CHUNK_MAP_DECOMMITTED) == 0 || (flags &
+           (CHUNK_MAP_DIRTY|CHUNK_MAP_UNZEROED)) == 0);
+       arena_mapbitsp_write(mapbitsp, arena_mapbits_size_encode(size) |
+           CHUNK_MAP_BININD_INVALID | flags | CHUNK_MAP_LARGE |
+           CHUNK_MAP_ALLOCATED);
 }
 
 JEMALLOC_ALWAYS_INLINE void
 arena_mapbits_large_binind_set(arena_chunk_t *chunk, size_t pageind,
-    size_t binind)
+    szind_t binind)
 {
        size_t *mapbitsp = arena_mapbitsp_get(chunk, pageind);
        size_t mapbits = arena_mapbitsp_read(mapbitsp);
 
        assert(binind <= BININD_INVALID);
-       assert(arena_mapbits_large_size_get(chunk, pageind) == PAGE);
+       assert(arena_mapbits_large_size_get(chunk, pageind) == LARGE_MINCLASS +
+           large_pad);
        arena_mapbitsp_write(mapbitsp, (mapbits & ~CHUNK_MAP_BININD_MASK) |
            (binind << CHUNK_MAP_BININD_SHIFT));
 }
 
 JEMALLOC_ALWAYS_INLINE void
 arena_mapbits_small_set(arena_chunk_t *chunk, size_t pageind, size_t runind,
-    size_t binind, size_t flags)
+    szind_t binind, size_t flags)
 {
        size_t *mapbitsp = arena_mapbitsp_get(chunk, pageind);
-       size_t mapbits = arena_mapbitsp_read(mapbitsp);
-       size_t unzeroed;
 
        assert(binind < BININD_INVALID);
        assert(pageind - runind >= map_bias);
-       assert((flags & CHUNK_MAP_DIRTY) == flags);
-       unzeroed = mapbits & CHUNK_MAP_UNZEROED; /* Preserve unzeroed. */
-       arena_mapbitsp_write(mapbitsp, (runind << LG_PAGE) | (binind <<
-           CHUNK_MAP_BININD_SHIFT) | flags | unzeroed | CHUNK_MAP_ALLOCATED);
+       assert((flags & CHUNK_MAP_UNZEROED) == flags);
+       arena_mapbitsp_write(mapbitsp, (runind << CHUNK_MAP_RUNIND_SHIFT) |
+           (binind << CHUNK_MAP_BININD_SHIFT) | flags | CHUNK_MAP_ALLOCATED);
 }
 
-JEMALLOC_ALWAYS_INLINE void
-arena_mapbits_unzeroed_set(arena_chunk_t *chunk, size_t pageind,
-    size_t unzeroed)
+JEMALLOC_INLINE void
+arena_metadata_allocated_add(arena_t *arena, size_t size)
 {
-       size_t *mapbitsp = arena_mapbitsp_get(chunk, pageind);
-       size_t mapbits = arena_mapbitsp_read(mapbitsp);
 
-       arena_mapbitsp_write(mapbitsp, (mapbits & ~CHUNK_MAP_UNZEROED) |
-           unzeroed);
+       atomic_add_z(&arena->stats.metadata_allocated, size);
+}
+
+JEMALLOC_INLINE void
+arena_metadata_allocated_sub(arena_t *arena, size_t size)
+{
+
+       atomic_sub_z(&arena->stats.metadata_allocated, size);
+}
+
+JEMALLOC_INLINE size_t
+arena_metadata_allocated_get(arena_t *arena)
+{
+
+       return (atomic_read_z(&arena->stats.metadata_allocated));
 }
 
 JEMALLOC_INLINE bool
@@ -893,10 +1022,10 @@ arena_prof_accum(arena_t *arena, uint64_t accumbytes)
        }
 }
 
-JEMALLOC_ALWAYS_INLINE size_t
+JEMALLOC_ALWAYS_INLINE szind_t
 arena_ptr_small_binind_get(const void *ptr, size_t mapbits)
 {
-       size_t binind;
+       szind_t binind;
 
        binind = (mapbits & CHUNK_MAP_BININD_MASK) >> CHUNK_MAP_BININD_SHIFT;
 
@@ -908,7 +1037,7 @@ arena_ptr_small_binind_get(const void *ptr, size_t mapbits)
                size_t rpages_ind;
                arena_run_t *run;
                arena_bin_t *bin;
-               size_t actual_binind;
+               szind_t run_binind, actual_binind;
                arena_bin_info_t *bin_info;
                arena_chunk_map_misc_t *miscelm;
                void *rpages;
@@ -916,7 +1045,7 @@ arena_ptr_small_binind_get(const void *ptr, size_t mapbits)
                assert(binind != BININD_INVALID);
                assert(binind < NBINS);
                chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(ptr);
-               arena = chunk->arena;
+               arena = extent_node_arena_get(&chunk->node);
                pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
                actual_mapbits = arena_mapbits_get(chunk, pageind);
                assert(mapbits == actual_mapbits);
@@ -926,9 +1055,10 @@ arena_ptr_small_binind_get(const void *ptr, size_t mapbits)
                    pageind);
                miscelm = arena_miscelm_get(chunk, rpages_ind);
                run = &miscelm->run;
-               bin = run->bin;
-               actual_binind = bin - arena->bins;
-               assert(binind == actual_binind);
+               run_binind = run->binind;
+               bin = &arena->bins[run_binind];
+               actual_binind = (szind_t)(bin - arena->bins);
+               assert(run_binind == actual_binind);
                bin_info = &arena_bin_info[actual_binind];
                rpages = arena_miscelm_to_rpages(miscelm);
                assert(((uintptr_t)ptr - ((uintptr_t)rpages +
@@ -938,22 +1068,21 @@ arena_ptr_small_binind_get(const void *ptr, size_t mapbits)
 
        return (binind);
 }
-#  endif /* JEMALLOC_ARENA_INLINE_B */
+#  endif /* JEMALLOC_ARENA_INLINE_A */
 
-#  ifdef JEMALLOC_ARENA_INLINE_C
-JEMALLOC_INLINE size_t
+#  ifdef JEMALLOC_ARENA_INLINE_B
+JEMALLOC_INLINE szind_t
 arena_bin_index(arena_t *arena, arena_bin_t *bin)
 {
-       size_t binind = bin - arena->bins;
+       szind_t binind = (szind_t)(bin - arena->bins);
        assert(binind < NBINS);
        return (binind);
 }
 
-JEMALLOC_INLINE unsigned
+JEMALLOC_INLINE size_t
 arena_run_regind(arena_run_t *run, arena_bin_info_t *bin_info, const void *ptr)
 {
-       unsigned shift, diff, regind;
-       size_t interval;
+       size_t diff, interval, shift, regind;
        arena_chunk_map_misc_t *miscelm = arena_run_to_miscelm(run);
        void *rpages = arena_miscelm_to_rpages(miscelm);
 
@@ -968,12 +1097,12 @@ arena_run_regind(arena_run_t *run, arena_bin_info_t *bin_info, const void *ptr)
         * Avoid doing division with a variable divisor if possible.  Using
         * actual division here can reduce allocator throughput by over 20%!
         */
-       diff = (unsigned)((uintptr_t)ptr - (uintptr_t)rpages -
+       diff = (size_t)((uintptr_t)ptr - (uintptr_t)rpages -
            bin_info->reg0_offset);
 
        /* Rescale (factor powers of 2 out of the numerator and denominator). */
        interval = bin_info->reg_interval;
-       shift = jemalloc_ffs(interval) - 1;
+       shift = ffs_zu(interval) - 1;
        diff >>= shift;
        interval >>= shift;
 
@@ -995,9 +1124,9 @@ arena_run_regind(arena_run_t *run, arena_bin_info_t *bin_info, const void *ptr)
                 * divide by 0, and 1 and 2 are both powers of two, which are
                 * handled above.
                 */
-#define        SIZE_INV_SHIFT  ((sizeof(unsigned) << 3) - LG_RUN_MAXREGS)
-#define        SIZE_INV(s)     (((1U << SIZE_INV_SHIFT) / (s)) + 1)
-               static const unsigned interval_invs[] = {
+#define        SIZE_INV_SHIFT  ((sizeof(size_t) << 3) - LG_RUN_MAXREGS)
+#define        SIZE_INV(s)     (((ZU(1) << SIZE_INV_SHIFT) / (s)) + 1)
+               static const size_t interval_invs[] = {
                    SIZE_INV(3),
                    SIZE_INV(4), SIZE_INV(5), SIZE_INV(6), SIZE_INV(7),
                    SIZE_INV(8), SIZE_INV(9), SIZE_INV(10), SIZE_INV(11),
@@ -1008,8 +1137,8 @@ arena_run_regind(arena_run_t *run, arena_bin_info_t *bin_info, const void *ptr)
                    SIZE_INV(28), SIZE_INV(29), SIZE_INV(30), SIZE_INV(31)
                };
 
-               if (likely(interval <= ((sizeof(interval_invs) /
-                   sizeof(unsigned)) + 2))) {
+               if (likely(interval <= ((sizeof(interval_invs) / sizeof(size_t))
+                   + 2))) {
                        regind = (diff * interval_invs[interval - 3]) >>
                            SIZE_INV_SHIFT;
                } else
@@ -1028,72 +1157,146 @@ arena_prof_tctx_get(const void *ptr)
 {
        prof_tctx_t *ret;
        arena_chunk_t *chunk;
-       size_t pageind, mapbits;
 
        cassert(config_prof);
        assert(ptr != NULL);
-       assert(CHUNK_ADDR2BASE(ptr) != ptr);
 
        chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(ptr);
-       pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
-       mapbits = arena_mapbits_get(chunk, pageind);
-       assert((mapbits & CHUNK_MAP_ALLOCATED) != 0);
-       if (likely((mapbits & CHUNK_MAP_LARGE) == 0))
-               ret = (prof_tctx_t *)(uintptr_t)1U;
-       else
-               ret = arena_miscelm_get(chunk, pageind)->prof_tctx;
+       if (likely(chunk != ptr)) {
+               size_t pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
+               size_t mapbits = arena_mapbits_get(chunk, pageind);
+               assert((mapbits & CHUNK_MAP_ALLOCATED) != 0);
+               if (likely((mapbits & CHUNK_MAP_LARGE) == 0))
+                       ret = (prof_tctx_t *)(uintptr_t)1U;
+               else {
+                       arena_chunk_map_misc_t *elm = arena_miscelm_get(chunk,
+                           pageind);
+                       ret = atomic_read_p(&elm->prof_tctx_pun);
+               }
+       } else
+               ret = huge_prof_tctx_get(ptr);
 
        return (ret);
 }
 
 JEMALLOC_INLINE void
-arena_prof_tctx_set(const void *ptr, prof_tctx_t *tctx)
+arena_prof_tctx_set(const void *ptr, size_t usize, prof_tctx_t *tctx)
 {
        arena_chunk_t *chunk;
-       size_t pageind;
 
        cassert(config_prof);
        assert(ptr != NULL);
-       assert(CHUNK_ADDR2BASE(ptr) != ptr);
 
        chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(ptr);
-       pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
-       assert(arena_mapbits_allocated_get(chunk, pageind) != 0);
+       if (likely(chunk != ptr)) {
+               size_t pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
+
+               assert(arena_mapbits_allocated_get(chunk, pageind) != 0);
 
-       if (unlikely(arena_mapbits_large_get(chunk, pageind) != 0))
-               arena_miscelm_get(chunk, pageind)->prof_tctx = tctx;
+               if (unlikely(usize > SMALL_MAXCLASS || (uintptr_t)tctx >
+                   (uintptr_t)1U)) {
+                       arena_chunk_map_misc_t *elm;
+
+                       assert(arena_mapbits_large_get(chunk, pageind) != 0);
+
+                       elm = arena_miscelm_get(chunk, pageind);
+                       atomic_write_p(&elm->prof_tctx_pun, tctx);
+               } else {
+                       /*
+                        * tctx must always be initialized for large runs.
+                        * Assert that the surrounding conditional logic is
+                        * equivalent to checking whether ptr refers to a large
+                        * run.
+                        */
+                       assert(arena_mapbits_large_get(chunk, pageind) == 0);
+               }
+       } else
+               huge_prof_tctx_set(ptr, tctx);
+}
+
+JEMALLOC_INLINE void
+arena_prof_tctx_reset(const void *ptr, size_t usize, const void *old_ptr,
+    prof_tctx_t *old_tctx)
+{
+
+       cassert(config_prof);
+       assert(ptr != NULL);
+
+       if (unlikely(usize > SMALL_MAXCLASS || (ptr == old_ptr &&
+           (uintptr_t)old_tctx > (uintptr_t)1U))) {
+               arena_chunk_t *chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(ptr);
+               if (likely(chunk != ptr)) {
+                       size_t pageind;
+                       arena_chunk_map_misc_t *elm;
+
+                       pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >>
+                           LG_PAGE;
+                       assert(arena_mapbits_allocated_get(chunk, pageind) !=
+                           0);
+                       assert(arena_mapbits_large_get(chunk, pageind) != 0);
+
+                       elm = arena_miscelm_get(chunk, pageind);
+                       atomic_write_p(&elm->prof_tctx_pun,
+                           (prof_tctx_t *)(uintptr_t)1U);
+               } else
+                       huge_prof_tctx_reset(ptr);
+       }
+}
+
+JEMALLOC_ALWAYS_INLINE void
+arena_decay_ticks(tsd_t *tsd, arena_t *arena, unsigned nticks)
+{
+       ticker_t *decay_ticker;
+
+       if (unlikely(tsd == NULL))
+               return;
+       decay_ticker = decay_ticker_get(tsd, arena->ind);
+       if (unlikely(decay_ticker == NULL))
+               return;
+       if (unlikely(ticker_ticks(decay_ticker, nticks)))
+               arena_purge(arena, false);
+}
+
+JEMALLOC_ALWAYS_INLINE void
+arena_decay_tick(tsd_t *tsd, arena_t *arena)
+{
+
+       arena_decay_ticks(tsd, arena, 1);
 }
 
 JEMALLOC_ALWAYS_INLINE void *
-arena_malloc(tsd_t *tsd, arena_t *arena, size_t size, bool zero,
-    bool try_tcache)
+arena_malloc(tsd_t *tsd, arena_t *arena, size_t size, szind_t ind, bool zero,
+    tcache_t *tcache, bool slow_path)
 {
-       tcache_t *tcache;
 
        assert(size != 0);
-       assert(size <= arena_maxclass);
 
-       if (likely(size <= SMALL_MAXCLASS)) {
-               if (likely(try_tcache) && likely((tcache = tcache_get(tsd,
-                   true)) != NULL))
-                       return (tcache_alloc_small(tcache, size, zero));
-               else {
-                       return (arena_malloc_small(choose_arena(tsd, arena),
-                           size, zero));
+       if (likely(tcache != NULL)) {
+               if (likely(size <= SMALL_MAXCLASS)) {
+                       return (tcache_alloc_small(tsd, arena, tcache, size,
+                           ind, zero, slow_path));
                }
-       } else {
-               /*
-                * Initialize tcache after checking size in order to avoid
-                * infinite recursion during tcache initialization.
-                */
-               if (try_tcache && size <= tcache_maxclass && likely((tcache =
-                   tcache_get(tsd, true)) != NULL))
-                       return (tcache_alloc_large(tcache, size, zero));
-               else {
-                       return (arena_malloc_large(choose_arena(tsd, arena),
-                           size, zero));
+               if (likely(size <= tcache_maxclass)) {
+                       return (tcache_alloc_large(tsd, arena, tcache, size,
+                           ind, zero, slow_path));
                }
+               /* (size > tcache_maxclass) case falls through. */
+               assert(size > tcache_maxclass);
        }
+
+       return (arena_malloc_hard(tsd, arena, size, ind, zero, tcache));
+}
+
+JEMALLOC_ALWAYS_INLINE arena_t *
+arena_aalloc(const void *ptr)
+{
+       arena_chunk_t *chunk;
+
+       chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(ptr);
+       if (likely(chunk != ptr))
+               return (extent_node_arena_get(&chunk->node));
+       else
+               return (huge_aalloc(ptr));
 }
 
 /* Return the size of the allocation pointed to by ptr. */
@@ -1102,108 +1305,145 @@ arena_salloc(const void *ptr, bool demote)
 {
        size_t ret;
        arena_chunk_t *chunk;
-       size_t pageind, binind;
+       size_t pageind;
+       szind_t binind;
 
        assert(ptr != NULL);
-       assert(CHUNK_ADDR2BASE(ptr) != ptr);
 
        chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(ptr);
-       pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
-       assert(arena_mapbits_allocated_get(chunk, pageind) != 0);
-       binind = arena_mapbits_binind_get(chunk, pageind);
-       if (unlikely(binind == BININD_INVALID || (config_prof && !demote &&
-           arena_mapbits_large_get(chunk, pageind) != 0))) {
-               /*
-                * Large allocation.  In the common case (demote), and as this
-                * is an inline function, most callers will only end up looking
-                * at binind to determine that ptr is a small allocation.
-                */
-               assert(((uintptr_t)ptr & PAGE_MASK) == 0);
-               ret = arena_mapbits_large_size_get(chunk, pageind);
-               assert(ret != 0);
-               assert(pageind + (ret>>LG_PAGE) <= chunk_npages);
-               assert(ret == PAGE || arena_mapbits_large_size_get(chunk,
-                   pageind+(ret>>LG_PAGE)-1) == 0);
-               assert(binind == arena_mapbits_binind_get(chunk,
-                   pageind+(ret>>LG_PAGE)-1));
-               assert(arena_mapbits_dirty_get(chunk, pageind) ==
-                   arena_mapbits_dirty_get(chunk, pageind+(ret>>LG_PAGE)-1));
-       } else {
-               /* Small allocation (possibly promoted to a large object). */
-               assert(arena_mapbits_large_get(chunk, pageind) != 0 ||
-                   arena_ptr_small_binind_get(ptr, arena_mapbits_get(chunk,
-                   pageind)) == binind);
-               ret = small_bin2size(binind);
-       }
+       if (likely(chunk != ptr)) {
+               pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
+               assert(arena_mapbits_allocated_get(chunk, pageind) != 0);
+               binind = arena_mapbits_binind_get(chunk, pageind);
+               if (unlikely(binind == BININD_INVALID || (config_prof && !demote
+                   && arena_mapbits_large_get(chunk, pageind) != 0))) {
+                       /*
+                        * Large allocation.  In the common case (demote), and
+                        * as this is an inline function, most callers will only
+                        * end up looking at binind to determine that ptr is a
+                        * small allocation.
+                        */
+                       assert(config_cache_oblivious || ((uintptr_t)ptr &
+                           PAGE_MASK) == 0);
+                       ret = arena_mapbits_large_size_get(chunk, pageind) -
+                           large_pad;
+                       assert(ret != 0);
+                       assert(pageind + ((ret+large_pad)>>LG_PAGE) <=
+                           chunk_npages);
+                       assert(arena_mapbits_dirty_get(chunk, pageind) ==
+                           arena_mapbits_dirty_get(chunk,
+                           pageind+((ret+large_pad)>>LG_PAGE)-1));
+               } else {
+                       /*
+                        * Small allocation (possibly promoted to a large
+                        * object).
+                        */
+                       assert(arena_mapbits_large_get(chunk, pageind) != 0 ||
+                           arena_ptr_small_binind_get(ptr,
+                           arena_mapbits_get(chunk, pageind)) == binind);
+                       ret = index2size(binind);
+               }
+       } else
+               ret = huge_salloc(ptr);
 
        return (ret);
 }
 
 JEMALLOC_ALWAYS_INLINE void
-arena_dalloc(tsd_t *tsd, arena_chunk_t *chunk, void *ptr, bool try_tcache)
+arena_dalloc(tsd_t *tsd, void *ptr, tcache_t *tcache, bool slow_path)
 {
+       arena_chunk_t *chunk;
        size_t pageind, mapbits;
-       tcache_t *tcache;
 
        assert(ptr != NULL);
-       assert(CHUNK_ADDR2BASE(ptr) != ptr);
 
-       pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
-       mapbits = arena_mapbits_get(chunk, pageind);
-       assert(arena_mapbits_allocated_get(chunk, pageind) != 0);
-       if (likely((mapbits & CHUNK_MAP_LARGE) == 0)) {
-               /* Small allocation. */
-               if (likely(try_tcache) && likely((tcache = tcache_get(tsd,
-                   false)) != NULL)) {
-                       size_t binind = arena_ptr_small_binind_get(ptr,
-                           mapbits);
-                       tcache_dalloc_small(tcache, ptr, binind);
-               } else
-                       arena_dalloc_small(chunk->arena, chunk, ptr, pageind);
-       } else {
-               size_t size = arena_mapbits_large_size_get(chunk, pageind);
-
-               assert(((uintptr_t)ptr & PAGE_MASK) == 0);
-
-               if (try_tcache && size <= tcache_maxclass && likely((tcache =
-                   tcache_get(tsd, false)) != NULL)) {
-                       tcache_dalloc_large(tcache, ptr, size);
-               } else
-                       arena_dalloc_large(chunk->arena, chunk, ptr);
-       }
+       chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(ptr);
+       if (likely(chunk != ptr)) {
+               pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >> LG_PAGE;
+               mapbits = arena_mapbits_get(chunk, pageind);
+               assert(arena_mapbits_allocated_get(chunk, pageind) != 0);
+               if (likely((mapbits & CHUNK_MAP_LARGE) == 0)) {
+                       /* Small allocation. */
+                       if (likely(tcache != NULL)) {
+                               szind_t binind = arena_ptr_small_binind_get(ptr,
+                                   mapbits);
+                               tcache_dalloc_small(tsd, tcache, ptr, binind,
+                                   slow_path);
+                       } else {
+                               arena_dalloc_small(tsd, extent_node_arena_get(
+                                   &chunk->node), chunk, ptr, pageind);
+                       }
+               } else {
+                       size_t size = arena_mapbits_large_size_get(chunk,
+                           pageind);
+
+                       assert(config_cache_oblivious || ((uintptr_t)ptr &
+                           PAGE_MASK) == 0);
+
+                       if (likely(tcache != NULL) && size - large_pad <=
+                           tcache_maxclass) {
+                               tcache_dalloc_large(tsd, tcache, ptr, size -
+                                   large_pad, slow_path);
+                       } else {
+                               arena_dalloc_large(tsd, extent_node_arena_get(
+                                   &chunk->node), chunk, ptr);
+                       }
+               }
+       } else
+               huge_dalloc(tsd, ptr, tcache);
 }
 
 JEMALLOC_ALWAYS_INLINE void
-arena_sdalloc(tsd_t *tsd, arena_chunk_t *chunk, void *ptr, size_t size,
-    bool try_tcache)
+arena_sdalloc(tsd_t *tsd, void *ptr, size_t size, tcache_t *tcache)
 {
-       tcache_t *tcache;
+       arena_chunk_t *chunk;
 
-       assert(ptr != NULL);
-       assert(CHUNK_ADDR2BASE(ptr) != ptr);
-
-       if (likely(size <= SMALL_MAXCLASS)) {
-               /* Small allocation. */
-               if (likely(try_tcache) && likely((tcache = tcache_get(tsd,
-                   false)) != NULL)) {
-                       size_t binind = small_size2bin(size);
-                       tcache_dalloc_small(tcache, ptr, binind);
-               } else {
+       chunk = (arena_chunk_t *)CHUNK_ADDR2BASE(ptr);
+       if (likely(chunk != ptr)) {
+               if (config_prof && opt_prof) {
                        size_t pageind = ((uintptr_t)ptr - (uintptr_t)chunk) >>
                            LG_PAGE;
-                       arena_dalloc_small(chunk->arena, chunk, ptr, pageind);
+                       assert(arena_mapbits_allocated_get(chunk, pageind) !=
+                           0);
+                       if (arena_mapbits_large_get(chunk, pageind) != 0) {
+                               /*
+                                * Make sure to use promoted size, not request
+                                * size.
+                                */
+                               size = arena_mapbits_large_size_get(chunk,
+                                   pageind) - large_pad;
+                       }
                }
-       } else {
-               assert(((uintptr_t)ptr & PAGE_MASK) == 0);
-
-               if (try_tcache && size <= tcache_maxclass && (tcache =
-                   tcache_get(tsd, false)) != NULL) {
-                       tcache_dalloc_large(tcache, ptr, size);
-               } else
-                       arena_dalloc_large(chunk->arena, chunk, ptr);
-       }
+               assert(s2u(size) == s2u(arena_salloc(ptr, false)));
+
+               if (likely(size <= SMALL_MAXCLASS)) {
+                       /* Small allocation. */
+                       if (likely(tcache != NULL)) {
+                               szind_t binind = size2index(size);
+                               tcache_dalloc_small(tsd, tcache, ptr, binind,
+                                   true);
+                       } else {
+                               size_t pageind = ((uintptr_t)ptr -
+                                   (uintptr_t)chunk) >> LG_PAGE;
+                               arena_dalloc_small(tsd, extent_node_arena_get(
+                                   &chunk->node), chunk, ptr, pageind);
+                       }
+               } else {
+                       assert(config_cache_oblivious || ((uintptr_t)ptr &
+                           PAGE_MASK) == 0);
+
+                       if (likely(tcache != NULL) && size <= tcache_maxclass) {
+                               tcache_dalloc_large(tsd, tcache, ptr, size,
+                                   true);
+                       } else {
+                               arena_dalloc_large(tsd, extent_node_arena_get(
+                                   &chunk->node), chunk, ptr);
+                       }
+               }
+       } else
+               huge_dalloc(tsd, ptr, tcache);
 }
-#  endif /* JEMALLOC_ARENA_INLINE_C */
+#  endif /* JEMALLOC_ARENA_INLINE_B */
 #endif
 
 #endif /* JEMALLOC_H_INLINES */