fs/proc/task_mmu.c

   1 #include <linux/mm.h>
   2 #include <linux/vmacache.h>
   3 #include <linux/hugetlb.h>
   4 #include <linux/huge_mm.h>
   5 #include <linux/mount.h>
   6 #include <linux/seq_file.h>
   7 #include <linux/highmem.h>
   8 #include <linux/ptrace.h>
   9 #include <linux/slab.h>
  10 #include <linux/pagemap.h>
  11 #include <linux/mempolicy.h>
  12 #include <linux/rmap.h>
  13 #include <linux/swap.h>
  14 #include <linux/sched/mm.h>
  15 #include <linux/swapops.h>
  16 #include <linux/mmu_notifier.h>
  17 #include <linux/page_idle.h>
  18 #include <linux/shmem_fs.h>
  19 #include <linux/uaccess.h>
  20
  21 #include <asm/elf.h>
  22 #include <asm/tlb.h>
  23 #include <asm/tlbflush.h>
  24 #include "internal.h"
  25
  26 void task_mem(struct seq_file *m, struct mm_struct *mm)
  27 {
  28         unsigned long text, lib, swap, ptes, pmds, anon, file, shmem;
  29         unsigned long hiwater_vm, total_vm, hiwater_rss, total_rss;
  30
  31         anon = get_mm_counter(mm, MM_ANONPAGES);
  32         file = get_mm_counter(mm, MM_FILEPAGES);
  33         shmem = get_mm_counter(mm, MM_SHMEMPAGES);
  34
  35         /*
  36          * Note: to minimize their overhead, mm maintains hiwater_vm and
  37          * hiwater_rss only when about to *lower* total_vm or rss.  Any
  38          * collector of these hiwater stats must therefore get total_vm
  39          * and rss too, which will usually be the higher.  Barriers? not
  40          * worth the effort, such snapshots can always be inconsistent.
  41          */
  42         hiwater_vm = total_vm = mm->total_vm;
  43         if (hiwater_vm < mm->hiwater_vm)
  44                 hiwater_vm = mm->hiwater_vm;
  45         hiwater_rss = total_rss = anon + file + shmem;
  46         if (hiwater_rss < mm->hiwater_rss)
  47                 hiwater_rss = mm->hiwater_rss;
  48
  49         text = (PAGE_ALIGN(mm->end_code) - (mm->start_code & PAGE_MASK)) >> 10;
  50         lib = (mm->exec_vm << (PAGE_SHIFT-10)) - text;
  51         swap = get_mm_counter(mm, MM_SWAPENTS);
  52         ptes = PTRS_PER_PTE * sizeof(pte_t) * atomic_long_read(&mm->nr_ptes);
  53         pmds = PTRS_PER_PMD * sizeof(pmd_t) * mm_nr_pmds(mm);
  54         seq_printf(m,
  55                 "VmPeak:\t%8lu kB\n"
  56                 "VmSize:\t%8lu kB\n"
  57                 "VmLck:\t%8lu kB\n"
  58                 "VmPin:\t%8lu kB\n"
  59                 "VmHWM:\t%8lu kB\n"
  60                 "VmRSS:\t%8lu kB\n"
  61                 "RssAnon:\t%8lu kB\n"
  62                 "RssFile:\t%8lu kB\n"
  63                 "RssShmem:\t%8lu kB\n"
  64                 "VmData:\t%8lu kB\n"
  65                 "VmStk:\t%8lu kB\n"
  66                 "VmExe:\t%8lu kB\n"
  67                 "VmLib:\t%8lu kB\n"
  68                 "VmPTE:\t%8lu kB\n"
  69                 "VmPMD:\t%8lu kB\n"
  70                 "VmSwap:\t%8lu kB\n",
  71                 hiwater_vm << (PAGE_SHIFT-10),
  72                 total_vm << (PAGE_SHIFT-10),
  73                 mm->locked_vm << (PAGE_SHIFT-10),
  74                 mm->pinned_vm << (PAGE_SHIFT-10),
  75                 hiwater_rss << (PAGE_SHIFT-10),
  76                 total_rss << (PAGE_SHIFT-10),
  77                 anon << (PAGE_SHIFT-10),
  78                 file << (PAGE_SHIFT-10),
  79                 shmem << (PAGE_SHIFT-10),
  80                 mm->data_vm << (PAGE_SHIFT-10),
  81                 mm->stack_vm << (PAGE_SHIFT-10), text, lib,
  82                 ptes >> 10,
  83                 pmds >> 10,
  84                 swap << (PAGE_SHIFT-10));
  85         hugetlb_report_usage(m, mm);
  86 }
  87
  88 unsigned long task_vsize(struct mm_struct *mm)
  89 {
  90         return PAGE_SIZE * mm->total_vm;
  91 }
  92
  93 unsigned long task_statm(struct mm_struct *mm,
  94                          unsigned long *shared, unsigned long *text,
  95                          unsigned long *data, unsigned long *resident)
  96 {
  97         *shared = get_mm_counter(mm, MM_FILEPAGES) +
  98                         get_mm_counter(mm, MM_SHMEMPAGES);
  99         *text = (PAGE_ALIGN(mm->end_code) - (mm->start_code & PAGE_MASK))
 100                                                                 >> PAGE_SHIFT;
 101         *data = mm->data_vm + mm->stack_vm;
 102         *resident = *shared + get_mm_counter(mm, MM_ANONPAGES);
 103         return mm->total_vm;
 104 }
 105
 106 #ifdef CONFIG_NUMA
 107 /*
 108  * Save get_task_policy() for show_numa_map().
 109  */
 110 static void hold_task_mempolicy(struct proc_maps_private *priv)
 111 {
 112         struct task_struct *task = priv->task;
 113
 114         task_lock(task);
 115         priv->task_mempolicy = get_task_policy(task);
 116         mpol_get(priv->task_mempolicy);
 117         task_unlock(task);
 118 }
 119 static void release_task_mempolicy(struct proc_maps_private *priv)
 120 {
 121         mpol_put(priv->task_mempolicy);
 122 }
 123 #else
 124 static void hold_task_mempolicy(struct proc_maps_private *priv)
 125 {
 126 }
 127 static void release_task_mempolicy(struct proc_maps_private *priv)
 128 {
 129 }
 130 #endif
 131
 132 static void vma_stop(struct proc_maps_private *priv)
 133 {
 134         struct mm_struct *mm = priv->mm;
 135
 136         release_task_mempolicy(priv);
 137         up_read(&mm->mmap_sem);
 138         mmput(mm);
 139 }
 140
 141 static struct vm_area_struct *
 142 m_next_vma(struct proc_maps_private *priv, struct vm_area_struct *vma)
 143 {
 144         if (vma == priv->tail_vma)
 145                 return NULL;
 146         return vma->vm_next ?: priv->tail_vma;
 147 }
 148
 149 static void m_cache_vma(struct seq_file *m, struct vm_area_struct *vma)
 150 {
 151         if (m->count < m->size) /* vma is copied successfully */
 152                 m->version = m_next_vma(m->private, vma) ? vma->vm_end : -1UL;
 153 }
 154
 155 static void *m_start(struct seq_file *m, loff_t *ppos)
 156 {
 157         struct proc_maps_private *priv = m->private;
 158         unsigned long last_addr = m->version;
 159         struct mm_struct *mm;
 160         struct vm_area_struct *vma;
 161         unsigned int pos = *ppos;
 162
 163         /* See m_cache_vma(). Zero at the start or after lseek. */
 164         if (last_addr == -1UL)
 165                 return NULL;
 166
 167         priv->task = get_proc_task(priv->inode);
 168         if (!priv->task)
 169                 return ERR_PTR(-ESRCH);
 170
 171         mm = priv->mm;
 172         if (!mm || !mmget_not_zero(mm))
 173                 return NULL;
 174
 175         down_read(&mm->mmap_sem);
 176         hold_task_mempolicy(priv);
 177         priv->tail_vma = get_gate_vma(mm);
 178
 179         if (last_addr) {
 180                 vma = find_vma(mm, last_addr - 1);
 181                 if (vma && vma->vm_start <= last_addr)
 182                         vma = m_next_vma(priv, vma);
 183                 if (vma)
 184                         return vma;
 185         }
 186
 187         m->version = 0;
 188         if (pos < mm->map_count) {
 189                 for (vma = mm->mmap; pos; pos--) {
 190                         m->version = vma->vm_start;
 191                         vma = vma->vm_next;
 192                 }
 193                 return vma;
 194         }
 195
 196         /* we do not bother to update m->version in this case */
 197         if (pos == mm->map_count && priv->tail_vma)
 198                 return priv->tail_vma;
 199
 200         vma_stop(priv);
 201         return NULL;
 202 }
 203
 204 static void *m_next(struct seq_file *m, void *v, loff_t *pos)
 205 {
 206         struct proc_maps_private *priv = m->private;
 207         struct vm_area_struct *next;
 208
 209         (*pos)++;
 210         next = m_next_vma(priv, v);
 211         if (!next)
 212                 vma_stop(priv);
 213         return next;
 214 }
 215
 216 static void m_stop(struct seq_file *m, void *v)
 217 {
 218         struct proc_maps_private *priv = m->private;
 219
 220         if (!IS_ERR_OR_NULL(v))
 221                 vma_stop(priv);
 222         if (priv->task) {
 223                 put_task_struct(priv->task);
 224                 priv->task = NULL;
 225         }
 226 }
 227
 228 static int proc_maps_open(struct inode *inode, struct file *file,
 229                         const struct seq_operations *ops, int psize)
 230 {
 231         struct proc_maps_private *priv = __seq_open_private(file, ops, psize);
 232
 233         if (!priv)
 234                 return -ENOMEM;
 235
 236         priv->inode = inode;
 237         priv->mm = proc_mem_open(inode, PTRACE_MODE_READ);
 238         if (IS_ERR(priv->mm)) {
 239                 int err = PTR_ERR(priv->mm);
 240
 241                 seq_release_private(inode, file);
 242                 return err;
 243         }
 244
 245         return 0;
 246 }
 247
 248 static int proc_map_release(struct inode *inode, struct file *file)
 249 {
 250         struct seq_file *seq = file->private_data;
 251         struct proc_maps_private *priv = seq->private;
 252
 253         if (priv->mm)
 254                 mmdrop(priv->mm);
 255
 256         return seq_release_private(inode, file);
 257 }
 258
 259 static int do_maps_open(struct inode *inode, struct file *file,
 260                         const struct seq_operations *ops)
 261 {
 262         return proc_maps_open(inode, file, ops,
 263                                 sizeof(struct proc_maps_private));
 264 }
 265
 266 /*
 267  * Indicate if the VMA is a stack for the given task; for
 268  * /proc/PID/maps that is the stack of the main task.
 269  */
 270 static int is_stack(struct proc_maps_private *priv,
 271                     struct vm_area_struct *vma)
 272 {
 273         /*
 274          * We make no effort to guess what a given thread considers to be
 275          * its "stack".  It's not even well-defined for programs written
 276          * languages like Go.
 277          */
 278         return vma->vm_start <= vma->vm_mm->start_stack &&
 279                 vma->vm_end >= vma->vm_mm->start_stack;
 280 }
 281
 282 static void
 283 show_map_vma(struct seq_file *m, struct vm_area_struct *vma, int is_pid)
 284 {
 285         struct mm_struct *mm = vma->vm_mm;
 286         struct file *file = vma->vm_file;
 287         struct proc_maps_private *priv = m->private;
 288         vm_flags_t flags = vma->vm_flags;
 289         unsigned long ino = 0;
 290         unsigned long long pgoff = 0;
 291         unsigned long start, end;
 292         dev_t dev = 0;
 293         const char *name = NULL;
 294
 295         if (file) {
 296                 struct inode *inode;
 297
 298                 file = vma_pr_or_file(vma);
 299                 inode = file_inode(file);
 300                 dev = inode->i_sb->s_dev;
 301                 ino = inode->i_ino;
 302                 pgoff = ((loff_t)vma->vm_pgoff) << PAGE_SHIFT;
 303         }
 304
 305         start = vma->vm_start;
 306         end = vma->vm_end;
 307
 308         seq_setwidth(m, 25 + sizeof(void *) * 6 - 1);
 309         seq_printf(m, "%08lx-%08lx %c%c%c%c %08llx %02x:%02x %lu ",
 310                         start,
 311                         end,
 312                         flags & VM_READ ? 'r' : '-',
 313                         flags & VM_WRITE ? 'w' : '-',
 314                         flags & VM_EXEC ? 'x' : '-',
 315                         flags & VM_MAYSHARE ? 's' : 'p',
 316                         pgoff,
 317                         MAJOR(dev), MINOR(dev), ino);
 318
 319         /*
 320          * Print the dentry name for named mappings, and a
 321          * special [heap] marker for the heap:
 322          */
 323         if (file) {
 324                 seq_pad(m, ' ');
 325                 seq_file_path(m, file, "\n");
 326                 goto done;
 327         }
 328
 329         if (vma->vm_ops && vma->vm_ops->name) {
 330                 name = vma->vm_ops->name(vma);
 331                 if (name)
 332                         goto done;
 333         }
 334
 335         name = arch_vma_name(vma);
 336         if (!name) {
 337                 if (!mm) {
 338                         name = "[vdso]";
 339                         goto done;
 340                 }
 341
 342                 if (vma->vm_start <= mm->brk &&
 343                     vma->vm_end >= mm->start_brk) {
 344                         name = "[heap]";
 345                         goto done;
 346                 }
 347
 348                 if (is_stack(priv, vma))
 349                         name = "[stack]";
 350         }
 351
 352 done:
 353         if (name) {
 354                 seq_pad(m, ' ');
 355                 seq_puts(m, name);
 356         }
 357         seq_putc(m, '\n');
 358 }
 359
 360 static int show_map(struct seq_file *m, void *v, int is_pid)
 361 {
 362         show_map_vma(m, v, is_pid);
 363         m_cache_vma(m, v);
 364         return 0;
 365 }
 366
 367 static int show_pid_map(struct seq_file *m, void *v)
 368 {
 369         return show_map(m, v, 1);
 370 }
 371
 372 static int show_tid_map(struct seq_file *m, void *v)
 373 {
 374         return show_map(m, v, 0);
 375 }
 376
 377 static const struct seq_operations proc_pid_maps_op = {
 378         .start  = m_start,
 379         .next   = m_next,
 380         .stop   = m_stop,
 381         .show   = show_pid_map
 382 };
 383
 384 static const struct seq_operations proc_tid_maps_op = {
 385         .start  = m_start,
 386         .next   = m_next,
 387         .stop   = m_stop,
 388         .show   = show_tid_map
 389 };
 390
 391 static int pid_maps_open(struct inode *inode, struct file *file)
 392 {
 393         return do_maps_open(inode, file, &proc_pid_maps_op);
 394 }
 395
 396 static int tid_maps_open(struct inode *inode, struct file *file)
 397 {
 398         return do_maps_open(inode, file, &proc_tid_maps_op);
 399 }
 400
 401 const struct file_operations proc_pid_maps_operations = {
 402         .open           = pid_maps_open,
 403         .read           = seq_read,
 404         .llseek         = seq_lseek,
 405         .release        = proc_map_release,
 406 };
 407
 408 const struct file_operations proc_tid_maps_operations = {
 409         .open           = tid_maps_open,
 410         .read           = seq_read,
 411         .llseek         = seq_lseek,
 412         .release        = proc_map_release,
 413 };
 414
 415 /*
 416  * Proportional Set Size(PSS): my share of RSS.
 417  *
 418  * PSS of a process is the count of pages it has in memory, where each
 419  * page is divided by the number of processes sharing it.  So if a
 420  * process has 1000 pages all to itself, and 1000 shared with one other
 421  * process, its PSS will be 1500.
 422  *
 423  * To keep (accumulated) division errors low, we adopt a 64bit
 424  * fixed-point pss counter to minimize division errors. So (pss >>
 425  * PSS_SHIFT) would be the real byte count.
 426  *
 427  * A shift of 12 before division means (assuming 4K page size):
 428  *      - 1M 3-user-pages add up to 8KB errors;
 429  *      - supports mapcount up to 2^24, or 16M;
 430  *      - supports PSS up to 2^52 bytes, or 4PB.
 431  */
 432 #define PSS_SHIFT 12
 433
 434 #ifdef CONFIG_PROC_PAGE_MONITOR
 435 struct mem_size_stats {
 436         unsigned long resident;
 437         unsigned long shared_clean;
 438         unsigned long shared_dirty;
 439         unsigned long private_clean;
 440         unsigned long private_dirty;
 441         unsigned long referenced;
 442         unsigned long anonymous;
 443         unsigned long lazyfree;
 444         unsigned long anonymous_thp;
 445         unsigned long shmem_thp;
 446         unsigned long swap;
 447         unsigned long shared_hugetlb;
 448         unsigned long private_hugetlb;
 449         u64 pss;
 450         u64 swap_pss;
 451         bool check_shmem_swap;
 452 };
 453
 454 static void smaps_account(struct mem_size_stats *mss, struct page *page,
 455                 bool compound, bool young, bool dirty)
 456 {
 457         int i, nr = compound ? 1 << compound_order(page) : 1;
 458         unsigned long size = nr * PAGE_SIZE;
 459
 460         if (PageAnon(page)) {
 461                 mss->anonymous += size;
 462                 if (!PageSwapBacked(page) && !dirty && !PageDirty(page))
 463                         mss->lazyfree += size;
 464         }
 465
 466         mss->resident += size;
 467         /* Accumulate the size in pages that have been accessed. */
 468         if (young || page_is_young(page) || PageReferenced(page))
 469                 mss->referenced += size;
 470
 471         /*
 472          * page_count(page) == 1 guarantees the page is mapped exactly once.
 473          * If any subpage of the compound page mapped with PTE it would elevate
 474          * page_count().
 475          */
 476         if (page_count(page) == 1) {
 477                 if (dirty || PageDirty(page))
 478                         mss->private_dirty += size;
 479                 else
 480                         mss->private_clean += size;
 481                 mss->pss += (u64)size << PSS_SHIFT;
 482                 return;
 483         }
 484
 485         for (i = 0; i < nr; i++, page++) {
 486                 int mapcount = page_mapcount(page);
 487
 488                 if (mapcount >= 2) {
 489                         if (dirty || PageDirty(page))
 490                                 mss->shared_dirty += PAGE_SIZE;
 491                         else
 492                                 mss->shared_clean += PAGE_SIZE;
 493                         mss->pss += (PAGE_SIZE << PSS_SHIFT) / mapcount;
 494                 } else {
 495                         if (dirty || PageDirty(page))
 496                                 mss->private_dirty += PAGE_SIZE;
 497                         else
 498                                 mss->private_clean += PAGE_SIZE;
 499                         mss->pss += PAGE_SIZE << PSS_SHIFT;
 500                 }
 501         }
 502 }
 503
 504 #ifdef CONFIG_SHMEM
 505 static int smaps_pte_hole(unsigned long addr, unsigned long end,
 506                 struct mm_walk *walk)
 507 {
 508         struct mem_size_stats *mss = walk->private;
 509
 510         mss->swap += shmem_partial_swap_usage(
 511                         walk->vma->vm_file->f_mapping, addr, end);
 512
 513         return 0;
 514 }
 515 #endif
 516
 517 static void smaps_pte_entry(pte_t *pte, unsigned long addr,
 518                 struct mm_walk *walk)
 519 {
 520         struct mem_size_stats *mss = walk->private;
 521         struct vm_area_struct *vma = walk->vma;
 522         struct page *page = NULL;
 523
 524         if (pte_present(*pte)) {
 525                 page = vm_normal_page(vma, addr, *pte);
 526         } else if (is_swap_pte(*pte)) {
 527                 swp_entry_t swpent = pte_to_swp_entry(*pte);
 528
 529                 if (!non_swap_entry(swpent)) {
 530                         int mapcount;
 531
 532                         mss->swap += PAGE_SIZE;
 533                         mapcount = swp_swapcount(swpent);
 534                         if (mapcount >= 2) {
 535                                 u64 pss_delta = (u64)PAGE_SIZE << PSS_SHIFT;
 536
 537                                 do_div(pss_delta, mapcount);
 538                                 mss->swap_pss += pss_delta;
 539                         } else {
 540                                 mss->swap_pss += (u64)PAGE_SIZE << PSS_SHIFT;
 541                         }
 542                 } else if (is_migration_entry(swpent))
 543                         page = migration_entry_to_page(swpent);
 544         } else if (unlikely(IS_ENABLED(CONFIG_SHMEM) && mss->check_shmem_swap
 545                                                         && pte_none(*pte))) {
 546                 page = find_get_entry(vma->vm_file->f_mapping,
 547                                                 linear_page_index(vma, addr));
 548                 if (!page)
 549                         return;
 550
 551                 if (radix_tree_exceptional_entry(page))
 552                         mss->swap += PAGE_SIZE;
 553                 else
 554                         put_page(page);
 555
 556                 return;
 557         }
 558
 559         if (!page)
 560                 return;
 561
 562         smaps_account(mss, page, false, pte_young(*pte), pte_dirty(*pte));
 563 }
 564
 565 #ifdef CONFIG_TRANSPARENT_HUGEPAGE
 566 static void smaps_pmd_entry(pmd_t *pmd, unsigned long addr,
 567                 struct mm_walk *walk)
 568 {
 569         struct mem_size_stats *mss = walk->private;
 570         struct vm_area_struct *vma = walk->vma;
 571         struct page *page;
 572
 573         /* FOLL_DUMP will return -EFAULT on huge zero page */
 574         page = follow_trans_huge_pmd(vma, addr, pmd, FOLL_DUMP);
 575         if (IS_ERR_OR_NULL(page))
 576                 return;
 577         if (PageAnon(page))
 578                 mss->anonymous_thp += HPAGE_PMD_SIZE;
 579         else if (PageSwapBacked(page))
 580                 mss->shmem_thp += HPAGE_PMD_SIZE;
 581         else if (is_zone_device_page(page))
 582                 /* pass */;
 583         else
 584                 VM_BUG_ON_PAGE(1, page);
 585         smaps_account(mss, page, true, pmd_young(*pmd), pmd_dirty(*pmd));
 586 }
 587 #else
 588 static void smaps_pmd_entry(pmd_t *pmd, unsigned long addr,
 589                 struct mm_walk *walk)
 590 {
 591 }
 592 #endif
 593
 594 static int smaps_pte_range(pmd_t *pmd, unsigned long addr, unsigned long end,
 595                            struct mm_walk *walk)
 596 {
 597         struct vm_area_struct *vma = walk->vma;
 598         pte_t *pte;
 599         spinlock_t *ptl;
 600
 601         ptl = pmd_trans_huge_lock(pmd, vma);
 602         if (ptl) {
 603                 smaps_pmd_entry(pmd, addr, walk);
 604                 spin_unlock(ptl);
 605                 return 0;
 606         }
 607
 608         if (pmd_trans_unstable(pmd))
 609                 return 0;
 610         /*
 611          * The mmap_sem held all the way back in m_start() is what
 612          * keeps khugepaged out of here and from collapsing things
 613          * in here.
 614          */
 615         pte = pte_offset_map_lock(vma->vm_mm, pmd, addr, &ptl);
 616         for (; addr != end; pte++, addr += PAGE_SIZE)
 617                 smaps_pte_entry(pte, addr, walk);
 618         pte_unmap_unlock(pte - 1, ptl);
 619         cond_resched();
 620         return 0;
 621 }
 622
 623 static void show_smap_vma_flags(struct seq_file *m, struct vm_area_struct *vma)
 624 {
 625         /*
 626          * Don't forget to update Documentation/ on changes.
 627          */
 628         static const char mnemonics[BITS_PER_LONG][2] = {
 629                 /*
 630                  * In case if we meet a flag we don't know about.
 631                  */
 632                 [0 ... (BITS_PER_LONG-1)] = "??",
 633
 634                 [ilog2(VM_READ)]        = "rd",
 635                 [ilog2(VM_WRITE)]       = "wr",
 636                 [ilog2(VM_EXEC)]        = "ex",
 637                 [ilog2(VM_SHARED)]      = "sh",
 638                 [ilog2(VM_MAYREAD)]     = "mr",
 639                 [ilog2(VM_MAYWRITE)]    = "mw",
 640                 [ilog2(VM_MAYEXEC)]     = "me",
 641                 [ilog2(VM_MAYSHARE)]    = "ms",
 642                 [ilog2(VM_GROWSDOWN)]   = "gd",
 643                 [ilog2(VM_PFNMAP)]      = "pf",
 644                 [ilog2(VM_DENYWRITE)]   = "dw",
 645 #ifdef CONFIG_X86_INTEL_MPX
 646                 [ilog2(VM_MPX)]         = "mp",
 647 #endif
 648                 [ilog2(VM_LOCKED)]      = "lo",
 649                 [ilog2(VM_IO)]          = "io",
 650                 [ilog2(VM_SEQ_READ)]    = "sr",
 651                 [ilog2(VM_RAND_READ)]   = "rr",
 652                 [ilog2(VM_DONTCOPY)]    = "dc",
 653                 [ilog2(VM_DONTEXPAND)]  = "de",
 654                 [ilog2(VM_ACCOUNT)]     = "ac",
 655                 [ilog2(VM_NORESERVE)]   = "nr",
 656                 [ilog2(VM_HUGETLB)]     = "ht",
 657                 [ilog2(VM_ARCH_1)]      = "ar",
 658                 [ilog2(VM_DONTDUMP)]    = "dd",
 659 #ifdef CONFIG_MEM_SOFT_DIRTY
 660                 [ilog2(VM_SOFTDIRTY)]   = "sd",
 661 #endif
 662                 [ilog2(VM_MIXEDMAP)]    = "mm",
 663                 [ilog2(VM_HUGEPAGE)]    = "hg",
 664                 [ilog2(VM_NOHUGEPAGE)]  = "nh",
 665                 [ilog2(VM_MERGEABLE)]   = "mg",
 666                 [ilog2(VM_UFFD_MISSING)]= "um",
 667                 [ilog2(VM_UFFD_WP)]     = "uw",
 668 #ifdef CONFIG_X86_INTEL_MEMORY_PROTECTION_KEYS
 669                 /* These come out via ProtectionKey: */
 670                 [ilog2(VM_PKEY_BIT0)]   = "",
 671                 [ilog2(VM_PKEY_BIT1)]   = "",
 672                 [ilog2(VM_PKEY_BIT2)]   = "",
 673                 [ilog2(VM_PKEY_BIT3)]   = "",
 674 #endif
 675         };
 676         size_t i;
 677
 678         seq_puts(m, "VmFlags: ");
 679         for (i = 0; i < BITS_PER_LONG; i++) {
 680                 if (!mnemonics[i][0])
 681                         continue;
 682                 if (vma->vm_flags & (1UL << i)) {
 683                         seq_printf(m, "%c%c ",
 684                                    mnemonics[i][0], mnemonics[i][1]);
 685                 }
 686         }
 687         seq_putc(m, '\n');
 688 }
 689
 690 #ifdef CONFIG_HUGETLB_PAGE
 691 static int smaps_hugetlb_range(pte_t *pte, unsigned long hmask,
 692                                  unsigned long addr, unsigned long end,
 693                                  struct mm_walk *walk)
 694 {
 695         struct mem_size_stats *mss = walk->private;
 696         struct vm_area_struct *vma = walk->vma;
 697         struct page *page = NULL;
 698
 699         if (pte_present(*pte)) {
 700                 page = vm_normal_page(vma, addr, *pte);
 701         } else if (is_swap_pte(*pte)) {
 702                 swp_entry_t swpent = pte_to_swp_entry(*pte);
 703
 704                 if (is_migration_entry(swpent))
 705                         page = migration_entry_to_page(swpent);
 706         }
 707         if (page) {
 708                 int mapcount = page_mapcount(page);
 709
 710                 if (mapcount >= 2)
 711                         mss->shared_hugetlb += huge_page_size(hstate_vma(vma));
 712                 else
 713                         mss->private_hugetlb += huge_page_size(hstate_vma(vma));
 714         }
 715         return 0;
 716 }
 717 #endif /* HUGETLB_PAGE */
 718
 719 void __weak arch_show_smap(struct seq_file *m, struct vm_area_struct *vma)
 720 {
 721 }
 722
 723 static int show_smap(struct seq_file *m, void *v, int is_pid)
 724 {
 725         struct vm_area_struct *vma = v;
 726         struct mem_size_stats mss;
 727         struct mm_walk smaps_walk = {
 728                 .pmd_entry = smaps_pte_range,
 729 #ifdef CONFIG_HUGETLB_PAGE
 730                 .hugetlb_entry = smaps_hugetlb_range,
 731 #endif
 732                 .mm = vma->vm_mm,
 733                 .private = &mss,
 734         };
 735
 736         memset(&mss, 0, sizeof mss);
 737
 738 #ifdef CONFIG_SHMEM
 739         if (vma->vm_file && shmem_mapping(vma->vm_file->f_mapping)) {
 740                 /*
 741                  * For shared or readonly shmem mappings we know that all
 742                  * swapped out pages belong to the shmem object, and we can
 743                  * obtain the swap value much more efficiently. For private
 744                  * writable mappings, we might have COW pages that are
 745                  * not affected by the parent swapped out pages of the shmem
 746                  * object, so we have to distinguish them during the page walk.
 747                  * Unless we know that the shmem object (or the part mapped by
 748                  * our VMA) has no swapped out pages at all.
 749                  */
 750                 unsigned long shmem_swapped = shmem_swap_usage(vma);
 751
 752                 if (!shmem_swapped || (vma->vm_flags & VM_SHARED) ||
 753                                         !(vma->vm_flags & VM_WRITE)) {
 754                         mss.swap = shmem_swapped;
 755                 } else {
 756                         mss.check_shmem_swap = true;
 757                         smaps_walk.pte_hole = smaps_pte_hole;
 758                 }
 759         }
 760 #endif
 761
 762         /* mmap_sem is held in m_start */
 763         walk_page_vma(vma, &smaps_walk);
 764
 765         show_map_vma(m, vma, is_pid);
 766
 767         seq_printf(m,
 768                    "Size:           %8lu kB\n"
 769                    "Rss:            %8lu kB\n"
 770                    "Pss:            %8lu kB\n"
 771                    "Shared_Clean:   %8lu kB\n"
 772                    "Shared_Dirty:   %8lu kB\n"
 773                    "Private_Clean:  %8lu kB\n"
 774                    "Private_Dirty:  %8lu kB\n"
 775                    "Referenced:     %8lu kB\n"
 776                    "Anonymous:      %8lu kB\n"
 777                    "LazyFree:       %8lu kB\n"
 778                    "AnonHugePages:  %8lu kB\n"
 779                    "ShmemPmdMapped: %8lu kB\n"
 780                    "Shared_Hugetlb: %8lu kB\n"
 781                    "Private_Hugetlb: %7lu kB\n"
 782                    "Swap:           %8lu kB\n"
 783                    "SwapPss:        %8lu kB\n"
 784                    "KernelPageSize: %8lu kB\n"
 785                    "MMUPageSize:    %8lu kB\n"
 786                    "Locked:         %8lu kB\n",
 787                    (vma->vm_end - vma->vm_start) >> 10,
 788                    mss.resident >> 10,
 789                    (unsigned long)(mss.pss >> (10 + PSS_SHIFT)),
 790                    mss.shared_clean  >> 10,
 791                    mss.shared_dirty  >> 10,
 792                    mss.private_clean >> 10,
 793                    mss.private_dirty >> 10,
 794                    mss.referenced >> 10,
 795                    mss.anonymous >> 10,
 796                    mss.lazyfree >> 10,
 797                    mss.anonymous_thp >> 10,
 798                    mss.shmem_thp >> 10,
 799                    mss.shared_hugetlb >> 10,
 800                    mss.private_hugetlb >> 10,
 801                    mss.swap >> 10,
 802                    (unsigned long)(mss.swap_pss >> (10 + PSS_SHIFT)),
 803                    vma_kernel_pagesize(vma) >> 10,
 804                    vma_mmu_pagesize(vma) >> 10,
 805                    (vma->vm_flags & VM_LOCKED) ?
 806                         (unsigned long)(mss.pss >> (10 + PSS_SHIFT)) : 0);
 807
 808         arch_show_smap(m, vma);
 809         show_smap_vma_flags(m, vma);
 810         m_cache_vma(m, vma);
 811         return 0;
 812 }
 813
 814 static int show_pid_smap(struct seq_file *m, void *v)
 815 {
 816         return show_smap(m, v, 1);
 817 }
 818
 819 static int show_tid_smap(struct seq_file *m, void *v)
 820 {
 821         return show_smap(m, v, 0);
 822 }
 823
 824 static const struct seq_operations proc_pid_smaps_op = {
 825         .start  = m_start,
 826         .next   = m_next,
 827         .stop   = m_stop,
 828         .show   = show_pid_smap
 829 };
 830
 831 static const struct seq_operations proc_tid_smaps_op = {
 832         .start  = m_start,
 833         .next   = m_next,
 834         .stop   = m_stop,
 835         .show   = show_tid_smap
 836 };
 837
 838 static int pid_smaps_open(struct inode *inode, struct file *file)
 839 {
 840         return do_maps_open(inode, file, &proc_pid_smaps_op);
 841 }
 842
 843 static int tid_smaps_open(struct inode *inode, struct file *file)
 844 {
 845         return do_maps_open(inode, file, &proc_tid_smaps_op);
 846 }
 847
 848 const struct file_operations proc_pid_smaps_operations = {
 849         .open           = pid_smaps_open,
 850         .read           = seq_read,
 851         .llseek         = seq_lseek,
 852         .release        = proc_map_release,
 853 };
 854
 855 const struct file_operations proc_tid_smaps_operations = {
 856         .open           = tid_smaps_open,
 857         .read           = seq_read,
 858         .llseek         = seq_lseek,
 859         .release        = proc_map_release,
 860 };
 861
 862 enum clear_refs_types {
 863         CLEAR_REFS_ALL = 1,
 864         CLEAR_REFS_ANON,
 865         CLEAR_REFS_MAPPED,
 866         CLEAR_REFS_SOFT_DIRTY,
 867         CLEAR_REFS_MM_HIWATER_RSS,
 868         CLEAR_REFS_LAST,
 869 };
 870
 871 struct clear_refs_private {
 872         enum clear_refs_types type;
 873 };
 874
 875 #ifdef CONFIG_MEM_SOFT_DIRTY
 876 static inline void clear_soft_dirty(struct vm_area_struct *vma,
 877                 unsigned long addr, pte_t *pte)
 878 {
 879         /*
 880          * The soft-dirty tracker uses #PF-s to catch writes
 881          * to pages, so write-protect the pte as well. See the
 882          * Documentation/vm/soft-dirty.txt for full description
 883          * of how soft-dirty works.
 884          */
 885         pte_t ptent = *pte;
 886
 887         if (pte_present(ptent)) {
 888                 ptent = ptep_modify_prot_start(vma->vm_mm, addr, pte);
 889                 ptent = pte_wrprotect(ptent);
 890                 ptent = pte_clear_soft_dirty(ptent);
 891                 ptep_modify_prot_commit(vma->vm_mm, addr, pte, ptent);
 892         } else if (is_swap_pte(ptent)) {
 893                 ptent = pte_swp_clear_soft_dirty(ptent);
 894                 set_pte_at(vma->vm_mm, addr, pte, ptent);
 895         }
 896 }
 897 #else
 898 static inline void clear_soft_dirty(struct vm_area_struct *vma,
 899                 unsigned long addr, pte_t *pte)
 900 {
 901 }
 902 #endif
 903
 904 #if defined(CONFIG_MEM_SOFT_DIRTY) && defined(CONFIG_TRANSPARENT_HUGEPAGE)
 905 static inline void clear_soft_dirty_pmd(struct vm_area_struct *vma,
 906                 unsigned long addr, pmd_t *pmdp)
 907 {
 908         pmd_t pmd = *pmdp;
 909
 910         /* See comment in change_huge_pmd() */
 911         pmdp_invalidate(vma, addr, pmdp);
 912         if (pmd_dirty(*pmdp))
 913                 pmd = pmd_mkdirty(pmd);
 914         if (pmd_young(*pmdp))
 915                 pmd = pmd_mkyoung(pmd);
 916
 917         pmd = pmd_wrprotect(pmd);
 918         pmd = pmd_clear_soft_dirty(pmd);
 919
 920         set_pmd_at(vma->vm_mm, addr, pmdp, pmd);
 921 }
 922 #else
 923 static inline void clear_soft_dirty_pmd(struct vm_area_struct *vma,
 924                 unsigned long addr, pmd_t *pmdp)
 925 {
 926 }
 927 #endif
 928
 929 static int clear_refs_pte_range(pmd_t *pmd, unsigned long addr,
 930                                 unsigned long end, struct mm_walk *walk)
 931 {
 932         struct clear_refs_private *cp = walk->private;
 933         struct vm_area_struct *vma = walk->vma;
 934         pte_t *pte, ptent;
 935         spinlock_t *ptl;
 936         struct page *page;
 937
 938         ptl = pmd_trans_huge_lock(pmd, vma);
 939         if (ptl) {
 940                 if (cp->type == CLEAR_REFS_SOFT_DIRTY) {
 941                         clear_soft_dirty_pmd(vma, addr, pmd);
 942                         goto out;
 943                 }
 944
 945                 page = pmd_page(*pmd);
 946
 947                 /* Clear accessed and referenced bits. */
 948                 pmdp_test_and_clear_young(vma, addr, pmd);
 949                 test_and_clear_page_young(page);
 950                 ClearPageReferenced(page);
 951 out:
 952                 spin_unlock(ptl);
 953                 return 0;
 954         }
 955
 956         if (pmd_trans_unstable(pmd))
 957                 return 0;
 958
 959         pte = pte_offset_map_lock(vma->vm_mm, pmd, addr, &ptl);
 960         for (; addr != end; pte++, addr += PAGE_SIZE) {
 961                 ptent = *pte;
 962
 963                 if (cp->type == CLEAR_REFS_SOFT_DIRTY) {
 964                         clear_soft_dirty(vma, addr, pte);
 965                         continue;
 966                 }
 967
 968                 if (!pte_present(ptent))
 969                         continue;
 970
 971                 page = vm_normal_page(vma, addr, ptent);
 972                 if (!page)
 973                         continue;
 974
 975                 /* Clear accessed and referenced bits. */
 976                 ptep_test_and_clear_young(vma, addr, pte);
 977                 test_and_clear_page_young(page);
 978                 ClearPageReferenced(page);
 979         }
 980         pte_unmap_unlock(pte - 1, ptl);
 981         cond_resched();
 982         return 0;
 983 }
 984
 985 static int clear_refs_test_walk(unsigned long start, unsigned long end,
 986                                 struct mm_walk *walk)
 987 {
 988         struct clear_refs_private *cp = walk->private;
 989         struct vm_area_struct *vma = walk->vma;
 990
 991         if (vma->vm_flags & VM_PFNMAP)
 992                 return 1;
 993
 994         /*
 995          * Writing 1 to /proc/pid/clear_refs affects all pages.
 996          * Writing 2 to /proc/pid/clear_refs only affects anonymous pages.
 997          * Writing 3 to /proc/pid/clear_refs only affects file mapped pages.
 998          * Writing 4 to /proc/pid/clear_refs affects all pages.
 999          */
1000         if (cp->type == CLEAR_REFS_ANON && vma->vm_file)
1001                 return 1;
1002         if (cp->type == CLEAR_REFS_MAPPED && !vma->vm_file)
1003                 return 1;
1004         return 0;
1005 }
1006
1007 static ssize_t clear_refs_write(struct file *file, const char __user *buf,
1008                                 size_t count, loff_t *ppos)
1009 {
1010         struct task_struct *task;
1011         char buffer[PROC_NUMBUF];
1012         struct mm_struct *mm;
1013         struct vm_area_struct *vma;
1014         enum clear_refs_types type;
1015         struct mmu_gather tlb;
1016         int itype;
1017         int rv;
1018
1019         memset(buffer, 0, sizeof(buffer));
1020         if (count > sizeof(buffer) - 1)
1021                 count = sizeof(buffer) - 1;
1022         if (copy_from_user(buffer, buf, count))
1023                 return -EFAULT;
1024         rv = kstrtoint(strstrip(buffer), 10, &itype);
1025         if (rv < 0)
1026                 return rv;
1027         type = (enum clear_refs_types)itype;
1028         if (type < CLEAR_REFS_ALL || type >= CLEAR_REFS_LAST)
1029                 return -EINVAL;
1030
1031         task = get_proc_task(file_inode(file));
1032         if (!task)
1033                 return -ESRCH;
1034         mm = get_task_mm(task);
1035         if (mm) {
1036                 struct clear_refs_private cp = {
1037                         .type = type,
1038                 };
1039                 struct mm_walk clear_refs_walk = {
1040                         .pmd_entry = clear_refs_pte_range,
1041                         .test_walk = clear_refs_test_walk,
1042                         .mm = mm,
1043                         .private = &cp,
1044                 };
1045
1046                 if (type == CLEAR_REFS_MM_HIWATER_RSS) {
1047                         if (down_write_killable(&mm->mmap_sem)) {
1048                                 count = -EINTR;
1049                                 goto out_mm;
1050                         }
1051
1052                         /*
1053                          * Writing 5 to /proc/pid/clear_refs resets the peak
1054                          * resident set size to this mm's current rss value.
1055                          */
1056                         reset_mm_hiwater_rss(mm);
1057                         up_write(&mm->mmap_sem);
1058                         goto out_mm;
1059                 }
1060
1061                 down_read(&mm->mmap_sem);
1062                 tlb_gather_mmu(&tlb, mm, 0, -1);
1063                 if (type == CLEAR_REFS_SOFT_DIRTY) {
1064                         for (vma = mm->mmap; vma; vma = vma->vm_next) {
1065                                 if (!(vma->vm_flags & VM_SOFTDIRTY))
1066                                         continue;
1067                                 up_read(&mm->mmap_sem);
1068                                 if (down_write_killable(&mm->mmap_sem)) {
1069                                         count = -EINTR;
1070                                         goto out_mm;
1071                                 }
1072                                 for (vma = mm->mmap; vma; vma = vma->vm_next) {
1073                                         vma->vm_flags &= ~VM_SOFTDIRTY;
1074                                         vma_set_page_prot(vma);
1075                                 }
1076                                 downgrade_write(&mm->mmap_sem);
1077                                 break;
1078                         }
1079                         mmu_notifier_invalidate_range_start(mm, 0, -1);
1080                 }
1081                 walk_page_range(0, mm->highest_vm_end, &clear_refs_walk);
1082                 if (type == CLEAR_REFS_SOFT_DIRTY)
1083                         mmu_notifier_invalidate_range_end(mm, 0, -1);
1084                 tlb_finish_mmu(&tlb, 0, -1);
1085                 up_read(&mm->mmap_sem);
1086 out_mm:
1087                 mmput(mm);
1088         }
1089         put_task_struct(task);
1090
1091         return count;
1092 }
1093
1094 const struct file_operations proc_clear_refs_operations = {
1095         .write          = clear_refs_write,
1096         .llseek         = noop_llseek,
1097 };
1098
1099 typedef struct {
1100         u64 pme;
1101 } pagemap_entry_t;
1102
1103 struct pagemapread {
1104         int pos, len;           /* units: PM_ENTRY_BYTES, not bytes */
1105         pagemap_entry_t *buffer;
1106         bool show_pfn;
1107 };
1108
1109 #define PAGEMAP_WALK_SIZE       (PMD_SIZE)
1110 #define PAGEMAP_WALK_MASK       (PMD_MASK)
1111
1112 #define PM_ENTRY_BYTES          sizeof(pagemap_entry_t)
1113 #define PM_PFRAME_BITS          55
1114 #define PM_PFRAME_MASK          GENMASK_ULL(PM_PFRAME_BITS - 1, 0)
1115 #define PM_SOFT_DIRTY           BIT_ULL(55)
1116 #define PM_MMAP_EXCLUSIVE       BIT_ULL(56)
1117 #define PM_FILE                 BIT_ULL(61)
1118 #define PM_SWAP                 BIT_ULL(62)
1119 #define PM_PRESENT              BIT_ULL(63)
1120
1121 #define PM_END_OF_BUFFER    1
1122
1123 static inline pagemap_entry_t make_pme(u64 frame, u64 flags)
1124 {
1125         return (pagemap_entry_t) { .pme = (frame & PM_PFRAME_MASK) | flags };
1126 }
1127
1128 static int add_to_pagemap(unsigned long addr, pagemap_entry_t *pme,
1129                           struct pagemapread *pm)
1130 {
1131         pm->buffer[pm->pos++] = *pme;
1132         if (pm->pos >= pm->len)
1133                 return PM_END_OF_BUFFER;
1134         return 0;
1135 }
1136
1137 static int pagemap_pte_hole(unsigned long start, unsigned long end,
1138                                 struct mm_walk *walk)
1139 {
1140         struct pagemapread *pm = walk->private;
1141         unsigned long addr = start;
1142         int err = 0;
1143
1144         while (addr < end) {
1145                 struct vm_area_struct *vma = find_vma(walk->mm, addr);
1146                 pagemap_entry_t pme = make_pme(0, 0);
1147                 /* End of address space hole, which we mark as non-present. */
1148                 unsigned long hole_end;
1149
1150                 if (vma)
1151                         hole_end = min(end, vma->vm_start);
1152                 else
1153                         hole_end = end;
1154
1155                 for (; addr < hole_end; addr += PAGE_SIZE) {
1156                         err = add_to_pagemap(addr, &pme, pm);
1157                         if (err)
1158                                 goto out;
1159                 }
1160
1161                 if (!vma)
1162                         break;
1163
1164                 /* Addresses in the VMA. */
1165                 if (vma->vm_flags & VM_SOFTDIRTY)
1166                         pme = make_pme(0, PM_SOFT_DIRTY);
1167                 for (; addr < min(end, vma->vm_end); addr += PAGE_SIZE) {
1168                         err = add_to_pagemap(addr, &pme, pm);
1169                         if (err)
1170                                 goto out;
1171                 }
1172         }
1173 out:
1174         return err;
1175 }
1176
1177 static pagemap_entry_t pte_to_pagemap_entry(struct pagemapread *pm,
1178                 struct vm_area_struct *vma, unsigned long addr, pte_t pte)
1179 {
1180         u64 frame = 0, flags = 0;
1181         struct page *page = NULL;
1182
1183         if (pte_present(pte)) {
1184                 if (pm->show_pfn)
1185                         frame = pte_pfn(pte);
1186                 flags |= PM_PRESENT;
1187                 page = vm_normal_page(vma, addr, pte);
1188                 if (pte_soft_dirty(pte))
1189                         flags |= PM_SOFT_DIRTY;
1190         } else if (is_swap_pte(pte)) {
1191                 swp_entry_t entry;
1192                 if (pte_swp_soft_dirty(pte))
1193                         flags |= PM_SOFT_DIRTY;
1194                 entry = pte_to_swp_entry(pte);
1195                 frame = swp_type(entry) |
1196                         (swp_offset(entry) << MAX_SWAPFILES_SHIFT);
1197                 flags |= PM_SWAP;
1198                 if (is_migration_entry(entry))
1199                         page = migration_entry_to_page(entry);
1200         }
1201
1202         if (page && !PageAnon(page))
1203                 flags |= PM_FILE;
1204         if (page && page_mapcount(page) == 1)
1205                 flags |= PM_MMAP_EXCLUSIVE;
1206         if (vma->vm_flags & VM_SOFTDIRTY)
1207                 flags |= PM_SOFT_DIRTY;
1208
1209         return make_pme(frame, flags);
1210 }
1211
1212 static int pagemap_pmd_range(pmd_t *pmdp, unsigned long addr, unsigned long end,
1213                              struct mm_walk *walk)
1214 {
1215         struct vm_area_struct *vma = walk->vma;
1216         struct pagemapread *pm = walk->private;
1217         spinlock_t *ptl;
1218         pte_t *pte, *orig_pte;
1219         int err = 0;
1220
1221 #ifdef CONFIG_TRANSPARENT_HUGEPAGE
1222         ptl = pmd_trans_huge_lock(pmdp, vma);
1223         if (ptl) {
1224                 u64 flags = 0, frame = 0;
1225                 pmd_t pmd = *pmdp;
1226
1227                 if ((vma->vm_flags & VM_SOFTDIRTY) || pmd_soft_dirty(pmd))
1228                         flags |= PM_SOFT_DIRTY;
1229
1230                 /*
1231                  * Currently pmd for thp is always present because thp
1232                  * can not be swapped-out, migrated, or HWPOISONed
1233                  * (split in such cases instead.)
1234                  * This if-check is just to prepare for future implementation.
1235                  */
1236                 if (pmd_present(pmd)) {
1237                         struct page *page = pmd_page(pmd);
1238
1239                         if (page_mapcount(page) == 1)
1240                                 flags |= PM_MMAP_EXCLUSIVE;
1241
1242                         flags |= PM_PRESENT;
1243                         if (pm->show_pfn)
1244                                 frame = pmd_pfn(pmd) +
1245                                         ((addr & ~PMD_MASK) >> PAGE_SHIFT);
1246                 }
1247
1248                 for (; addr != end; addr += PAGE_SIZE) {
1249                         pagemap_entry_t pme = make_pme(frame, flags);
1250
1251                         err = add_to_pagemap(addr, &pme, pm);
1252                         if (err)
1253                                 break;
1254                         if (pm->show_pfn && (flags & PM_PRESENT))
1255                                 frame++;
1256                 }
1257                 spin_unlock(ptl);
1258                 return err;
1259         }
1260
1261         if (pmd_trans_unstable(pmdp))
1262                 return 0;
1263 #endif /* CONFIG_TRANSPARENT_HUGEPAGE */
1264
1265         /*
1266          * We can assume that @vma always points to a valid one and @end never
1267          * goes beyond vma->vm_end.
1268          */
1269         orig_pte = pte = pte_offset_map_lock(walk->mm, pmdp, addr, &ptl);
1270         for (; addr < end; pte++, addr += PAGE_SIZE) {
1271                 pagemap_entry_t pme;
1272
1273                 pme = pte_to_pagemap_entry(pm, vma, addr, *pte);
1274                 err = add_to_pagemap(addr, &pme, pm);
1275                 if (err)
1276                         break;
1277         }
1278         pte_unmap_unlock(orig_pte, ptl);
1279
1280         cond_resched();
1281
1282         return err;
1283 }
1284
1285 #ifdef CONFIG_HUGETLB_PAGE
1286 /* This function walks within one hugetlb entry in the single call */
1287 static int pagemap_hugetlb_range(pte_t *ptep, unsigned long hmask,
1288                                  unsigned long addr, unsigned long end,
1289                                  struct mm_walk *walk)
1290 {
1291         struct pagemapread *pm = walk->private;
1292         struct vm_area_struct *vma = walk->vma;
1293         u64 flags = 0, frame = 0;
1294         int err = 0;
1295         pte_t pte;
1296
1297         if (vma->vm_flags & VM_SOFTDIRTY)
1298                 flags |= PM_SOFT_DIRTY;
1299
1300         pte = huge_ptep_get(ptep);
1301         if (pte_present(pte)) {
1302                 struct page *page = pte_page(pte);
1303
1304                 if (!PageAnon(page))
1305                         flags |= PM_FILE;
1306
1307                 if (page_mapcount(page) == 1)
1308                         flags |= PM_MMAP_EXCLUSIVE;
1309
1310                 flags |= PM_PRESENT;
1311                 if (pm->show_pfn)
1312                         frame = pte_pfn(pte) +
1313                                 ((addr & ~hmask) >> PAGE_SHIFT);
1314         }
1315
1316         for (; addr != end; addr += PAGE_SIZE) {
1317                 pagemap_entry_t pme = make_pme(frame, flags);
1318
1319                 err = add_to_pagemap(addr, &pme, pm);
1320                 if (err)
1321                         return err;
1322                 if (pm->show_pfn && (flags & PM_PRESENT))
1323                         frame++;
1324         }
1325
1326         cond_resched();
1327
1328         return err;
1329 }
1330 #endif /* HUGETLB_PAGE */
1331
1332 /*
1333  * /proc/pid/pagemap - an array mapping virtual pages to pfns
1334  *
1335  * For each page in the address space, this file contains one 64-bit entry
1336  * consisting of the following:
1337  *
1338  * Bits 0-54  page frame number (PFN) if present
1339  * Bits 0-4   swap type if swapped
1340  * Bits 5-54  swap offset if swapped
1341  * Bit  55    pte is soft-dirty (see Documentation/vm/soft-dirty.txt)
1342  * Bit  56    page exclusively mapped
1343  * Bits 57-60 zero
1344  * Bit  61    page is file-page or shared-anon
1345  * Bit  62    page swapped
1346  * Bit  63    page present
1347  *
1348  * If the page is not present but in swap, then the PFN contains an
1349  * encoding of the swap file number and the page's offset into the
1350  * swap. Unmapped pages return a null PFN. This allows determining
1351  * precisely which pages are mapped (or in swap) and comparing mapped
1352  * pages between processes.
1353  *
1354  * Efficient users of this interface will use /proc/pid/maps to
1355  * determine which areas of memory are actually mapped and llseek to
1356  * skip over unmapped regions.
1357  */
1358 static ssize_t pagemap_read(struct file *file, char __user *buf,
1359                             size_t count, loff_t *ppos)
1360 {
1361         struct mm_struct *mm = file->private_data;
1362         struct pagemapread pm;
1363         struct mm_walk pagemap_walk = {};
1364         unsigned long src;
1365         unsigned long svpfn;
1366         unsigned long start_vaddr;
1367         unsigned long end_vaddr;
1368         int ret = 0, copied = 0;
1369
1370         if (!mm || !mmget_not_zero(mm))
1371                 goto out;
1372
1373         ret = -EINVAL;
1374         /* file position must be aligned */
1375         if ((*ppos % PM_ENTRY_BYTES) || (count % PM_ENTRY_BYTES))
1376                 goto out_mm;
1377
1378         ret = 0;
1379         if (!count)
1380                 goto out_mm;
1381
1382         /* do not disclose physical addresses: attack vector */
1383         pm.show_pfn = file_ns_capable(file, &init_user_ns, CAP_SYS_ADMIN);
1384
1385         pm.len = (PAGEMAP_WALK_SIZE >> PAGE_SHIFT);
1386         pm.buffer = kmalloc(pm.len * PM_ENTRY_BYTES, GFP_TEMPORARY);
1387         ret = -ENOMEM;
1388         if (!pm.buffer)
1389                 goto out_mm;
1390
1391         pagemap_walk.pmd_entry = pagemap_pmd_range;
1392         pagemap_walk.pte_hole = pagemap_pte_hole;
1393 #ifdef CONFIG_HUGETLB_PAGE
1394         pagemap_walk.hugetlb_entry = pagemap_hugetlb_range;
1395 #endif
1396         pagemap_walk.mm = mm;
1397         pagemap_walk.private = &pm;
1398
1399         src = *ppos;
1400         svpfn = src / PM_ENTRY_BYTES;
1401         start_vaddr = svpfn << PAGE_SHIFT;
1402         end_vaddr = mm->task_size;
1403
1404         /* watch out for wraparound */
1405         if (svpfn > mm->task_size >> PAGE_SHIFT)
1406                 start_vaddr = end_vaddr;
1407
1408         /*
1409          * The odds are that this will stop walking way
1410          * before end_vaddr, because the length of the
1411          * user buffer is tracked in "pm", and the walk
1412          * will stop when we hit the end of the buffer.
1413          */
1414         ret = 0;
1415         while (count && (start_vaddr < end_vaddr)) {
1416                 int len;
1417                 unsigned long end;
1418
1419                 pm.pos = 0;
1420                 end = (start_vaddr + PAGEMAP_WALK_SIZE) & PAGEMAP_WALK_MASK;
1421                 /* overflow ? */
1422                 if (end < start_vaddr || end > end_vaddr)
1423                         end = end_vaddr;
1424                 down_read(&mm->mmap_sem);
1425                 ret = walk_page_range(start_vaddr, end, &pagemap_walk);
1426                 up_read(&mm->mmap_sem);
1427                 start_vaddr = end;
1428
1429                 len = min(count, PM_ENTRY_BYTES * pm.pos);
1430                 if (copy_to_user(buf, pm.buffer, len)) {
1431                         ret = -EFAULT;
1432                         goto out_free;
1433                 }
1434                 copied += len;
1435                 buf += len;
1436                 count -= len;
1437         }
1438         *ppos += copied;
1439         if (!ret || ret == PM_END_OF_BUFFER)
1440                 ret = copied;
1441
1442 out_free:
1443         kfree(pm.buffer);
1444 out_mm:
1445         mmput(mm);
1446 out:
1447         return ret;
1448 }
1449
1450 static int pagemap_open(struct inode *inode, struct file *file)
1451 {
1452         struct mm_struct *mm;
1453
1454         mm = proc_mem_open(inode, PTRACE_MODE_READ);
1455         if (IS_ERR(mm))
1456                 return PTR_ERR(mm);
1457         file->private_data = mm;
1458         return 0;
1459 }
1460
1461 static int pagemap_release(struct inode *inode, struct file *file)
1462 {
1463         struct mm_struct *mm = file->private_data;
1464
1465         if (mm)
1466                 mmdrop(mm);
1467         return 0;
1468 }
1469
1470 const struct file_operations proc_pagemap_operations = {
1471         .llseek         = mem_lseek, /* borrow this */
1472         .read           = pagemap_read,
1473         .open           = pagemap_open,
1474         .release        = pagemap_release,
1475 };
1476 #endif /* CONFIG_PROC_PAGE_MONITOR */
1477
1478 #ifdef CONFIG_NUMA
1479
1480 struct numa_maps {
1481         unsigned long pages;
1482         unsigned long anon;
1483         unsigned long active;
1484         unsigned long writeback;
1485         unsigned long mapcount_max;
1486         unsigned long dirty;
1487         unsigned long swapcache;
1488         unsigned long node[MAX_NUMNODES];
1489 };
1490
1491 struct numa_maps_private {
1492         struct proc_maps_private proc_maps;
1493         struct numa_maps md;
1494 };
1495
1496 static void gather_stats(struct page *page, struct numa_maps *md, int pte_dirty,
1497                         unsigned long nr_pages)
1498 {
1499         int count = page_mapcount(page);
1500
1501         md->pages += nr_pages;
1502         if (pte_dirty || PageDirty(page))
1503                 md->dirty += nr_pages;
1504
1505         if (PageSwapCache(page))
1506                 md->swapcache += nr_pages;
1507
1508         if (PageActive(page) || PageUnevictable(page))
1509                 md->active += nr_pages;
1510
1511         if (PageWriteback(page))
1512                 md->writeback += nr_pages;
1513
1514         if (PageAnon(page))
1515                 md->anon += nr_pages;
1516
1517         if (count > md->mapcount_max)
1518                 md->mapcount_max = count;
1519
1520         md->node[page_to_nid(page)] += nr_pages;
1521 }
1522
1523 static struct page *can_gather_numa_stats(pte_t pte, struct vm_area_struct *vma,
1524                 unsigned long addr)
1525 {
1526         struct page *page;
1527         int nid;
1528
1529         if (!pte_present(pte))
1530                 return NULL;
1531
1532         page = vm_normal_page(vma, addr, pte);
1533         if (!page)
1534                 return NULL;
1535
1536         if (PageReserved(page))
1537                 return NULL;
1538
1539         nid = page_to_nid(page);
1540         if (!node_isset(nid, node_states[N_MEMORY]))
1541                 return NULL;
1542
1543         return page;
1544 }
1545
1546 #ifdef CONFIG_TRANSPARENT_HUGEPAGE
1547 static struct page *can_gather_numa_stats_pmd(pmd_t pmd,
1548                                               struct vm_area_struct *vma,
1549                                               unsigned long addr)
1550 {
1551         struct page *page;
1552         int nid;
1553
1554         if (!pmd_present(pmd))
1555                 return NULL;
1556
1557         page = vm_normal_page_pmd(vma, addr, pmd);
1558         if (!page)
1559                 return NULL;
1560
1561         if (PageReserved(page))
1562                 return NULL;
1563
1564         nid = page_to_nid(page);
1565         if (!node_isset(nid, node_states[N_MEMORY]))
1566                 return NULL;
1567
1568         return page;
1569 }
1570 #endif
1571
1572 static int gather_pte_stats(pmd_t *pmd, unsigned long addr,
1573                 unsigned long end, struct mm_walk *walk)
1574 {
1575         struct numa_maps *md = walk->private;
1576         struct vm_area_struct *vma = walk->vma;
1577         spinlock_t *ptl;
1578         pte_t *orig_pte;
1579         pte_t *pte;
1580
1581 #ifdef CONFIG_TRANSPARENT_HUGEPAGE
1582         ptl = pmd_trans_huge_lock(pmd, vma);
1583         if (ptl) {
1584                 struct page *page;
1585
1586                 page = can_gather_numa_stats_pmd(*pmd, vma, addr);
1587                 if (page)
1588                         gather_stats(page, md, pmd_dirty(*pmd),
1589                                      HPAGE_PMD_SIZE/PAGE_SIZE);
1590                 spin_unlock(ptl);
1591                 return 0;
1592         }
1593
1594         if (pmd_trans_unstable(pmd))
1595                 return 0;
1596 #endif
1597         orig_pte = pte = pte_offset_map_lock(walk->mm, pmd, addr, &ptl);
1598         do {
1599                 struct page *page = can_gather_numa_stats(*pte, vma, addr);
1600                 if (!page)
1601                         continue;
1602                 gather_stats(page, md, pte_dirty(*pte), 1);
1603
1604         } while (pte++, addr += PAGE_SIZE, addr != end);
1605         pte_unmap_unlock(orig_pte, ptl);
1606         cond_resched();
1607         return 0;
1608 }
1609 #ifdef CONFIG_HUGETLB_PAGE
1610 static int gather_hugetlb_stats(pte_t *pte, unsigned long hmask,
1611                 unsigned long addr, unsigned long end, struct mm_walk *walk)
1612 {
1613         pte_t huge_pte = huge_ptep_get(pte);
1614         struct numa_maps *md;
1615         struct page *page;
1616
1617         if (!pte_present(huge_pte))
1618                 return 0;
1619
1620         page = pte_page(huge_pte);
1621         if (!page)
1622                 return 0;
1623
1624         md = walk->private;
1625         gather_stats(page, md, pte_dirty(huge_pte), 1);
1626         return 0;
1627 }
1628
1629 #else
1630 static int gather_hugetlb_stats(pte_t *pte, unsigned long hmask,
1631                 unsigned long addr, unsigned long end, struct mm_walk *walk)
1632 {
1633         return 0;
1634 }
1635 #endif
1636
1637 /*
1638  * Display pages allocated per node and memory policy via /proc.
1639  */
1640 static int show_numa_map(struct seq_file *m, void *v, int is_pid)
1641 {
1642         struct numa_maps_private *numa_priv = m->private;
1643         struct proc_maps_private *proc_priv = &numa_priv->proc_maps;
1644         struct vm_area_struct *vma = v;
1645         struct numa_maps *md = &numa_priv->md;
1646         struct file *file = vma_pr_or_file(vma);
1647         struct mm_struct *mm = vma->vm_mm;
1648         struct mm_walk walk = {
1649                 .hugetlb_entry = gather_hugetlb_stats,
1650                 .pmd_entry = gather_pte_stats,
1651                 .private = md,
1652                 .mm = mm,
1653         };
1654         struct mempolicy *pol;
1655         char buffer[64];
1656         int nid;
1657
1658         if (!mm)
1659                 return 0;
1660
1661         /* Ensure we start with an empty set of numa_maps statistics. */
1662         memset(md, 0, sizeof(*md));
1663
1664         pol = __get_vma_policy(vma, vma->vm_start);
1665         if (pol) {
1666                 mpol_to_str(buffer, sizeof(buffer), pol);
1667                 mpol_cond_put(pol);
1668         } else {
1669                 mpol_to_str(buffer, sizeof(buffer), proc_priv->task_mempolicy);
1670         }
1671
1672         seq_printf(m, "%08lx %s", vma->vm_start, buffer);
1673
1674         if (file) {
1675                 seq_puts(m, " file=");
1676                 seq_file_path(m, file, "\n\t= ");
1677         } else if (vma->vm_start <= mm->brk && vma->vm_end >= mm->start_brk) {
1678                 seq_puts(m, " heap");
1679         } else if (is_stack(proc_priv, vma)) {
1680                 seq_puts(m, " stack");
1681         }
1682
1683         if (is_vm_hugetlb_page(vma))
1684                 seq_puts(m, " huge");
1685
1686         /* mmap_sem is held by m_start */
1687         walk_page_vma(vma, &walk);
1688
1689         if (!md->pages)
1690                 goto out;
1691
1692         if (md->anon)
1693                 seq_printf(m, " anon=%lu", md->anon);
1694
1695         if (md->dirty)
1696                 seq_printf(m, " dirty=%lu", md->dirty);
1697
1698         if (md->pages != md->anon && md->pages != md->dirty)
1699                 seq_printf(m, " mapped=%lu", md->pages);
1700
1701         if (md->mapcount_max > 1)
1702                 seq_printf(m, " mapmax=%lu", md->mapcount_max);
1703
1704         if (md->swapcache)
1705                 seq_printf(m, " swapcache=%lu", md->swapcache);
1706
1707         if (md->active < md->pages && !is_vm_hugetlb_page(vma))
1708                 seq_printf(m, " active=%lu", md->active);
1709
1710         if (md->writeback)
1711                 seq_printf(m, " writeback=%lu", md->writeback);
1712
1713         for_each_node_state(nid, N_MEMORY)
1714                 if (md->node[nid])
1715                         seq_printf(m, " N%d=%lu", nid, md->node[nid]);
1716
1717         seq_printf(m, " kernelpagesize_kB=%lu", vma_kernel_pagesize(vma) >> 10);
1718 out:
1719         seq_putc(m, '\n');
1720         m_cache_vma(m, vma);
1721         return 0;
1722 }
1723
1724 static int show_pid_numa_map(struct seq_file *m, void *v)
1725 {
1726         return show_numa_map(m, v, 1);
1727 }
1728
1729 static int show_tid_numa_map(struct seq_file *m, void *v)
1730 {
1731         return show_numa_map(m, v, 0);
1732 }
1733
1734 static const struct seq_operations proc_pid_numa_maps_op = {
1735         .start  = m_start,
1736         .next   = m_next,
1737         .stop   = m_stop,
1738         .show   = show_pid_numa_map,
1739 };
1740
1741 static const struct seq_operations proc_tid_numa_maps_op = {
1742         .start  = m_start,
1743         .next   = m_next,
1744         .stop   = m_stop,
1745         .show   = show_tid_numa_map,
1746 };
1747
1748 static int numa_maps_open(struct inode *inode, struct file *file,
1749                           const struct seq_operations *ops)
1750 {
1751         return proc_maps_open(inode, file, ops,
1752                                 sizeof(struct numa_maps_private));
1753 }
1754
1755 static int pid_numa_maps_open(struct inode *inode, struct file *file)
1756 {
1757         return numa_maps_open(inode, file, &proc_pid_numa_maps_op);
1758 }
1759
1760 static int tid_numa_maps_open(struct inode *inode, struct file *file)
1761 {
1762         return numa_maps_open(inode, file, &proc_tid_numa_maps_op);
1763 }
1764
1765 const struct file_operations proc_pid_numa_maps_operations = {
1766         .open           = pid_numa_maps_open,
1767         .read           = seq_read,
1768         .llseek         = seq_lseek,
1769         .release        = proc_map_release,
1770 };
1771
1772 const struct file_operations proc_tid_numa_maps_operations = {
1773         .open           = tid_numa_maps_open,
1774         .read           = seq_read,
1775         .llseek         = seq_lseek,
1776         .release        = proc_map_release,
1777 };
1778 #endif /* CONFIG_NUMA */