Blame - mm/huge_memory.c - kernel/msm-4.19

blob: cc65fb87c9db0afd9b6a5b314ae5c3968b9bbf25 [file] [log] [blame]

Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1	/*
				2	* Copyright (C) 2009 Red Hat, Inc.
				3	*
				4	* This work is licensed under the terms of the GNU GPL, version 2. See
				5	* the COPYING file in the top-level directory.
				6	*/
				7
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	8	#define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
				9
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	10	#include <linux/mm.h>
				11	#include <linux/sched.h>
Ingo Molnar	f7ccbae	2017-02-08 18:51:30 +0100	[diff] [blame]	12	#include <linux/sched/coredump.h>
Ingo Molnar	6a3827d	2017-02-08 18:51:31 +0100	[diff] [blame]	13	#include <linux/sched/numa_balancing.h>
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	14	#include <linux/highmem.h>
				15	#include <linux/hugetlb.h>
				16	#include <linux/mmu_notifier.h>
				17	#include <linux/rmap.h>
				18	#include <linux/swap.h>
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	19	#include <linux/shrinker.h>
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	20	#include <linux/mm_inline.h>
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	21	#include <linux/swapops.h>
Matthew Wilcox	4897c76	2015-09-08 14:58:45 -0700	[diff] [blame]	22	#include <linux/dax.h>
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	23	#include <linux/khugepaged.h>
Andrea Arcangeli	878aee7	2011-01-13 15:47:10 -0800	[diff] [blame]	24	#include <linux/freezer.h>
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	25	#include <linux/pfn_t.h>
Andrea Arcangeli	a664b2d	2011-01-13 15:47:17 -0800	[diff] [blame]	26	#include <linux/mman.h>
Dan Williams	3565fce	2016-01-15 16:56:55 -0800	[diff] [blame]	27	#include <linux/memremap.h>
Ralf Baechle	325adeb	2012-10-15 13:44:56 +0200	[diff] [blame]	28	#include <linux/pagemap.h>
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	29	#include <linux/debugfs.h>
Mel Gorman	4daae3b	2012-11-02 11:33:45 +0000	[diff] [blame]	30	#include <linux/migrate.h>
Sasha Levin	43b5fbb	2013-02-22 16:32:27 -0800	[diff] [blame]	31	#include <linux/hashtable.h>
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	32	#include <linux/userfaultfd_k.h>
Vladimir Davydov	33c3fc7	2015-09-09 15:35:45 -0700	[diff] [blame]	33	#include <linux/page_idle.h>
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	34	#include <linux/shmem_fs.h>
Michal Hocko	6b31d59	2017-08-18 15:16:15 -0700	[diff] [blame]	35	#include <linux/oom.h>
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	36
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	37	#include <asm/tlb.h>
				38	#include <asm/pgalloc.h>
				39	#include "internal.h"
				40
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	41	/*
Michael DeGuzis	b14d595	2017-05-17 15:19:21 -0400	[diff] [blame]	42	* By default, transparent hugepage support is disabled in order to avoid
				43	* risking an increased memory footprint for applications that are not
				44	* guaranteed to benefit from it. When transparent hugepage support is
				45	* enabled, it is for all mappings, and khugepaged scans all mappings.
Jianguo Wu	8bfa3f9	2013-11-12 15:07:16 -0800	[diff] [blame]	46	* Defrag is invoked by khugepaged hugepage allocations and by page faults
				47	* for all hugepage allocations.
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	48	*/
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	49	unsigned long transparent_hugepage_flags __read_mostly =
Andrea Arcangeli	13ece88	2011-01-13 15:47:07 -0800	[diff] [blame]	50	#ifdef CONFIG_TRANSPARENT_HUGEPAGE_ALWAYS
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	51	(1<<TRANSPARENT_HUGEPAGE_FLAG)\|
Andrea Arcangeli	13ece88	2011-01-13 15:47:07 -0800	[diff] [blame]	52	#endif
				53	#ifdef CONFIG_TRANSPARENT_HUGEPAGE_MADVISE
				54	(1<<TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG)\|
				55	#endif
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	56	(1<<TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG)\|
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	57	(1<<TRANSPARENT_HUGEPAGE_DEFRAG_KHUGEPAGED_FLAG)\|
				58	(1<<TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG);
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	59
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	60	static struct shrinker deferred_split_shrinker;
Andrea Arcangeli	f000565	2011-01-13 15:47:04 -0800	[diff] [blame]	61
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	62	static atomic_t huge_zero_refcount;
Wang, Yalin	56873f4	2015-02-11 15:24:51 -0800	[diff] [blame]	63	struct page *huge_zero_page __read_mostly;
Kirill A. Shutemov	4a6c129	2012-12-12 13:50:47 -0800	[diff] [blame]	64
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	65	static struct page *get_huge_zero_page(void)
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	66	{
				67	struct page *zero_page;
				68	retry:
				69	if (likely(atomic_inc_not_zero(&huge_zero_refcount)))
Jason Low	4db0c3c	2015-04-15 16:14:08 -0700	[diff] [blame]	70	return READ_ONCE(huge_zero_page);
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	71
				72	zero_page = alloc_pages((GFP_TRANSHUGE \| __GFP_ZERO) & ~__GFP_MOVABLE,
				73	HPAGE_PMD_ORDER);
Kirill A. Shutemov	d8a8e1f	2012-12-12 13:51:09 -0800	[diff] [blame]	74	if (!zero_page) {
				75	count_vm_event(THP_ZERO_PAGE_ALLOC_FAILED);
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	76	return NULL;
Kirill A. Shutemov	d8a8e1f	2012-12-12 13:51:09 -0800	[diff] [blame]	77	}
				78	count_vm_event(THP_ZERO_PAGE_ALLOC);
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	79	preempt_disable();
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	80	if (cmpxchg(&huge_zero_page, NULL, zero_page)) {
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	81	preempt_enable();
Yu Zhao	5ddacbe	2014-10-29 14:50:26 -0700	[diff] [blame]	82	__free_pages(zero_page, compound_order(zero_page));
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	83	goto retry;
				84	}
				85
				86	/* We take additional reference here. It will be put back by shrinker */
				87	atomic_set(&huge_zero_refcount, 2);
				88	preempt_enable();
Jason Low	4db0c3c	2015-04-15 16:14:08 -0700	[diff] [blame]	89	return READ_ONCE(huge_zero_page);
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	90	}
				91
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	92	static void put_huge_zero_page(void)
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	93	{
				94	/*
				95	* Counter should never go to zero here. Only shrinker can put
				96	* last reference.
				97	*/
				98	BUG_ON(atomic_dec_and_test(&huge_zero_refcount));
				99	}
				100
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	101	struct page mm_get_huge_zero_page(struct mm_struct mm)
				102	{
				103	if (test_bit(MMF_HUGE_ZERO_PAGE, &mm->flags))
				104	return READ_ONCE(huge_zero_page);
				105
				106	if (!get_huge_zero_page())
				107	return NULL;
				108
				109	if (test_and_set_bit(MMF_HUGE_ZERO_PAGE, &mm->flags))
				110	put_huge_zero_page();
				111
				112	return READ_ONCE(huge_zero_page);
				113	}
				114
				115	void mm_put_huge_zero_page(struct mm_struct *mm)
				116	{
				117	if (test_bit(MMF_HUGE_ZERO_PAGE, &mm->flags))
				118	put_huge_zero_page();
				119	}
				120
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	121	static unsigned long shrink_huge_zero_page_count(struct shrinker *shrink,
				122	struct shrink_control *sc)
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	123	{
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	124	/* we can free zero page only if last reference remains */
				125	return atomic_read(&huge_zero_refcount) == 1 ? HPAGE_PMD_NR : 0;
				126	}
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	127
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	128	static unsigned long shrink_huge_zero_page_scan(struct shrinker *shrink,
				129	struct shrink_control *sc)
				130	{
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	131	if (atomic_cmpxchg(&huge_zero_refcount, 1, 0) == 1) {
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	132	struct page *zero_page = xchg(&huge_zero_page, NULL);
				133	BUG_ON(zero_page == NULL);
Yu Zhao	5ddacbe	2014-10-29 14:50:26 -0700	[diff] [blame]	134	__free_pages(zero_page, compound_order(zero_page));
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	135	return HPAGE_PMD_NR;
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	136	}
				137
				138	return 0;
				139	}
				140
				141	static struct shrinker huge_zero_page_shrinker = {
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	142	.count_objects = shrink_huge_zero_page_count,
				143	.scan_objects = shrink_huge_zero_page_scan,
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	144	.seeks = DEFAULT_SEEKS,
				145	};
				146
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	147	#ifdef CONFIG_SYSFS
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	148	static ssize_t enabled_show(struct kobject *kobj,
				149	struct kobj_attribute attr, char buf)
				150	{
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	151	if (test_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags))
				152	return sprintf(buf, "[always] madvise never\n");
				153	else if (test_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags))
				154	return sprintf(buf, "always [madvise] never\n");
				155	else
				156	return sprintf(buf, "always madvise [never]\n");
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	157	}
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	158
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	159	static ssize_t enabled_store(struct kobject *kobj,
				160	struct kobj_attribute *attr,
				161	const char *buf, size_t count)
				162	{
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	163	ssize_t ret = count;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	164
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	165	if (!memcmp("always", buf,
				166	min(sizeof("always")-1, count))) {
				167	clear_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags);
				168	set_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags);
				169	} else if (!memcmp("madvise", buf,
				170	min(sizeof("madvise")-1, count))) {
				171	clear_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags);
				172	set_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags);
				173	} else if (!memcmp("never", buf,
				174	min(sizeof("never")-1, count))) {
				175	clear_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags);
				176	clear_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags);
				177	} else
				178	ret = -EINVAL;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	179
				180	if (ret > 0) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	181	int err = start_stop_khugepaged();
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	182	if (err)
				183	ret = err;
				184	}
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	185	return ret;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	186	}
				187	static struct kobj_attribute enabled_attr =
				188	__ATTR(enabled, 0644, enabled_show, enabled_store);
				189
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	190	ssize_t single_hugepage_flag_show(struct kobject *kobj,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	191	struct kobj_attribute attr, char buf,
				192	enum transparent_hugepage_flag flag)
				193	{
Ben Hutchings	e27e615	2011-04-14 15:22:21 -0700	[diff] [blame]	194	return sprintf(buf, "%d\n",
				195	!!test_bit(flag, &transparent_hugepage_flags));
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	196	}
Ben Hutchings	e27e615	2011-04-14 15:22:21 -0700	[diff] [blame]	197
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	198	ssize_t single_hugepage_flag_store(struct kobject *kobj,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	199	struct kobj_attribute *attr,
				200	const char *buf, size_t count,
				201	enum transparent_hugepage_flag flag)
				202	{
Ben Hutchings	e27e615	2011-04-14 15:22:21 -0700	[diff] [blame]	203	unsigned long value;
				204	int ret;
				205
				206	ret = kstrtoul(buf, 10, &value);
				207	if (ret < 0)
				208	return ret;
				209	if (value > 1)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	210	return -EINVAL;
				211
Ben Hutchings	e27e615	2011-04-14 15:22:21 -0700	[diff] [blame]	212	if (value)
				213	set_bit(flag, &transparent_hugepage_flags);
				214	else
				215	clear_bit(flag, &transparent_hugepage_flags);
				216
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	217	return count;
				218	}
				219
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	220	static ssize_t defrag_show(struct kobject *kobj,
				221	struct kobj_attribute attr, char buf)
				222	{
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	223	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags))
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	224	return sprintf(buf, "[always] defer defer+madvise madvise never\n");
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	225	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags))
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	226	return sprintf(buf, "always [defer] defer+madvise madvise never\n");
				227	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags))
				228	return sprintf(buf, "always defer [defer+madvise] madvise never\n");
				229	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags))
				230	return sprintf(buf, "always defer defer+madvise [madvise] never\n");
				231	return sprintf(buf, "always defer defer+madvise madvise [never]\n");
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	232	}
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	233
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	234	static ssize_t defrag_store(struct kobject *kobj,
				235	struct kobj_attribute *attr,
				236	const char *buf, size_t count)
				237	{
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	238	if (!memcmp("always", buf,
				239	min(sizeof("always")-1, count))) {
				240	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				241	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				242	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				243	set_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	244	} else if (!memcmp("defer+madvise", buf,
				245	min(sizeof("defer+madvise")-1, count))) {
				246	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				247	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				248	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				249	set_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
David Rientjes	4fad7fb	2017-04-07 16:04:54 -0700	[diff] [blame]	250	} else if (!memcmp("defer", buf,
				251	min(sizeof("defer")-1, count))) {
				252	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				253	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				254	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				255	set_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	256	} else if (!memcmp("madvise", buf,
				257	min(sizeof("madvise")-1, count))) {
				258	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				259	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				260	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				261	set_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				262	} else if (!memcmp("never", buf,
				263	min(sizeof("never")-1, count))) {
				264	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				265	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				266	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				267	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				268	} else
				269	return -EINVAL;
				270
				271	return count;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	272	}
				273	static struct kobj_attribute defrag_attr =
				274	__ATTR(defrag, 0644, defrag_show, defrag_store);
				275
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	276	static ssize_t use_zero_page_show(struct kobject *kobj,
				277	struct kobj_attribute attr, char buf)
				278	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	279	return single_hugepage_flag_show(kobj, attr, buf,
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	280	TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG);
				281	}
				282	static ssize_t use_zero_page_store(struct kobject *kobj,
				283	struct kobj_attribute attr, const char buf, size_t count)
				284	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	285	return single_hugepage_flag_store(kobj, attr, buf, count,
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	286	TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG);
				287	}
				288	static struct kobj_attribute use_zero_page_attr =
				289	__ATTR(use_zero_page, 0644, use_zero_page_show, use_zero_page_store);
Hugh Dickins	49920d2	2016-12-12 16:44:50 -0800	[diff] [blame]	290
				291	static ssize_t hpage_pmd_size_show(struct kobject *kobj,
				292	struct kobj_attribute attr, char buf)
				293	{
				294	return sprintf(buf, "%lu\n", HPAGE_PMD_SIZE);
				295	}
				296	static struct kobj_attribute hpage_pmd_size_attr =
				297	__ATTR_RO(hpage_pmd_size);
				298
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	299	#ifdef CONFIG_DEBUG_VM
				300	static ssize_t debug_cow_show(struct kobject *kobj,
				301	struct kobj_attribute attr, char buf)
				302	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	303	return single_hugepage_flag_show(kobj, attr, buf,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	304	TRANSPARENT_HUGEPAGE_DEBUG_COW_FLAG);
				305	}
				306	static ssize_t debug_cow_store(struct kobject *kobj,
				307	struct kobj_attribute *attr,
				308	const char *buf, size_t count)
				309	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	310	return single_hugepage_flag_store(kobj, attr, buf, count,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	311	TRANSPARENT_HUGEPAGE_DEBUG_COW_FLAG);
				312	}
				313	static struct kobj_attribute debug_cow_attr =
				314	__ATTR(debug_cow, 0644, debug_cow_show, debug_cow_store);
				315	#endif /* CONFIG_DEBUG_VM */
				316
				317	static struct attribute *hugepage_attr[] = {
				318	&enabled_attr.attr,
				319	&defrag_attr.attr,
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	320	&use_zero_page_attr.attr,
Hugh Dickins	49920d2	2016-12-12 16:44:50 -0800	[diff] [blame]	321	&hpage_pmd_size_attr.attr,
Kirill A. Shutemov	e496cf3	2016-07-26 15:26:35 -0700	[diff] [blame]	322	#if defined(CONFIG_SHMEM) && defined(CONFIG_TRANSPARENT_HUGE_PAGECACHE)
Kirill A. Shutemov	5a6e75f	2016-07-26 15:26:13 -0700	[diff] [blame]	323	&shmem_enabled_attr.attr,
				324	#endif
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	325	#ifdef CONFIG_DEBUG_VM
				326	&debug_cow_attr.attr,
				327	#endif
				328	NULL,
				329	};
				330
Arvind Yadav	8aa95a2	2017-09-06 16:22:03 -0700	[diff] [blame]	331	static const struct attribute_group hugepage_attr_group = {
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	332	.attrs = hugepage_attr,
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	333	};
				334
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	335	static int __init hugepage_init_sysfs(struct kobject **hugepage_kobj)
				336	{
				337	int err;
				338
				339	*hugepage_kobj = kobject_create_and_add("transparent_hugepage", mm_kobj);
				340	if (unlikely(!*hugepage_kobj)) {
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	341	pr_err("failed to create transparent hugepage kobject\n");
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	342	return -ENOMEM;
				343	}
				344
				345	err = sysfs_create_group(*hugepage_kobj, &hugepage_attr_group);
				346	if (err) {
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	347	pr_err("failed to register transparent hugepage group\n");
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	348	goto delete_obj;
				349	}
				350
				351	err = sysfs_create_group(*hugepage_kobj, &khugepaged_attr_group);
				352	if (err) {
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	353	pr_err("failed to register transparent hugepage group\n");
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	354	goto remove_hp_group;
				355	}
				356
				357	return 0;
				358
				359	remove_hp_group:
				360	sysfs_remove_group(*hugepage_kobj, &hugepage_attr_group);
				361	delete_obj:
				362	kobject_put(*hugepage_kobj);
				363	return err;
				364	}
				365
				366	static void __init hugepage_exit_sysfs(struct kobject *hugepage_kobj)
				367	{
				368	sysfs_remove_group(hugepage_kobj, &khugepaged_attr_group);
				369	sysfs_remove_group(hugepage_kobj, &hugepage_attr_group);
				370	kobject_put(hugepage_kobj);
				371	}
				372	#else
				373	static inline int hugepage_init_sysfs(struct kobject **hugepage_kobj)
				374	{
				375	return 0;
				376	}
				377
				378	static inline void hugepage_exit_sysfs(struct kobject *hugepage_kobj)
				379	{
				380	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	381	#endif /* CONFIG_SYSFS */
				382
				383	static int __init hugepage_init(void)
				384	{
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	385	int err;
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	386	struct kobject *hugepage_kobj;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	387
Andrea Arcangeli	4b7167b	2011-01-13 15:47:09 -0800	[diff] [blame]	388	if (!has_transparent_hugepage()) {
				389	transparent_hugepage_flags = 0;
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	390	return -EINVAL;
Andrea Arcangeli	4b7167b	2011-01-13 15:47:09 -0800	[diff] [blame]	391	}
				392
Kirill A. Shutemov	ff20c2e	2016-03-01 09:45:14 +0530	[diff] [blame]	393	/*
				394	* hugepages can't be allocated by the buddy allocator
				395	*/
				396	MAYBE_BUILD_BUG_ON(HPAGE_PMD_ORDER >= MAX_ORDER);
				397	/*
				398	* we use page->mapping and page->index in second tail page
				399	* as list_head: assuming THP order >= 2
				400	*/
				401	MAYBE_BUILD_BUG_ON(HPAGE_PMD_ORDER < 2);
				402
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	403	err = hugepage_init_sysfs(&hugepage_kobj);
				404	if (err)
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	405	goto err_sysfs;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	406
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	407	err = khugepaged_init();
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	408	if (err)
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	409	goto err_slab;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	410
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	411	err = register_shrinker(&huge_zero_page_shrinker);
				412	if (err)
				413	goto err_hzp_shrinker;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	414	err = register_shrinker(&deferred_split_shrinker);
				415	if (err)
				416	goto err_split_shrinker;
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	417
Rik van Riel	97562cd	2011-01-13 15:47:12 -0800	[diff] [blame]	418	/*
				419	* By default disable transparent hugepages on smaller systems,
				420	* where the extra memory used could hurt more than TLB overhead
				421	* is likely to save. The admin can still enable it through /sys.
				422	*/
Kirill A. Shutemov	79553da	2015-04-15 16:14:56 -0700	[diff] [blame]	423	if (totalram_pages < (512 << (20 - PAGE_SHIFT))) {
Rik van Riel	97562cd	2011-01-13 15:47:12 -0800	[diff] [blame]	424	transparent_hugepage_flags = 0;
Kirill A. Shutemov	79553da	2015-04-15 16:14:56 -0700	[diff] [blame]	425	return 0;
				426	}
Rik van Riel	97562cd	2011-01-13 15:47:12 -0800	[diff] [blame]	427
Kirill A. Shutemov	79553da	2015-04-15 16:14:56 -0700	[diff] [blame]	428	err = start_stop_khugepaged();
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	429	if (err)
				430	goto err_khugepaged;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	431
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	432	return 0;
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	433	err_khugepaged:
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	434	unregister_shrinker(&deferred_split_shrinker);
				435	err_split_shrinker:
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	436	unregister_shrinker(&huge_zero_page_shrinker);
				437	err_hzp_shrinker:
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	438	khugepaged_destroy();
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	439	err_slab:
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	440	hugepage_exit_sysfs(hugepage_kobj);
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	441	err_sysfs:
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	442	return err;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	443	}
Paul Gortmaker	a64fb3c	2014-01-23 15:53:30 -0800	[diff] [blame]	444	subsys_initcall(hugepage_init);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	445
				446	static int __init setup_transparent_hugepage(char *str)
				447	{
				448	int ret = 0;
				449	if (!str)
				450	goto out;
				451	if (!strcmp(str, "always")) {
				452	set_bit(TRANSPARENT_HUGEPAGE_FLAG,
				453	&transparent_hugepage_flags);
				454	clear_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG,
				455	&transparent_hugepage_flags);
				456	ret = 1;
				457	} else if (!strcmp(str, "madvise")) {
				458	clear_bit(TRANSPARENT_HUGEPAGE_FLAG,
				459	&transparent_hugepage_flags);
				460	set_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG,
				461	&transparent_hugepage_flags);
				462	ret = 1;
				463	} else if (!strcmp(str, "never")) {
				464	clear_bit(TRANSPARENT_HUGEPAGE_FLAG,
				465	&transparent_hugepage_flags);
				466	clear_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG,
				467	&transparent_hugepage_flags);
				468	ret = 1;
				469	}
				470	out:
				471	if (!ret)
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	472	pr_warn("transparent_hugepage= cannot parse, ignored\n");
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	473	return ret;
				474	}
				475	__setup("transparent_hugepage=", setup_transparent_hugepage);
				476
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	477	pmd_t maybe_pmd_mkwrite(pmd_t pmd, struct vm_area_struct *vma)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	478	{
				479	if (likely(vma->vm_flags & VM_WRITE))
				480	pmd = pmd_mkwrite(pmd);
				481	return pmd;
				482	}
				483
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	484	static inline struct list_head page_deferred_list(struct page page)
				485	{
				486	/*
				487	* ->lru in the tail pages is occupied by compound_head.
				488	* Let's use ->mapping + ->index in the second tail page as list_head.
				489	*/
				490	return (struct list_head *)&page[2].mapping;
				491	}
				492
				493	void prep_transhuge_page(struct page *page)
				494	{
				495	/*
				496	* we use page->mapping and page->indexlru in second tail page
				497	* as list_head: assuming THP order >= 2
				498	*/
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	499
				500	INIT_LIST_HEAD(page_deferred_list(page));
				501	set_compound_page_dtor(page, TRANSHUGE_PAGE_DTOR);
				502	}
				503
Toshi Kani	74d2fad	2016-10-07 16:59:56 -0700	[diff] [blame]	504	unsigned long __thp_get_unmapped_area(struct file *filp, unsigned long len,
				505	loff_t off, unsigned long flags, unsigned long size)
				506	{
				507	unsigned long addr;
				508	loff_t off_end = off + len;
				509	loff_t off_align = round_up(off, size);
				510	unsigned long len_pad;
				511
				512	if (off_end <= off_align \|\| (off_end - off_align) < size)
				513	return 0;
				514
				515	len_pad = len + size;
				516	if (len_pad < len \|\| (off + len_pad) < off)
				517	return 0;
				518
				519	addr = current->mm->get_unmapped_area(filp, 0, len_pad,
				520	off >> PAGE_SHIFT, flags);
				521	if (IS_ERR_VALUE(addr))
				522	return 0;
				523
				524	addr += (off - addr) & (size - 1);
				525	return addr;
				526	}
				527
				528	unsigned long thp_get_unmapped_area(struct file *filp, unsigned long addr,
				529	unsigned long len, unsigned long pgoff, unsigned long flags)
				530	{
				531	loff_t off = (loff_t)pgoff << PAGE_SHIFT;
				532
				533	if (addr)
				534	goto out;
				535	if (!IS_DAX(filp->f_mapping->host) \|\| !IS_ENABLED(CONFIG_FS_DAX_PMD))
				536	goto out;
				537
				538	addr = __thp_get_unmapped_area(filp, len, off, flags, PMD_SIZE);
				539	if (addr)
				540	return addr;
				541
				542	out:
				543	return current->mm->get_unmapped_area(filp, addr, len, pgoff, flags);
				544	}
				545	EXPORT_SYMBOL_GPL(thp_get_unmapped_area);
				546
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	547	static int __do_huge_pmd_anonymous_page(struct vm_fault vmf, struct page page,
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	548	gfp_t gfp)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	549	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	550	struct vm_area_struct *vma = vmf->vma;
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	551	struct mem_cgroup *memcg;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	552	pgtable_t pgtable;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	553	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Michal Hocko	6b31d59	2017-08-18 15:16:15 -0700	[diff] [blame]	554	int ret = 0;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	555
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	556	VM_BUG_ON_PAGE(!PageCompound(page), page);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	557
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	558	if (mem_cgroup_try_charge(page, vma->vm_mm, gfp, &memcg, true)) {
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	559	put_page(page);
				560	count_vm_event(THP_FAULT_FALLBACK);
				561	return VM_FAULT_FALLBACK;
				562	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	563
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	564	pgtable = pte_alloc_one(vma->vm_mm, haddr);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	565	if (unlikely(!pgtable)) {
Michal Hocko	6b31d59	2017-08-18 15:16:15 -0700	[diff] [blame]	566	ret = VM_FAULT_OOM;
				567	goto release;
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	568	}
				569
Huang Ying	c79b57e	2017-09-06 16:25:04 -0700	[diff] [blame]	570	clear_huge_page(page, vmf->address, HPAGE_PMD_NR);
Minchan Kim	52f3762	2013-04-29 15:08:15 -0700	[diff] [blame]	571	/*
				572	* The memory barrier inside __SetPageUptodate makes sure that
				573	* clear_huge_page writes become visible before the set_pmd_at()
				574	* write.
				575	*/
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	576	__SetPageUptodate(page);
				577
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	578	vmf->ptl = pmd_lock(vma->vm_mm, vmf->pmd);
				579	if (unlikely(!pmd_none(*vmf->pmd))) {
Michal Hocko	6b31d59	2017-08-18 15:16:15 -0700	[diff] [blame]	580	goto unlock_release;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	581	} else {
				582	pmd_t entry;
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	583
Michal Hocko	6b31d59	2017-08-18 15:16:15 -0700	[diff] [blame]	584	ret = check_stable_address_space(vma->vm_mm);
				585	if (ret)
				586	goto unlock_release;
				587
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	588	/* Deliver the page fault to userland */
				589	if (userfaultfd_missing(vma)) {
				590	int ret;
				591
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	592	spin_unlock(vmf->ptl);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	593	mem_cgroup_cancel_charge(page, memcg, true);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	594	put_page(page);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	595	pte_free(vma->vm_mm, pgtable);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	596	ret = handle_userfault(vmf, VM_UFFD_MISSING);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	597	VM_BUG_ON(ret & VM_FAULT_FALLBACK);
				598	return ret;
				599	}
				600
Kirill A. Shutemov	3122359	2013-09-12 15:14:01 -0700	[diff] [blame]	601	entry = mk_huge_pmd(page, vma->vm_page_prot);
				602	entry = maybe_pmd_mkwrite(pmd_mkdirty(entry), vma);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	603	page_add_new_anon_rmap(page, vma, haddr, true);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	604	mem_cgroup_commit_charge(page, memcg, false, true);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	605	lru_cache_add_active_or_unevictable(page, vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	606	pgtable_trans_huge_deposit(vma->vm_mm, vmf->pmd, pgtable);
				607	set_pmd_at(vma->vm_mm, haddr, vmf->pmd, entry);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	608	add_mm_counter(vma->vm_mm, MM_ANONPAGES, HPAGE_PMD_NR);
				609	atomic_long_inc(&vma->vm_mm->nr_ptes);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	610	spin_unlock(vmf->ptl);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	611	count_vm_event(THP_FAULT_ALLOC);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	612	}
				613
David Rientjes	aa2e878	2012-05-29 15:06:17 -0700	[diff] [blame]	614	return 0;
Michal Hocko	6b31d59	2017-08-18 15:16:15 -0700	[diff] [blame]	615	unlock_release:
				616	spin_unlock(vmf->ptl);
				617	release:
				618	if (pgtable)
				619	pte_free(vma->vm_mm, pgtable);
				620	mem_cgroup_cancel_charge(page, memcg, true);
				621	put_page(page);
				622	return ret;
				623
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	624	}
				625
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	626	/*
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	627	* always: directly stall for all thp allocations
				628	* defer: wake kswapd and fail if not immediately available
				629	* defer+madvise: wake kswapd and directly stall for MADV_HUGEPAGE, otherwise
				630	* fail if not immediately available
				631	* madvise: directly stall for MADV_HUGEPAGE, otherwise fail if not immediately
				632	* available
				633	* never: never stall for any thp allocation
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	634	*/
				635	static inline gfp_t alloc_hugepage_direct_gfpmask(struct vm_area_struct *vma)
Andrea Arcangeli	0bbbc0b	2011-01-13 15:47:05 -0800	[diff] [blame]	636	{
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	637	const bool vma_madvised = !!(vma->vm_flags & VM_HUGEPAGE);
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	638
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	639	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags))
Vlastimil Babka	2516035	2016-07-28 15:49:25 -0700	[diff] [blame]	640	return GFP_TRANSHUGE \| (vma_madvised ? 0 : __GFP_NORETRY);
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	641	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags))
				642	return GFP_TRANSHUGE_LIGHT \| __GFP_KSWAPD_RECLAIM;
				643	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags))
				644	return GFP_TRANSHUGE_LIGHT \| (vma_madvised ? __GFP_DIRECT_RECLAIM :
				645	__GFP_KSWAPD_RECLAIM);
				646	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags))
				647	return GFP_TRANSHUGE_LIGHT \| (vma_madvised ? __GFP_DIRECT_RECLAIM :
				648	0);
Vlastimil Babka	2516035	2016-07-28 15:49:25 -0700	[diff] [blame]	649	return GFP_TRANSHUGE_LIGHT;
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	650	}
				651
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	652	/* Caller must hold page table lock. */
Kirill A. Shutemov	d295e34	2015-09-08 14:59:34 -0700	[diff] [blame]	653	static bool set_huge_zero_page(pgtable_t pgtable, struct mm_struct *mm,
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	654	struct vm_area_struct vma, unsigned long haddr, pmd_t pmd,
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	655	struct page *zero_page)
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	656	{
				657	pmd_t entry;
Andrew Morton	7c41416	2015-09-08 14:58:43 -0700	[diff] [blame]	658	if (!pmd_none(*pmd))
				659	return false;
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	660	entry = mk_pmd(zero_page, vma->vm_page_prot);
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	661	entry = pmd_mkhuge(entry);
Matthew Wilcox	12c9d70	2016-02-02 16:57:57 -0800	[diff] [blame]	662	if (pgtable)
				663	pgtable_trans_huge_deposit(mm, pmd, pgtable);
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	664	set_pmd_at(mm, haddr, pmd, entry);
Kirill A. Shutemov	e1f56c8	2013-11-14 14:30:48 -0800	[diff] [blame]	665	atomic_long_inc(&mm->nr_ptes);
Andrew Morton	7c41416	2015-09-08 14:58:43 -0700	[diff] [blame]	666	return true;
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	667	}
				668
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	669	int do_huge_pmd_anonymous_page(struct vm_fault *vmf)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	670	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	671	struct vm_area_struct *vma = vmf->vma;
Aneesh Kumar K.V	077fcf1	2015-02-11 15:27:12 -0800	[diff] [blame]	672	gfp_t gfp;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	673	struct page *page;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	674	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	675
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	676	if (haddr < vma->vm_start \|\| haddr + HPAGE_PMD_SIZE > vma->vm_end)
Kirill A. Shutemov	c029255	2013-09-12 15:14:05 -0700	[diff] [blame]	677	return VM_FAULT_FALLBACK;
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	678	if (unlikely(anon_vma_prepare(vma)))
				679	return VM_FAULT_OOM;
David Rientjes	6d50e60	2014-10-29 14:50:31 -0700	[diff] [blame]	680	if (unlikely(khugepaged_enter(vma, vma->vm_flags)))
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	681	return VM_FAULT_OOM;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	682	if (!(vmf->flags & FAULT_FLAG_WRITE) &&
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	683	!mm_forbids_zeropage(vma->vm_mm) &&
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	684	transparent_hugepage_use_zero_page()) {
				685	pgtable_t pgtable;
				686	struct page *zero_page;
				687	bool set;
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	688	int ret;
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	689	pgtable = pte_alloc_one(vma->vm_mm, haddr);
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	690	if (unlikely(!pgtable))
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	691	return VM_FAULT_OOM;
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	692	zero_page = mm_get_huge_zero_page(vma->vm_mm);
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	693	if (unlikely(!zero_page)) {
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	694	pte_free(vma->vm_mm, pgtable);
Andi Kleen	81ab420	2011-04-14 15:22:06 -0700	[diff] [blame]	695	count_vm_event(THP_FAULT_FALLBACK);
Kirill A. Shutemov	c029255	2013-09-12 15:14:05 -0700	[diff] [blame]	696	return VM_FAULT_FALLBACK;
Andi Kleen	81ab420	2011-04-14 15:22:06 -0700	[diff] [blame]	697	}
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	698	vmf->ptl = pmd_lock(vma->vm_mm, vmf->pmd);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	699	ret = 0;
				700	set = false;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	701	if (pmd_none(*vmf->pmd)) {
Michal Hocko	6b31d59	2017-08-18 15:16:15 -0700	[diff] [blame]	702	ret = check_stable_address_space(vma->vm_mm);
				703	if (ret) {
				704	spin_unlock(vmf->ptl);
				705	} else if (userfaultfd_missing(vma)) {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	706	spin_unlock(vmf->ptl);
				707	ret = handle_userfault(vmf, VM_UFFD_MISSING);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	708	VM_BUG_ON(ret & VM_FAULT_FALLBACK);
				709	} else {
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	710	set_huge_zero_page(pgtable, vma->vm_mm, vma,
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	711	haddr, vmf->pmd, zero_page);
				712	spin_unlock(vmf->ptl);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	713	set = true;
				714	}
				715	} else
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	716	spin_unlock(vmf->ptl);
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	717	if (!set)
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	718	pte_free(vma->vm_mm, pgtable);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	719	return ret;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	720	}
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	721	gfp = alloc_hugepage_direct_gfpmask(vma);
Aneesh Kumar K.V	077fcf1	2015-02-11 15:27:12 -0800	[diff] [blame]	722	page = alloc_hugepage_vma(gfp, vma, haddr, HPAGE_PMD_ORDER);
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	723	if (unlikely(!page)) {
				724	count_vm_event(THP_FAULT_FALLBACK);
Kirill A. Shutemov	c029255	2013-09-12 15:14:05 -0700	[diff] [blame]	725	return VM_FAULT_FALLBACK;
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	726	}
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	727	prep_transhuge_page(page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	728	return __do_huge_pmd_anonymous_page(vmf, page, gfp);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	729	}
				730
Matthew Wilcox	ae18d6d	2015-09-08 14:59:14 -0700	[diff] [blame]	731	static void insert_pfn_pmd(struct vm_area_struct *vma, unsigned long addr,
Oliver O'Halloran	3b6521f	2017-05-08 15:59:43 -0700	[diff] [blame]	732	pmd_t *pmd, pfn_t pfn, pgprot_t prot, bool write,
				733	pgtable_t pgtable)
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	734	{
				735	struct mm_struct *mm = vma->vm_mm;
				736	pmd_t entry;
				737	spinlock_t *ptl;
				738
				739	ptl = pmd_lock(mm, pmd);
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	740	entry = pmd_mkhuge(pfn_t_pmd(pfn, prot));
				741	if (pfn_t_devmap(pfn))
				742	entry = pmd_mkdevmap(entry);
Ross Zwisler	01871e5	2016-01-15 16:56:02 -0800	[diff] [blame]	743	if (write) {
				744	entry = pmd_mkyoung(pmd_mkdirty(entry));
				745	entry = maybe_pmd_mkwrite(entry, vma);
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	746	}
Oliver O'Halloran	3b6521f	2017-05-08 15:59:43 -0700	[diff] [blame]	747
				748	if (pgtable) {
				749	pgtable_trans_huge_deposit(mm, pmd, pgtable);
				750	atomic_long_inc(&mm->nr_ptes);
				751	}
				752
Ross Zwisler	01871e5	2016-01-15 16:56:02 -0800	[diff] [blame]	753	set_pmd_at(mm, addr, pmd, entry);
				754	update_mmu_cache_pmd(vma, addr, pmd);
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	755	spin_unlock(ptl);
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	756	}
				757
				758	int vmf_insert_pfn_pmd(struct vm_area_struct *vma, unsigned long addr,
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	759	pmd_t *pmd, pfn_t pfn, bool write)
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	760	{
				761	pgprot_t pgprot = vma->vm_page_prot;
Oliver O'Halloran	3b6521f	2017-05-08 15:59:43 -0700	[diff] [blame]	762	pgtable_t pgtable = NULL;
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	763	/*
				764	* If we had pmd_special, we could avoid all these restrictions,
				765	* but we need to be consistent with PTEs and architectures that
				766	* can't support a 'special' bit.
				767	*/
				768	BUG_ON(!(vma->vm_flags & (VM_PFNMAP\|VM_MIXEDMAP)));
				769	BUG_ON((vma->vm_flags & (VM_PFNMAP\|VM_MIXEDMAP)) ==
				770	(VM_PFNMAP\|VM_MIXEDMAP));
				771	BUG_ON((vma->vm_flags & VM_PFNMAP) && is_cow_mapping(vma->vm_flags));
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	772	BUG_ON(!pfn_t_devmap(pfn));
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	773
				774	if (addr < vma->vm_start \|\| addr >= vma->vm_end)
				775	return VM_FAULT_SIGBUS;
Borislav Petkov	308a047	2016-10-26 19:43:43 +0200	[diff] [blame]	776
Oliver O'Halloran	3b6521f	2017-05-08 15:59:43 -0700	[diff] [blame]	777	if (arch_needs_pgtable_deposit()) {
				778	pgtable = pte_alloc_one(vma->vm_mm, addr);
				779	if (!pgtable)
				780	return VM_FAULT_OOM;
				781	}
				782
Borislav Petkov	308a047	2016-10-26 19:43:43 +0200	[diff] [blame]	783	track_pfn_insert(vma, &pgprot, pfn);
				784
Oliver O'Halloran	3b6521f	2017-05-08 15:59:43 -0700	[diff] [blame]	785	insert_pfn_pmd(vma, addr, pmd, pfn, pgprot, write, pgtable);
Matthew Wilcox	ae18d6d	2015-09-08 14:59:14 -0700	[diff] [blame]	786	return VM_FAULT_NOPAGE;
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	787	}
Dan Williams	dee4107	2016-05-14 12:20:44 -0700	[diff] [blame]	788	EXPORT_SYMBOL_GPL(vmf_insert_pfn_pmd);
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	789
Matthew Wilcox	a00cc7d	2017-02-24 14:57:02 -0800	[diff] [blame]	790	#ifdef CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD
				791	static pud_t maybe_pud_mkwrite(pud_t pud, struct vm_area_struct *vma)
				792	{
				793	if (likely(vma->vm_flags & VM_WRITE))
				794	pud = pud_mkwrite(pud);
				795	return pud;
				796	}
				797
				798	static void insert_pfn_pud(struct vm_area_struct *vma, unsigned long addr,
				799	pud_t *pud, pfn_t pfn, pgprot_t prot, bool write)
				800	{
				801	struct mm_struct *mm = vma->vm_mm;
				802	pud_t entry;
				803	spinlock_t *ptl;
				804
				805	ptl = pud_lock(mm, pud);
				806	entry = pud_mkhuge(pfn_t_pud(pfn, prot));
				807	if (pfn_t_devmap(pfn))
				808	entry = pud_mkdevmap(entry);
				809	if (write) {
				810	entry = pud_mkyoung(pud_mkdirty(entry));
				811	entry = maybe_pud_mkwrite(entry, vma);
				812	}
				813	set_pud_at(mm, addr, pud, entry);
				814	update_mmu_cache_pud(vma, addr, pud);
				815	spin_unlock(ptl);
				816	}
				817
				818	int vmf_insert_pfn_pud(struct vm_area_struct *vma, unsigned long addr,
				819	pud_t *pud, pfn_t pfn, bool write)
				820	{
				821	pgprot_t pgprot = vma->vm_page_prot;
				822	/*
				823	* If we had pud_special, we could avoid all these restrictions,
				824	* but we need to be consistent with PTEs and architectures that
				825	* can't support a 'special' bit.
				826	*/
				827	BUG_ON(!(vma->vm_flags & (VM_PFNMAP\|VM_MIXEDMAP)));
				828	BUG_ON((vma->vm_flags & (VM_PFNMAP\|VM_MIXEDMAP)) ==
				829	(VM_PFNMAP\|VM_MIXEDMAP));
				830	BUG_ON((vma->vm_flags & VM_PFNMAP) && is_cow_mapping(vma->vm_flags));
				831	BUG_ON(!pfn_t_devmap(pfn));
				832
				833	if (addr < vma->vm_start \|\| addr >= vma->vm_end)
				834	return VM_FAULT_SIGBUS;
				835
				836	track_pfn_insert(vma, &pgprot, pfn);
				837
				838	insert_pfn_pud(vma, addr, pud, pfn, pgprot, write);
				839	return VM_FAULT_NOPAGE;
				840	}
				841	EXPORT_SYMBOL_GPL(vmf_insert_pfn_pud);
				842	#endif /* CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD */
				843
Dan Williams	3565fce	2016-01-15 16:56:55 -0800	[diff] [blame]	844	static void touch_pmd(struct vm_area_struct *vma, unsigned long addr,
				845	pmd_t *pmd)
				846	{
				847	pmd_t _pmd;
				848
				849	/*
				850	* We should set the dirty bit only for FOLL_WRITE but for now
				851	* the dirty bit in the pmd is meaningless. And if the dirty
				852	* bit will become meaningful and we'll only set it with
				853	* FOLL_WRITE, an atomic set_bit will be required on the pmd to
				854	* set the young bit, instead of the current set_pmd_at.
				855	*/
				856	_pmd = pmd_mkyoung(pmd_mkdirty(*pmd));
				857	if (pmdp_set_access_flags(vma, addr & HPAGE_PMD_MASK,
				858	pmd, _pmd, 1))
				859	update_mmu_cache_pmd(vma, addr, pmd);
				860	}
				861
				862	struct page follow_devmap_pmd(struct vm_area_struct vma, unsigned long addr,
				863	pmd_t *pmd, int flags)
				864	{
				865	unsigned long pfn = pmd_pfn(*pmd);
				866	struct mm_struct *mm = vma->vm_mm;
				867	struct dev_pagemap *pgmap;
				868	struct page *page;
				869
				870	assert_spin_locked(pmd_lockptr(mm, pmd));
				871
Keno Fischer	8310d48	2017-01-24 15:17:48 -0800	[diff] [blame]	872	/*
				873	* When we COW a devmap PMD entry, we split it into PTEs, so we should
				874	* not be in this function with `flags & FOLL_COW` set.
				875	*/
				876	WARN_ONCE(flags & FOLL_COW, "mm: In follow_devmap_pmd with FOLL_COW set");
				877
Dan Williams	3565fce	2016-01-15 16:56:55 -0800	[diff] [blame]	878	if (flags & FOLL_WRITE && !pmd_write(*pmd))
				879	return NULL;
				880
				881	if (pmd_present(pmd) && pmd_devmap(pmd))
				882	/* pass */;
				883	else
				884	return NULL;
				885
				886	if (flags & FOLL_TOUCH)
				887	touch_pmd(vma, addr, pmd);
				888
				889	/*
				890	* device mapped pages can only be returned if the
				891	* caller will manage the page reference count.
				892	*/
				893	if (!(flags & FOLL_GET))
				894	return ERR_PTR(-EEXIST);
				895
				896	pfn += (addr & ~PMD_MASK) >> PAGE_SHIFT;
				897	pgmap = get_dev_pagemap(pfn, NULL);
				898	if (!pgmap)
				899	return ERR_PTR(-EFAULT);
				900	page = pfn_to_page(pfn);
				901	get_page(page);
				902	put_dev_pagemap(pgmap);
				903
				904	return page;
				905	}
				906
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	907	int copy_huge_pmd(struct mm_struct dst_mm, struct mm_struct src_mm,
				908	pmd_t dst_pmd, pmd_t src_pmd, unsigned long addr,
				909	struct vm_area_struct *vma)
				910	{
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	911	spinlock_t dst_ptl, src_ptl;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	912	struct page *src_page;
				913	pmd_t pmd;
Matthew Wilcox	12c9d70	2016-02-02 16:57:57 -0800	[diff] [blame]	914	pgtable_t pgtable = NULL;
Kirill A. Shutemov	628d47c	2016-07-26 15:25:42 -0700	[diff] [blame]	915	int ret = -ENOMEM;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	916
Kirill A. Shutemov	628d47c	2016-07-26 15:25:42 -0700	[diff] [blame]	917	/* Skip if can be re-fill on fault */
				918	if (!vma_is_anonymous(vma))
				919	return 0;
				920
				921	pgtable = pte_alloc_one(dst_mm, addr);
				922	if (unlikely(!pgtable))
				923	goto out;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	924
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	925	dst_ptl = pmd_lock(dst_mm, dst_pmd);
				926	src_ptl = pmd_lockptr(src_mm, src_pmd);
				927	spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	928
				929	ret = -EAGAIN;
				930	pmd = *src_pmd;
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	931
				932	#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
				933	if (unlikely(is_swap_pmd(pmd))) {
				934	swp_entry_t entry = pmd_to_swp_entry(pmd);
				935
				936	VM_BUG_ON(!is_pmd_migration_entry(pmd));
				937	if (is_write_migration_entry(entry)) {
				938	make_migration_entry_read(&entry);
				939	pmd = swp_entry_to_pmd(entry);
Naoya Horiguchi	ab6e3d0	2017-09-08 16:11:04 -0700	[diff] [blame]	940	if (pmd_swp_soft_dirty(*src_pmd))
				941	pmd = pmd_swp_mksoft_dirty(pmd);
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	942	set_pmd_at(src_mm, addr, src_pmd, pmd);
				943	}
Zi Yan	dd8a67f	2017-11-02 15:59:47 -0700	[diff] [blame]	944	add_mm_counter(dst_mm, MM_ANONPAGES, HPAGE_PMD_NR);
				945	atomic_long_inc(&dst_mm->nr_ptes);
				946	pgtable_trans_huge_deposit(dst_mm, dst_pmd, pgtable);
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	947	set_pmd_at(dst_mm, addr, dst_pmd, pmd);
				948	ret = 0;
				949	goto out_unlock;
				950	}
				951	#endif
				952
Kirill A. Shutemov	628d47c	2016-07-26 15:25:42 -0700	[diff] [blame]	953	if (unlikely(!pmd_trans_huge(pmd))) {
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	954	pte_free(dst_mm, pgtable);
				955	goto out_unlock;
				956	}
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	957	/*
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	958	* When page table lock is held, the huge zero pmd should not be
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	959	* under splitting since we don't split the page itself, only pmd to
				960	* a page table.
				961	*/
				962	if (is_huge_zero_pmd(pmd)) {
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	963	struct page *zero_page;
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	964	/*
				965	* get_huge_zero_page() will never allocate a new page here,
				966	* since we already have a zero page to copy. It just takes a
				967	* reference.
				968	*/
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	969	zero_page = mm_get_huge_zero_page(dst_mm);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	970	set_huge_zero_page(pgtable, dst_mm, vma, addr, dst_pmd,
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	971	zero_page);
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	972	ret = 0;
				973	goto out_unlock;
				974	}
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	975
Kirill A. Shutemov	628d47c	2016-07-26 15:25:42 -0700	[diff] [blame]	976	src_page = pmd_page(pmd);
				977	VM_BUG_ON_PAGE(!PageHead(src_page), src_page);
				978	get_page(src_page);
				979	page_dup_rmap(src_page, true);
				980	add_mm_counter(dst_mm, MM_ANONPAGES, HPAGE_PMD_NR);
				981	atomic_long_inc(&dst_mm->nr_ptes);
				982	pgtable_trans_huge_deposit(dst_mm, dst_pmd, pgtable);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	983
				984	pmdp_set_wrprotect(src_mm, addr, src_pmd);
				985	pmd = pmd_mkold(pmd_wrprotect(pmd));
				986	set_pmd_at(dst_mm, addr, dst_pmd, pmd);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	987
				988	ret = 0;
				989	out_unlock:
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	990	spin_unlock(src_ptl);
				991	spin_unlock(dst_ptl);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	992	out:
				993	return ret;
				994	}
				995
Matthew Wilcox	a00cc7d	2017-02-24 14:57:02 -0800	[diff] [blame]	996	#ifdef CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD
				997	static void touch_pud(struct vm_area_struct *vma, unsigned long addr,
				998	pud_t *pud)
				999	{
				1000	pud_t _pud;
				1001
				1002	/*
				1003	* We should set the dirty bit only for FOLL_WRITE but for now
				1004	* the dirty bit in the pud is meaningless. And if the dirty
				1005	* bit will become meaningful and we'll only set it with
				1006	* FOLL_WRITE, an atomic set_bit will be required on the pud to
				1007	* set the young bit, instead of the current set_pud_at.
				1008	*/
				1009	_pud = pud_mkyoung(pud_mkdirty(*pud));
				1010	if (pudp_set_access_flags(vma, addr & HPAGE_PUD_MASK,
				1011	pud, _pud, 1))
				1012	update_mmu_cache_pud(vma, addr, pud);
				1013	}
				1014
				1015	struct page follow_devmap_pud(struct vm_area_struct vma, unsigned long addr,
				1016	pud_t *pud, int flags)
				1017	{
				1018	unsigned long pfn = pud_pfn(*pud);
				1019	struct mm_struct *mm = vma->vm_mm;
				1020	struct dev_pagemap *pgmap;
				1021	struct page *page;
				1022
				1023	assert_spin_locked(pud_lockptr(mm, pud));
				1024
				1025	if (flags & FOLL_WRITE && !pud_write(*pud))
				1026	return NULL;
				1027
				1028	if (pud_present(pud) && pud_devmap(pud))
				1029	/* pass */;
				1030	else
				1031	return NULL;
				1032
				1033	if (flags & FOLL_TOUCH)
				1034	touch_pud(vma, addr, pud);
				1035
				1036	/*
				1037	* device mapped pages can only be returned if the
				1038	* caller will manage the page reference count.
				1039	*/
				1040	if (!(flags & FOLL_GET))
				1041	return ERR_PTR(-EEXIST);
				1042
				1043	pfn += (addr & ~PUD_MASK) >> PAGE_SHIFT;
				1044	pgmap = get_dev_pagemap(pfn, NULL);
				1045	if (!pgmap)
				1046	return ERR_PTR(-EFAULT);
				1047	page = pfn_to_page(pfn);
				1048	get_page(page);
				1049	put_dev_pagemap(pgmap);
				1050
				1051	return page;
				1052	}
				1053
				1054	int copy_huge_pud(struct mm_struct dst_mm, struct mm_struct src_mm,
				1055	pud_t dst_pud, pud_t src_pud, unsigned long addr,
				1056	struct vm_area_struct *vma)
				1057	{
				1058	spinlock_t dst_ptl, src_ptl;
				1059	pud_t pud;
				1060	int ret;
				1061
				1062	dst_ptl = pud_lock(dst_mm, dst_pud);
				1063	src_ptl = pud_lockptr(src_mm, src_pud);
				1064	spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
				1065
				1066	ret = -EAGAIN;
				1067	pud = *src_pud;
				1068	if (unlikely(!pud_trans_huge(pud) && !pud_devmap(pud)))
				1069	goto out_unlock;
				1070
				1071	/*
				1072	* When page table lock is held, the huge zero pud should not be
				1073	* under splitting since we don't split the page itself, only pud to
				1074	* a page table.
				1075	*/
				1076	if (is_huge_zero_pud(pud)) {
				1077	/* No huge zero pud yet */
				1078	}
				1079
				1080	pudp_set_wrprotect(src_mm, addr, src_pud);
				1081	pud = pud_mkold(pud_wrprotect(pud));
				1082	set_pud_at(dst_mm, addr, dst_pud, pud);
				1083
				1084	ret = 0;
				1085	out_unlock:
				1086	spin_unlock(src_ptl);
				1087	spin_unlock(dst_ptl);
				1088	return ret;
				1089	}
				1090
				1091	void huge_pud_set_accessed(struct vm_fault *vmf, pud_t orig_pud)
				1092	{
				1093	pud_t entry;
				1094	unsigned long haddr;
				1095	bool write = vmf->flags & FAULT_FLAG_WRITE;
				1096
				1097	vmf->ptl = pud_lock(vmf->vma->vm_mm, vmf->pud);
				1098	if (unlikely(!pud_same(*vmf->pud, orig_pud)))
				1099	goto unlock;
				1100
				1101	entry = pud_mkyoung(orig_pud);
				1102	if (write)
				1103	entry = pud_mkdirty(entry);
				1104	haddr = vmf->address & HPAGE_PUD_MASK;
				1105	if (pudp_set_access_flags(vmf->vma, haddr, vmf->pud, entry, write))
				1106	update_mmu_cache_pud(vmf->vma, vmf->address, vmf->pud);
				1107
				1108	unlock:
				1109	spin_unlock(vmf->ptl);
				1110	}
				1111	#endif /* CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD */
				1112
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1113	void huge_pmd_set_accessed(struct vm_fault *vmf, pmd_t orig_pmd)
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1114	{
				1115	pmd_t entry;
				1116	unsigned long haddr;
Minchan Kim	20f664a	2017-01-10 16:57:51 -0800	[diff] [blame]	1117	bool write = vmf->flags & FAULT_FLAG_WRITE;
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1118
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1119	vmf->ptl = pmd_lock(vmf->vma->vm_mm, vmf->pmd);
				1120	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd)))
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1121	goto unlock;
				1122
				1123	entry = pmd_mkyoung(orig_pmd);
Minchan Kim	20f664a	2017-01-10 16:57:51 -0800	[diff] [blame]	1124	if (write)
				1125	entry = pmd_mkdirty(entry);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1126	haddr = vmf->address & HPAGE_PMD_MASK;
Minchan Kim	20f664a	2017-01-10 16:57:51 -0800	[diff] [blame]	1127	if (pmdp_set_access_flags(vmf->vma, haddr, vmf->pmd, entry, write))
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1128	update_mmu_cache_pmd(vmf->vma, vmf->address, vmf->pmd);
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1129
				1130	unlock:
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1131	spin_unlock(vmf->ptl);
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1132	}
				1133
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1134	static int do_huge_pmd_wp_page_fallback(struct vm_fault *vmf, pmd_t orig_pmd,
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1135	struct page *page)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1136	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1137	struct vm_area_struct *vma = vmf->vma;
				1138	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1139	struct mem_cgroup *memcg;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1140	pgtable_t pgtable;
				1141	pmd_t _pmd;
				1142	int ret = 0, i;
				1143	struct page **pages;
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1144	unsigned long mmun_start; /* For mmu_notifiers */
				1145	unsigned long mmun_end; /* For mmu_notifiers */
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1146
				1147	pages = kmalloc(sizeof(struct page ) HPAGE_PMD_NR,
				1148	GFP_KERNEL);
				1149	if (unlikely(!pages)) {
				1150	ret \|= VM_FAULT_OOM;
				1151	goto out;
				1152	}
				1153
				1154	for (i = 0; i < HPAGE_PMD_NR; i++) {
Michal Hocko	41b6167	2017-01-10 16:57:42 -0800	[diff] [blame]	1155	pages[i] = alloc_page_vma_node(GFP_HIGHUSER_MOVABLE, vma,
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1156	vmf->address, page_to_nid(page));
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1157	if (unlikely(!pages[i] \|\|
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1158	mem_cgroup_try_charge(pages[i], vma->vm_mm,
				1159	GFP_KERNEL, &memcg, false))) {
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1160	if (pages[i])
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1161	put_page(pages[i]);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1162	while (--i >= 0) {
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1163	memcg = (void *)page_private(pages[i]);
				1164	set_page_private(pages[i], 0);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1165	mem_cgroup_cancel_charge(pages[i], memcg,
				1166	false);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1167	put_page(pages[i]);
				1168	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1169	kfree(pages);
				1170	ret \|= VM_FAULT_OOM;
				1171	goto out;
				1172	}
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1173	set_page_private(pages[i], (unsigned long)memcg);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1174	}
				1175
				1176	for (i = 0; i < HPAGE_PMD_NR; i++) {
				1177	copy_user_highpage(pages[i], page + i,
Hillf Danton	0089e48	2011-10-31 17:09:38 -0700	[diff] [blame]	1178	haddr + PAGE_SIZE * i, vma);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1179	__SetPageUptodate(pages[i]);
				1180	cond_resched();
				1181	}
				1182
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1183	mmun_start = haddr;
				1184	mmun_end = haddr + HPAGE_PMD_SIZE;
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1185	mmu_notifier_invalidate_range_start(vma->vm_mm, mmun_start, mmun_end);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1186
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1187	vmf->ptl = pmd_lock(vma->vm_mm, vmf->pmd);
				1188	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd)))
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1189	goto out_free_pages;
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	1190	VM_BUG_ON_PAGE(!PageHead(page), page);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1191
Jérôme Glisse	0f10851	2017-11-15 17:34:07 -0800	[diff] [blame]	1192	/*
				1193	* Leave pmd empty until pte is filled note we must notify here as
				1194	* concurrent CPU thread might write to new page before the call to
				1195	* mmu_notifier_invalidate_range_end() happens which can lead to a
				1196	* device seeing memory write in different order than CPU.
				1197	*
				1198	* See Documentation/vm/mmu_notifier.txt
				1199	*/
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1200	pmdp_huge_clear_flush_notify(vma, haddr, vmf->pmd);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1201
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1202	pgtable = pgtable_trans_huge_withdraw(vma->vm_mm, vmf->pmd);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1203	pmd_populate(vma->vm_mm, &_pmd, pgtable);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1204
				1205	for (i = 0; i < HPAGE_PMD_NR; i++, haddr += PAGE_SIZE) {
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1206	pte_t entry;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1207	entry = mk_pte(pages[i], vma->vm_page_prot);
				1208	entry = maybe_mkwrite(pte_mkdirty(entry), vma);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1209	memcg = (void *)page_private(pages[i]);
				1210	set_page_private(pages[i], 0);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1211	page_add_new_anon_rmap(pages[i], vmf->vma, haddr, false);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1212	mem_cgroup_commit_charge(pages[i], memcg, false, false);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1213	lru_cache_add_active_or_unevictable(pages[i], vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1214	vmf->pte = pte_offset_map(&_pmd, haddr);
				1215	VM_BUG_ON(!pte_none(*vmf->pte));
				1216	set_pte_at(vma->vm_mm, haddr, vmf->pte, entry);
				1217	pte_unmap(vmf->pte);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1218	}
				1219	kfree(pages);
				1220
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1221	smp_wmb(); /* make pte visible before pmd */
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1222	pmd_populate(vma->vm_mm, vmf->pmd, pgtable);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	1223	page_remove_rmap(page, true);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1224	spin_unlock(vmf->ptl);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1225
Jérôme Glisse	4645b9f	2017-11-15 17:34:11 -0800	[diff] [blame^]	1226	/*
				1227	* No need to double call mmu_notifier->invalidate_range() callback as
				1228	* the above pmdp_huge_clear_flush_notify() did already call it.
				1229	*/
				1230	mmu_notifier_invalidate_range_only_end(vma->vm_mm, mmun_start,
				1231	mmun_end);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1232
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1233	ret \|= VM_FAULT_WRITE;
				1234	put_page(page);
				1235
				1236	out:
				1237	return ret;
				1238
				1239	out_free_pages:
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1240	spin_unlock(vmf->ptl);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1241	mmu_notifier_invalidate_range_end(vma->vm_mm, mmun_start, mmun_end);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1242	for (i = 0; i < HPAGE_PMD_NR; i++) {
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1243	memcg = (void *)page_private(pages[i]);
				1244	set_page_private(pages[i], 0);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1245	mem_cgroup_cancel_charge(pages[i], memcg, false);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1246	put_page(pages[i]);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1247	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1248	kfree(pages);
				1249	goto out;
				1250	}
				1251
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1252	int do_huge_pmd_wp_page(struct vm_fault *vmf, pmd_t orig_pmd)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1253	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1254	struct vm_area_struct *vma = vmf->vma;
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1255	struct page page = NULL, new_page;
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1256	struct mem_cgroup *memcg;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1257	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1258	unsigned long mmun_start; /* For mmu_notifiers */
				1259	unsigned long mmun_end; /* For mmu_notifiers */
Michal Hocko	3b36369	2015-04-15 16:13:29 -0700	[diff] [blame]	1260	gfp_t huge_gfp; /* for allocation and charge */
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1261	int ret = 0;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1262
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1263	vmf->ptl = pmd_lockptr(vma->vm_mm, vmf->pmd);
Sasha Levin	81d1b09	2014-10-09 15:28:10 -0700	[diff] [blame]	1264	VM_BUG_ON_VMA(!vma->anon_vma, vma);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1265	if (is_huge_zero_pmd(orig_pmd))
				1266	goto alloc;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1267	spin_lock(vmf->ptl);
				1268	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd)))
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1269	goto out_unlock;
				1270
				1271	page = pmd_page(orig_pmd);
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	1272	VM_BUG_ON_PAGE(!PageCompound(page) \|\| !PageHead(page), page);
Kirill A. Shutemov	1f25fe2	2016-01-15 16:52:24 -0800	[diff] [blame]	1273	/*
				1274	* We can only reuse the page if nobody else maps the huge page or it's
Andrea Arcangeli	6d0a07e	2016-05-12 15:42:25 -0700	[diff] [blame]	1275	* part.
Kirill A. Shutemov	1f25fe2	2016-01-15 16:52:24 -0800	[diff] [blame]	1276	*/
Huang Ying	ba3c4ce	2017-09-06 16:22:19 -0700	[diff] [blame]	1277	if (!trylock_page(page)) {
				1278	get_page(page);
				1279	spin_unlock(vmf->ptl);
				1280	lock_page(page);
				1281	spin_lock(vmf->ptl);
				1282	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd))) {
				1283	unlock_page(page);
				1284	put_page(page);
				1285	goto out_unlock;
				1286	}
				1287	put_page(page);
				1288	}
				1289	if (reuse_swap_page(page, NULL)) {
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1290	pmd_t entry;
				1291	entry = pmd_mkyoung(orig_pmd);
				1292	entry = maybe_pmd_mkwrite(pmd_mkdirty(entry), vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1293	if (pmdp_set_access_flags(vma, haddr, vmf->pmd, entry, 1))
				1294	update_mmu_cache_pmd(vma, vmf->address, vmf->pmd);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1295	ret \|= VM_FAULT_WRITE;
Huang Ying	ba3c4ce	2017-09-06 16:22:19 -0700	[diff] [blame]	1296	unlock_page(page);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1297	goto out_unlock;
				1298	}
Huang Ying	ba3c4ce	2017-09-06 16:22:19 -0700	[diff] [blame]	1299	unlock_page(page);
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1300	get_page(page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1301	spin_unlock(vmf->ptl);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1302	alloc:
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1303	if (transparent_hugepage_enabled(vma) &&
Aneesh Kumar K.V	077fcf1	2015-02-11 15:27:12 -0800	[diff] [blame]	1304	!transparent_hugepage_debug_cow()) {
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	1305	huge_gfp = alloc_hugepage_direct_gfpmask(vma);
Michal Hocko	3b36369	2015-04-15 16:13:29 -0700	[diff] [blame]	1306	new_page = alloc_hugepage_vma(huge_gfp, vma, haddr, HPAGE_PMD_ORDER);
Aneesh Kumar K.V	077fcf1	2015-02-11 15:27:12 -0800	[diff] [blame]	1307	} else
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1308	new_page = NULL;
				1309
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	1310	if (likely(new_page)) {
				1311	prep_transhuge_page(new_page);
				1312	} else {
Hugh Dickins	eecc1e4	2014-01-12 01:25:21 -0800	[diff] [blame]	1313	if (!page) {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1314	split_huge_pmd(vma, vmf->pmd, vmf->address);
Kirill A. Shutemov	e9b71ca	2014-04-03 14:48:17 -0700	[diff] [blame]	1315	ret \|= VM_FAULT_FALLBACK;
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1316	} else {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1317	ret = do_huge_pmd_wp_page_fallback(vmf, orig_pmd, page);
Kirill A. Shutemov	9845cbb	2014-02-25 15:01:42 -0800	[diff] [blame]	1318	if (ret & VM_FAULT_OOM) {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1319	split_huge_pmd(vma, vmf->pmd, vmf->address);
Kirill A. Shutemov	9845cbb	2014-02-25 15:01:42 -0800	[diff] [blame]	1320	ret \|= VM_FAULT_FALLBACK;
				1321	}
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1322	put_page(page);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1323	}
David Rientjes	17766dd	2013-09-12 15:14:06 -0700	[diff] [blame]	1324	count_vm_event(THP_FAULT_FALLBACK);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1325	goto out;
				1326	}
				1327
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1328	if (unlikely(mem_cgroup_try_charge(new_page, vma->vm_mm,
				1329	huge_gfp, &memcg, true))) {
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1330	put_page(new_page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1331	split_huge_pmd(vma, vmf->pmd, vmf->address);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1332	if (page)
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1333	put_page(page);
Kirill A. Shutemov	9845cbb	2014-02-25 15:01:42 -0800	[diff] [blame]	1334	ret \|= VM_FAULT_FALLBACK;
David Rientjes	17766dd	2013-09-12 15:14:06 -0700	[diff] [blame]	1335	count_vm_event(THP_FAULT_FALLBACK);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1336	goto out;
				1337	}
				1338
David Rientjes	17766dd	2013-09-12 15:14:06 -0700	[diff] [blame]	1339	count_vm_event(THP_FAULT_ALLOC);
				1340
Hugh Dickins	eecc1e4	2014-01-12 01:25:21 -0800	[diff] [blame]	1341	if (!page)
Huang Ying	c79b57e	2017-09-06 16:25:04 -0700	[diff] [blame]	1342	clear_huge_page(new_page, vmf->address, HPAGE_PMD_NR);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1343	else
				1344	copy_user_huge_page(new_page, page, haddr, vma, HPAGE_PMD_NR);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1345	__SetPageUptodate(new_page);
				1346
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1347	mmun_start = haddr;
				1348	mmun_end = haddr + HPAGE_PMD_SIZE;
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1349	mmu_notifier_invalidate_range_start(vma->vm_mm, mmun_start, mmun_end);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1350
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1351	spin_lock(vmf->ptl);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1352	if (page)
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1353	put_page(page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1354	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd))) {
				1355	spin_unlock(vmf->ptl);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1356	mem_cgroup_cancel_charge(new_page, memcg, true);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1357	put_page(new_page);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1358	goto out_mn;
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1359	} else {
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1360	pmd_t entry;
Kirill A. Shutemov	3122359	2013-09-12 15:14:01 -0700	[diff] [blame]	1361	entry = mk_huge_pmd(new_page, vma->vm_page_prot);
				1362	entry = maybe_pmd_mkwrite(pmd_mkdirty(entry), vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1363	pmdp_huge_clear_flush_notify(vma, haddr, vmf->pmd);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	1364	page_add_new_anon_rmap(new_page, vma, haddr, true);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1365	mem_cgroup_commit_charge(new_page, memcg, false, true);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1366	lru_cache_add_active_or_unevictable(new_page, vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1367	set_pmd_at(vma->vm_mm, haddr, vmf->pmd, entry);
				1368	update_mmu_cache_pmd(vma, vmf->address, vmf->pmd);
Hugh Dickins	eecc1e4	2014-01-12 01:25:21 -0800	[diff] [blame]	1369	if (!page) {
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1370	add_mm_counter(vma->vm_mm, MM_ANONPAGES, HPAGE_PMD_NR);
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	1371	} else {
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	1372	VM_BUG_ON_PAGE(!PageHead(page), page);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	1373	page_remove_rmap(page, true);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1374	put_page(page);
				1375	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1376	ret \|= VM_FAULT_WRITE;
				1377	}
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1378	spin_unlock(vmf->ptl);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1379	out_mn:
Jérôme Glisse	4645b9f	2017-11-15 17:34:11 -0800	[diff] [blame^]	1380	/*
				1381	* No need to double call mmu_notifier->invalidate_range() callback as
				1382	* the above pmdp_huge_clear_flush_notify() did already call it.
				1383	*/
				1384	mmu_notifier_invalidate_range_only_end(vma->vm_mm, mmun_start,
				1385	mmun_end);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1386	out:
				1387	return ret;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1388	out_unlock:
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1389	spin_unlock(vmf->ptl);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1390	return ret;
				1391	}
				1392
Keno Fischer	8310d48	2017-01-24 15:17:48 -0800	[diff] [blame]	1393	/*
				1394	* FOLL_FORCE can write to even unwritable pmd's, but only
				1395	* after we've gone through a COW cycle and they are dirty.
				1396	*/
				1397	static inline bool can_follow_write_pmd(pmd_t pmd, unsigned int flags)
				1398	{
				1399	return pmd_write(pmd) \|\|
				1400	((flags & FOLL_FORCE) && (flags & FOLL_COW) && pmd_dirty(pmd));
				1401	}
				1402
David Rientjes	b676b29	2012-10-08 16:34:03 -0700	[diff] [blame]	1403	struct page follow_trans_huge_pmd(struct vm_area_struct vma,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1404	unsigned long addr,
				1405	pmd_t *pmd,
				1406	unsigned int flags)
				1407	{
David Rientjes	b676b29	2012-10-08 16:34:03 -0700	[diff] [blame]	1408	struct mm_struct *mm = vma->vm_mm;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1409	struct page *page = NULL;
				1410
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	1411	assert_spin_locked(pmd_lockptr(mm, pmd));
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1412
Keno Fischer	8310d48	2017-01-24 15:17:48 -0800	[diff] [blame]	1413	if (flags & FOLL_WRITE && !can_follow_write_pmd(*pmd, flags))
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1414	goto out;
				1415
Kirill A. Shutemov	85facf2	2013-02-04 14:28:42 -0800	[diff] [blame]	1416	/* Avoid dumping huge zero page */
				1417	if ((flags & FOLL_DUMP) && is_huge_zero_pmd(*pmd))
				1418	return ERR_PTR(-EFAULT);
				1419
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1420	/* Full NUMA hinting faults to serialise migration in fault paths */
Mel Gorman	8a0516e	2015-02-12 14:58:22 -0800	[diff] [blame]	1421	if ((flags & FOLL_NUMA) && pmd_protnone(*pmd))
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1422	goto out;
				1423
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1424	page = pmd_page(*pmd);
Dan Williams	ca120cf	2016-09-03 10:38:03 -0700	[diff] [blame]	1425	VM_BUG_ON_PAGE(!PageHead(page) && !is_zone_device_page(page), page);
Dan Williams	3565fce	2016-01-15 16:56:55 -0800	[diff] [blame]	1426	if (flags & FOLL_TOUCH)
				1427	touch_pmd(vma, addr, pmd);
Eric B Munson	de60f5f	2015-11-05 18:51:36 -0800	[diff] [blame]	1428	if ((flags & FOLL_MLOCK) && (vma->vm_flags & VM_LOCKED)) {
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	1429	/*
				1430	* We don't mlock() pte-mapped THPs. This way we can avoid
				1431	* leaking mlocked pages into non-VM_LOCKED VMAs.
				1432	*
Kirill A. Shutemov	9a73f61	2016-07-26 15:25:53 -0700	[diff] [blame]	1433	* For anon THP:
				1434	*
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	1435	* In most cases the pmd is the only mapping of the page as we
				1436	* break COW for the mlock() -- see gup_flags \|= FOLL_WRITE for
				1437	* writable private mappings in populate_vma_page_range().
				1438	*
				1439	* The only scenario when we have the page shared here is if we
				1440	* mlocking read-only mapping shared over fork(). We skip
				1441	* mlocking such pages.
Kirill A. Shutemov	9a73f61	2016-07-26 15:25:53 -0700	[diff] [blame]	1442	*
				1443	* For file THP:
				1444	*
				1445	* We can expect PageDoubleMap() to be stable under page lock:
				1446	* for file pages we set it in page_add_file_rmap(), which
				1447	* requires page to be locked.
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	1448	*/
Kirill A. Shutemov	9a73f61	2016-07-26 15:25:53 -0700	[diff] [blame]	1449
				1450	if (PageAnon(page) && compound_mapcount(page) != 1)
				1451	goto skip_mlock;
				1452	if (PageDoubleMap(page) \|\| !page->mapping)
				1453	goto skip_mlock;
				1454	if (!trylock_page(page))
				1455	goto skip_mlock;
				1456	lru_add_drain();
				1457	if (page->mapping && !PageDoubleMap(page))
				1458	mlock_vma_page(page);
				1459	unlock_page(page);
David Rientjes	b676b29	2012-10-08 16:34:03 -0700	[diff] [blame]	1460	}
Kirill A. Shutemov	9a73f61	2016-07-26 15:25:53 -0700	[diff] [blame]	1461	skip_mlock:
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1462	page += (addr & ~HPAGE_PMD_MASK) >> PAGE_SHIFT;
Dan Williams	ca120cf	2016-09-03 10:38:03 -0700	[diff] [blame]	1463	VM_BUG_ON_PAGE(!PageCompound(page) && !is_zone_device_page(page), page);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1464	if (flags & FOLL_GET)
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1465	get_page(page);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1466
				1467	out:
				1468	return page;
				1469	}
				1470
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1471	/* NUMA hinting page fault entry point for trans huge pmds */
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1472	int do_huge_pmd_numa_page(struct vm_fault *vmf, pmd_t pmd)
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1473	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1474	struct vm_area_struct *vma = vmf->vma;
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1475	struct anon_vma *anon_vma = NULL;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1476	struct page *page;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1477	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1478	int page_nid = -1, this_nid = numa_node_id();
Peter Zijlstra	9057289	2013-10-07 11:29:20 +0100	[diff] [blame]	1479	int target_nid, last_cpupid = -1;
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1480	bool page_locked;
				1481	bool migrated = false;
Mel Gorman	b191f9b	2015-03-25 15:55:40 -0700	[diff] [blame]	1482	bool was_writable;
Peter Zijlstra	6688cc0	2013-10-07 11:29:24 +0100	[diff] [blame]	1483	int flags = 0;
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1484
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1485	vmf->ptl = pmd_lock(vma->vm_mm, vmf->pmd);
				1486	if (unlikely(!pmd_same(pmd, *vmf->pmd)))
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1487	goto out_unlock;
				1488
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	1489	/*
				1490	* If there are potential migrations, wait for completion and retry
				1491	* without disrupting NUMA hinting information. Do not relock and
				1492	* check_same as the page may no longer be mapped.
				1493	*/
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1494	if (unlikely(pmd_trans_migrating(*vmf->pmd))) {
				1495	page = pmd_page(*vmf->pmd);
Mark Rutland	3c226c6	2017-06-16 14:02:34 -0700	[diff] [blame]	1496	if (!get_page_unless_zero(page))
				1497	goto out_unlock;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1498	spin_unlock(vmf->ptl);
Mel Gorman	5d83306	2015-02-12 14:58:16 -0800	[diff] [blame]	1499	wait_on_page_locked(page);
Mark Rutland	3c226c6	2017-06-16 14:02:34 -0700	[diff] [blame]	1500	put_page(page);
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	1501	goto out;
				1502	}
				1503
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1504	page = pmd_page(pmd);
Mel Gorman	a1a4618	2013-10-07 11:28:50 +0100	[diff] [blame]	1505	BUG_ON(is_huge_zero_page(page));
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1506	page_nid = page_to_nid(page);
Peter Zijlstra	9057289	2013-10-07 11:29:20 +0100	[diff] [blame]	1507	last_cpupid = page_cpupid_last(page);
Mel Gorman	03c5a6e	2012-11-02 14:52:48 +0000	[diff] [blame]	1508	count_vm_numa_event(NUMA_HINT_FAULTS);
Rik van Riel	04bb2f9	2013-10-07 11:29:36 +0100	[diff] [blame]	1509	if (page_nid == this_nid) {
Mel Gorman	03c5a6e	2012-11-02 14:52:48 +0000	[diff] [blame]	1510	count_vm_numa_event(NUMA_HINT_FAULTS_LOCAL);
Rik van Riel	04bb2f9	2013-10-07 11:29:36 +0100	[diff] [blame]	1511	flags \|= TNF_FAULT_LOCAL;
				1512	}
Mel Gorman	4daae3b	2012-11-02 11:33:45 +0000	[diff] [blame]	1513
Mel Gorman	bea66fb	2015-03-25 15:55:37 -0700	[diff] [blame]	1514	/* See similar comment in do_numa_page for explanation */
Aneesh Kumar K.V	288bc54	2017-02-24 14:59:16 -0800	[diff] [blame]	1515	if (!pmd_savedwrite(pmd))
Peter Zijlstra	6688cc0	2013-10-07 11:29:24 +0100	[diff] [blame]	1516	flags \|= TNF_NO_GROUP;
				1517
				1518	/*
Mel Gorman	ff9042b	2013-10-07 11:28:43 +0100	[diff] [blame]	1519	* Acquire the page lock to serialise THP migrations but avoid dropping
				1520	* page_table_lock if at all possible
				1521	*/
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1522	page_locked = trylock_page(page);
				1523	target_nid = mpol_misplaced(page, vma, haddr);
				1524	if (target_nid == -1) {
				1525	/* If the page was locked, there are no parallel migrations */
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1526	if (page_locked)
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1527	goto clear_pmdnuma;
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1528	}
Mel Gorman	4daae3b	2012-11-02 11:33:45 +0000	[diff] [blame]	1529
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	1530	/* Migration could have started since the pmd_trans_migrating check */
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1531	if (!page_locked) {
Mark Rutland	3c226c6	2017-06-16 14:02:34 -0700	[diff] [blame]	1532	page_nid = -1;
				1533	if (!get_page_unless_zero(page))
				1534	goto out_unlock;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1535	spin_unlock(vmf->ptl);
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1536	wait_on_page_locked(page);
Mark Rutland	3c226c6	2017-06-16 14:02:34 -0700	[diff] [blame]	1537	put_page(page);
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1538	goto out;
				1539	}
				1540
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1541	/*
				1542	* Page is misplaced. Page lock serialises migrations. Acquire anon_vma
				1543	* to serialises splits
				1544	*/
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1545	get_page(page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1546	spin_unlock(vmf->ptl);
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1547	anon_vma = page_lock_anon_vma_read(page);
Peter Zijlstra	cbee9f8	2012-10-25 14:16:43 +0200	[diff] [blame]	1548
Peter Zijlstra	c69307d	2013-10-07 11:28:41 +0100	[diff] [blame]	1549	/* Confirm the PMD did not change while page_table_lock was released */
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1550	spin_lock(vmf->ptl);
				1551	if (unlikely(!pmd_same(pmd, *vmf->pmd))) {
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1552	unlock_page(page);
				1553	put_page(page);
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1554	page_nid = -1;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1555	goto out_unlock;
				1556	}
Mel Gorman	ff9042b	2013-10-07 11:28:43 +0100	[diff] [blame]	1557
Mel Gorman	c3a489c	2013-12-18 17:08:38 -0800	[diff] [blame]	1558	/* Bail if we fail to protect against THP splits for any reason */
				1559	if (unlikely(!anon_vma)) {
				1560	put_page(page);
				1561	page_nid = -1;
				1562	goto clear_pmdnuma;
				1563	}
				1564
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1565	/*
Peter Zijlstra	8b1b436	2017-06-07 18:05:07 +0200	[diff] [blame]	1566	* Since we took the NUMA fault, we must have observed the !accessible
				1567	* bit. Make sure all other CPUs agree with that, to avoid them
				1568	* modifying the page we're about to migrate.
				1569	*
				1570	* Must be done under PTL such that we'll observe the relevant
Peter Zijlstra	ccde85b	2017-08-11 14:29:01 +0200	[diff] [blame]	1571	* inc_tlb_flush_pending().
				1572	*
				1573	* We are not sure a pending tlb flush here is for a huge page
				1574	* mapping or not. Hence use the tlb range variant
Peter Zijlstra	8b1b436	2017-06-07 18:05:07 +0200	[diff] [blame]	1575	*/
				1576	if (mm_tlb_flush_pending(vma->vm_mm))
Peter Zijlstra	ccde85b	2017-08-11 14:29:01 +0200	[diff] [blame]	1577	flush_tlb_range(vma, haddr, haddr + HPAGE_PMD_SIZE);
Peter Zijlstra	8b1b436	2017-06-07 18:05:07 +0200	[diff] [blame]	1578
				1579	/*
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1580	* Migrate the THP to the requested node, returns with page unlocked
Mel Gorman	8a0516e	2015-02-12 14:58:22 -0800	[diff] [blame]	1581	* and access rights restored.
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1582	*/
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1583	spin_unlock(vmf->ptl);
Peter Zijlstra	8b1b436	2017-06-07 18:05:07 +0200	[diff] [blame]	1584
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1585	migrated = migrate_misplaced_transhuge_page(vma->vm_mm, vma,
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1586	vmf->pmd, pmd, vmf->address, page, target_nid);
Peter Zijlstra	6688cc0	2013-10-07 11:29:24 +0100	[diff] [blame]	1587	if (migrated) {
				1588	flags \|= TNF_MIGRATED;
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1589	page_nid = target_nid;
Mel Gorman	074c238	2015-03-25 15:55:42 -0700	[diff] [blame]	1590	} else
				1591	flags \|= TNF_MIGRATE_FAIL;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1592
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1593	goto out;
Mel Gorman	4daae3b	2012-11-02 11:33:45 +0000	[diff] [blame]	1594	clear_pmdnuma:
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1595	BUG_ON(!PageLocked(page));
Aneesh Kumar K.V	288bc54	2017-02-24 14:59:16 -0800	[diff] [blame]	1596	was_writable = pmd_savedwrite(pmd);
Mel Gorman	4d94246	2015-02-12 14:58:28 -0800	[diff] [blame]	1597	pmd = pmd_modify(pmd, vma->vm_page_prot);
Mel Gorman	b7b0400	2015-03-25 15:55:45 -0700	[diff] [blame]	1598	pmd = pmd_mkyoung(pmd);
Mel Gorman	b191f9b	2015-03-25 15:55:40 -0700	[diff] [blame]	1599	if (was_writable)
				1600	pmd = pmd_mkwrite(pmd);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1601	set_pmd_at(vma->vm_mm, haddr, vmf->pmd, pmd);
				1602	update_mmu_cache_pmd(vma, vmf->address, vmf->pmd);
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1603	unlock_page(page);
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1604	out_unlock:
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1605	spin_unlock(vmf->ptl);
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1606
				1607	out:
				1608	if (anon_vma)
				1609	page_unlock_anon_vma_read(anon_vma);
				1610
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1611	if (page_nid != -1)
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1612	task_numa_fault(last_cpupid, page_nid, HPAGE_PMD_NR,
Aneesh Kumar K.V	9a8b300	2017-02-24 14:59:56 -0800	[diff] [blame]	1613	flags);
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1614
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1615	return 0;
				1616	}
				1617
Huang Ying	319904a	2016-07-28 15:48:03 -0700	[diff] [blame]	1618	/*
				1619	* Return true if we do MADV_FREE successfully on entire pmd page.
				1620	* Otherwise, return false.
				1621	*/
				1622	bool madvise_free_huge_pmd(struct mmu_gather tlb, struct vm_area_struct vma,
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1623	pmd_t *pmd, unsigned long addr, unsigned long next)
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1624	{
				1625	spinlock_t *ptl;
				1626	pmd_t orig_pmd;
				1627	struct page *page;
				1628	struct mm_struct *mm = tlb->mm;
Huang Ying	319904a	2016-07-28 15:48:03 -0700	[diff] [blame]	1629	bool ret = false;
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1630
Aneesh Kumar K.V	07e3266	2016-12-12 16:42:40 -0800	[diff] [blame]	1631	tlb_remove_check_page_size_change(tlb, HPAGE_PMD_SIZE);
				1632
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1633	ptl = pmd_trans_huge_lock(pmd, vma);
				1634	if (!ptl)
Linus Torvalds	25eedab	2016-01-17 18:33:15 -0800	[diff] [blame]	1635	goto out_unlocked;
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1636
				1637	orig_pmd = *pmd;
Huang Ying	319904a	2016-07-28 15:48:03 -0700	[diff] [blame]	1638	if (is_huge_zero_pmd(orig_pmd))
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1639	goto out;
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1640
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	1641	if (unlikely(!pmd_present(orig_pmd))) {
				1642	VM_BUG_ON(thp_migration_supported() &&
				1643	!is_pmd_migration_entry(orig_pmd));
				1644	goto out;
				1645	}
				1646
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1647	page = pmd_page(orig_pmd);
				1648	/*
				1649	* If other processes are mapping this page, we couldn't discard
				1650	* the page unless they all do MADV_FREE so let's skip the page.
				1651	*/
				1652	if (page_mapcount(page) != 1)
				1653	goto out;
				1654
				1655	if (!trylock_page(page))
				1656	goto out;
				1657
				1658	/*
				1659	* If user want to discard part-pages of THP, split it so MADV_FREE
				1660	* will deactivate only them.
				1661	*/
				1662	if (next - addr != HPAGE_PMD_SIZE) {
				1663	get_page(page);
				1664	spin_unlock(ptl);
Huang Ying	9818b8c	2016-07-14 12:07:12 -0700	[diff] [blame]	1665	split_huge_page(page);
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1666	unlock_page(page);
Kirill A. Shutemov	bbf29ff	2017-07-06 15:35:28 -0700	[diff] [blame]	1667	put_page(page);
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1668	goto out_unlocked;
				1669	}
				1670
				1671	if (PageDirty(page))
				1672	ClearPageDirty(page);
				1673	unlock_page(page);
				1674
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1675	if (pmd_young(orig_pmd) \|\| pmd_dirty(orig_pmd)) {
Kirill A. Shutemov	58ceeb6	2017-04-13 14:56:26 -0700	[diff] [blame]	1676	pmdp_invalidate(vma, addr, pmd);
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1677	orig_pmd = pmd_mkold(orig_pmd);
				1678	orig_pmd = pmd_mkclean(orig_pmd);
				1679
				1680	set_pmd_at(mm, addr, pmd, orig_pmd);
				1681	tlb_remove_pmd_tlb_entry(tlb, pmd, addr);
				1682	}
Shaohua Li	802a3a9	2017-05-03 14:52:32 -0700	[diff] [blame]	1683
				1684	mark_page_lazyfree(page);
Huang Ying	319904a	2016-07-28 15:48:03 -0700	[diff] [blame]	1685	ret = true;
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1686	out:
				1687	spin_unlock(ptl);
				1688	out_unlocked:
				1689	return ret;
				1690	}
				1691
Aneesh Kumar K.V	953c66c	2016-12-12 16:44:32 -0800	[diff] [blame]	1692	static inline void zap_deposited_table(struct mm_struct mm, pmd_t pmd)
				1693	{
				1694	pgtable_t pgtable;
				1695
				1696	pgtable = pgtable_trans_huge_withdraw(mm, pmd);
				1697	pte_free(mm, pgtable);
				1698	atomic_long_dec(&mm->nr_ptes);
				1699	}
				1700
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1701	int zap_huge_pmd(struct mmu_gather tlb, struct vm_area_struct vma,
Shaohua Li	f21760b	2012-01-12 17:19:16 -0800	[diff] [blame]	1702	pmd_t *pmd, unsigned long addr)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1703	{
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1704	pmd_t orig_pmd;
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1705	spinlock_t *ptl;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1706
Aneesh Kumar K.V	07e3266	2016-12-12 16:42:40 -0800	[diff] [blame]	1707	tlb_remove_check_page_size_change(tlb, HPAGE_PMD_SIZE);
				1708
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1709	ptl = __pmd_trans_huge_lock(pmd, vma);
				1710	if (!ptl)
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1711	return 0;
				1712	/*
				1713	* For architectures like ppc64 we look at deposited pgtable
				1714	* when calling pmdp_huge_get_and_clear. So do the
				1715	* pgtable_trans_huge_withdraw after finishing pmdp related
				1716	* operations.
				1717	*/
				1718	orig_pmd = pmdp_huge_get_and_clear_full(tlb->mm, addr, pmd,
				1719	tlb->fullmm);
				1720	tlb_remove_pmd_tlb_entry(tlb, pmd, addr);
				1721	if (vma_is_dax(vma)) {
Oliver O'Halloran	3b6521f	2017-05-08 15:59:43 -0700	[diff] [blame]	1722	if (arch_needs_pgtable_deposit())
				1723	zap_deposited_table(tlb->mm, pmd);
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1724	spin_unlock(ptl);
				1725	if (is_huge_zero_pmd(orig_pmd))
Aneesh Kumar K.V	c0f2e17	2016-12-12 16:42:31 -0800	[diff] [blame]	1726	tlb_remove_page_size(tlb, pmd_page(orig_pmd), HPAGE_PMD_SIZE);
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1727	} else if (is_huge_zero_pmd(orig_pmd)) {
Oliver O'Halloran	c14a6eb	2017-05-08 15:59:40 -0700	[diff] [blame]	1728	zap_deposited_table(tlb->mm, pmd);
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1729	spin_unlock(ptl);
Aneesh Kumar K.V	c0f2e17	2016-12-12 16:42:31 -0800	[diff] [blame]	1730	tlb_remove_page_size(tlb, pmd_page(orig_pmd), HPAGE_PMD_SIZE);
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1731	} else {
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	1732	struct page *page = NULL;
				1733	int flush_needed = 1;
				1734
				1735	if (pmd_present(orig_pmd)) {
				1736	page = pmd_page(orig_pmd);
				1737	page_remove_rmap(page, true);
				1738	VM_BUG_ON_PAGE(page_mapcount(page) < 0, page);
				1739	VM_BUG_ON_PAGE(!PageHead(page), page);
				1740	} else if (thp_migration_supported()) {
				1741	swp_entry_t entry;
				1742
				1743	VM_BUG_ON(!is_pmd_migration_entry(orig_pmd));
				1744	entry = pmd_to_swp_entry(orig_pmd);
				1745	page = pfn_to_page(swp_offset(entry));
				1746	flush_needed = 0;
				1747	} else
				1748	WARN_ONCE(1, "Non present huge pmd without pmd migration enabled!");
				1749
Kirill A. Shutemov	b507238	2016-07-26 15:25:34 -0700	[diff] [blame]	1750	if (PageAnon(page)) {
Oliver O'Halloran	c14a6eb	2017-05-08 15:59:40 -0700	[diff] [blame]	1751	zap_deposited_table(tlb->mm, pmd);
Kirill A. Shutemov	b507238	2016-07-26 15:25:34 -0700	[diff] [blame]	1752	add_mm_counter(tlb->mm, MM_ANONPAGES, -HPAGE_PMD_NR);
				1753	} else {
Aneesh Kumar K.V	953c66c	2016-12-12 16:44:32 -0800	[diff] [blame]	1754	if (arch_needs_pgtable_deposit())
				1755	zap_deposited_table(tlb->mm, pmd);
Kirill A. Shutemov	b507238	2016-07-26 15:25:34 -0700	[diff] [blame]	1756	add_mm_counter(tlb->mm, MM_FILEPAGES, -HPAGE_PMD_NR);
				1757	}
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	1758
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1759	spin_unlock(ptl);
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	1760	if (flush_needed)
				1761	tlb_remove_page_size(tlb, page, HPAGE_PMD_SIZE);
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1762	}
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1763	return 1;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1764	}
				1765
Aneesh Kumar K.V	1dd38b6	2016-12-12 16:44:29 -0800	[diff] [blame]	1766	#ifndef pmd_move_must_withdraw
				1767	static inline int pmd_move_must_withdraw(spinlock_t *new_pmd_ptl,
				1768	spinlock_t *old_pmd_ptl,
				1769	struct vm_area_struct *vma)
				1770	{
				1771	/*
				1772	* With split pmd lock we also need to move preallocated
				1773	* PTE page table if new_pmd is on different PMD page table.
				1774	*
				1775	* We also don't deposit and withdraw tables for file pages.
				1776	*/
				1777	return (new_pmd_ptl != old_pmd_ptl) && vma_is_anonymous(vma);
				1778	}
				1779	#endif
				1780
Naoya Horiguchi	ab6e3d0	2017-09-08 16:11:04 -0700	[diff] [blame]	1781	static pmd_t move_soft_dirty_pmd(pmd_t pmd)
				1782	{
				1783	#ifdef CONFIG_MEM_SOFT_DIRTY
				1784	if (unlikely(is_pmd_migration_entry(pmd)))
				1785	pmd = pmd_swp_mksoft_dirty(pmd);
				1786	else if (pmd_present(pmd))
				1787	pmd = pmd_mksoft_dirty(pmd);
				1788	#endif
				1789	return pmd;
				1790	}
				1791
Hugh Dickins	bf8616d	2016-05-19 17:12:54 -0700	[diff] [blame]	1792	bool move_huge_pmd(struct vm_area_struct *vma, unsigned long old_addr,
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1793	unsigned long new_addr, unsigned long old_end,
Aaron Lu	5d19042	2016-11-10 17:16:33 +0800	[diff] [blame]	1794	pmd_t old_pmd, pmd_t new_pmd, bool *need_flush)
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1795	{
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1796	spinlock_t old_ptl, new_ptl;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1797	pmd_t pmd;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1798	struct mm_struct *mm = vma->vm_mm;
Aaron Lu	5d19042	2016-11-10 17:16:33 +0800	[diff] [blame]	1799	bool force_flush = false;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1800
				1801	if ((old_addr & ~HPAGE_PMD_MASK) \|\|
				1802	(new_addr & ~HPAGE_PMD_MASK) \|\|
Hugh Dickins	bf8616d	2016-05-19 17:12:54 -0700	[diff] [blame]	1803	old_end - old_addr < HPAGE_PMD_SIZE)
Kirill A. Shutemov	4b471e8	2016-01-15 16:53:39 -0800	[diff] [blame]	1804	return false;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1805
				1806	/*
				1807	* The destination pmd shouldn't be established, free_pgtables()
				1808	* should have release it.
				1809	*/
				1810	if (WARN_ON(!pmd_none(*new_pmd))) {
				1811	VM_BUG_ON(pmd_trans_huge(*new_pmd));
Kirill A. Shutemov	4b471e8	2016-01-15 16:53:39 -0800	[diff] [blame]	1812	return false;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1813	}
				1814
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1815	/*
				1816	* We don't have to worry about the ordering of src and dst
				1817	* ptlocks because exclusive mmap_sem prevents deadlock.
				1818	*/
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1819	old_ptl = __pmd_trans_huge_lock(old_pmd, vma);
				1820	if (old_ptl) {
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1821	new_ptl = pmd_lockptr(mm, new_pmd);
				1822	if (new_ptl != old_ptl)
				1823	spin_lock_nested(new_ptl, SINGLE_DEPTH_NESTING);
Aneesh Kumar K.V	8809aa2	2015-06-24 16:57:44 -0700	[diff] [blame]	1824	pmd = pmdp_huge_get_and_clear(mm, old_addr, old_pmd);
Aaron Lu	a2ce266	2016-11-29 13:27:31 +0800	[diff] [blame]	1825	if (pmd_present(pmd) && pmd_dirty(pmd))
				1826	force_flush = true;
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1827	VM_BUG_ON(!pmd_none(*new_pmd));
Kirill A. Shutemov	3592806	2013-12-12 17:12:33 -0800	[diff] [blame]	1828
Aneesh Kumar K.V	1dd38b6	2016-12-12 16:44:29 -0800	[diff] [blame]	1829	if (pmd_move_must_withdraw(new_ptl, old_ptl, vma)) {
Aneesh Kumar K.V	b3084f4	2014-01-13 11:34:24 +0530	[diff] [blame]	1830	pgtable_t pgtable;
Kirill A. Shutemov	3592806	2013-12-12 17:12:33 -0800	[diff] [blame]	1831	pgtable = pgtable_trans_huge_withdraw(mm, old_pmd);
				1832	pgtable_trans_huge_deposit(mm, new_pmd, pgtable);
Kirill A. Shutemov	3592806	2013-12-12 17:12:33 -0800	[diff] [blame]	1833	}
Naoya Horiguchi	ab6e3d0	2017-09-08 16:11:04 -0700	[diff] [blame]	1834	pmd = move_soft_dirty_pmd(pmd);
				1835	set_pmd_at(mm, new_addr, new_pmd, pmd);
Aneesh Kumar K.V	b3084f4	2014-01-13 11:34:24 +0530	[diff] [blame]	1836	if (new_ptl != old_ptl)
				1837	spin_unlock(new_ptl);
Aaron Lu	5d19042	2016-11-10 17:16:33 +0800	[diff] [blame]	1838	if (force_flush)
				1839	flush_tlb_range(vma, old_addr, old_addr + PMD_SIZE);
				1840	else
				1841	*need_flush = true;
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1842	spin_unlock(old_ptl);
Kirill A. Shutemov	4b471e8	2016-01-15 16:53:39 -0800	[diff] [blame]	1843	return true;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1844	}
Kirill A. Shutemov	4b471e8	2016-01-15 16:53:39 -0800	[diff] [blame]	1845	return false;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1846	}
				1847
Mel Gorman	f123d74	2013-10-07 11:28:49 +0100	[diff] [blame]	1848	/*
				1849	* Returns
				1850	* - 0 if PMD could not be locked
				1851	* - 1 if PMD was locked but protections unchange and TLB flush unnecessary
				1852	* - HPAGE_PMD_NR is protections changed and TLB flush necessary
				1853	*/
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1854	int change_huge_pmd(struct vm_area_struct vma, pmd_t pmd,
Mel Gorman	e944fd6	2015-02-12 14:58:35 -0800	[diff] [blame]	1855	unsigned long addr, pgprot_t newprot, int prot_numa)
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1856	{
				1857	struct mm_struct *mm = vma->vm_mm;
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1858	spinlock_t *ptl;
Kirill A. Shutemov	0a85e51d	2017-04-13 14:56:17 -0700	[diff] [blame]	1859	pmd_t entry;
				1860	bool preserve_write;
				1861	int ret;
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1862
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1863	ptl = __pmd_trans_huge_lock(pmd, vma);
Kirill A. Shutemov	0a85e51d	2017-04-13 14:56:17 -0700	[diff] [blame]	1864	if (!ptl)
				1865	return 0;
Mel Gorman	e944fd6	2015-02-12 14:58:35 -0800	[diff] [blame]	1866
Kirill A. Shutemov	0a85e51d	2017-04-13 14:56:17 -0700	[diff] [blame]	1867	preserve_write = prot_numa && pmd_write(*pmd);
				1868	ret = 1;
Mel Gorman	e944fd6	2015-02-12 14:58:35 -0800	[diff] [blame]	1869
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	1870	#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
				1871	if (is_swap_pmd(*pmd)) {
				1872	swp_entry_t entry = pmd_to_swp_entry(*pmd);
				1873
				1874	VM_BUG_ON(!is_pmd_migration_entry(*pmd));
				1875	if (is_write_migration_entry(entry)) {
				1876	pmd_t newpmd;
				1877	/*
				1878	* A protection check is difficult so
				1879	* just be safe and disable write
				1880	*/
				1881	make_migration_entry_read(&entry);
				1882	newpmd = swp_entry_to_pmd(entry);
Naoya Horiguchi	ab6e3d0	2017-09-08 16:11:04 -0700	[diff] [blame]	1883	if (pmd_swp_soft_dirty(*pmd))
				1884	newpmd = pmd_swp_mksoft_dirty(newpmd);
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	1885	set_pmd_at(mm, addr, pmd, newpmd);
				1886	}
				1887	goto unlock;
				1888	}
				1889	#endif
				1890
Kirill A. Shutemov	0a85e51d	2017-04-13 14:56:17 -0700	[diff] [blame]	1891	/*
				1892	* Avoid trapping faults against the zero page. The read-only
				1893	* data is likely to be read-cached on the local CPU and
				1894	* local/remote hits to the zero page are not interesting.
				1895	*/
				1896	if (prot_numa && is_huge_zero_pmd(*pmd))
				1897	goto unlock;
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1898
Kirill A. Shutemov	0a85e51d	2017-04-13 14:56:17 -0700	[diff] [blame]	1899	if (prot_numa && pmd_protnone(*pmd))
				1900	goto unlock;
				1901
Kirill A. Shutemov	ced1080	2017-04-13 14:56:20 -0700	[diff] [blame]	1902	/*
				1903	* In case prot_numa, we are under down_read(mmap_sem). It's critical
				1904	* to not clear pmd intermittently to avoid race with MADV_DONTNEED
				1905	* which is also under down_read(mmap_sem):
				1906	*
				1907	* CPU0: CPU1:
				1908	* change_huge_pmd(prot_numa=1)
				1909	* pmdp_huge_get_and_clear_notify()
				1910	* madvise_dontneed()
				1911	* zap_pmd_range()
				1912	* pmd_trans_huge(*pmd) == 0 (without ptl)
				1913	* // skip the pmd
				1914	* set_pmd_at();
				1915	* // pmd is re-established
				1916	*
				1917	* The race makes MADV_DONTNEED miss the huge pmd and don't clear it
				1918	* which may break userspace.
				1919	*
				1920	* pmdp_invalidate() is required to make sure we don't miss
				1921	* dirty/young flags set by hardware.
				1922	*/
				1923	entry = *pmd;
				1924	pmdp_invalidate(vma, addr, pmd);
				1925
				1926	/*
				1927	* Recover dirty/young flags. It relies on pmdp_invalidate to not
				1928	* corrupt them.
				1929	*/
				1930	if (pmd_dirty(*pmd))
				1931	entry = pmd_mkdirty(entry);
				1932	if (pmd_young(*pmd))
				1933	entry = pmd_mkyoung(entry);
				1934
Kirill A. Shutemov	0a85e51d	2017-04-13 14:56:17 -0700	[diff] [blame]	1935	entry = pmd_modify(entry, newprot);
				1936	if (preserve_write)
				1937	entry = pmd_mk_savedwrite(entry);
				1938	ret = HPAGE_PMD_NR;
				1939	set_pmd_at(mm, addr, pmd, entry);
				1940	BUG_ON(vma_is_anonymous(vma) && !preserve_write && pmd_write(entry));
				1941	unlock:
				1942	spin_unlock(ptl);
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1943	return ret;
				1944	}
				1945
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1946	/*
Huang Ying	8f19b0c	2016-07-26 15:27:04 -0700	[diff] [blame]	1947	* Returns page table lock pointer if a given pmd maps a thp, NULL otherwise.
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1948	*
Huang Ying	8f19b0c	2016-07-26 15:27:04 -0700	[diff] [blame]	1949	* Note that if it returns page table lock pointer, this routine returns without
				1950	* unlocking page table lock. So callers must unlock it.
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1951	*/
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1952	spinlock_t __pmd_trans_huge_lock(pmd_t pmd, struct vm_area_struct *vma)
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1953	{
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1954	spinlock_t *ptl;
				1955	ptl = pmd_lock(vma->vm_mm, pmd);
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	1956	if (likely(is_swap_pmd(pmd) \|\| pmd_trans_huge(pmd) \|\|
				1957	pmd_devmap(*pmd)))
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1958	return ptl;
				1959	spin_unlock(ptl);
				1960	return NULL;
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1961	}
				1962
Matthew Wilcox	a00cc7d	2017-02-24 14:57:02 -0800	[diff] [blame]	1963	/*
				1964	* Returns true if a given pud maps a thp, false otherwise.
				1965	*
				1966	* Note that if it returns true, this routine returns without unlocking page
				1967	* table lock. So callers must unlock it.
				1968	*/
				1969	spinlock_t __pud_trans_huge_lock(pud_t pud, struct vm_area_struct *vma)
				1970	{
				1971	spinlock_t *ptl;
				1972
				1973	ptl = pud_lock(vma->vm_mm, pud);
				1974	if (likely(pud_trans_huge(pud) \|\| pud_devmap(pud)))
				1975	return ptl;
				1976	spin_unlock(ptl);
				1977	return NULL;
				1978	}
				1979
				1980	#ifdef CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD
				1981	int zap_huge_pud(struct mmu_gather tlb, struct vm_area_struct vma,
				1982	pud_t *pud, unsigned long addr)
				1983	{
				1984	pud_t orig_pud;
				1985	spinlock_t *ptl;
				1986
				1987	ptl = __pud_trans_huge_lock(pud, vma);
				1988	if (!ptl)
				1989	return 0;
				1990	/*
				1991	* For architectures like ppc64 we look at deposited pgtable
				1992	* when calling pudp_huge_get_and_clear. So do the
				1993	* pgtable_trans_huge_withdraw after finishing pudp related
				1994	* operations.
				1995	*/
				1996	orig_pud = pudp_huge_get_and_clear_full(tlb->mm, addr, pud,
				1997	tlb->fullmm);
				1998	tlb_remove_pud_tlb_entry(tlb, pud, addr);
				1999	if (vma_is_dax(vma)) {
				2000	spin_unlock(ptl);
				2001	/* No zero page support yet */
				2002	} else {
				2003	/* No support for anonymous PUD pages yet */
				2004	BUG();
				2005	}
				2006	return 1;
				2007	}
				2008
				2009	static void __split_huge_pud_locked(struct vm_area_struct vma, pud_t pud,
				2010	unsigned long haddr)
				2011	{
				2012	VM_BUG_ON(haddr & ~HPAGE_PUD_MASK);
				2013	VM_BUG_ON_VMA(vma->vm_start > haddr, vma);
				2014	VM_BUG_ON_VMA(vma->vm_end < haddr + HPAGE_PUD_SIZE, vma);
				2015	VM_BUG_ON(!pud_trans_huge(pud) && !pud_devmap(pud));
				2016
Yisheng Xie	ce9311c	2017-03-09 16:17:00 -0800	[diff] [blame]	2017	count_vm_event(THP_SPLIT_PUD);
Matthew Wilcox	a00cc7d	2017-02-24 14:57:02 -0800	[diff] [blame]	2018
				2019	pudp_huge_clear_flush_notify(vma, haddr, pud);
				2020	}
				2021
				2022	void __split_huge_pud(struct vm_area_struct vma, pud_t pud,
				2023	unsigned long address)
				2024	{
				2025	spinlock_t *ptl;
				2026	struct mm_struct *mm = vma->vm_mm;
				2027	unsigned long haddr = address & HPAGE_PUD_MASK;
				2028
				2029	mmu_notifier_invalidate_range_start(mm, haddr, haddr + HPAGE_PUD_SIZE);
				2030	ptl = pud_lock(mm, pud);
				2031	if (unlikely(!pud_trans_huge(pud) && !pud_devmap(pud)))
				2032	goto out;
				2033	__split_huge_pud_locked(vma, pud, haddr);
				2034
				2035	out:
				2036	spin_unlock(ptl);
Jérôme Glisse	4645b9f	2017-11-15 17:34:11 -0800	[diff] [blame^]	2037	/*
				2038	* No need to double call mmu_notifier->invalidate_range() callback as
				2039	* the above pudp_huge_clear_flush_notify() did already call it.
				2040	*/
				2041	mmu_notifier_invalidate_range_only_end(mm, haddr, haddr +
				2042	HPAGE_PUD_SIZE);
Matthew Wilcox	a00cc7d	2017-02-24 14:57:02 -0800	[diff] [blame]	2043	}
				2044	#endif /* CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD */
				2045
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2046	static void __split_huge_zero_page_pmd(struct vm_area_struct *vma,
				2047	unsigned long haddr, pmd_t *pmd)
				2048	{
				2049	struct mm_struct *mm = vma->vm_mm;
				2050	pgtable_t pgtable;
				2051	pmd_t _pmd;
				2052	int i;
				2053
Jérôme Glisse	0f10851	2017-11-15 17:34:07 -0800	[diff] [blame]	2054	/*
				2055	* Leave pmd empty until pte is filled note that it is fine to delay
				2056	* notification until mmu_notifier_invalidate_range_end() as we are
				2057	* replacing a zero pmd write protected page with a zero pte write
				2058	* protected page.
				2059	*
				2060	* See Documentation/vm/mmu_notifier.txt
				2061	*/
				2062	pmdp_huge_clear_flush(vma, haddr, pmd);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2063
				2064	pgtable = pgtable_trans_huge_withdraw(mm, pmd);
				2065	pmd_populate(mm, &_pmd, pgtable);
				2066
				2067	for (i = 0; i < HPAGE_PMD_NR; i++, haddr += PAGE_SIZE) {
				2068	pte_t *pte, entry;
				2069	entry = pfn_pte(my_zero_pfn(haddr), vma->vm_page_prot);
				2070	entry = pte_mkspecial(entry);
				2071	pte = pte_offset_map(&_pmd, haddr);
				2072	VM_BUG_ON(!pte_none(*pte));
				2073	set_pte_at(mm, haddr, pte, entry);
				2074	pte_unmap(pte);
				2075	}
				2076	smp_wmb(); /* make pte visible before pmd */
				2077	pmd_populate(mm, pmd, pgtable);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2078	}
				2079
				2080	static void __split_huge_pmd_locked(struct vm_area_struct vma, pmd_t pmd,
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	2081	unsigned long haddr, bool freeze)
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2082	{
				2083	struct mm_struct *mm = vma->vm_mm;
				2084	struct page *page;
				2085	pgtable_t pgtable;
				2086	pmd_t _pmd;
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	2087	bool young, write, dirty, soft_dirty, pmd_migration = false;
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	2088	unsigned long addr;
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2089	int i;
				2090
				2091	VM_BUG_ON(haddr & ~HPAGE_PMD_MASK);
				2092	VM_BUG_ON_VMA(vma->vm_start > haddr, vma);
				2093	VM_BUG_ON_VMA(vma->vm_end < haddr + HPAGE_PMD_SIZE, vma);
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	2094	VM_BUG_ON(!is_pmd_migration_entry(pmd) && !pmd_trans_huge(pmd)
				2095	&& !pmd_devmap(*pmd));
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2096
				2097	count_vm_event(THP_SPLIT_PMD);
				2098
Kirill A. Shutemov	d21b9e5	2016-07-26 15:25:37 -0700	[diff] [blame]	2099	if (!vma_is_anonymous(vma)) {
				2100	_pmd = pmdp_huge_clear_flush_notify(vma, haddr, pmd);
Aneesh Kumar K.V	953c66c	2016-12-12 16:44:32 -0800	[diff] [blame]	2101	/*
				2102	* We are going to unmap this huge page. So
				2103	* just go ahead and zap it
				2104	*/
				2105	if (arch_needs_pgtable_deposit())
				2106	zap_deposited_table(mm, pmd);
Kirill A. Shutemov	d21b9e5	2016-07-26 15:25:37 -0700	[diff] [blame]	2107	if (vma_is_dax(vma))
				2108	return;
				2109	page = pmd_page(_pmd);
				2110	if (!PageReferenced(page) && pmd_young(_pmd))
				2111	SetPageReferenced(page);
				2112	page_remove_rmap(page, true);
				2113	put_page(page);
				2114	add_mm_counter(mm, MM_FILEPAGES, -HPAGE_PMD_NR);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2115	return;
				2116	} else if (is_huge_zero_pmd(*pmd)) {
Jérôme Glisse	4645b9f	2017-11-15 17:34:11 -0800	[diff] [blame^]	2117	/*
				2118	* FIXME: Do we want to invalidate secondary mmu by calling
				2119	* mmu_notifier_invalidate_range() see comments below inside
				2120	* __split_huge_pmd() ?
				2121	*
				2122	* We are going from a zero huge page write protected to zero
				2123	* small page also write protected so it does not seems useful
				2124	* to invalidate secondary mmu at this time.
				2125	*/
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2126	return __split_huge_zero_page_pmd(vma, haddr, pmd);
				2127	}
				2128
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	2129	#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
				2130	pmd_migration = is_pmd_migration_entry(*pmd);
				2131	if (pmd_migration) {
				2132	swp_entry_t entry;
				2133
				2134	entry = pmd_to_swp_entry(*pmd);
				2135	page = pfn_to_page(swp_offset(entry));
				2136	} else
				2137	#endif
				2138	page = pmd_page(*pmd);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2139	VM_BUG_ON_PAGE(!page_count(page), page);
Joonsoo Kim	fe896d1	2016-03-17 14:19:26 -0700	[diff] [blame]	2140	page_ref_add(page, HPAGE_PMD_NR - 1);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2141	write = pmd_write(*pmd);
				2142	young = pmd_young(*pmd);
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	2143	dirty = pmd_dirty(*pmd);
Andrea Arcangeli	804dd15	2016-08-25 15:16:57 -0700	[diff] [blame]	2144	soft_dirty = pmd_soft_dirty(*pmd);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2145
Aneesh Kumar K.V	c777e2a	2016-02-09 06:50:31 +0530	[diff] [blame]	2146	pmdp_huge_split_prepare(vma, haddr, pmd);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2147	pgtable = pgtable_trans_huge_withdraw(mm, pmd);
				2148	pmd_populate(mm, &_pmd, pgtable);
				2149
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	2150	for (i = 0, addr = haddr; i < HPAGE_PMD_NR; i++, addr += PAGE_SIZE) {
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2151	pte_t entry, *pte;
				2152	/*
				2153	* Note that NUMA hinting access restrictions are not
				2154	* transferred to avoid any possibility of altering
				2155	* permissions across VMAs.
				2156	*/
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	2157	if (freeze \|\| pmd_migration) {
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	2158	swp_entry_t swp_entry;
				2159	swp_entry = make_migration_entry(page + i, write);
				2160	entry = swp_entry_to_pte(swp_entry);
Andrea Arcangeli	804dd15	2016-08-25 15:16:57 -0700	[diff] [blame]	2161	if (soft_dirty)
				2162	entry = pte_swp_mksoft_dirty(entry);
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	2163	} else {
Andrea Arcangeli	6d2329f	2016-10-07 17:01:22 -0700	[diff] [blame]	2164	entry = mk_pte(page + i, READ_ONCE(vma->vm_page_prot));
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	2165	entry = maybe_mkwrite(entry, vma);
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	2166	if (!write)
				2167	entry = pte_wrprotect(entry);
				2168	if (!young)
				2169	entry = pte_mkold(entry);
Andrea Arcangeli	804dd15	2016-08-25 15:16:57 -0700	[diff] [blame]	2170	if (soft_dirty)
				2171	entry = pte_mksoft_dirty(entry);
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	2172	}
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	2173	if (dirty)
				2174	SetPageDirty(page + i);
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	2175	pte = pte_offset_map(&_pmd, addr);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2176	BUG_ON(!pte_none(*pte));
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	2177	set_pte_at(mm, addr, pte, entry);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2178	atomic_inc(&page[i]._mapcount);
				2179	pte_unmap(pte);
				2180	}
				2181
				2182	/*
				2183	* Set PG_double_map before dropping compound_mapcount to avoid
				2184	* false-negative page_mapped().
				2185	*/
				2186	if (compound_mapcount(page) > 1 && !TestSetPageDoubleMap(page)) {
				2187	for (i = 0; i < HPAGE_PMD_NR; i++)
				2188	atomic_inc(&page[i]._mapcount);
				2189	}
				2190
				2191	if (atomic_add_negative(-1, compound_mapcount_ptr(page))) {
				2192	/* Last compound_mapcount is gone. */
Mel Gorman	11fb998	2016-07-28 15:46:20 -0700	[diff] [blame]	2193	__dec_node_page_state(page, NR_ANON_THPS);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2194	if (TestClearPageDoubleMap(page)) {
				2195	/* No need in mapcount reference anymore */
				2196	for (i = 0; i < HPAGE_PMD_NR; i++)
				2197	atomic_dec(&page[i]._mapcount);
				2198	}
				2199	}
				2200
				2201	smp_wmb(); /* make pte visible before pmd */
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2202	/*
				2203	* Up to this point the pmd is present and huge and userland has the
				2204	* whole access to the hugepage during the split (which happens in
				2205	* place). If we overwrite the pmd with the not-huge version pointing
				2206	* to the pte here (which of course we could if all CPUs were bug
				2207	* free), userland could trigger a small page size TLB miss on the
				2208	* small sized TLB while the hugepage TLB entry is still established in
				2209	* the huge TLB. Some CPU doesn't like that.
				2210	* See http://support.amd.com/us/Processor_TechDocs/41322.pdf, Erratum
				2211	* 383 on page 93. Intel should be safe but is also warns that it's
				2212	* only safe if the permission and cache attributes of the two entries
				2213	* loaded in the two TLB is identical (which should be the case here).
				2214	* But it is generally safer to never allow small and huge TLB entries
				2215	* for the same virtual address to be loaded simultaneously. So instead
				2216	* of doing "pmd_populate(); flush_pmd_tlb_range();" we first mark the
				2217	* current pmd notpresent (atomically because here the pmd_trans_huge
				2218	* and pmd_trans_splitting must remain set at all times on the pmd
				2219	* until the split is complete for this pmd), then we flush the SMP TLB
				2220	* and finally we write the non-huge version of the pmd entry with
				2221	* pmd_populate.
				2222	*/
				2223	pmdp_invalidate(vma, haddr, pmd);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2224	pmd_populate(mm, pmd, pgtable);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2225
				2226	if (freeze) {
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	2227	for (i = 0; i < HPAGE_PMD_NR; i++) {
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2228	page_remove_rmap(page + i, false);
				2229	put_page(page + i);
				2230	}
				2231	}
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2232	}
				2233
				2234	void __split_huge_pmd(struct vm_area_struct vma, pmd_t pmd,
Naoya Horiguchi	33f4751	2016-07-14 12:07:32 -0700	[diff] [blame]	2235	unsigned long address, bool freeze, struct page *page)
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2236	{
				2237	spinlock_t *ptl;
				2238	struct mm_struct *mm = vma->vm_mm;
				2239	unsigned long haddr = address & HPAGE_PMD_MASK;
				2240
				2241	mmu_notifier_invalidate_range_start(mm, haddr, haddr + HPAGE_PMD_SIZE);
				2242	ptl = pmd_lock(mm, pmd);
Naoya Horiguchi	33f4751	2016-07-14 12:07:32 -0700	[diff] [blame]	2243
				2244	/*
				2245	* If caller asks to setup a migration entries, we need a page to check
				2246	* pmd against. Otherwise we can end up replacing wrong page.
				2247	*/
				2248	VM_BUG_ON(freeze && !page);
				2249	if (page && page != pmd_page(*pmd))
				2250	goto out;
				2251
Dan Williams	5c7fb56	2016-01-15 16:56:52 -0800	[diff] [blame]	2252	if (pmd_trans_huge(*pmd)) {
Naoya Horiguchi	33f4751	2016-07-14 12:07:32 -0700	[diff] [blame]	2253	page = pmd_page(*pmd);
Dan Williams	5c7fb56	2016-01-15 16:56:52 -0800	[diff] [blame]	2254	if (PageMlocked(page))
Kirill A. Shutemov	5f73771	2016-03-17 14:20:13 -0700	[diff] [blame]	2255	clear_page_mlock(page);
Zi Yan	84c3fc4	2017-09-08 16:11:01 -0700	[diff] [blame]	2256	} else if (!(pmd_devmap(pmd) \|\| is_pmd_migration_entry(pmd)))
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	2257	goto out;
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2258	__split_huge_pmd_locked(vma, pmd, haddr, freeze);
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	2259	out:
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2260	spin_unlock(ptl);
Jérôme Glisse	4645b9f	2017-11-15 17:34:11 -0800	[diff] [blame^]	2261	/*
				2262	* No need to double call mmu_notifier->invalidate_range() callback.
				2263	* They are 3 cases to consider inside __split_huge_pmd_locked():
				2264	* 1) pmdp_huge_clear_flush_notify() call invalidate_range() obvious
				2265	* 2) __split_huge_zero_page_pmd() read only zero page and any write
				2266	* fault will trigger a flush_notify before pointing to a new page
				2267	* (it is fine if the secondary mmu keeps pointing to the old zero
				2268	* page in the meantime)
				2269	* 3) Split a huge pmd into pte pointing to the same page. No need
				2270	* to invalidate secondary tlb entry they are all still valid.
				2271	* any further changes to individual pte will notify. So no need
				2272	* to call mmu_notifier->invalidate_range()
				2273	*/
				2274	mmu_notifier_invalidate_range_only_end(mm, haddr, haddr +
				2275	HPAGE_PMD_SIZE);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2276	}
				2277
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2278	void split_huge_pmd_address(struct vm_area_struct *vma, unsigned long address,
				2279	bool freeze, struct page *page)
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2280	{
Hugh Dickins	f72e7dc	2014-06-23 13:22:05 -0700	[diff] [blame]	2281	pgd_t *pgd;
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	2282	p4d_t *p4d;
Hugh Dickins	f72e7dc	2014-06-23 13:22:05 -0700	[diff] [blame]	2283	pud_t *pud;
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2284	pmd_t *pmd;
				2285
Kirill A. Shutemov	78ddc53	2016-01-15 16:52:42 -0800	[diff] [blame]	2286	pgd = pgd_offset(vma->vm_mm, address);
Hugh Dickins	f72e7dc	2014-06-23 13:22:05 -0700	[diff] [blame]	2287	if (!pgd_present(*pgd))
				2288	return;
				2289
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	2290	p4d = p4d_offset(pgd, address);
				2291	if (!p4d_present(*p4d))
				2292	return;
				2293
				2294	pud = pud_offset(p4d, address);
Hugh Dickins	f72e7dc	2014-06-23 13:22:05 -0700	[diff] [blame]	2295	if (!pud_present(*pud))
				2296	return;
				2297
				2298	pmd = pmd_offset(pud, address);
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2299
Naoya Horiguchi	33f4751	2016-07-14 12:07:32 -0700	[diff] [blame]	2300	__split_huge_pmd(vma, pmd, address, freeze, page);
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2301	}
				2302
Kirill A. Shutemov	e1b9996	2015-09-08 14:58:37 -0700	[diff] [blame]	2303	void vma_adjust_trans_huge(struct vm_area_struct *vma,
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2304	unsigned long start,
				2305	unsigned long end,
				2306	long adjust_next)
				2307	{
				2308	/*
				2309	* If the new start address isn't hpage aligned and it could
				2310	* previously contain an hugepage: check if we need to split
				2311	* an huge pmd.
				2312	*/
				2313	if (start & ~HPAGE_PMD_MASK &&
				2314	(start & HPAGE_PMD_MASK) >= vma->vm_start &&
				2315	(start & HPAGE_PMD_MASK) + HPAGE_PMD_SIZE <= vma->vm_end)
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2316	split_huge_pmd_address(vma, start, false, NULL);
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2317
				2318	/*
				2319	* If the new end address isn't hpage aligned and it could
				2320	* previously contain an hugepage: check if we need to split
				2321	* an huge pmd.
				2322	*/
				2323	if (end & ~HPAGE_PMD_MASK &&
				2324	(end & HPAGE_PMD_MASK) >= vma->vm_start &&
				2325	(end & HPAGE_PMD_MASK) + HPAGE_PMD_SIZE <= vma->vm_end)
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2326	split_huge_pmd_address(vma, end, false, NULL);
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2327
				2328	/*
				2329	* If we're also updating the vma->vm_next->vm_start, if the new
				2330	* vm_next->vm_start isn't page aligned and it could previously
				2331	* contain an hugepage: check if we need to split an huge pmd.
				2332	*/
				2333	if (adjust_next > 0) {
				2334	struct vm_area_struct *next = vma->vm_next;
				2335	unsigned long nstart = next->vm_start;
				2336	nstart += adjust_next << PAGE_SHIFT;
				2337	if (nstart & ~HPAGE_PMD_MASK &&
				2338	(nstart & HPAGE_PMD_MASK) >= next->vm_start &&
				2339	(nstart & HPAGE_PMD_MASK) + HPAGE_PMD_SIZE <= next->vm_end)
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2340	split_huge_pmd_address(next, nstart, false, NULL);
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2341	}
				2342	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2343
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2344	static void freeze_page(struct page *page)
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2345	{
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2346	enum ttu_flags ttu_flags = TTU_IGNORE_MLOCK \| TTU_IGNORE_ACCESS \|
Kirill A. Shutemov	c7ab0d2	2017-02-24 14:58:01 -0800	[diff] [blame]	2347	TTU_RMAP_LOCKED \| TTU_SPLIT_HUGE_PMD;
Minchan Kim	666e5a4	2017-05-03 14:54:20 -0700	[diff] [blame]	2348	bool unmap_success;
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2349
				2350	VM_BUG_ON_PAGE(!PageHead(page), page);
				2351
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2352	if (PageAnon(page))
Naoya Horiguchi	b5ff816	2017-09-08 16:10:49 -0700	[diff] [blame]	2353	ttu_flags \|= TTU_SPLIT_FREEZE;
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2354
Minchan Kim	666e5a4	2017-05-03 14:54:20 -0700	[diff] [blame]	2355	unmap_success = try_to_unmap(page, ttu_flags);
				2356	VM_BUG_ON_PAGE(!unmap_success, page);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2357	}
				2358
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2359	static void unfreeze_page(struct page *page)
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2360	{
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2361	int i;
Kirill A. Shutemov	ace71a1	2017-02-24 14:57:45 -0800	[diff] [blame]	2362	if (PageTransHuge(page)) {
				2363	remove_migration_ptes(page, page, true);
				2364	} else {
				2365	for (i = 0; i < HPAGE_PMD_NR; i++)
				2366	remove_migration_ptes(page + i, page + i, true);
				2367	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2368	}
				2369
Kirill A. Shutemov	8df651c	2016-03-15 14:57:30 -0700	[diff] [blame]	2370	static void __split_huge_page_tail(struct page *head, int tail,
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2371	struct lruvec lruvec, struct list_head list)
				2372	{
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2373	struct page *page_tail = head + tail;
				2374
Kirill A. Shutemov	8df651c	2016-03-15 14:57:30 -0700	[diff] [blame]	2375	VM_BUG_ON_PAGE(atomic_read(&page_tail->_mapcount) != -1, page_tail);
Joonsoo Kim	fe896d1	2016-03-17 14:19:26 -0700	[diff] [blame]	2376	VM_BUG_ON_PAGE(page_ref_count(page_tail) != 0, page_tail);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2377
				2378	/*
Joonsoo Kim	0139aa7	2016-05-19 17:10:49 -0700	[diff] [blame]	2379	* tail_page->_refcount is zero and not changing from under us. But
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2380	* get_page_unless_zero() may be running from under us on the
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2381	* tail_page. If we used atomic_set() below instead of atomic_inc() or
				2382	* atomic_add(), we would then run atomic_set() concurrently with
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2383	* get_page_unless_zero(), and atomic_set() is implemented in C not
				2384	* using locked ops. spin_unlock on x86 sometime uses locked ops
				2385	* because of PPro errata 66, 92, so unless somebody can guarantee
				2386	* atomic_set() here would be safe on all archs (and not only on x86),
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2387	* it's safer to use atomic_inc()/atomic_add().
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2388	*/
Huang Ying	38d8b4e	2017-07-06 15:37:18 -0700	[diff] [blame]	2389	if (PageAnon(head) && !PageSwapCache(head)) {
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2390	page_ref_inc(page_tail);
				2391	} else {
				2392	/* Additional pin to radix tree */
				2393	page_ref_add(page_tail, 2);
				2394	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2395
				2396	page_tail->flags &= ~PAGE_FLAGS_CHECK_AT_PREP;
				2397	page_tail->flags \|= (head->flags &
				2398	((1L << PG_referenced) \|
				2399	(1L << PG_swapbacked) \|
Huang Ying	38d8b4e	2017-07-06 15:37:18 -0700	[diff] [blame]	2400	(1L << PG_swapcache) \|
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2401	(1L << PG_mlocked) \|
				2402	(1L << PG_uptodate) \|
				2403	(1L << PG_active) \|
				2404	(1L << PG_locked) \|
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	2405	(1L << PG_unevictable) \|
				2406	(1L << PG_dirty)));
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2407
				2408	/*
				2409	* After clearing PageTail the gup refcount can be released.
				2410	* Page flags also must be visible before we make the page non-compound.
				2411	*/
				2412	smp_wmb();
				2413
				2414	clear_compound_head(page_tail);
				2415
				2416	if (page_is_young(head))
				2417	set_page_young(page_tail);
				2418	if (page_is_idle(head))
				2419	set_page_idle(page_tail);
				2420
				2421	/* ->mapping in first tail page is compound_mapcount */
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2422	VM_BUG_ON_PAGE(tail > 2 && page_tail->mapping != TAIL_MAPPING,
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2423	page_tail);
				2424	page_tail->mapping = head->mapping;
				2425
				2426	page_tail->index = head->index + tail;
				2427	page_cpupid_xchg_last(page_tail, page_cpupid_last(head));
				2428	lru_add_page_tail(head, page_tail, lruvec, list);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2429	}
				2430
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2431	static void __split_huge_page(struct page page, struct list_head list,
				2432	unsigned long flags)
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2433	{
				2434	struct page *head = compound_head(page);
				2435	struct zone *zone = page_zone(head);
				2436	struct lruvec *lruvec;
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2437	pgoff_t end = -1;
Kirill A. Shutemov	8df651c	2016-03-15 14:57:30 -0700	[diff] [blame]	2438	int i;
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2439
Mel Gorman	599d0c9	2016-07-28 15:45:31 -0700	[diff] [blame]	2440	lruvec = mem_cgroup_page_lruvec(head, zone->zone_pgdat);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2441
				2442	/* complete memcg works before add pages to LRU */
				2443	mem_cgroup_split_huge_fixup(head);
				2444
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2445	if (!PageAnon(page))
				2446	end = DIV_ROUND_UP(i_size_read(head->mapping->host), PAGE_SIZE);
				2447
				2448	for (i = HPAGE_PMD_NR - 1; i >= 1; i--) {
Kirill A. Shutemov	8df651c	2016-03-15 14:57:30 -0700	[diff] [blame]	2449	__split_huge_page_tail(head, i, lruvec, list);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2450	/* Some pages can be beyond i_size: drop them from page cache */
				2451	if (head[i].index >= end) {
				2452	__ClearPageDirty(head + i);
				2453	__delete_from_page_cache(head + i, NULL);
Kirill A. Shutemov	800d8c6	2016-07-26 15:26:18 -0700	[diff] [blame]	2454	if (IS_ENABLED(CONFIG_SHMEM) && PageSwapBacked(head))
				2455	shmem_uncharge(head->mapping->host, 1);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2456	put_page(head + i);
				2457	}
				2458	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2459
				2460	ClearPageCompound(head);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2461	/* See comment in __split_huge_page_tail() */
				2462	if (PageAnon(head)) {
Huang Ying	38d8b4e	2017-07-06 15:37:18 -0700	[diff] [blame]	2463	/* Additional pin to radix tree of swap cache */
				2464	if (PageSwapCache(head))
				2465	page_ref_add(head, 2);
				2466	else
				2467	page_ref_inc(head);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2468	} else {
				2469	/* Additional pin to radix tree */
				2470	page_ref_add(head, 2);
				2471	spin_unlock(&head->mapping->tree_lock);
				2472	}
				2473
Mel Gorman	a52633d	2016-07-28 15:45:28 -0700	[diff] [blame]	2474	spin_unlock_irqrestore(zone_lru_lock(page_zone(head)), flags);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2475
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2476	unfreeze_page(head);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2477
				2478	for (i = 0; i < HPAGE_PMD_NR; i++) {
				2479	struct page *subpage = head + i;
				2480	if (subpage == page)
				2481	continue;
				2482	unlock_page(subpage);
				2483
				2484	/*
				2485	* Subpages may be freed if there wasn't any mapping
				2486	* like if add_to_swap() is running on a lru page that
				2487	* had its mapping zapped. And freeing these pages
				2488	* requires taking the lru_lock so we do the put_page
				2489	* of the tail pages after the split is complete.
				2490	*/
				2491	put_page(subpage);
				2492	}
				2493	}
				2494
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2495	int total_mapcount(struct page *page)
				2496	{
Kirill A. Shutemov	dd78fed	2016-07-26 15:25:26 -0700	[diff] [blame]	2497	int i, compound, ret;
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2498
				2499	VM_BUG_ON_PAGE(PageTail(page), page);
				2500
				2501	if (likely(!PageCompound(page)))
				2502	return atomic_read(&page->_mapcount) + 1;
				2503
Kirill A. Shutemov	dd78fed	2016-07-26 15:25:26 -0700	[diff] [blame]	2504	compound = compound_mapcount(page);
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2505	if (PageHuge(page))
Kirill A. Shutemov	dd78fed	2016-07-26 15:25:26 -0700	[diff] [blame]	2506	return compound;
				2507	ret = compound;
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2508	for (i = 0; i < HPAGE_PMD_NR; i++)
				2509	ret += atomic_read(&page[i]._mapcount) + 1;
Kirill A. Shutemov	dd78fed	2016-07-26 15:25:26 -0700	[diff] [blame]	2510	/* File pages has compound_mapcount included in _mapcount */
				2511	if (!PageAnon(page))
				2512	return ret - compound * HPAGE_PMD_NR;
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2513	if (PageDoubleMap(page))
				2514	ret -= HPAGE_PMD_NR;
				2515	return ret;
				2516	}
				2517
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2518	/*
Andrea Arcangeli	6d0a07e	2016-05-12 15:42:25 -0700	[diff] [blame]	2519	* This calculates accurately how many mappings a transparent hugepage
				2520	* has (unlike page_mapcount() which isn't fully accurate). This full
				2521	* accuracy is primarily needed to know if copy-on-write faults can
				2522	* reuse the page and change the mapping to read-write instead of
				2523	* copying them. At the same time this returns the total_mapcount too.
				2524	*
				2525	* The function returns the highest mapcount any one of the subpages
				2526	* has. If the return value is one, even if different processes are
				2527	* mapping different subpages of the transparent hugepage, they can
				2528	* all reuse it, because each process is reusing a different subpage.
				2529	*
				2530	* The total_mapcount is instead counting all virtual mappings of the
				2531	* subpages. If the total_mapcount is equal to "one", it tells the
				2532	* caller all mappings belong to the same "mm" and in turn the
				2533	* anon_vma of the transparent hugepage can become the vma->anon_vma
				2534	* local one as no other process may be mapping any of the subpages.
				2535	*
				2536	* It would be more accurate to replace page_mapcount() with
				2537	* page_trans_huge_mapcount(), however we only use
				2538	* page_trans_huge_mapcount() in the copy-on-write faults where we
				2539	* need full accuracy to avoid breaking page pinning, because
				2540	* page_trans_huge_mapcount() is slower than page_mapcount().
				2541	*/
				2542	int page_trans_huge_mapcount(struct page page, int total_mapcount)
				2543	{
				2544	int i, ret, _total_mapcount, mapcount;
				2545
				2546	/* hugetlbfs shouldn't call it */
				2547	VM_BUG_ON_PAGE(PageHuge(page), page);
				2548
				2549	if (likely(!PageTransCompound(page))) {
				2550	mapcount = atomic_read(&page->_mapcount) + 1;
				2551	if (total_mapcount)
				2552	*total_mapcount = mapcount;
				2553	return mapcount;
				2554	}
				2555
				2556	page = compound_head(page);
				2557
				2558	_total_mapcount = ret = 0;
				2559	for (i = 0; i < HPAGE_PMD_NR; i++) {
				2560	mapcount = atomic_read(&page[i]._mapcount) + 1;
				2561	ret = max(ret, mapcount);
				2562	_total_mapcount += mapcount;
				2563	}
				2564	if (PageDoubleMap(page)) {
				2565	ret -= 1;
				2566	_total_mapcount -= HPAGE_PMD_NR;
				2567	}
				2568	mapcount = compound_mapcount(page);
				2569	ret += mapcount;
				2570	_total_mapcount += mapcount;
				2571	if (total_mapcount)
				2572	*total_mapcount = _total_mapcount;
				2573	return ret;
				2574	}
				2575
Huang Ying	b8f593c	2017-07-06 15:37:28 -0700	[diff] [blame]	2576	/* Racy check whether the huge page can be split */
				2577	bool can_split_huge_page(struct page page, int pextra_pins)
				2578	{
				2579	int extra_pins;
				2580
				2581	/* Additional pins from radix tree */
				2582	if (PageAnon(page))
				2583	extra_pins = PageSwapCache(page) ? HPAGE_PMD_NR : 0;
				2584	else
				2585	extra_pins = HPAGE_PMD_NR;
				2586	if (pextra_pins)
				2587	*pextra_pins = extra_pins;
				2588	return total_mapcount(page) == page_count(page) - extra_pins - 1;
				2589	}
				2590
Andrea Arcangeli	6d0a07e	2016-05-12 15:42:25 -0700	[diff] [blame]	2591	/*
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2592	* This function splits huge page into normal pages. @page can point to any
				2593	* subpage of huge page to split. Split doesn't change the position of @page.
				2594	*
				2595	* Only caller must hold pin on the @page, otherwise split fails with -EBUSY.
				2596	* The huge page must be locked.
				2597	*
				2598	* If @list is null, tail pages will be added to LRU list, otherwise, to @list.
				2599	*
				2600	* Both head page and tail pages will inherit mapping, flags, and so on from
				2601	* the hugepage.
				2602	*
				2603	* GUP pin and PG_locked transferred to @page. Rest subpages can be freed if
				2604	* they are not mapped.
				2605	*
				2606	* Returns 0 if the hugepage is split successfully.
				2607	* Returns -EBUSY if the page is pinned or if anon_vma disappeared from under
				2608	* us.
				2609	*/
				2610	int split_huge_page_to_list(struct page page, struct list_head list)
				2611	{
				2612	struct page *head = compound_head(page);
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2613	struct pglist_data *pgdata = NODE_DATA(page_to_nid(head));
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2614	struct anon_vma *anon_vma = NULL;
				2615	struct address_space *mapping = NULL;
				2616	int count, mapcount, extra_pins, ret;
Kirill A. Shutemov	d965432	2016-01-15 16:54:43 -0800	[diff] [blame]	2617	bool mlocked;
Kirill A. Shutemov	0b9b6ff	2016-01-20 14:58:09 -0800	[diff] [blame]	2618	unsigned long flags;
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2619
				2620	VM_BUG_ON_PAGE(is_huge_zero_page(page), page);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2621	VM_BUG_ON_PAGE(!PageLocked(page), page);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2622	VM_BUG_ON_PAGE(!PageCompound(page), page);
				2623
Huang Ying	5980768	2017-09-06 16:22:34 -0700	[diff] [blame]	2624	if (PageWriteback(page))
				2625	return -EBUSY;
				2626
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2627	if (PageAnon(head)) {
				2628	/*
				2629	* The caller does not necessarily hold an mmap_sem that would
				2630	* prevent the anon_vma disappearing so we first we take a
				2631	* reference to it and then lock the anon_vma for write. This
				2632	* is similar to page_lock_anon_vma_read except the write lock
				2633	* is taken to serialise against parallel split or collapse
				2634	* operations.
				2635	*/
				2636	anon_vma = page_get_anon_vma(head);
				2637	if (!anon_vma) {
				2638	ret = -EBUSY;
				2639	goto out;
				2640	}
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2641	mapping = NULL;
				2642	anon_vma_lock_write(anon_vma);
				2643	} else {
				2644	mapping = head->mapping;
				2645
				2646	/* Truncated ? */
				2647	if (!mapping) {
				2648	ret = -EBUSY;
				2649	goto out;
				2650	}
				2651
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2652	anon_vma = NULL;
				2653	i_mmap_lock_read(mapping);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2654	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2655
				2656	/*
				2657	* Racy check if we can split the page, before freeze_page() will
				2658	* split PMDs
				2659	*/
Huang Ying	b8f593c	2017-07-06 15:37:28 -0700	[diff] [blame]	2660	if (!can_split_huge_page(head, &extra_pins)) {
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2661	ret = -EBUSY;
				2662	goto out_unlock;
				2663	}
				2664
Kirill A. Shutemov	d965432	2016-01-15 16:54:43 -0800	[diff] [blame]	2665	mlocked = PageMlocked(page);
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2666	freeze_page(head);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2667	VM_BUG_ON_PAGE(compound_mapcount(head), head);
				2668
Kirill A. Shutemov	d965432	2016-01-15 16:54:43 -0800	[diff] [blame]	2669	/* Make sure the page is not on per-CPU pagevec as it takes pin */
				2670	if (mlocked)
				2671	lru_add_drain();
				2672
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2673	/* prevent PageLRU to go away from under us, and freeze lru stats */
Mel Gorman	a52633d	2016-07-28 15:45:28 -0700	[diff] [blame]	2674	spin_lock_irqsave(zone_lru_lock(page_zone(head)), flags);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2675
				2676	if (mapping) {
				2677	void **pslot;
				2678
				2679	spin_lock(&mapping->tree_lock);
				2680	pslot = radix_tree_lookup_slot(&mapping->page_tree,
				2681	page_index(head));
				2682	/*
				2683	* Check if the head page is present in radix tree.
				2684	* We assume all tail are present too, if head is there.
				2685	*/
				2686	if (radix_tree_deref_slot_protected(pslot,
				2687	&mapping->tree_lock) != head)
				2688	goto fail;
				2689	}
				2690
Joonsoo Kim	0139aa7	2016-05-19 17:10:49 -0700	[diff] [blame]	2691	/* Prevent deferred_split_scan() touching ->_refcount */
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2692	spin_lock(&pgdata->split_queue_lock);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2693	count = page_count(head);
				2694	mapcount = total_mapcount(head);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2695	if (!mapcount && page_ref_freeze(head, 1 + extra_pins)) {
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2696	if (!list_empty(page_deferred_list(head))) {
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2697	pgdata->split_queue_len--;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2698	list_del(page_deferred_list(head));
				2699	}
Kirill A. Shutemov	65c4537	2016-07-26 15:26:10 -0700	[diff] [blame]	2700	if (mapping)
Mel Gorman	11fb998	2016-07-28 15:46:20 -0700	[diff] [blame]	2701	__dec_node_page_state(page, NR_SHMEM_THPS);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2702	spin_unlock(&pgdata->split_queue_lock);
				2703	__split_huge_page(page, list, flags);
Huang Ying	5980768	2017-09-06 16:22:34 -0700	[diff] [blame]	2704	if (PageSwapCache(head)) {
				2705	swp_entry_t entry = { .val = page_private(head) };
				2706
				2707	ret = split_swap_cluster(entry);
				2708	} else
				2709	ret = 0;
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2710	} else {
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2711	if (IS_ENABLED(CONFIG_DEBUG_VM) && mapcount) {
				2712	pr_alert("total_mapcount: %u, page_count(): %u\n",
				2713	mapcount, count);
				2714	if (PageTail(page))
				2715	dump_page(head, NULL);
				2716	dump_page(page, "total_mapcount(head) > 0");
				2717	BUG();
				2718	}
				2719	spin_unlock(&pgdata->split_queue_lock);
				2720	fail: if (mapping)
				2721	spin_unlock(&mapping->tree_lock);
Mel Gorman	a52633d	2016-07-28 15:45:28 -0700	[diff] [blame]	2722	spin_unlock_irqrestore(zone_lru_lock(page_zone(head)), flags);
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2723	unfreeze_page(head);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2724	ret = -EBUSY;
				2725	}
				2726
				2727	out_unlock:
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2728	if (anon_vma) {
				2729	anon_vma_unlock_write(anon_vma);
				2730	put_anon_vma(anon_vma);
				2731	}
				2732	if (mapping)
				2733	i_mmap_unlock_read(mapping);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2734	out:
				2735	count_vm_event(!ret ? THP_SPLIT_PAGE : THP_SPLIT_PAGE_FAILED);
				2736	return ret;
				2737	}
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2738
				2739	void free_transhuge_page(struct page *page)
				2740	{
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2741	struct pglist_data *pgdata = NODE_DATA(page_to_nid(page));
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2742	unsigned long flags;
				2743
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2744	spin_lock_irqsave(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2745	if (!list_empty(page_deferred_list(page))) {
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2746	pgdata->split_queue_len--;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2747	list_del(page_deferred_list(page));
				2748	}
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2749	spin_unlock_irqrestore(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2750	free_compound_page(page);
				2751	}
				2752
				2753	void deferred_split_huge_page(struct page *page)
				2754	{
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2755	struct pglist_data *pgdata = NODE_DATA(page_to_nid(page));
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2756	unsigned long flags;
				2757
				2758	VM_BUG_ON_PAGE(!PageTransHuge(page), page);
				2759
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2760	spin_lock_irqsave(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2761	if (list_empty(page_deferred_list(page))) {
Kirill A. Shutemov	f9719a0	2016-03-17 14:18:45 -0700	[diff] [blame]	2762	count_vm_event(THP_DEFERRED_SPLIT_PAGE);
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2763	list_add_tail(page_deferred_list(page), &pgdata->split_queue);
				2764	pgdata->split_queue_len++;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2765	}
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2766	spin_unlock_irqrestore(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2767	}
				2768
				2769	static unsigned long deferred_split_count(struct shrinker *shrink,
				2770	struct shrink_control *sc)
				2771	{
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2772	struct pglist_data *pgdata = NODE_DATA(sc->nid);
Mark Rutland	6aa7de0	2017-10-23 14:07:29 -0700	[diff] [blame]	2773	return READ_ONCE(pgdata->split_queue_len);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2774	}
				2775
				2776	static unsigned long deferred_split_scan(struct shrinker *shrink,
				2777	struct shrink_control *sc)
				2778	{
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2779	struct pglist_data *pgdata = NODE_DATA(sc->nid);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2780	unsigned long flags;
				2781	LIST_HEAD(list), pos, next;
				2782	struct page *page;
				2783	int split = 0;
				2784
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2785	spin_lock_irqsave(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2786	/* Take pin on all head pages to avoid freeing them under us */
Kirill A. Shutemov	ae02620	2016-02-05 15:36:53 -0800	[diff] [blame]	2787	list_for_each_safe(pos, next, &pgdata->split_queue) {
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2788	page = list_entry((void *)pos, struct page, mapping);
				2789	page = compound_head(page);
Kirill A. Shutemov	e3ae195	2016-02-02 16:57:15 -0800	[diff] [blame]	2790	if (get_page_unless_zero(page)) {
				2791	list_move(page_deferred_list(page), &list);
				2792	} else {
				2793	/* We lost race with put_compound_page() */
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2794	list_del_init(page_deferred_list(page));
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2795	pgdata->split_queue_len--;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2796	}
Kirill A. Shutemov	e3ae195	2016-02-02 16:57:15 -0800	[diff] [blame]	2797	if (!--sc->nr_to_scan)
				2798	break;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2799	}
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2800	spin_unlock_irqrestore(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2801
				2802	list_for_each_safe(pos, next, &list) {
				2803	page = list_entry((void *)pos, struct page, mapping);
				2804	lock_page(page);
				2805	/* split_huge_page() removes page from list on success */
				2806	if (!split_huge_page(page))
				2807	split++;
				2808	unlock_page(page);
				2809	put_page(page);
				2810	}
				2811
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2812	spin_lock_irqsave(&pgdata->split_queue_lock, flags);
				2813	list_splice_tail(&list, &pgdata->split_queue);
				2814	spin_unlock_irqrestore(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2815
Kirill A. Shutemov	cb8d68e	2016-02-02 16:57:12 -0800	[diff] [blame]	2816	/*
				2817	* Stop shrinker if we didn't split any page, but the queue is empty.
				2818	* This can happen if pages were freed under us.
				2819	*/
				2820	if (!split && list_empty(&pgdata->split_queue))
				2821	return SHRINK_STOP;
				2822	return split;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2823	}
				2824
				2825	static struct shrinker deferred_split_shrinker = {
				2826	.count_objects = deferred_split_count,
				2827	.scan_objects = deferred_split_scan,
				2828	.seeks = DEFAULT_SEEKS,
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2829	.flags = SHRINKER_NUMA_AWARE,
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2830	};
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	2831
				2832	#ifdef CONFIG_DEBUG_FS
				2833	static int split_huge_pages_set(void *data, u64 val)
				2834	{
				2835	struct zone *zone;
				2836	struct page *page;
				2837	unsigned long pfn, max_zone_pfn;
				2838	unsigned long total = 0, split = 0;
				2839
				2840	if (val != 1)
				2841	return -EINVAL;
				2842
				2843	for_each_populated_zone(zone) {
				2844	max_zone_pfn = zone_end_pfn(zone);
				2845	for (pfn = zone->zone_start_pfn; pfn < max_zone_pfn; pfn++) {
				2846	if (!pfn_valid(pfn))
				2847	continue;
				2848
				2849	page = pfn_to_page(pfn);
				2850	if (!get_page_unless_zero(page))
				2851	continue;
				2852
				2853	if (zone != page_zone(page))
				2854	goto next;
				2855
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2856	if (!PageHead(page) \|\| PageHuge(page) \|\| !PageLRU(page))
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	2857	goto next;
				2858
				2859	total++;
				2860	lock_page(page);
				2861	if (!split_huge_page(page))
				2862	split++;
				2863	unlock_page(page);
				2864	next:
				2865	put_page(page);
				2866	}
				2867	}
				2868
Yang Shi	145bdaa	2016-05-05 16:22:00 -0700	[diff] [blame]	2869	pr_info("%lu of %lu THP split\n", split, total);
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	2870
				2871	return 0;
				2872	}
				2873	DEFINE_SIMPLE_ATTRIBUTE(split_huge_pages_fops, NULL, split_huge_pages_set,
				2874	"%llu\n");
				2875
				2876	static int __init split_huge_pages_debugfs(void)
				2877	{
				2878	void *ret;
				2879
Yang Shi	145bdaa	2016-05-05 16:22:00 -0700	[diff] [blame]	2880	ret = debugfs_create_file("split_huge_pages", 0200, NULL, NULL,
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	2881	&split_huge_pages_fops);
				2882	if (!ret)
				2883	pr_warn("Failed to create split_huge_pages in debugfs");
				2884	return 0;
				2885	}
				2886	late_initcall(split_huge_pages_debugfs);
				2887	#endif
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	2888
				2889	#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
				2890	void set_pmd_migration_entry(struct page_vma_mapped_walk *pvmw,
				2891	struct page *page)
				2892	{
				2893	struct vm_area_struct *vma = pvmw->vma;
				2894	struct mm_struct *mm = vma->vm_mm;
				2895	unsigned long address = pvmw->address;
				2896	pmd_t pmdval;
				2897	swp_entry_t entry;
Naoya Horiguchi	ab6e3d0	2017-09-08 16:11:04 -0700	[diff] [blame]	2898	pmd_t pmdswp;
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	2899
				2900	if (!(pvmw->pmd && !pvmw->pte))
				2901	return;
				2902
				2903	mmu_notifier_invalidate_range_start(mm, address,
				2904	address + HPAGE_PMD_SIZE);
				2905
				2906	flush_cache_range(vma, address, address + HPAGE_PMD_SIZE);
				2907	pmdval = *pvmw->pmd;
				2908	pmdp_invalidate(vma, address, pvmw->pmd);
				2909	if (pmd_dirty(pmdval))
				2910	set_page_dirty(page);
				2911	entry = make_migration_entry(page, pmd_write(pmdval));
Naoya Horiguchi	ab6e3d0	2017-09-08 16:11:04 -0700	[diff] [blame]	2912	pmdswp = swp_entry_to_pmd(entry);
				2913	if (pmd_soft_dirty(pmdval))
				2914	pmdswp = pmd_swp_mksoft_dirty(pmdswp);
				2915	set_pmd_at(mm, address, pvmw->pmd, pmdswp);
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	2916	page_remove_rmap(page, true);
				2917	put_page(page);
				2918
				2919	mmu_notifier_invalidate_range_end(mm, address,
				2920	address + HPAGE_PMD_SIZE);
				2921	}
				2922
				2923	void remove_migration_pmd(struct page_vma_mapped_walk pvmw, struct page new)
				2924	{
				2925	struct vm_area_struct *vma = pvmw->vma;
				2926	struct mm_struct *mm = vma->vm_mm;
				2927	unsigned long address = pvmw->address;
				2928	unsigned long mmun_start = address & HPAGE_PMD_MASK;
				2929	pmd_t pmde;
				2930	swp_entry_t entry;
				2931
				2932	if (!(pvmw->pmd && !pvmw->pte))
				2933	return;
				2934
				2935	entry = pmd_to_swp_entry(*pvmw->pmd);
				2936	get_page(new);
				2937	pmde = pmd_mkold(mk_huge_pmd(new, vma->vm_page_prot));
Naoya Horiguchi	ab6e3d0	2017-09-08 16:11:04 -0700	[diff] [blame]	2938	if (pmd_swp_soft_dirty(*pvmw->pmd))
				2939	pmde = pmd_mksoft_dirty(pmde);
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	2940	if (is_write_migration_entry(entry))
				2941	pmde = maybe_pmd_mkwrite(pmde, vma);
				2942
				2943	flush_cache_range(vma, mmun_start, mmun_start + HPAGE_PMD_SIZE);
				2944	page_add_anon_rmap(new, vma, mmun_start, true);
				2945	set_pmd_at(mm, mmun_start, pvmw->pmd, pmde);
				2946	if (vma->vm_flags & VM_LOCKED)
				2947	mlock_vma_page(new);
				2948	update_mmu_cache_pmd(vma, address, pvmw->pmd);
				2949	}
				2950	#endif