Blame - mm/huge_memory.c - kernel/msm-4.19

blob: d36b2af4d1bf4b6621974823f36c52dda405f181 [file] [log] [blame]

Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1	/*
				2	* Copyright (C) 2009 Red Hat, Inc.
				3	*
				4	* This work is licensed under the terms of the GNU GPL, version 2. See
				5	* the COPYING file in the top-level directory.
				6	*/
				7
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	8	#define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
				9
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	10	#include <linux/mm.h>
				11	#include <linux/sched.h>
Ingo Molnar	f7ccbae	2017-02-08 18:51:30 +0100	[diff] [blame]	12	#include <linux/sched/coredump.h>
Ingo Molnar	6a3827d	2017-02-08 18:51:31 +0100	[diff] [blame]	13	#include <linux/sched/numa_balancing.h>
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	14	#include <linux/highmem.h>
				15	#include <linux/hugetlb.h>
				16	#include <linux/mmu_notifier.h>
				17	#include <linux/rmap.h>
				18	#include <linux/swap.h>
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	19	#include <linux/shrinker.h>
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	20	#include <linux/mm_inline.h>
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	21	#include <linux/swapops.h>
Matthew Wilcox	4897c76	2015-09-08 14:58:45 -0700	[diff] [blame]	22	#include <linux/dax.h>
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	23	#include <linux/khugepaged.h>
Andrea Arcangeli	878aee7	2011-01-13 15:47:10 -0800	[diff] [blame]	24	#include <linux/freezer.h>
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	25	#include <linux/pfn_t.h>
Andrea Arcangeli	a664b2d	2011-01-13 15:47:17 -0800	[diff] [blame]	26	#include <linux/mman.h>
Dan Williams	3565fce	2016-01-15 16:56:55 -0800	[diff] [blame]	27	#include <linux/memremap.h>
Ralf Baechle	325adeb	2012-10-15 13:44:56 +0200	[diff] [blame]	28	#include <linux/pagemap.h>
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	29	#include <linux/debugfs.h>
Mel Gorman	4daae3b	2012-11-02 11:33:45 +0000	[diff] [blame]	30	#include <linux/migrate.h>
Sasha Levin	43b5fbb	2013-02-22 16:32:27 -0800	[diff] [blame]	31	#include <linux/hashtable.h>
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	32	#include <linux/userfaultfd_k.h>
Vladimir Davydov	33c3fc7	2015-09-09 15:35:45 -0700	[diff] [blame]	33	#include <linux/page_idle.h>
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	34	#include <linux/shmem_fs.h>
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	35
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	36	#include <asm/tlb.h>
				37	#include <asm/pgalloc.h>
				38	#include "internal.h"
				39
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	40	/*
Jianguo Wu	8bfa3f9	2013-11-12 15:07:16 -0800	[diff] [blame]	41	* By default transparent hugepage support is disabled in order that avoid
				42	* to risk increase the memory footprint of applications without a guaranteed
				43	* benefit. When transparent hugepage support is enabled, is for all mappings,
				44	* and khugepaged scans all mappings.
				45	* Defrag is invoked by khugepaged hugepage allocations and by page faults
				46	* for all hugepage allocations.
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	47	*/
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	48	unsigned long transparent_hugepage_flags __read_mostly =
Andrea Arcangeli	13ece88	2011-01-13 15:47:07 -0800	[diff] [blame]	49	#ifdef CONFIG_TRANSPARENT_HUGEPAGE_ALWAYS
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	50	(1<<TRANSPARENT_HUGEPAGE_FLAG)\|
Andrea Arcangeli	13ece88	2011-01-13 15:47:07 -0800	[diff] [blame]	51	#endif
				52	#ifdef CONFIG_TRANSPARENT_HUGEPAGE_MADVISE
				53	(1<<TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG)\|
				54	#endif
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	55	(1<<TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG)\|
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	56	(1<<TRANSPARENT_HUGEPAGE_DEFRAG_KHUGEPAGED_FLAG)\|
				57	(1<<TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG);
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	58
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	59	static struct shrinker deferred_split_shrinker;
Andrea Arcangeli	f000565	2011-01-13 15:47:04 -0800	[diff] [blame]	60
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	61	static atomic_t huge_zero_refcount;
Wang, Yalin	56873f4	2015-02-11 15:24:51 -0800	[diff] [blame]	62	struct page *huge_zero_page __read_mostly;
Kirill A. Shutemov	4a6c129	2012-12-12 13:50:47 -0800	[diff] [blame]	63
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	64	static struct page *get_huge_zero_page(void)
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	65	{
				66	struct page *zero_page;
				67	retry:
				68	if (likely(atomic_inc_not_zero(&huge_zero_refcount)))
Jason Low	4db0c3c	2015-04-15 16:14:08 -0700	[diff] [blame]	69	return READ_ONCE(huge_zero_page);
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	70
				71	zero_page = alloc_pages((GFP_TRANSHUGE \| __GFP_ZERO) & ~__GFP_MOVABLE,
				72	HPAGE_PMD_ORDER);
Kirill A. Shutemov	d8a8e1f	2012-12-12 13:51:09 -0800	[diff] [blame]	73	if (!zero_page) {
				74	count_vm_event(THP_ZERO_PAGE_ALLOC_FAILED);
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	75	return NULL;
Kirill A. Shutemov	d8a8e1f	2012-12-12 13:51:09 -0800	[diff] [blame]	76	}
				77	count_vm_event(THP_ZERO_PAGE_ALLOC);
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	78	preempt_disable();
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	79	if (cmpxchg(&huge_zero_page, NULL, zero_page)) {
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	80	preempt_enable();
Yu Zhao	5ddacbe	2014-10-29 14:50:26 -0700	[diff] [blame]	81	__free_pages(zero_page, compound_order(zero_page));
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	82	goto retry;
				83	}
				84
				85	/* We take additional reference here. It will be put back by shrinker */
				86	atomic_set(&huge_zero_refcount, 2);
				87	preempt_enable();
Jason Low	4db0c3c	2015-04-15 16:14:08 -0700	[diff] [blame]	88	return READ_ONCE(huge_zero_page);
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	89	}
				90
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	91	static void put_huge_zero_page(void)
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	92	{
				93	/*
				94	* Counter should never go to zero here. Only shrinker can put
				95	* last reference.
				96	*/
				97	BUG_ON(atomic_dec_and_test(&huge_zero_refcount));
				98	}
				99
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	100	struct page mm_get_huge_zero_page(struct mm_struct mm)
				101	{
				102	if (test_bit(MMF_HUGE_ZERO_PAGE, &mm->flags))
				103	return READ_ONCE(huge_zero_page);
				104
				105	if (!get_huge_zero_page())
				106	return NULL;
				107
				108	if (test_and_set_bit(MMF_HUGE_ZERO_PAGE, &mm->flags))
				109	put_huge_zero_page();
				110
				111	return READ_ONCE(huge_zero_page);
				112	}
				113
				114	void mm_put_huge_zero_page(struct mm_struct *mm)
				115	{
				116	if (test_bit(MMF_HUGE_ZERO_PAGE, &mm->flags))
				117	put_huge_zero_page();
				118	}
				119
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	120	static unsigned long shrink_huge_zero_page_count(struct shrinker *shrink,
				121	struct shrink_control *sc)
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	122	{
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	123	/* we can free zero page only if last reference remains */
				124	return atomic_read(&huge_zero_refcount) == 1 ? HPAGE_PMD_NR : 0;
				125	}
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	126
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	127	static unsigned long shrink_huge_zero_page_scan(struct shrinker *shrink,
				128	struct shrink_control *sc)
				129	{
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	130	if (atomic_cmpxchg(&huge_zero_refcount, 1, 0) == 1) {
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	131	struct page *zero_page = xchg(&huge_zero_page, NULL);
				132	BUG_ON(zero_page == NULL);
Yu Zhao	5ddacbe	2014-10-29 14:50:26 -0700	[diff] [blame]	133	__free_pages(zero_page, compound_order(zero_page));
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	134	return HPAGE_PMD_NR;
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	135	}
				136
				137	return 0;
				138	}
				139
				140	static struct shrinker huge_zero_page_shrinker = {
Glauber Costa	4889646	2013-08-28 10:18:15 +1000	[diff] [blame]	141	.count_objects = shrink_huge_zero_page_count,
				142	.scan_objects = shrink_huge_zero_page_scan,
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	143	.seeks = DEFAULT_SEEKS,
				144	};
				145
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	146	#ifdef CONFIG_SYSFS
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	147	static ssize_t enabled_show(struct kobject *kobj,
				148	struct kobj_attribute attr, char buf)
				149	{
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	150	if (test_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags))
				151	return sprintf(buf, "[always] madvise never\n");
				152	else if (test_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags))
				153	return sprintf(buf, "always [madvise] never\n");
				154	else
				155	return sprintf(buf, "always madvise [never]\n");
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	156	}
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	157
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	158	static ssize_t enabled_store(struct kobject *kobj,
				159	struct kobj_attribute *attr,
				160	const char *buf, size_t count)
				161	{
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	162	ssize_t ret = count;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	163
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	164	if (!memcmp("always", buf,
				165	min(sizeof("always")-1, count))) {
				166	clear_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags);
				167	set_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags);
				168	} else if (!memcmp("madvise", buf,
				169	min(sizeof("madvise")-1, count))) {
				170	clear_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags);
				171	set_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags);
				172	} else if (!memcmp("never", buf,
				173	min(sizeof("never")-1, count))) {
				174	clear_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags);
				175	clear_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags);
				176	} else
				177	ret = -EINVAL;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	178
				179	if (ret > 0) {
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	180	int err = start_stop_khugepaged();
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	181	if (err)
				182	ret = err;
				183	}
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	184	return ret;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	185	}
				186	static struct kobj_attribute enabled_attr =
				187	__ATTR(enabled, 0644, enabled_show, enabled_store);
				188
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	189	ssize_t single_hugepage_flag_show(struct kobject *kobj,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	190	struct kobj_attribute attr, char buf,
				191	enum transparent_hugepage_flag flag)
				192	{
Ben Hutchings	e27e615	2011-04-14 15:22:21 -0700	[diff] [blame]	193	return sprintf(buf, "%d\n",
				194	!!test_bit(flag, &transparent_hugepage_flags));
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	195	}
Ben Hutchings	e27e615	2011-04-14 15:22:21 -0700	[diff] [blame]	196
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	197	ssize_t single_hugepage_flag_store(struct kobject *kobj,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	198	struct kobj_attribute *attr,
				199	const char *buf, size_t count,
				200	enum transparent_hugepage_flag flag)
				201	{
Ben Hutchings	e27e615	2011-04-14 15:22:21 -0700	[diff] [blame]	202	unsigned long value;
				203	int ret;
				204
				205	ret = kstrtoul(buf, 10, &value);
				206	if (ret < 0)
				207	return ret;
				208	if (value > 1)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	209	return -EINVAL;
				210
Ben Hutchings	e27e615	2011-04-14 15:22:21 -0700	[diff] [blame]	211	if (value)
				212	set_bit(flag, &transparent_hugepage_flags);
				213	else
				214	clear_bit(flag, &transparent_hugepage_flags);
				215
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	216	return count;
				217	}
				218
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	219	static ssize_t defrag_show(struct kobject *kobj,
				220	struct kobj_attribute attr, char buf)
				221	{
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	222	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags))
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	223	return sprintf(buf, "[always] defer defer+madvise madvise never\n");
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	224	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags))
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	225	return sprintf(buf, "always [defer] defer+madvise madvise never\n");
				226	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags))
				227	return sprintf(buf, "always defer [defer+madvise] madvise never\n");
				228	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags))
				229	return sprintf(buf, "always defer defer+madvise [madvise] never\n");
				230	return sprintf(buf, "always defer defer+madvise madvise [never]\n");
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	231	}
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	232
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	233	static ssize_t defrag_store(struct kobject *kobj,
				234	struct kobj_attribute *attr,
				235	const char *buf, size_t count)
				236	{
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	237	if (!memcmp("always", buf,
				238	min(sizeof("always")-1, count))) {
				239	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				240	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				241	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				242	set_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				243	} else if (!memcmp("defer", buf,
				244	min(sizeof("defer")-1, count))) {
				245	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				246	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				247	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				248	set_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				249	} else if (!memcmp("defer+madvise", buf,
				250	min(sizeof("defer+madvise")-1, count))) {
				251	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				252	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				253	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				254	set_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				255	} else if (!memcmp("madvise", buf,
				256	min(sizeof("madvise")-1, count))) {
				257	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				258	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				259	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				260	set_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				261	} else if (!memcmp("never", buf,
				262	min(sizeof("never")-1, count))) {
				263	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags);
				264	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags);
				265	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags);
				266	clear_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags);
				267	} else
				268	return -EINVAL;
				269
				270	return count;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	271	}
				272	static struct kobj_attribute defrag_attr =
				273	__ATTR(defrag, 0644, defrag_show, defrag_store);
				274
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	275	static ssize_t use_zero_page_show(struct kobject *kobj,
				276	struct kobj_attribute attr, char buf)
				277	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	278	return single_hugepage_flag_show(kobj, attr, buf,
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	279	TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG);
				280	}
				281	static ssize_t use_zero_page_store(struct kobject *kobj,
				282	struct kobj_attribute attr, const char buf, size_t count)
				283	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	284	return single_hugepage_flag_store(kobj, attr, buf, count,
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	285	TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG);
				286	}
				287	static struct kobj_attribute use_zero_page_attr =
				288	__ATTR(use_zero_page, 0644, use_zero_page_show, use_zero_page_store);
Hugh Dickins	49920d2	2016-12-12 16:44:50 -0800	[diff] [blame]	289
				290	static ssize_t hpage_pmd_size_show(struct kobject *kobj,
				291	struct kobj_attribute attr, char buf)
				292	{
				293	return sprintf(buf, "%lu\n", HPAGE_PMD_SIZE);
				294	}
				295	static struct kobj_attribute hpage_pmd_size_attr =
				296	__ATTR_RO(hpage_pmd_size);
				297
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	298	#ifdef CONFIG_DEBUG_VM
				299	static ssize_t debug_cow_show(struct kobject *kobj,
				300	struct kobj_attribute attr, char buf)
				301	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	302	return single_hugepage_flag_show(kobj, attr, buf,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	303	TRANSPARENT_HUGEPAGE_DEBUG_COW_FLAG);
				304	}
				305	static ssize_t debug_cow_store(struct kobject *kobj,
				306	struct kobj_attribute *attr,
				307	const char *buf, size_t count)
				308	{
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	309	return single_hugepage_flag_store(kobj, attr, buf, count,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	310	TRANSPARENT_HUGEPAGE_DEBUG_COW_FLAG);
				311	}
				312	static struct kobj_attribute debug_cow_attr =
				313	__ATTR(debug_cow, 0644, debug_cow_show, debug_cow_store);
				314	#endif /* CONFIG_DEBUG_VM */
				315
				316	static struct attribute *hugepage_attr[] = {
				317	&enabled_attr.attr,
				318	&defrag_attr.attr,
Kirill A. Shutemov	79da540	2012-12-12 13:51:12 -0800	[diff] [blame]	319	&use_zero_page_attr.attr,
Hugh Dickins	49920d2	2016-12-12 16:44:50 -0800	[diff] [blame]	320	&hpage_pmd_size_attr.attr,
Kirill A. Shutemov	e496cf3	2016-07-26 15:26:35 -0700	[diff] [blame]	321	#if defined(CONFIG_SHMEM) && defined(CONFIG_TRANSPARENT_HUGE_PAGECACHE)
Kirill A. Shutemov	5a6e75f	2016-07-26 15:26:13 -0700	[diff] [blame]	322	&shmem_enabled_attr.attr,
				323	#endif
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	324	#ifdef CONFIG_DEBUG_VM
				325	&debug_cow_attr.attr,
				326	#endif
				327	NULL,
				328	};
				329
				330	static struct attribute_group hugepage_attr_group = {
				331	.attrs = hugepage_attr,
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	332	};
				333
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	334	static int __init hugepage_init_sysfs(struct kobject **hugepage_kobj)
				335	{
				336	int err;
				337
				338	*hugepage_kobj = kobject_create_and_add("transparent_hugepage", mm_kobj);
				339	if (unlikely(!*hugepage_kobj)) {
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	340	pr_err("failed to create transparent hugepage kobject\n");
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	341	return -ENOMEM;
				342	}
				343
				344	err = sysfs_create_group(*hugepage_kobj, &hugepage_attr_group);
				345	if (err) {
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	346	pr_err("failed to register transparent hugepage group\n");
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	347	goto delete_obj;
				348	}
				349
				350	err = sysfs_create_group(*hugepage_kobj, &khugepaged_attr_group);
				351	if (err) {
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	352	pr_err("failed to register transparent hugepage group\n");
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	353	goto remove_hp_group;
				354	}
				355
				356	return 0;
				357
				358	remove_hp_group:
				359	sysfs_remove_group(*hugepage_kobj, &hugepage_attr_group);
				360	delete_obj:
				361	kobject_put(*hugepage_kobj);
				362	return err;
				363	}
				364
				365	static void __init hugepage_exit_sysfs(struct kobject *hugepage_kobj)
				366	{
				367	sysfs_remove_group(hugepage_kobj, &khugepaged_attr_group);
				368	sysfs_remove_group(hugepage_kobj, &hugepage_attr_group);
				369	kobject_put(hugepage_kobj);
				370	}
				371	#else
				372	static inline int hugepage_init_sysfs(struct kobject **hugepage_kobj)
				373	{
				374	return 0;
				375	}
				376
				377	static inline void hugepage_exit_sysfs(struct kobject *hugepage_kobj)
				378	{
				379	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	380	#endif /* CONFIG_SYSFS */
				381
				382	static int __init hugepage_init(void)
				383	{
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	384	int err;
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	385	struct kobject *hugepage_kobj;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	386
Andrea Arcangeli	4b7167b	2011-01-13 15:47:09 -0800	[diff] [blame]	387	if (!has_transparent_hugepage()) {
				388	transparent_hugepage_flags = 0;
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	389	return -EINVAL;
Andrea Arcangeli	4b7167b	2011-01-13 15:47:09 -0800	[diff] [blame]	390	}
				391
Kirill A. Shutemov	ff20c2e	2016-03-01 09:45:14 +0530	[diff] [blame]	392	/*
				393	* hugepages can't be allocated by the buddy allocator
				394	*/
				395	MAYBE_BUILD_BUG_ON(HPAGE_PMD_ORDER >= MAX_ORDER);
				396	/*
				397	* we use page->mapping and page->index in second tail page
				398	* as list_head: assuming THP order >= 2
				399	*/
				400	MAYBE_BUILD_BUG_ON(HPAGE_PMD_ORDER < 2);
				401
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	402	err = hugepage_init_sysfs(&hugepage_kobj);
				403	if (err)
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	404	goto err_sysfs;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	405
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	406	err = khugepaged_init();
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	407	if (err)
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	408	goto err_slab;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	409
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	410	err = register_shrinker(&huge_zero_page_shrinker);
				411	if (err)
				412	goto err_hzp_shrinker;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	413	err = register_shrinker(&deferred_split_shrinker);
				414	if (err)
				415	goto err_split_shrinker;
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	416
Rik van Riel	97562cd	2011-01-13 15:47:12 -0800	[diff] [blame]	417	/*
				418	* By default disable transparent hugepages on smaller systems,
				419	* where the extra memory used could hurt more than TLB overhead
				420	* is likely to save. The admin can still enable it through /sys.
				421	*/
Kirill A. Shutemov	79553da	2015-04-15 16:14:56 -0700	[diff] [blame]	422	if (totalram_pages < (512 << (20 - PAGE_SHIFT))) {
Rik van Riel	97562cd	2011-01-13 15:47:12 -0800	[diff] [blame]	423	transparent_hugepage_flags = 0;
Kirill A. Shutemov	79553da	2015-04-15 16:14:56 -0700	[diff] [blame]	424	return 0;
				425	}
Rik van Riel	97562cd	2011-01-13 15:47:12 -0800	[diff] [blame]	426
Kirill A. Shutemov	79553da	2015-04-15 16:14:56 -0700	[diff] [blame]	427	err = start_stop_khugepaged();
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	428	if (err)
				429	goto err_khugepaged;
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	430
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	431	return 0;
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	432	err_khugepaged:
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	433	unregister_shrinker(&deferred_split_shrinker);
				434	err_split_shrinker:
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	435	unregister_shrinker(&huge_zero_page_shrinker);
				436	err_hzp_shrinker:
Kirill A. Shutemov	b46e756	2016-07-26 15:26:24 -0700	[diff] [blame]	437	khugepaged_destroy();
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	438	err_slab:
Shaohua Li	569e559	2012-01-12 17:19:11 -0800	[diff] [blame]	439	hugepage_exit_sysfs(hugepage_kobj);
Kirill A. Shutemov	65ebb64	2015-04-15 16:14:20 -0700	[diff] [blame]	440	err_sysfs:
Andrea Arcangeli	ba76149	2011-01-13 15:46:58 -0800	[diff] [blame]	441	return err;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	442	}
Paul Gortmaker	a64fb3c	2014-01-23 15:53:30 -0800	[diff] [blame]	443	subsys_initcall(hugepage_init);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	444
				445	static int __init setup_transparent_hugepage(char *str)
				446	{
				447	int ret = 0;
				448	if (!str)
				449	goto out;
				450	if (!strcmp(str, "always")) {
				451	set_bit(TRANSPARENT_HUGEPAGE_FLAG,
				452	&transparent_hugepage_flags);
				453	clear_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG,
				454	&transparent_hugepage_flags);
				455	ret = 1;
				456	} else if (!strcmp(str, "madvise")) {
				457	clear_bit(TRANSPARENT_HUGEPAGE_FLAG,
				458	&transparent_hugepage_flags);
				459	set_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG,
				460	&transparent_hugepage_flags);
				461	ret = 1;
				462	} else if (!strcmp(str, "never")) {
				463	clear_bit(TRANSPARENT_HUGEPAGE_FLAG,
				464	&transparent_hugepage_flags);
				465	clear_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG,
				466	&transparent_hugepage_flags);
				467	ret = 1;
				468	}
				469	out:
				470	if (!ret)
Andrew Morton	ae3a8c1	2014-06-04 16:06:58 -0700	[diff] [blame]	471	pr_warn("transparent_hugepage= cannot parse, ignored\n");
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	472	return ret;
				473	}
				474	__setup("transparent_hugepage=", setup_transparent_hugepage);
				475
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	476	pmd_t maybe_pmd_mkwrite(pmd_t pmd, struct vm_area_struct *vma)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	477	{
				478	if (likely(vma->vm_flags & VM_WRITE))
				479	pmd = pmd_mkwrite(pmd);
				480	return pmd;
				481	}
				482
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	483	static inline struct list_head page_deferred_list(struct page page)
				484	{
				485	/*
				486	* ->lru in the tail pages is occupied by compound_head.
				487	* Let's use ->mapping + ->index in the second tail page as list_head.
				488	*/
				489	return (struct list_head *)&page[2].mapping;
				490	}
				491
				492	void prep_transhuge_page(struct page *page)
				493	{
				494	/*
				495	* we use page->mapping and page->indexlru in second tail page
				496	* as list_head: assuming THP order >= 2
				497	*/
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	498
				499	INIT_LIST_HEAD(page_deferred_list(page));
				500	set_compound_page_dtor(page, TRANSHUGE_PAGE_DTOR);
				501	}
				502
Toshi Kani	74d2fad	2016-10-07 16:59:56 -0700	[diff] [blame]	503	unsigned long __thp_get_unmapped_area(struct file *filp, unsigned long len,
				504	loff_t off, unsigned long flags, unsigned long size)
				505	{
				506	unsigned long addr;
				507	loff_t off_end = off + len;
				508	loff_t off_align = round_up(off, size);
				509	unsigned long len_pad;
				510
				511	if (off_end <= off_align \|\| (off_end - off_align) < size)
				512	return 0;
				513
				514	len_pad = len + size;
				515	if (len_pad < len \|\| (off + len_pad) < off)
				516	return 0;
				517
				518	addr = current->mm->get_unmapped_area(filp, 0, len_pad,
				519	off >> PAGE_SHIFT, flags);
				520	if (IS_ERR_VALUE(addr))
				521	return 0;
				522
				523	addr += (off - addr) & (size - 1);
				524	return addr;
				525	}
				526
				527	unsigned long thp_get_unmapped_area(struct file *filp, unsigned long addr,
				528	unsigned long len, unsigned long pgoff, unsigned long flags)
				529	{
				530	loff_t off = (loff_t)pgoff << PAGE_SHIFT;
				531
				532	if (addr)
				533	goto out;
				534	if (!IS_DAX(filp->f_mapping->host) \|\| !IS_ENABLED(CONFIG_FS_DAX_PMD))
				535	goto out;
				536
				537	addr = __thp_get_unmapped_area(filp, len, off, flags, PMD_SIZE);
				538	if (addr)
				539	return addr;
				540
				541	out:
				542	return current->mm->get_unmapped_area(filp, addr, len, pgoff, flags);
				543	}
				544	EXPORT_SYMBOL_GPL(thp_get_unmapped_area);
				545
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	546	static int __do_huge_pmd_anonymous_page(struct vm_fault vmf, struct page page,
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	547	gfp_t gfp)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	548	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	549	struct vm_area_struct *vma = vmf->vma;
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	550	struct mem_cgroup *memcg;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	551	pgtable_t pgtable;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	552	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	553
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	554	VM_BUG_ON_PAGE(!PageCompound(page), page);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	555
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	556	if (mem_cgroup_try_charge(page, vma->vm_mm, gfp, &memcg, true)) {
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	557	put_page(page);
				558	count_vm_event(THP_FAULT_FALLBACK);
				559	return VM_FAULT_FALLBACK;
				560	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	561
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	562	pgtable = pte_alloc_one(vma->vm_mm, haddr);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	563	if (unlikely(!pgtable)) {
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	564	mem_cgroup_cancel_charge(page, memcg, true);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	565	put_page(page);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	566	return VM_FAULT_OOM;
				567	}
				568
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	569	clear_huge_page(page, haddr, HPAGE_PMD_NR);
Minchan Kim	52f3762	2013-04-29 15:08:15 -0700	[diff] [blame]	570	/*
				571	* The memory barrier inside __SetPageUptodate makes sure that
				572	* clear_huge_page writes become visible before the set_pmd_at()
				573	* write.
				574	*/
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	575	__SetPageUptodate(page);
				576
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	577	vmf->ptl = pmd_lock(vma->vm_mm, vmf->pmd);
				578	if (unlikely(!pmd_none(*vmf->pmd))) {
				579	spin_unlock(vmf->ptl);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	580	mem_cgroup_cancel_charge(page, memcg, true);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	581	put_page(page);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	582	pte_free(vma->vm_mm, pgtable);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	583	} else {
				584	pmd_t entry;
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	585
				586	/* Deliver the page fault to userland */
				587	if (userfaultfd_missing(vma)) {
				588	int ret;
				589
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	590	spin_unlock(vmf->ptl);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	591	mem_cgroup_cancel_charge(page, memcg, true);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	592	put_page(page);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	593	pte_free(vma->vm_mm, pgtable);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	594	ret = handle_userfault(vmf, VM_UFFD_MISSING);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	595	VM_BUG_ON(ret & VM_FAULT_FALLBACK);
				596	return ret;
				597	}
				598
Kirill A. Shutemov	3122359	2013-09-12 15:14:01 -0700	[diff] [blame]	599	entry = mk_huge_pmd(page, vma->vm_page_prot);
				600	entry = maybe_pmd_mkwrite(pmd_mkdirty(entry), vma);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	601	page_add_new_anon_rmap(page, vma, haddr, true);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	602	mem_cgroup_commit_charge(page, memcg, false, true);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	603	lru_cache_add_active_or_unevictable(page, vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	604	pgtable_trans_huge_deposit(vma->vm_mm, vmf->pmd, pgtable);
				605	set_pmd_at(vma->vm_mm, haddr, vmf->pmd, entry);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	606	add_mm_counter(vma->vm_mm, MM_ANONPAGES, HPAGE_PMD_NR);
				607	atomic_long_inc(&vma->vm_mm->nr_ptes);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	608	spin_unlock(vmf->ptl);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	609	count_vm_event(THP_FAULT_ALLOC);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	610	}
				611
David Rientjes	aa2e878	2012-05-29 15:06:17 -0700	[diff] [blame]	612	return 0;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	613	}
				614
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	615	/*
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	616	* always: directly stall for all thp allocations
				617	* defer: wake kswapd and fail if not immediately available
				618	* defer+madvise: wake kswapd and directly stall for MADV_HUGEPAGE, otherwise
				619	* fail if not immediately available
				620	* madvise: directly stall for MADV_HUGEPAGE, otherwise fail if not immediately
				621	* available
				622	* never: never stall for any thp allocation
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	623	*/
				624	static inline gfp_t alloc_hugepage_direct_gfpmask(struct vm_area_struct *vma)
Andrea Arcangeli	0bbbc0b	2011-01-13 15:47:05 -0800	[diff] [blame]	625	{
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	626	const bool vma_madvised = !!(vma->vm_flags & VM_HUGEPAGE);
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	627
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	628	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags))
Vlastimil Babka	2516035	2016-07-28 15:49:25 -0700	[diff] [blame]	629	return GFP_TRANSHUGE \| (vma_madvised ? 0 : __GFP_NORETRY);
David Rientjes	21440d7	2017-02-22 15:45:49 -0800	[diff] [blame]	630	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags))
				631	return GFP_TRANSHUGE_LIGHT \| __GFP_KSWAPD_RECLAIM;
				632	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_OR_MADV_FLAG, &transparent_hugepage_flags))
				633	return GFP_TRANSHUGE_LIGHT \| (vma_madvised ? __GFP_DIRECT_RECLAIM :
				634	__GFP_KSWAPD_RECLAIM);
				635	if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags))
				636	return GFP_TRANSHUGE_LIGHT \| (vma_madvised ? __GFP_DIRECT_RECLAIM :
				637	0);
Vlastimil Babka	2516035	2016-07-28 15:49:25 -0700	[diff] [blame]	638	return GFP_TRANSHUGE_LIGHT;
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	639	}
				640
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	641	/* Caller must hold page table lock. */
Kirill A. Shutemov	d295e34	2015-09-08 14:59:34 -0700	[diff] [blame]	642	static bool set_huge_zero_page(pgtable_t pgtable, struct mm_struct *mm,
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	643	struct vm_area_struct vma, unsigned long haddr, pmd_t pmd,
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	644	struct page *zero_page)
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	645	{
				646	pmd_t entry;
Andrew Morton	7c41416	2015-09-08 14:58:43 -0700	[diff] [blame]	647	if (!pmd_none(*pmd))
				648	return false;
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	649	entry = mk_pmd(zero_page, vma->vm_page_prot);
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	650	entry = pmd_mkhuge(entry);
Matthew Wilcox	12c9d70	2016-02-02 16:57:57 -0800	[diff] [blame]	651	if (pgtable)
				652	pgtable_trans_huge_deposit(mm, pmd, pgtable);
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	653	set_pmd_at(mm, haddr, pmd, entry);
Kirill A. Shutemov	e1f56c8	2013-11-14 14:30:48 -0800	[diff] [blame]	654	atomic_long_inc(&mm->nr_ptes);
Andrew Morton	7c41416	2015-09-08 14:58:43 -0700	[diff] [blame]	655	return true;
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	656	}
				657
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	658	int do_huge_pmd_anonymous_page(struct vm_fault *vmf)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	659	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	660	struct vm_area_struct *vma = vmf->vma;
Aneesh Kumar K.V	077fcf1	2015-02-11 15:27:12 -0800	[diff] [blame]	661	gfp_t gfp;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	662	struct page *page;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	663	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	664
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	665	if (haddr < vma->vm_start \|\| haddr + HPAGE_PMD_SIZE > vma->vm_end)
Kirill A. Shutemov	c029255	2013-09-12 15:14:05 -0700	[diff] [blame]	666	return VM_FAULT_FALLBACK;
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	667	if (unlikely(anon_vma_prepare(vma)))
				668	return VM_FAULT_OOM;
David Rientjes	6d50e60	2014-10-29 14:50:31 -0700	[diff] [blame]	669	if (unlikely(khugepaged_enter(vma, vma->vm_flags)))
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	670	return VM_FAULT_OOM;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	671	if (!(vmf->flags & FAULT_FLAG_WRITE) &&
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	672	!mm_forbids_zeropage(vma->vm_mm) &&
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	673	transparent_hugepage_use_zero_page()) {
				674	pgtable_t pgtable;
				675	struct page *zero_page;
				676	bool set;
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	677	int ret;
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	678	pgtable = pte_alloc_one(vma->vm_mm, haddr);
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	679	if (unlikely(!pgtable))
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	680	return VM_FAULT_OOM;
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	681	zero_page = mm_get_huge_zero_page(vma->vm_mm);
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	682	if (unlikely(!zero_page)) {
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	683	pte_free(vma->vm_mm, pgtable);
Andi Kleen	81ab420	2011-04-14 15:22:06 -0700	[diff] [blame]	684	count_vm_event(THP_FAULT_FALLBACK);
Kirill A. Shutemov	c029255	2013-09-12 15:14:05 -0700	[diff] [blame]	685	return VM_FAULT_FALLBACK;
Andi Kleen	81ab420	2011-04-14 15:22:06 -0700	[diff] [blame]	686	}
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	687	vmf->ptl = pmd_lock(vma->vm_mm, vmf->pmd);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	688	ret = 0;
				689	set = false;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	690	if (pmd_none(*vmf->pmd)) {
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	691	if (userfaultfd_missing(vma)) {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	692	spin_unlock(vmf->ptl);
				693	ret = handle_userfault(vmf, VM_UFFD_MISSING);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	694	VM_BUG_ON(ret & VM_FAULT_FALLBACK);
				695	} else {
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	696	set_huge_zero_page(pgtable, vma->vm_mm, vma,
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	697	haddr, vmf->pmd, zero_page);
				698	spin_unlock(vmf->ptl);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	699	set = true;
				700	}
				701	} else
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	702	spin_unlock(vmf->ptl);
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	703	if (!set)
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	704	pte_free(vma->vm_mm, pgtable);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	705	return ret;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	706	}
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	707	gfp = alloc_hugepage_direct_gfpmask(vma);
Aneesh Kumar K.V	077fcf1	2015-02-11 15:27:12 -0800	[diff] [blame]	708	page = alloc_hugepage_vma(gfp, vma, haddr, HPAGE_PMD_ORDER);
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	709	if (unlikely(!page)) {
				710	count_vm_event(THP_FAULT_FALLBACK);
Kirill A. Shutemov	c029255	2013-09-12 15:14:05 -0700	[diff] [blame]	711	return VM_FAULT_FALLBACK;
Kirill A. Shutemov	128ec03	2013-09-12 15:14:03 -0700	[diff] [blame]	712	}
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	713	prep_transhuge_page(page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	714	return __do_huge_pmd_anonymous_page(vmf, page, gfp);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	715	}
				716
Matthew Wilcox	ae18d6d	2015-09-08 14:59:14 -0700	[diff] [blame]	717	static void insert_pfn_pmd(struct vm_area_struct *vma, unsigned long addr,
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	718	pmd_t *pmd, pfn_t pfn, pgprot_t prot, bool write)
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	719	{
				720	struct mm_struct *mm = vma->vm_mm;
				721	pmd_t entry;
				722	spinlock_t *ptl;
				723
				724	ptl = pmd_lock(mm, pmd);
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	725	entry = pmd_mkhuge(pfn_t_pmd(pfn, prot));
				726	if (pfn_t_devmap(pfn))
				727	entry = pmd_mkdevmap(entry);
Ross Zwisler	01871e5	2016-01-15 16:56:02 -0800	[diff] [blame]	728	if (write) {
				729	entry = pmd_mkyoung(pmd_mkdirty(entry));
				730	entry = maybe_pmd_mkwrite(entry, vma);
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	731	}
Ross Zwisler	01871e5	2016-01-15 16:56:02 -0800	[diff] [blame]	732	set_pmd_at(mm, addr, pmd, entry);
				733	update_mmu_cache_pmd(vma, addr, pmd);
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	734	spin_unlock(ptl);
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	735	}
				736
				737	int vmf_insert_pfn_pmd(struct vm_area_struct *vma, unsigned long addr,
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	738	pmd_t *pmd, pfn_t pfn, bool write)
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	739	{
				740	pgprot_t pgprot = vma->vm_page_prot;
				741	/*
				742	* If we had pmd_special, we could avoid all these restrictions,
				743	* but we need to be consistent with PTEs and architectures that
				744	* can't support a 'special' bit.
				745	*/
				746	BUG_ON(!(vma->vm_flags & (VM_PFNMAP\|VM_MIXEDMAP)));
				747	BUG_ON((vma->vm_flags & (VM_PFNMAP\|VM_MIXEDMAP)) ==
				748	(VM_PFNMAP\|VM_MIXEDMAP));
				749	BUG_ON((vma->vm_flags & VM_PFNMAP) && is_cow_mapping(vma->vm_flags));
Dan Williams	f25748e3	2016-01-15 16:56:43 -0800	[diff] [blame]	750	BUG_ON(!pfn_t_devmap(pfn));
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	751
				752	if (addr < vma->vm_start \|\| addr >= vma->vm_end)
				753	return VM_FAULT_SIGBUS;
Borislav Petkov	308a047	2016-10-26 19:43:43 +0200	[diff] [blame]	754
				755	track_pfn_insert(vma, &pgprot, pfn);
				756
Matthew Wilcox	ae18d6d	2015-09-08 14:59:14 -0700	[diff] [blame]	757	insert_pfn_pmd(vma, addr, pmd, pfn, pgprot, write);
				758	return VM_FAULT_NOPAGE;
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	759	}
Dan Williams	dee4107	2016-05-14 12:20:44 -0700	[diff] [blame]	760	EXPORT_SYMBOL_GPL(vmf_insert_pfn_pmd);
Matthew Wilcox	5cad465	2015-09-08 14:58:54 -0700	[diff] [blame]	761
Matthew Wilcox	a00cc7d	2017-02-24 14:57:02 -0800	[diff] [blame]	762	#ifdef CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD
				763	static pud_t maybe_pud_mkwrite(pud_t pud, struct vm_area_struct *vma)
				764	{
				765	if (likely(vma->vm_flags & VM_WRITE))
				766	pud = pud_mkwrite(pud);
				767	return pud;
				768	}
				769
				770	static void insert_pfn_pud(struct vm_area_struct *vma, unsigned long addr,
				771	pud_t *pud, pfn_t pfn, pgprot_t prot, bool write)
				772	{
				773	struct mm_struct *mm = vma->vm_mm;
				774	pud_t entry;
				775	spinlock_t *ptl;
				776
				777	ptl = pud_lock(mm, pud);
				778	entry = pud_mkhuge(pfn_t_pud(pfn, prot));
				779	if (pfn_t_devmap(pfn))
				780	entry = pud_mkdevmap(entry);
				781	if (write) {
				782	entry = pud_mkyoung(pud_mkdirty(entry));
				783	entry = maybe_pud_mkwrite(entry, vma);
				784	}
				785	set_pud_at(mm, addr, pud, entry);
				786	update_mmu_cache_pud(vma, addr, pud);
				787	spin_unlock(ptl);
				788	}
				789
				790	int vmf_insert_pfn_pud(struct vm_area_struct *vma, unsigned long addr,
				791	pud_t *pud, pfn_t pfn, bool write)
				792	{
				793	pgprot_t pgprot = vma->vm_page_prot;
				794	/*
				795	* If we had pud_special, we could avoid all these restrictions,
				796	* but we need to be consistent with PTEs and architectures that
				797	* can't support a 'special' bit.
				798	*/
				799	BUG_ON(!(vma->vm_flags & (VM_PFNMAP\|VM_MIXEDMAP)));
				800	BUG_ON((vma->vm_flags & (VM_PFNMAP\|VM_MIXEDMAP)) ==
				801	(VM_PFNMAP\|VM_MIXEDMAP));
				802	BUG_ON((vma->vm_flags & VM_PFNMAP) && is_cow_mapping(vma->vm_flags));
				803	BUG_ON(!pfn_t_devmap(pfn));
				804
				805	if (addr < vma->vm_start \|\| addr >= vma->vm_end)
				806	return VM_FAULT_SIGBUS;
				807
				808	track_pfn_insert(vma, &pgprot, pfn);
				809
				810	insert_pfn_pud(vma, addr, pud, pfn, pgprot, write);
				811	return VM_FAULT_NOPAGE;
				812	}
				813	EXPORT_SYMBOL_GPL(vmf_insert_pfn_pud);
				814	#endif /* CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD */
				815
Dan Williams	3565fce	2016-01-15 16:56:55 -0800	[diff] [blame]	816	static void touch_pmd(struct vm_area_struct *vma, unsigned long addr,
				817	pmd_t *pmd)
				818	{
				819	pmd_t _pmd;
				820
				821	/*
				822	* We should set the dirty bit only for FOLL_WRITE but for now
				823	* the dirty bit in the pmd is meaningless. And if the dirty
				824	* bit will become meaningful and we'll only set it with
				825	* FOLL_WRITE, an atomic set_bit will be required on the pmd to
				826	* set the young bit, instead of the current set_pmd_at.
				827	*/
				828	_pmd = pmd_mkyoung(pmd_mkdirty(*pmd));
				829	if (pmdp_set_access_flags(vma, addr & HPAGE_PMD_MASK,
				830	pmd, _pmd, 1))
				831	update_mmu_cache_pmd(vma, addr, pmd);
				832	}
				833
				834	struct page follow_devmap_pmd(struct vm_area_struct vma, unsigned long addr,
				835	pmd_t *pmd, int flags)
				836	{
				837	unsigned long pfn = pmd_pfn(*pmd);
				838	struct mm_struct *mm = vma->vm_mm;
				839	struct dev_pagemap *pgmap;
				840	struct page *page;
				841
				842	assert_spin_locked(pmd_lockptr(mm, pmd));
				843
Keno Fischer	8310d48	2017-01-24 15:17:48 -0800	[diff] [blame]	844	/*
				845	* When we COW a devmap PMD entry, we split it into PTEs, so we should
				846	* not be in this function with `flags & FOLL_COW` set.
				847	*/
				848	WARN_ONCE(flags & FOLL_COW, "mm: In follow_devmap_pmd with FOLL_COW set");
				849
Dan Williams	3565fce	2016-01-15 16:56:55 -0800	[diff] [blame]	850	if (flags & FOLL_WRITE && !pmd_write(*pmd))
				851	return NULL;
				852
				853	if (pmd_present(pmd) && pmd_devmap(pmd))
				854	/* pass */;
				855	else
				856	return NULL;
				857
				858	if (flags & FOLL_TOUCH)
				859	touch_pmd(vma, addr, pmd);
				860
				861	/*
				862	* device mapped pages can only be returned if the
				863	* caller will manage the page reference count.
				864	*/
				865	if (!(flags & FOLL_GET))
				866	return ERR_PTR(-EEXIST);
				867
				868	pfn += (addr & ~PMD_MASK) >> PAGE_SHIFT;
				869	pgmap = get_dev_pagemap(pfn, NULL);
				870	if (!pgmap)
				871	return ERR_PTR(-EFAULT);
				872	page = pfn_to_page(pfn);
				873	get_page(page);
				874	put_dev_pagemap(pgmap);
				875
				876	return page;
				877	}
				878
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	879	int copy_huge_pmd(struct mm_struct dst_mm, struct mm_struct src_mm,
				880	pmd_t dst_pmd, pmd_t src_pmd, unsigned long addr,
				881	struct vm_area_struct *vma)
				882	{
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	883	spinlock_t dst_ptl, src_ptl;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	884	struct page *src_page;
				885	pmd_t pmd;
Matthew Wilcox	12c9d70	2016-02-02 16:57:57 -0800	[diff] [blame]	886	pgtable_t pgtable = NULL;
Kirill A. Shutemov	628d47c	2016-07-26 15:25:42 -0700	[diff] [blame]	887	int ret = -ENOMEM;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	888
Kirill A. Shutemov	628d47c	2016-07-26 15:25:42 -0700	[diff] [blame]	889	/* Skip if can be re-fill on fault */
				890	if (!vma_is_anonymous(vma))
				891	return 0;
				892
				893	pgtable = pte_alloc_one(dst_mm, addr);
				894	if (unlikely(!pgtable))
				895	goto out;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	896
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	897	dst_ptl = pmd_lock(dst_mm, dst_pmd);
				898	src_ptl = pmd_lockptr(src_mm, src_pmd);
				899	spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	900
				901	ret = -EAGAIN;
				902	pmd = *src_pmd;
Kirill A. Shutemov	628d47c	2016-07-26 15:25:42 -0700	[diff] [blame]	903	if (unlikely(!pmd_trans_huge(pmd))) {
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	904	pte_free(dst_mm, pgtable);
				905	goto out_unlock;
				906	}
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	907	/*
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	908	* When page table lock is held, the huge zero pmd should not be
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	909	* under splitting since we don't split the page itself, only pmd to
				910	* a page table.
				911	*/
				912	if (is_huge_zero_pmd(pmd)) {
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	913	struct page *zero_page;
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	914	/*
				915	* get_huge_zero_page() will never allocate a new page here,
				916	* since we already have a zero page to copy. It just takes a
				917	* reference.
				918	*/
Aaron Lu	6fcb52a	2016-10-07 17:00:08 -0700	[diff] [blame]	919	zero_page = mm_get_huge_zero_page(dst_mm);
Andrea Arcangeli	6b251fc	2015-09-04 15:46:20 -0700	[diff] [blame]	920	set_huge_zero_page(pgtable, dst_mm, vma, addr, dst_pmd,
Kirill A. Shutemov	5918d10	2013-04-29 15:08:44 -0700	[diff] [blame]	921	zero_page);
Kirill A. Shutemov	fc9fe82	2012-12-12 13:50:51 -0800	[diff] [blame]	922	ret = 0;
				923	goto out_unlock;
				924	}
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	925
Kirill A. Shutemov	628d47c	2016-07-26 15:25:42 -0700	[diff] [blame]	926	src_page = pmd_page(pmd);
				927	VM_BUG_ON_PAGE(!PageHead(src_page), src_page);
				928	get_page(src_page);
				929	page_dup_rmap(src_page, true);
				930	add_mm_counter(dst_mm, MM_ANONPAGES, HPAGE_PMD_NR);
				931	atomic_long_inc(&dst_mm->nr_ptes);
				932	pgtable_trans_huge_deposit(dst_mm, dst_pmd, pgtable);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	933
				934	pmdp_set_wrprotect(src_mm, addr, src_pmd);
				935	pmd = pmd_mkold(pmd_wrprotect(pmd));
				936	set_pmd_at(dst_mm, addr, dst_pmd, pmd);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	937
				938	ret = 0;
				939	out_unlock:
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	940	spin_unlock(src_ptl);
				941	spin_unlock(dst_ptl);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	942	out:
				943	return ret;
				944	}
				945
Matthew Wilcox	a00cc7d	2017-02-24 14:57:02 -0800	[diff] [blame]	946	#ifdef CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD
				947	static void touch_pud(struct vm_area_struct *vma, unsigned long addr,
				948	pud_t *pud)
				949	{
				950	pud_t _pud;
				951
				952	/*
				953	* We should set the dirty bit only for FOLL_WRITE but for now
				954	* the dirty bit in the pud is meaningless. And if the dirty
				955	* bit will become meaningful and we'll only set it with
				956	* FOLL_WRITE, an atomic set_bit will be required on the pud to
				957	* set the young bit, instead of the current set_pud_at.
				958	*/
				959	_pud = pud_mkyoung(pud_mkdirty(*pud));
				960	if (pudp_set_access_flags(vma, addr & HPAGE_PUD_MASK,
				961	pud, _pud, 1))
				962	update_mmu_cache_pud(vma, addr, pud);
				963	}
				964
				965	struct page follow_devmap_pud(struct vm_area_struct vma, unsigned long addr,
				966	pud_t *pud, int flags)
				967	{
				968	unsigned long pfn = pud_pfn(*pud);
				969	struct mm_struct *mm = vma->vm_mm;
				970	struct dev_pagemap *pgmap;
				971	struct page *page;
				972
				973	assert_spin_locked(pud_lockptr(mm, pud));
				974
				975	if (flags & FOLL_WRITE && !pud_write(*pud))
				976	return NULL;
				977
				978	if (pud_present(pud) && pud_devmap(pud))
				979	/* pass */;
				980	else
				981	return NULL;
				982
				983	if (flags & FOLL_TOUCH)
				984	touch_pud(vma, addr, pud);
				985
				986	/*
				987	* device mapped pages can only be returned if the
				988	* caller will manage the page reference count.
				989	*/
				990	if (!(flags & FOLL_GET))
				991	return ERR_PTR(-EEXIST);
				992
				993	pfn += (addr & ~PUD_MASK) >> PAGE_SHIFT;
				994	pgmap = get_dev_pagemap(pfn, NULL);
				995	if (!pgmap)
				996	return ERR_PTR(-EFAULT);
				997	page = pfn_to_page(pfn);
				998	get_page(page);
				999	put_dev_pagemap(pgmap);
				1000
				1001	return page;
				1002	}
				1003
				1004	int copy_huge_pud(struct mm_struct dst_mm, struct mm_struct src_mm,
				1005	pud_t dst_pud, pud_t src_pud, unsigned long addr,
				1006	struct vm_area_struct *vma)
				1007	{
				1008	spinlock_t dst_ptl, src_ptl;
				1009	pud_t pud;
				1010	int ret;
				1011
				1012	dst_ptl = pud_lock(dst_mm, dst_pud);
				1013	src_ptl = pud_lockptr(src_mm, src_pud);
				1014	spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
				1015
				1016	ret = -EAGAIN;
				1017	pud = *src_pud;
				1018	if (unlikely(!pud_trans_huge(pud) && !pud_devmap(pud)))
				1019	goto out_unlock;
				1020
				1021	/*
				1022	* When page table lock is held, the huge zero pud should not be
				1023	* under splitting since we don't split the page itself, only pud to
				1024	* a page table.
				1025	*/
				1026	if (is_huge_zero_pud(pud)) {
				1027	/* No huge zero pud yet */
				1028	}
				1029
				1030	pudp_set_wrprotect(src_mm, addr, src_pud);
				1031	pud = pud_mkold(pud_wrprotect(pud));
				1032	set_pud_at(dst_mm, addr, dst_pud, pud);
				1033
				1034	ret = 0;
				1035	out_unlock:
				1036	spin_unlock(src_ptl);
				1037	spin_unlock(dst_ptl);
				1038	return ret;
				1039	}
				1040
				1041	void huge_pud_set_accessed(struct vm_fault *vmf, pud_t orig_pud)
				1042	{
				1043	pud_t entry;
				1044	unsigned long haddr;
				1045	bool write = vmf->flags & FAULT_FLAG_WRITE;
				1046
				1047	vmf->ptl = pud_lock(vmf->vma->vm_mm, vmf->pud);
				1048	if (unlikely(!pud_same(*vmf->pud, orig_pud)))
				1049	goto unlock;
				1050
				1051	entry = pud_mkyoung(orig_pud);
				1052	if (write)
				1053	entry = pud_mkdirty(entry);
				1054	haddr = vmf->address & HPAGE_PUD_MASK;
				1055	if (pudp_set_access_flags(vmf->vma, haddr, vmf->pud, entry, write))
				1056	update_mmu_cache_pud(vmf->vma, vmf->address, vmf->pud);
				1057
				1058	unlock:
				1059	spin_unlock(vmf->ptl);
				1060	}
				1061	#endif /* CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD */
				1062
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1063	void huge_pmd_set_accessed(struct vm_fault *vmf, pmd_t orig_pmd)
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1064	{
				1065	pmd_t entry;
				1066	unsigned long haddr;
Minchan Kim	20f664a	2017-01-10 16:57:51 -0800	[diff] [blame]	1067	bool write = vmf->flags & FAULT_FLAG_WRITE;
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1068
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1069	vmf->ptl = pmd_lock(vmf->vma->vm_mm, vmf->pmd);
				1070	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd)))
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1071	goto unlock;
				1072
				1073	entry = pmd_mkyoung(orig_pmd);
Minchan Kim	20f664a	2017-01-10 16:57:51 -0800	[diff] [blame]	1074	if (write)
				1075	entry = pmd_mkdirty(entry);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1076	haddr = vmf->address & HPAGE_PMD_MASK;
Minchan Kim	20f664a	2017-01-10 16:57:51 -0800	[diff] [blame]	1077	if (pmdp_set_access_flags(vmf->vma, haddr, vmf->pmd, entry, write))
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1078	update_mmu_cache_pmd(vmf->vma, vmf->address, vmf->pmd);
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1079
				1080	unlock:
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1081	spin_unlock(vmf->ptl);
Will Deacon	a1dd450	2012-12-11 16:01:27 -0800	[diff] [blame]	1082	}
				1083
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1084	static int do_huge_pmd_wp_page_fallback(struct vm_fault *vmf, pmd_t orig_pmd,
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1085	struct page *page)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1086	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1087	struct vm_area_struct *vma = vmf->vma;
				1088	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1089	struct mem_cgroup *memcg;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1090	pgtable_t pgtable;
				1091	pmd_t _pmd;
				1092	int ret = 0, i;
				1093	struct page **pages;
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1094	unsigned long mmun_start; /* For mmu_notifiers */
				1095	unsigned long mmun_end; /* For mmu_notifiers */
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1096
				1097	pages = kmalloc(sizeof(struct page ) HPAGE_PMD_NR,
				1098	GFP_KERNEL);
				1099	if (unlikely(!pages)) {
				1100	ret \|= VM_FAULT_OOM;
				1101	goto out;
				1102	}
				1103
				1104	for (i = 0; i < HPAGE_PMD_NR; i++) {
Michal Hocko	41b6167	2017-01-10 16:57:42 -0800	[diff] [blame]	1105	pages[i] = alloc_page_vma_node(GFP_HIGHUSER_MOVABLE, vma,
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1106	vmf->address, page_to_nid(page));
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1107	if (unlikely(!pages[i] \|\|
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1108	mem_cgroup_try_charge(pages[i], vma->vm_mm,
				1109	GFP_KERNEL, &memcg, false))) {
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1110	if (pages[i])
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1111	put_page(pages[i]);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1112	while (--i >= 0) {
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1113	memcg = (void *)page_private(pages[i]);
				1114	set_page_private(pages[i], 0);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1115	mem_cgroup_cancel_charge(pages[i], memcg,
				1116	false);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1117	put_page(pages[i]);
				1118	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1119	kfree(pages);
				1120	ret \|= VM_FAULT_OOM;
				1121	goto out;
				1122	}
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1123	set_page_private(pages[i], (unsigned long)memcg);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1124	}
				1125
				1126	for (i = 0; i < HPAGE_PMD_NR; i++) {
				1127	copy_user_highpage(pages[i], page + i,
Hillf Danton	0089e48	2011-10-31 17:09:38 -0700	[diff] [blame]	1128	haddr + PAGE_SIZE * i, vma);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1129	__SetPageUptodate(pages[i]);
				1130	cond_resched();
				1131	}
				1132
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1133	mmun_start = haddr;
				1134	mmun_end = haddr + HPAGE_PMD_SIZE;
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1135	mmu_notifier_invalidate_range_start(vma->vm_mm, mmun_start, mmun_end);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1136
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1137	vmf->ptl = pmd_lock(vma->vm_mm, vmf->pmd);
				1138	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd)))
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1139	goto out_free_pages;
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	1140	VM_BUG_ON_PAGE(!PageHead(page), page);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1141
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1142	pmdp_huge_clear_flush_notify(vma, haddr, vmf->pmd);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1143	/* leave pmd empty until pte is filled */
				1144
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1145	pgtable = pgtable_trans_huge_withdraw(vma->vm_mm, vmf->pmd);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1146	pmd_populate(vma->vm_mm, &_pmd, pgtable);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1147
				1148	for (i = 0; i < HPAGE_PMD_NR; i++, haddr += PAGE_SIZE) {
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1149	pte_t entry;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1150	entry = mk_pte(pages[i], vma->vm_page_prot);
				1151	entry = maybe_mkwrite(pte_mkdirty(entry), vma);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1152	memcg = (void *)page_private(pages[i]);
				1153	set_page_private(pages[i], 0);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1154	page_add_new_anon_rmap(pages[i], vmf->vma, haddr, false);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1155	mem_cgroup_commit_charge(pages[i], memcg, false, false);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1156	lru_cache_add_active_or_unevictable(pages[i], vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1157	vmf->pte = pte_offset_map(&_pmd, haddr);
				1158	VM_BUG_ON(!pte_none(*vmf->pte));
				1159	set_pte_at(vma->vm_mm, haddr, vmf->pte, entry);
				1160	pte_unmap(vmf->pte);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1161	}
				1162	kfree(pages);
				1163
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1164	smp_wmb(); /* make pte visible before pmd */
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1165	pmd_populate(vma->vm_mm, vmf->pmd, pgtable);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	1166	page_remove_rmap(page, true);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1167	spin_unlock(vmf->ptl);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1168
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1169	mmu_notifier_invalidate_range_end(vma->vm_mm, mmun_start, mmun_end);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1170
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1171	ret \|= VM_FAULT_WRITE;
				1172	put_page(page);
				1173
				1174	out:
				1175	return ret;
				1176
				1177	out_free_pages:
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1178	spin_unlock(vmf->ptl);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1179	mmu_notifier_invalidate_range_end(vma->vm_mm, mmun_start, mmun_end);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1180	for (i = 0; i < HPAGE_PMD_NR; i++) {
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1181	memcg = (void *)page_private(pages[i]);
				1182	set_page_private(pages[i], 0);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1183	mem_cgroup_cancel_charge(pages[i], memcg, false);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1184	put_page(pages[i]);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1185	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1186	kfree(pages);
				1187	goto out;
				1188	}
				1189
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1190	int do_huge_pmd_wp_page(struct vm_fault *vmf, pmd_t orig_pmd)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1191	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1192	struct vm_area_struct *vma = vmf->vma;
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1193	struct page page = NULL, new_page;
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1194	struct mem_cgroup *memcg;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1195	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1196	unsigned long mmun_start; /* For mmu_notifiers */
				1197	unsigned long mmun_end; /* For mmu_notifiers */
Michal Hocko	3b36369	2015-04-15 16:13:29 -0700	[diff] [blame]	1198	gfp_t huge_gfp; /* for allocation and charge */
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1199	int ret = 0;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1200
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1201	vmf->ptl = pmd_lockptr(vma->vm_mm, vmf->pmd);
Sasha Levin	81d1b09	2014-10-09 15:28:10 -0700	[diff] [blame]	1202	VM_BUG_ON_VMA(!vma->anon_vma, vma);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1203	if (is_huge_zero_pmd(orig_pmd))
				1204	goto alloc;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1205	spin_lock(vmf->ptl);
				1206	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd)))
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1207	goto out_unlock;
				1208
				1209	page = pmd_page(orig_pmd);
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	1210	VM_BUG_ON_PAGE(!PageCompound(page) \|\| !PageHead(page), page);
Kirill A. Shutemov	1f25fe2	2016-01-15 16:52:24 -0800	[diff] [blame]	1211	/*
				1212	* We can only reuse the page if nobody else maps the huge page or it's
Andrea Arcangeli	6d0a07e	2016-05-12 15:42:25 -0700	[diff] [blame]	1213	* part.
Kirill A. Shutemov	1f25fe2	2016-01-15 16:52:24 -0800	[diff] [blame]	1214	*/
Andrea Arcangeli	6d0a07e	2016-05-12 15:42:25 -0700	[diff] [blame]	1215	if (page_trans_huge_mapcount(page, NULL) == 1) {
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1216	pmd_t entry;
				1217	entry = pmd_mkyoung(orig_pmd);
				1218	entry = maybe_pmd_mkwrite(pmd_mkdirty(entry), vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1219	if (pmdp_set_access_flags(vma, haddr, vmf->pmd, entry, 1))
				1220	update_mmu_cache_pmd(vma, vmf->address, vmf->pmd);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1221	ret \|= VM_FAULT_WRITE;
				1222	goto out_unlock;
				1223	}
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1224	get_page(page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1225	spin_unlock(vmf->ptl);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1226	alloc:
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1227	if (transparent_hugepage_enabled(vma) &&
Aneesh Kumar K.V	077fcf1	2015-02-11 15:27:12 -0800	[diff] [blame]	1228	!transparent_hugepage_debug_cow()) {
Mel Gorman	444eb2a4	2016-03-17 14:19:23 -0700	[diff] [blame]	1229	huge_gfp = alloc_hugepage_direct_gfpmask(vma);
Michal Hocko	3b36369	2015-04-15 16:13:29 -0700	[diff] [blame]	1230	new_page = alloc_hugepage_vma(huge_gfp, vma, haddr, HPAGE_PMD_ORDER);
Aneesh Kumar K.V	077fcf1	2015-02-11 15:27:12 -0800	[diff] [blame]	1231	} else
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1232	new_page = NULL;
				1233
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	1234	if (likely(new_page)) {
				1235	prep_transhuge_page(new_page);
				1236	} else {
Hugh Dickins	eecc1e4	2014-01-12 01:25:21 -0800	[diff] [blame]	1237	if (!page) {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1238	split_huge_pmd(vma, vmf->pmd, vmf->address);
Kirill A. Shutemov	e9b71ca	2014-04-03 14:48:17 -0700	[diff] [blame]	1239	ret \|= VM_FAULT_FALLBACK;
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1240	} else {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1241	ret = do_huge_pmd_wp_page_fallback(vmf, orig_pmd, page);
Kirill A. Shutemov	9845cbb	2014-02-25 15:01:42 -0800	[diff] [blame]	1242	if (ret & VM_FAULT_OOM) {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1243	split_huge_pmd(vma, vmf->pmd, vmf->address);
Kirill A. Shutemov	9845cbb	2014-02-25 15:01:42 -0800	[diff] [blame]	1244	ret \|= VM_FAULT_FALLBACK;
				1245	}
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1246	put_page(page);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1247	}
David Rientjes	17766dd	2013-09-12 15:14:06 -0700	[diff] [blame]	1248	count_vm_event(THP_FAULT_FALLBACK);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1249	goto out;
				1250	}
				1251
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1252	if (unlikely(mem_cgroup_try_charge(new_page, vma->vm_mm,
				1253	huge_gfp, &memcg, true))) {
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1254	put_page(new_page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1255	split_huge_pmd(vma, vmf->pmd, vmf->address);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1256	if (page)
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1257	put_page(page);
Kirill A. Shutemov	9845cbb	2014-02-25 15:01:42 -0800	[diff] [blame]	1258	ret \|= VM_FAULT_FALLBACK;
David Rientjes	17766dd	2013-09-12 15:14:06 -0700	[diff] [blame]	1259	count_vm_event(THP_FAULT_FALLBACK);
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1260	goto out;
				1261	}
				1262
David Rientjes	17766dd	2013-09-12 15:14:06 -0700	[diff] [blame]	1263	count_vm_event(THP_FAULT_ALLOC);
				1264
Hugh Dickins	eecc1e4	2014-01-12 01:25:21 -0800	[diff] [blame]	1265	if (!page)
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1266	clear_huge_page(new_page, haddr, HPAGE_PMD_NR);
				1267	else
				1268	copy_user_huge_page(new_page, page, haddr, vma, HPAGE_PMD_NR);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1269	__SetPageUptodate(new_page);
				1270
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1271	mmun_start = haddr;
				1272	mmun_end = haddr + HPAGE_PMD_SIZE;
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1273	mmu_notifier_invalidate_range_start(vma->vm_mm, mmun_start, mmun_end);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1274
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1275	spin_lock(vmf->ptl);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1276	if (page)
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1277	put_page(page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1278	if (unlikely(!pmd_same(*vmf->pmd, orig_pmd))) {
				1279	spin_unlock(vmf->ptl);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1280	mem_cgroup_cancel_charge(new_page, memcg, true);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1281	put_page(new_page);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1282	goto out_mn;
Andrea Arcangeli	b9bbfbe	2011-01-13 15:46:57 -0800	[diff] [blame]	1283	} else {
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1284	pmd_t entry;
Kirill A. Shutemov	3122359	2013-09-12 15:14:01 -0700	[diff] [blame]	1285	entry = mk_huge_pmd(new_page, vma->vm_page_prot);
				1286	entry = maybe_pmd_mkwrite(pmd_mkdirty(entry), vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1287	pmdp_huge_clear_flush_notify(vma, haddr, vmf->pmd);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	1288	page_add_new_anon_rmap(new_page, vma, haddr, true);
Kirill A. Shutemov	f627c2f	2016-01-15 16:52:20 -0800	[diff] [blame]	1289	mem_cgroup_commit_charge(new_page, memcg, false, true);
Johannes Weiner	00501b5	2014-08-08 14:19:20 -0700	[diff] [blame]	1290	lru_cache_add_active_or_unevictable(new_page, vma);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1291	set_pmd_at(vma->vm_mm, haddr, vmf->pmd, entry);
				1292	update_mmu_cache_pmd(vma, vmf->address, vmf->pmd);
Hugh Dickins	eecc1e4	2014-01-12 01:25:21 -0800	[diff] [blame]	1293	if (!page) {
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1294	add_mm_counter(vma->vm_mm, MM_ANONPAGES, HPAGE_PMD_NR);
Kirill A. Shutemov	97ae174	2012-12-12 13:51:06 -0800	[diff] [blame]	1295	} else {
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	1296	VM_BUG_ON_PAGE(!PageHead(page), page);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	1297	page_remove_rmap(page, true);
Kirill A. Shutemov	93b4796	2012-12-12 13:50:54 -0800	[diff] [blame]	1298	put_page(page);
				1299	}
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1300	ret \|= VM_FAULT_WRITE;
				1301	}
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1302	spin_unlock(vmf->ptl);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1303	out_mn:
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1304	mmu_notifier_invalidate_range_end(vma->vm_mm, mmun_start, mmun_end);
Sagi Grimberg	2ec74c3	2012-10-08 16:33:33 -0700	[diff] [blame]	1305	out:
				1306	return ret;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1307	out_unlock:
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1308	spin_unlock(vmf->ptl);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1309	return ret;
				1310	}
				1311
Keno Fischer	8310d48	2017-01-24 15:17:48 -0800	[diff] [blame]	1312	/*
				1313	* FOLL_FORCE can write to even unwritable pmd's, but only
				1314	* after we've gone through a COW cycle and they are dirty.
				1315	*/
				1316	static inline bool can_follow_write_pmd(pmd_t pmd, unsigned int flags)
				1317	{
				1318	return pmd_write(pmd) \|\|
				1319	((flags & FOLL_FORCE) && (flags & FOLL_COW) && pmd_dirty(pmd));
				1320	}
				1321
David Rientjes	b676b29	2012-10-08 16:34:03 -0700	[diff] [blame]	1322	struct page follow_trans_huge_pmd(struct vm_area_struct vma,
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1323	unsigned long addr,
				1324	pmd_t *pmd,
				1325	unsigned int flags)
				1326	{
David Rientjes	b676b29	2012-10-08 16:34:03 -0700	[diff] [blame]	1327	struct mm_struct *mm = vma->vm_mm;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1328	struct page *page = NULL;
				1329
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	1330	assert_spin_locked(pmd_lockptr(mm, pmd));
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1331
Keno Fischer	8310d48	2017-01-24 15:17:48 -0800	[diff] [blame]	1332	if (flags & FOLL_WRITE && !can_follow_write_pmd(*pmd, flags))
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1333	goto out;
				1334
Kirill A. Shutemov	85facf2	2013-02-04 14:28:42 -0800	[diff] [blame]	1335	/* Avoid dumping huge zero page */
				1336	if ((flags & FOLL_DUMP) && is_huge_zero_pmd(*pmd))
				1337	return ERR_PTR(-EFAULT);
				1338
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1339	/* Full NUMA hinting faults to serialise migration in fault paths */
Mel Gorman	8a0516e	2015-02-12 14:58:22 -0800	[diff] [blame]	1340	if ((flags & FOLL_NUMA) && pmd_protnone(*pmd))
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1341	goto out;
				1342
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1343	page = pmd_page(*pmd);
Dan Williams	ca120cf	2016-09-03 10:38:03 -0700	[diff] [blame]	1344	VM_BUG_ON_PAGE(!PageHead(page) && !is_zone_device_page(page), page);
Dan Williams	3565fce	2016-01-15 16:56:55 -0800	[diff] [blame]	1345	if (flags & FOLL_TOUCH)
				1346	touch_pmd(vma, addr, pmd);
Eric B Munson	de60f5f	2015-11-05 18:51:36 -0800	[diff] [blame]	1347	if ((flags & FOLL_MLOCK) && (vma->vm_flags & VM_LOCKED)) {
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	1348	/*
				1349	* We don't mlock() pte-mapped THPs. This way we can avoid
				1350	* leaking mlocked pages into non-VM_LOCKED VMAs.
				1351	*
Kirill A. Shutemov	9a73f61	2016-07-26 15:25:53 -0700	[diff] [blame]	1352	* For anon THP:
				1353	*
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	1354	* In most cases the pmd is the only mapping of the page as we
				1355	* break COW for the mlock() -- see gup_flags \|= FOLL_WRITE for
				1356	* writable private mappings in populate_vma_page_range().
				1357	*
				1358	* The only scenario when we have the page shared here is if we
				1359	* mlocking read-only mapping shared over fork(). We skip
				1360	* mlocking such pages.
Kirill A. Shutemov	9a73f61	2016-07-26 15:25:53 -0700	[diff] [blame]	1361	*
				1362	* For file THP:
				1363	*
				1364	* We can expect PageDoubleMap() to be stable under page lock:
				1365	* for file pages we set it in page_add_file_rmap(), which
				1366	* requires page to be locked.
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	1367	*/
Kirill A. Shutemov	9a73f61	2016-07-26 15:25:53 -0700	[diff] [blame]	1368
				1369	if (PageAnon(page) && compound_mapcount(page) != 1)
				1370	goto skip_mlock;
				1371	if (PageDoubleMap(page) \|\| !page->mapping)
				1372	goto skip_mlock;
				1373	if (!trylock_page(page))
				1374	goto skip_mlock;
				1375	lru_add_drain();
				1376	if (page->mapping && !PageDoubleMap(page))
				1377	mlock_vma_page(page);
				1378	unlock_page(page);
David Rientjes	b676b29	2012-10-08 16:34:03 -0700	[diff] [blame]	1379	}
Kirill A. Shutemov	9a73f61	2016-07-26 15:25:53 -0700	[diff] [blame]	1380	skip_mlock:
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1381	page += (addr & ~HPAGE_PMD_MASK) >> PAGE_SHIFT;
Dan Williams	ca120cf	2016-09-03 10:38:03 -0700	[diff] [blame]	1382	VM_BUG_ON_PAGE(!PageCompound(page) && !is_zone_device_page(page), page);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1383	if (flags & FOLL_GET)
Kirill A. Shutemov	ddc58f2	2016-01-15 16:52:56 -0800	[diff] [blame]	1384	get_page(page);
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1385
				1386	out:
				1387	return page;
				1388	}
				1389
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1390	/* NUMA hinting page fault entry point for trans huge pmds */
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1391	int do_huge_pmd_numa_page(struct vm_fault *vmf, pmd_t pmd)
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1392	{
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1393	struct vm_area_struct *vma = vmf->vma;
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1394	struct anon_vma *anon_vma = NULL;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1395	struct page *page;
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1396	unsigned long haddr = vmf->address & HPAGE_PMD_MASK;
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1397	int page_nid = -1, this_nid = numa_node_id();
Peter Zijlstra	9057289	2013-10-07 11:29:20 +0100	[diff] [blame]	1398	int target_nid, last_cpupid = -1;
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1399	bool page_locked;
				1400	bool migrated = false;
Mel Gorman	b191f9b	2015-03-25 15:55:40 -0700	[diff] [blame]	1401	bool was_writable;
Peter Zijlstra	6688cc0	2013-10-07 11:29:24 +0100	[diff] [blame]	1402	int flags = 0;
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1403
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1404	vmf->ptl = pmd_lock(vma->vm_mm, vmf->pmd);
				1405	if (unlikely(!pmd_same(pmd, *vmf->pmd)))
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1406	goto out_unlock;
				1407
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	1408	/*
				1409	* If there are potential migrations, wait for completion and retry
				1410	* without disrupting NUMA hinting information. Do not relock and
				1411	* check_same as the page may no longer be mapped.
				1412	*/
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1413	if (unlikely(pmd_trans_migrating(*vmf->pmd))) {
				1414	page = pmd_page(*vmf->pmd);
				1415	spin_unlock(vmf->ptl);
Mel Gorman	5d83306	2015-02-12 14:58:16 -0800	[diff] [blame]	1416	wait_on_page_locked(page);
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	1417	goto out;
				1418	}
				1419
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1420	page = pmd_page(pmd);
Mel Gorman	a1a4618	2013-10-07 11:28:50 +0100	[diff] [blame]	1421	BUG_ON(is_huge_zero_page(page));
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1422	page_nid = page_to_nid(page);
Peter Zijlstra	9057289	2013-10-07 11:29:20 +0100	[diff] [blame]	1423	last_cpupid = page_cpupid_last(page);
Mel Gorman	03c5a6e	2012-11-02 14:52:48 +0000	[diff] [blame]	1424	count_vm_numa_event(NUMA_HINT_FAULTS);
Rik van Riel	04bb2f9	2013-10-07 11:29:36 +0100	[diff] [blame]	1425	if (page_nid == this_nid) {
Mel Gorman	03c5a6e	2012-11-02 14:52:48 +0000	[diff] [blame]	1426	count_vm_numa_event(NUMA_HINT_FAULTS_LOCAL);
Rik van Riel	04bb2f9	2013-10-07 11:29:36 +0100	[diff] [blame]	1427	flags \|= TNF_FAULT_LOCAL;
				1428	}
Mel Gorman	4daae3b	2012-11-02 11:33:45 +0000	[diff] [blame]	1429
Mel Gorman	bea66fb	2015-03-25 15:55:37 -0700	[diff] [blame]	1430	/* See similar comment in do_numa_page for explanation */
Aneesh Kumar K.V	288bc54	2017-02-24 14:59:16 -0800	[diff] [blame]	1431	if (!pmd_savedwrite(pmd))
Peter Zijlstra	6688cc0	2013-10-07 11:29:24 +0100	[diff] [blame]	1432	flags \|= TNF_NO_GROUP;
				1433
				1434	/*
Mel Gorman	ff9042b	2013-10-07 11:28:43 +0100	[diff] [blame]	1435	* Acquire the page lock to serialise THP migrations but avoid dropping
				1436	* page_table_lock if at all possible
				1437	*/
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1438	page_locked = trylock_page(page);
				1439	target_nid = mpol_misplaced(page, vma, haddr);
				1440	if (target_nid == -1) {
				1441	/* If the page was locked, there are no parallel migrations */
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1442	if (page_locked)
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1443	goto clear_pmdnuma;
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1444	}
Mel Gorman	4daae3b	2012-11-02 11:33:45 +0000	[diff] [blame]	1445
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	1446	/* Migration could have started since the pmd_trans_migrating check */
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1447	if (!page_locked) {
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1448	spin_unlock(vmf->ptl);
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1449	wait_on_page_locked(page);
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1450	page_nid = -1;
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1451	goto out;
				1452	}
				1453
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	1454	/*
				1455	* Page is misplaced. Page lock serialises migrations. Acquire anon_vma
				1456	* to serialises splits
				1457	*/
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1458	get_page(page);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1459	spin_unlock(vmf->ptl);
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1460	anon_vma = page_lock_anon_vma_read(page);
Peter Zijlstra	cbee9f8	2012-10-25 14:16:43 +0200	[diff] [blame]	1461
Peter Zijlstra	c69307d	2013-10-07 11:28:41 +0100	[diff] [blame]	1462	/* Confirm the PMD did not change while page_table_lock was released */
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1463	spin_lock(vmf->ptl);
				1464	if (unlikely(!pmd_same(pmd, *vmf->pmd))) {
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1465	unlock_page(page);
				1466	put_page(page);
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1467	page_nid = -1;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1468	goto out_unlock;
				1469	}
Mel Gorman	ff9042b	2013-10-07 11:28:43 +0100	[diff] [blame]	1470
Mel Gorman	c3a489c	2013-12-18 17:08:38 -0800	[diff] [blame]	1471	/* Bail if we fail to protect against THP splits for any reason */
				1472	if (unlikely(!anon_vma)) {
				1473	put_page(page);
				1474	page_nid = -1;
				1475	goto clear_pmdnuma;
				1476	}
				1477
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1478	/*
				1479	* Migrate the THP to the requested node, returns with page unlocked
Mel Gorman	8a0516e	2015-02-12 14:58:22 -0800	[diff] [blame]	1480	* and access rights restored.
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1481	*/
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1482	spin_unlock(vmf->ptl);
Kirill A. Shutemov	bae473a	2016-07-26 15:25:20 -0700	[diff] [blame]	1483	migrated = migrate_misplaced_transhuge_page(vma->vm_mm, vma,
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1484	vmf->pmd, pmd, vmf->address, page, target_nid);
Peter Zijlstra	6688cc0	2013-10-07 11:29:24 +0100	[diff] [blame]	1485	if (migrated) {
				1486	flags \|= TNF_MIGRATED;
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1487	page_nid = target_nid;
Mel Gorman	074c238	2015-03-25 15:55:42 -0700	[diff] [blame]	1488	} else
				1489	flags \|= TNF_MIGRATE_FAIL;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1490
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1491	goto out;
Mel Gorman	4daae3b	2012-11-02 11:33:45 +0000	[diff] [blame]	1492	clear_pmdnuma:
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1493	BUG_ON(!PageLocked(page));
Aneesh Kumar K.V	288bc54	2017-02-24 14:59:16 -0800	[diff] [blame]	1494	was_writable = pmd_savedwrite(pmd);
Mel Gorman	4d94246	2015-02-12 14:58:28 -0800	[diff] [blame]	1495	pmd = pmd_modify(pmd, vma->vm_page_prot);
Mel Gorman	b7b0400	2015-03-25 15:55:45 -0700	[diff] [blame]	1496	pmd = pmd_mkyoung(pmd);
Mel Gorman	b191f9b	2015-03-25 15:55:40 -0700	[diff] [blame]	1497	if (was_writable)
				1498	pmd = pmd_mkwrite(pmd);
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1499	set_pmd_at(vma->vm_mm, haddr, vmf->pmd, pmd);
				1500	update_mmu_cache_pmd(vma, vmf->address, vmf->pmd);
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	1501	unlock_page(page);
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1502	out_unlock:
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1503	spin_unlock(vmf->ptl);
Mel Gorman	b891663	2013-10-07 11:28:44 +0100	[diff] [blame]	1504
				1505	out:
				1506	if (anon_vma)
				1507	page_unlock_anon_vma_read(anon_vma);
				1508
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1509	if (page_nid != -1)
Jan Kara	82b0f8c	2016-12-14 15:06:58 -0800	[diff] [blame]	1510	task_numa_fault(last_cpupid, page_nid, HPAGE_PMD_NR,
Aneesh Kumar K.V	9a8b300	2017-02-24 14:59:56 -0800	[diff] [blame]	1511	flags);
Mel Gorman	8191acb	2013-10-07 11:28:45 +0100	[diff] [blame]	1512
Mel Gorman	d10e63f	2012-10-25 14:16:31 +0200	[diff] [blame]	1513	return 0;
				1514	}
				1515
Huang Ying	319904a	2016-07-28 15:48:03 -0700	[diff] [blame]	1516	/*
				1517	* Return true if we do MADV_FREE successfully on entire pmd page.
				1518	* Otherwise, return false.
				1519	*/
				1520	bool madvise_free_huge_pmd(struct mmu_gather tlb, struct vm_area_struct vma,
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1521	pmd_t *pmd, unsigned long addr, unsigned long next)
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1522	{
				1523	spinlock_t *ptl;
				1524	pmd_t orig_pmd;
				1525	struct page *page;
				1526	struct mm_struct *mm = tlb->mm;
Huang Ying	319904a	2016-07-28 15:48:03 -0700	[diff] [blame]	1527	bool ret = false;
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1528
Aneesh Kumar K.V	07e3266	2016-12-12 16:42:40 -0800	[diff] [blame]	1529	tlb_remove_check_page_size_change(tlb, HPAGE_PMD_SIZE);
				1530
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1531	ptl = pmd_trans_huge_lock(pmd, vma);
				1532	if (!ptl)
Linus Torvalds	25eedab	2016-01-17 18:33:15 -0800	[diff] [blame]	1533	goto out_unlocked;
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1534
				1535	orig_pmd = *pmd;
Huang Ying	319904a	2016-07-28 15:48:03 -0700	[diff] [blame]	1536	if (is_huge_zero_pmd(orig_pmd))
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1537	goto out;
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1538
				1539	page = pmd_page(orig_pmd);
				1540	/*
				1541	* If other processes are mapping this page, we couldn't discard
				1542	* the page unless they all do MADV_FREE so let's skip the page.
				1543	*/
				1544	if (page_mapcount(page) != 1)
				1545	goto out;
				1546
				1547	if (!trylock_page(page))
				1548	goto out;
				1549
				1550	/*
				1551	* If user want to discard part-pages of THP, split it so MADV_FREE
				1552	* will deactivate only them.
				1553	*/
				1554	if (next - addr != HPAGE_PMD_SIZE) {
				1555	get_page(page);
				1556	spin_unlock(ptl);
Huang Ying	9818b8c	2016-07-14 12:07:12 -0700	[diff] [blame]	1557	split_huge_page(page);
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1558	put_page(page);
				1559	unlock_page(page);
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1560	goto out_unlocked;
				1561	}
				1562
				1563	if (PageDirty(page))
				1564	ClearPageDirty(page);
				1565	unlock_page(page);
				1566
				1567	if (PageActive(page))
				1568	deactivate_page(page);
				1569
				1570	if (pmd_young(orig_pmd) \|\| pmd_dirty(orig_pmd)) {
				1571	orig_pmd = pmdp_huge_get_and_clear_full(tlb->mm, addr, pmd,
				1572	tlb->fullmm);
				1573	orig_pmd = pmd_mkold(orig_pmd);
				1574	orig_pmd = pmd_mkclean(orig_pmd);
				1575
				1576	set_pmd_at(mm, addr, pmd, orig_pmd);
				1577	tlb_remove_pmd_tlb_entry(tlb, pmd, addr);
				1578	}
Huang Ying	319904a	2016-07-28 15:48:03 -0700	[diff] [blame]	1579	ret = true;
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1580	out:
				1581	spin_unlock(ptl);
				1582	out_unlocked:
				1583	return ret;
				1584	}
				1585
Aneesh Kumar K.V	953c66c	2016-12-12 16:44:32 -0800	[diff] [blame]	1586	static inline void zap_deposited_table(struct mm_struct mm, pmd_t pmd)
				1587	{
				1588	pgtable_t pgtable;
				1589
				1590	pgtable = pgtable_trans_huge_withdraw(mm, pmd);
				1591	pte_free(mm, pgtable);
				1592	atomic_long_dec(&mm->nr_ptes);
				1593	}
				1594
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1595	int zap_huge_pmd(struct mmu_gather tlb, struct vm_area_struct vma,
Shaohua Li	f21760b	2012-01-12 17:19:16 -0800	[diff] [blame]	1596	pmd_t *pmd, unsigned long addr)
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1597	{
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1598	pmd_t orig_pmd;
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1599	spinlock_t *ptl;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1600
Aneesh Kumar K.V	07e3266	2016-12-12 16:42:40 -0800	[diff] [blame]	1601	tlb_remove_check_page_size_change(tlb, HPAGE_PMD_SIZE);
				1602
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1603	ptl = __pmd_trans_huge_lock(pmd, vma);
				1604	if (!ptl)
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1605	return 0;
				1606	/*
				1607	* For architectures like ppc64 we look at deposited pgtable
				1608	* when calling pmdp_huge_get_and_clear. So do the
				1609	* pgtable_trans_huge_withdraw after finishing pmdp related
				1610	* operations.
				1611	*/
				1612	orig_pmd = pmdp_huge_get_and_clear_full(tlb->mm, addr, pmd,
				1613	tlb->fullmm);
				1614	tlb_remove_pmd_tlb_entry(tlb, pmd, addr);
				1615	if (vma_is_dax(vma)) {
				1616	spin_unlock(ptl);
				1617	if (is_huge_zero_pmd(orig_pmd))
Aneesh Kumar K.V	c0f2e17	2016-12-12 16:42:31 -0800	[diff] [blame]	1618	tlb_remove_page_size(tlb, pmd_page(orig_pmd), HPAGE_PMD_SIZE);
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1619	} else if (is_huge_zero_pmd(orig_pmd)) {
				1620	pte_free(tlb->mm, pgtable_trans_huge_withdraw(tlb->mm, pmd));
				1621	atomic_long_dec(&tlb->mm->nr_ptes);
				1622	spin_unlock(ptl);
Aneesh Kumar K.V	c0f2e17	2016-12-12 16:42:31 -0800	[diff] [blame]	1623	tlb_remove_page_size(tlb, pmd_page(orig_pmd), HPAGE_PMD_SIZE);
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1624	} else {
				1625	struct page *page = pmd_page(orig_pmd);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	1626	page_remove_rmap(page, true);
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1627	VM_BUG_ON_PAGE(page_mapcount(page) < 0, page);
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1628	VM_BUG_ON_PAGE(!PageHead(page), page);
Kirill A. Shutemov	b507238	2016-07-26 15:25:34 -0700	[diff] [blame]	1629	if (PageAnon(page)) {
				1630	pgtable_t pgtable;
				1631	pgtable = pgtable_trans_huge_withdraw(tlb->mm, pmd);
				1632	pte_free(tlb->mm, pgtable);
				1633	atomic_long_dec(&tlb->mm->nr_ptes);
				1634	add_mm_counter(tlb->mm, MM_ANONPAGES, -HPAGE_PMD_NR);
				1635	} else {
Aneesh Kumar K.V	953c66c	2016-12-12 16:44:32 -0800	[diff] [blame]	1636	if (arch_needs_pgtable_deposit())
				1637	zap_deposited_table(tlb->mm, pmd);
Kirill A. Shutemov	b507238	2016-07-26 15:25:34 -0700	[diff] [blame]	1638	add_mm_counter(tlb->mm, MM_FILEPAGES, -HPAGE_PMD_NR);
				1639	}
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1640	spin_unlock(ptl);
Aneesh Kumar K.V	e77b085	2016-07-26 15:24:12 -0700	[diff] [blame]	1641	tlb_remove_page_size(tlb, page, HPAGE_PMD_SIZE);
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1642	}
Kirill A. Shutemov	da14676	2015-09-08 14:59:31 -0700	[diff] [blame]	1643	return 1;
Andrea Arcangeli	71e3aac	2011-01-13 15:46:52 -0800	[diff] [blame]	1644	}
				1645
Aneesh Kumar K.V	1dd38b6	2016-12-12 16:44:29 -0800	[diff] [blame]	1646	#ifndef pmd_move_must_withdraw
				1647	static inline int pmd_move_must_withdraw(spinlock_t *new_pmd_ptl,
				1648	spinlock_t *old_pmd_ptl,
				1649	struct vm_area_struct *vma)
				1650	{
				1651	/*
				1652	* With split pmd lock we also need to move preallocated
				1653	* PTE page table if new_pmd is on different PMD page table.
				1654	*
				1655	* We also don't deposit and withdraw tables for file pages.
				1656	*/
				1657	return (new_pmd_ptl != old_pmd_ptl) && vma_is_anonymous(vma);
				1658	}
				1659	#endif
				1660
Hugh Dickins	bf8616d	2016-05-19 17:12:54 -0700	[diff] [blame]	1661	bool move_huge_pmd(struct vm_area_struct *vma, unsigned long old_addr,
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1662	unsigned long new_addr, unsigned long old_end,
Aaron Lu	5d19042	2016-11-10 17:16:33 +0800	[diff] [blame]	1663	pmd_t old_pmd, pmd_t new_pmd, bool *need_flush)
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1664	{
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1665	spinlock_t old_ptl, new_ptl;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1666	pmd_t pmd;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1667	struct mm_struct *mm = vma->vm_mm;
Aaron Lu	5d19042	2016-11-10 17:16:33 +0800	[diff] [blame]	1668	bool force_flush = false;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1669
				1670	if ((old_addr & ~HPAGE_PMD_MASK) \|\|
				1671	(new_addr & ~HPAGE_PMD_MASK) \|\|
Hugh Dickins	bf8616d	2016-05-19 17:12:54 -0700	[diff] [blame]	1672	old_end - old_addr < HPAGE_PMD_SIZE)
Kirill A. Shutemov	4b471e8	2016-01-15 16:53:39 -0800	[diff] [blame]	1673	return false;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1674
				1675	/*
				1676	* The destination pmd shouldn't be established, free_pgtables()
				1677	* should have release it.
				1678	*/
				1679	if (WARN_ON(!pmd_none(*new_pmd))) {
				1680	VM_BUG_ON(pmd_trans_huge(*new_pmd));
Kirill A. Shutemov	4b471e8	2016-01-15 16:53:39 -0800	[diff] [blame]	1681	return false;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1682	}
				1683
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1684	/*
				1685	* We don't have to worry about the ordering of src and dst
				1686	* ptlocks because exclusive mmap_sem prevents deadlock.
				1687	*/
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1688	old_ptl = __pmd_trans_huge_lock(old_pmd, vma);
				1689	if (old_ptl) {
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1690	new_ptl = pmd_lockptr(mm, new_pmd);
				1691	if (new_ptl != old_ptl)
				1692	spin_lock_nested(new_ptl, SINGLE_DEPTH_NESTING);
Aneesh Kumar K.V	8809aa2	2015-06-24 16:57:44 -0700	[diff] [blame]	1693	pmd = pmdp_huge_get_and_clear(mm, old_addr, old_pmd);
Aaron Lu	a2ce266	2016-11-29 13:27:31 +0800	[diff] [blame]	1694	if (pmd_present(pmd) && pmd_dirty(pmd))
				1695	force_flush = true;
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1696	VM_BUG_ON(!pmd_none(*new_pmd));
Kirill A. Shutemov	3592806	2013-12-12 17:12:33 -0800	[diff] [blame]	1697
Aneesh Kumar K.V	1dd38b6	2016-12-12 16:44:29 -0800	[diff] [blame]	1698	if (pmd_move_must_withdraw(new_ptl, old_ptl, vma)) {
Aneesh Kumar K.V	b3084f4	2014-01-13 11:34:24 +0530	[diff] [blame]	1699	pgtable_t pgtable;
Kirill A. Shutemov	3592806	2013-12-12 17:12:33 -0800	[diff] [blame]	1700	pgtable = pgtable_trans_huge_withdraw(mm, old_pmd);
				1701	pgtable_trans_huge_deposit(mm, new_pmd, pgtable);
Kirill A. Shutemov	3592806	2013-12-12 17:12:33 -0800	[diff] [blame]	1702	}
Aneesh Kumar K.V	b3084f4	2014-01-13 11:34:24 +0530	[diff] [blame]	1703	set_pmd_at(mm, new_addr, new_pmd, pmd_mksoft_dirty(pmd));
				1704	if (new_ptl != old_ptl)
				1705	spin_unlock(new_ptl);
Aaron Lu	5d19042	2016-11-10 17:16:33 +0800	[diff] [blame]	1706	if (force_flush)
				1707	flush_tlb_range(vma, old_addr, old_addr + PMD_SIZE);
				1708	else
				1709	*need_flush = true;
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1710	spin_unlock(old_ptl);
Kirill A. Shutemov	4b471e8	2016-01-15 16:53:39 -0800	[diff] [blame]	1711	return true;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1712	}
Kirill A. Shutemov	4b471e8	2016-01-15 16:53:39 -0800	[diff] [blame]	1713	return false;
Andrea Arcangeli	37a1c49	2011-10-31 17:08:30 -0700	[diff] [blame]	1714	}
				1715
Mel Gorman	f123d74	2013-10-07 11:28:49 +0100	[diff] [blame]	1716	/*
				1717	* Returns
				1718	* - 0 if PMD could not be locked
				1719	* - 1 if PMD was locked but protections unchange and TLB flush unnecessary
				1720	* - HPAGE_PMD_NR is protections changed and TLB flush necessary
				1721	*/
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1722	int change_huge_pmd(struct vm_area_struct vma, pmd_t pmd,
Mel Gorman	e944fd6	2015-02-12 14:58:35 -0800	[diff] [blame]	1723	unsigned long addr, pgprot_t newprot, int prot_numa)
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1724	{
				1725	struct mm_struct *mm = vma->vm_mm;
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1726	spinlock_t *ptl;
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1727	int ret = 0;
				1728
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1729	ptl = __pmd_trans_huge_lock(pmd, vma);
				1730	if (ptl) {
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1731	pmd_t entry;
Mel Gorman	b191f9b	2015-03-25 15:55:40 -0700	[diff] [blame]	1732	bool preserve_write = prot_numa && pmd_write(*pmd);
Mel Gorman	ba68bc0	2015-03-07 15:20:48 +0000	[diff] [blame]	1733	ret = 1;
Mel Gorman	e944fd6	2015-02-12 14:58:35 -0800	[diff] [blame]	1734
				1735	/*
				1736	* Avoid trapping faults against the zero page. The read-only
				1737	* data is likely to be read-cached on the local CPU and
				1738	* local/remote hits to the zero page are not interesting.
				1739	*/
				1740	if (prot_numa && is_huge_zero_pmd(*pmd)) {
				1741	spin_unlock(ptl);
Mel Gorman	ba68bc0	2015-03-07 15:20:48 +0000	[diff] [blame]	1742	return ret;
Mel Gorman	e944fd6	2015-02-12 14:58:35 -0800	[diff] [blame]	1743	}
				1744
Mel Gorman	10c1045	2015-02-12 14:58:44 -0800	[diff] [blame]	1745	if (!prot_numa \|\| !pmd_protnone(*pmd)) {
Aneesh Kumar K.V	8809aa2	2015-06-24 16:57:44 -0700	[diff] [blame]	1746	entry = pmdp_huge_get_and_clear_notify(mm, addr, pmd);
Mel Gorman	10c1045	2015-02-12 14:58:44 -0800	[diff] [blame]	1747	entry = pmd_modify(entry, newprot);
Mel Gorman	b191f9b	2015-03-25 15:55:40 -0700	[diff] [blame]	1748	if (preserve_write)
Aneesh Kumar K.V	288bc54	2017-02-24 14:59:16 -0800	[diff] [blame]	1749	entry = pmd_mk_savedwrite(entry);
Mel Gorman	10c1045	2015-02-12 14:58:44 -0800	[diff] [blame]	1750	ret = HPAGE_PMD_NR;
				1751	set_pmd_at(mm, addr, pmd, entry);
Kirill A. Shutemov	b237ade	2016-07-26 15:25:45 -0700	[diff] [blame]	1752	BUG_ON(vma_is_anonymous(vma) && !preserve_write &&
				1753	pmd_write(entry));
Mel Gorman	10c1045	2015-02-12 14:58:44 -0800	[diff] [blame]	1754	}
Kirill A. Shutemov	bf92915	2013-11-14 14:30:54 -0800	[diff] [blame]	1755	spin_unlock(ptl);
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1756	}
Johannes Weiner	cd7548a	2011-01-13 15:47:04 -0800	[diff] [blame]	1757
				1758	return ret;
				1759	}
				1760
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1761	/*
Huang Ying	8f19b0c	2016-07-26 15:27:04 -0700	[diff] [blame]	1762	* Returns page table lock pointer if a given pmd maps a thp, NULL otherwise.
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1763	*
Huang Ying	8f19b0c	2016-07-26 15:27:04 -0700	[diff] [blame]	1764	* Note that if it returns page table lock pointer, this routine returns without
				1765	* unlocking page table lock. So callers must unlock it.
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1766	*/
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1767	spinlock_t __pmd_trans_huge_lock(pmd_t pmd, struct vm_area_struct *vma)
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1768	{
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1769	spinlock_t *ptl;
				1770	ptl = pmd_lock(vma->vm_mm, pmd);
Dan Williams	5c7fb56	2016-01-15 16:56:52 -0800	[diff] [blame]	1771	if (likely(pmd_trans_huge(pmd) \|\| pmd_devmap(pmd)))
Kirill A. Shutemov	b6ec57f	2016-01-21 16:40:25 -0800	[diff] [blame]	1772	return ptl;
				1773	spin_unlock(ptl);
				1774	return NULL;
Naoya Horiguchi	025c5b2	2012-03-21 16:33:57 -0700	[diff] [blame]	1775	}
				1776
Matthew Wilcox	a00cc7d	2017-02-24 14:57:02 -0800	[diff] [blame]	1777	/*
				1778	* Returns true if a given pud maps a thp, false otherwise.
				1779	*
				1780	* Note that if it returns true, this routine returns without unlocking page
				1781	* table lock. So callers must unlock it.
				1782	*/
				1783	spinlock_t __pud_trans_huge_lock(pud_t pud, struct vm_area_struct *vma)
				1784	{
				1785	spinlock_t *ptl;
				1786
				1787	ptl = pud_lock(vma->vm_mm, pud);
				1788	if (likely(pud_trans_huge(pud) \|\| pud_devmap(pud)))
				1789	return ptl;
				1790	spin_unlock(ptl);
				1791	return NULL;
				1792	}
				1793
				1794	#ifdef CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD
				1795	int zap_huge_pud(struct mmu_gather tlb, struct vm_area_struct vma,
				1796	pud_t *pud, unsigned long addr)
				1797	{
				1798	pud_t orig_pud;
				1799	spinlock_t *ptl;
				1800
				1801	ptl = __pud_trans_huge_lock(pud, vma);
				1802	if (!ptl)
				1803	return 0;
				1804	/*
				1805	* For architectures like ppc64 we look at deposited pgtable
				1806	* when calling pudp_huge_get_and_clear. So do the
				1807	* pgtable_trans_huge_withdraw after finishing pudp related
				1808	* operations.
				1809	*/
				1810	orig_pud = pudp_huge_get_and_clear_full(tlb->mm, addr, pud,
				1811	tlb->fullmm);
				1812	tlb_remove_pud_tlb_entry(tlb, pud, addr);
				1813	if (vma_is_dax(vma)) {
				1814	spin_unlock(ptl);
				1815	/* No zero page support yet */
				1816	} else {
				1817	/* No support for anonymous PUD pages yet */
				1818	BUG();
				1819	}
				1820	return 1;
				1821	}
				1822
				1823	static void __split_huge_pud_locked(struct vm_area_struct vma, pud_t pud,
				1824	unsigned long haddr)
				1825	{
				1826	VM_BUG_ON(haddr & ~HPAGE_PUD_MASK);
				1827	VM_BUG_ON_VMA(vma->vm_start > haddr, vma);
				1828	VM_BUG_ON_VMA(vma->vm_end < haddr + HPAGE_PUD_SIZE, vma);
				1829	VM_BUG_ON(!pud_trans_huge(pud) && !pud_devmap(pud));
				1830
				1831	count_vm_event(THP_SPLIT_PMD);
				1832
				1833	pudp_huge_clear_flush_notify(vma, haddr, pud);
				1834	}
				1835
				1836	void __split_huge_pud(struct vm_area_struct vma, pud_t pud,
				1837	unsigned long address)
				1838	{
				1839	spinlock_t *ptl;
				1840	struct mm_struct *mm = vma->vm_mm;
				1841	unsigned long haddr = address & HPAGE_PUD_MASK;
				1842
				1843	mmu_notifier_invalidate_range_start(mm, haddr, haddr + HPAGE_PUD_SIZE);
				1844	ptl = pud_lock(mm, pud);
				1845	if (unlikely(!pud_trans_huge(pud) && !pud_devmap(pud)))
				1846	goto out;
				1847	__split_huge_pud_locked(vma, pud, haddr);
				1848
				1849	out:
				1850	spin_unlock(ptl);
				1851	mmu_notifier_invalidate_range_end(mm, haddr, haddr + HPAGE_PUD_SIZE);
				1852	}
				1853	#endif /* CONFIG_HAVE_ARCH_TRANSPARENT_HUGEPAGE_PUD */
				1854
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1855	static void __split_huge_zero_page_pmd(struct vm_area_struct *vma,
				1856	unsigned long haddr, pmd_t *pmd)
				1857	{
				1858	struct mm_struct *mm = vma->vm_mm;
				1859	pgtable_t pgtable;
				1860	pmd_t _pmd;
				1861	int i;
				1862
				1863	/* leave pmd empty until pte is filled */
				1864	pmdp_huge_clear_flush_notify(vma, haddr, pmd);
				1865
				1866	pgtable = pgtable_trans_huge_withdraw(mm, pmd);
				1867	pmd_populate(mm, &_pmd, pgtable);
				1868
				1869	for (i = 0; i < HPAGE_PMD_NR; i++, haddr += PAGE_SIZE) {
				1870	pte_t *pte, entry;
				1871	entry = pfn_pte(my_zero_pfn(haddr), vma->vm_page_prot);
				1872	entry = pte_mkspecial(entry);
				1873	pte = pte_offset_map(&_pmd, haddr);
				1874	VM_BUG_ON(!pte_none(*pte));
				1875	set_pte_at(mm, haddr, pte, entry);
				1876	pte_unmap(pte);
				1877	}
				1878	smp_wmb(); /* make pte visible before pmd */
				1879	pmd_populate(mm, pmd, pgtable);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1880	}
				1881
				1882	static void __split_huge_pmd_locked(struct vm_area_struct vma, pmd_t pmd,
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	1883	unsigned long haddr, bool freeze)
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1884	{
				1885	struct mm_struct *mm = vma->vm_mm;
				1886	struct page *page;
				1887	pgtable_t pgtable;
				1888	pmd_t _pmd;
Andrea Arcangeli	804dd15	2016-08-25 15:16:57 -0700	[diff] [blame]	1889	bool young, write, dirty, soft_dirty;
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	1890	unsigned long addr;
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1891	int i;
				1892
				1893	VM_BUG_ON(haddr & ~HPAGE_PMD_MASK);
				1894	VM_BUG_ON_VMA(vma->vm_start > haddr, vma);
				1895	VM_BUG_ON_VMA(vma->vm_end < haddr + HPAGE_PMD_SIZE, vma);
Dan Williams	5c7fb56	2016-01-15 16:56:52 -0800	[diff] [blame]	1896	VM_BUG_ON(!pmd_trans_huge(pmd) && !pmd_devmap(pmd));
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1897
				1898	count_vm_event(THP_SPLIT_PMD);
				1899
Kirill A. Shutemov	d21b9e5	2016-07-26 15:25:37 -0700	[diff] [blame]	1900	if (!vma_is_anonymous(vma)) {
				1901	_pmd = pmdp_huge_clear_flush_notify(vma, haddr, pmd);
Aneesh Kumar K.V	953c66c	2016-12-12 16:44:32 -0800	[diff] [blame]	1902	/*
				1903	* We are going to unmap this huge page. So
				1904	* just go ahead and zap it
				1905	*/
				1906	if (arch_needs_pgtable_deposit())
				1907	zap_deposited_table(mm, pmd);
Kirill A. Shutemov	d21b9e5	2016-07-26 15:25:37 -0700	[diff] [blame]	1908	if (vma_is_dax(vma))
				1909	return;
				1910	page = pmd_page(_pmd);
				1911	if (!PageReferenced(page) && pmd_young(_pmd))
				1912	SetPageReferenced(page);
				1913	page_remove_rmap(page, true);
				1914	put_page(page);
				1915	add_mm_counter(mm, MM_FILEPAGES, -HPAGE_PMD_NR);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1916	return;
				1917	} else if (is_huge_zero_pmd(*pmd)) {
				1918	return __split_huge_zero_page_pmd(vma, haddr, pmd);
				1919	}
				1920
				1921	page = pmd_page(*pmd);
				1922	VM_BUG_ON_PAGE(!page_count(page), page);
Joonsoo Kim	fe896d1	2016-03-17 14:19:26 -0700	[diff] [blame]	1923	page_ref_add(page, HPAGE_PMD_NR - 1);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1924	write = pmd_write(*pmd);
				1925	young = pmd_young(*pmd);
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1926	dirty = pmd_dirty(*pmd);
Andrea Arcangeli	804dd15	2016-08-25 15:16:57 -0700	[diff] [blame]	1927	soft_dirty = pmd_soft_dirty(*pmd);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1928
Aneesh Kumar K.V	c777e2a	2016-02-09 06:50:31 +0530	[diff] [blame]	1929	pmdp_huge_split_prepare(vma, haddr, pmd);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1930	pgtable = pgtable_trans_huge_withdraw(mm, pmd);
				1931	pmd_populate(mm, &_pmd, pgtable);
				1932
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	1933	for (i = 0, addr = haddr; i < HPAGE_PMD_NR; i++, addr += PAGE_SIZE) {
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1934	pte_t entry, *pte;
				1935	/*
				1936	* Note that NUMA hinting access restrictions are not
				1937	* transferred to avoid any possibility of altering
				1938	* permissions across VMAs.
				1939	*/
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	1940	if (freeze) {
				1941	swp_entry_t swp_entry;
				1942	swp_entry = make_migration_entry(page + i, write);
				1943	entry = swp_entry_to_pte(swp_entry);
Andrea Arcangeli	804dd15	2016-08-25 15:16:57 -0700	[diff] [blame]	1944	if (soft_dirty)
				1945	entry = pte_swp_mksoft_dirty(entry);
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	1946	} else {
Andrea Arcangeli	6d2329f	2016-10-07 17:01:22 -0700	[diff] [blame]	1947	entry = mk_pte(page + i, READ_ONCE(vma->vm_page_prot));
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1948	entry = maybe_mkwrite(entry, vma);
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	1949	if (!write)
				1950	entry = pte_wrprotect(entry);
				1951	if (!young)
				1952	entry = pte_mkold(entry);
Andrea Arcangeli	804dd15	2016-08-25 15:16:57 -0700	[diff] [blame]	1953	if (soft_dirty)
				1954	entry = pte_mksoft_dirty(entry);
Kirill A. Shutemov	ba98828	2016-01-15 16:53:56 -0800	[diff] [blame]	1955	}
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	1956	if (dirty)
				1957	SetPageDirty(page + i);
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	1958	pte = pte_offset_map(&_pmd, addr);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1959	BUG_ON(!pte_none(*pte));
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	1960	set_pte_at(mm, addr, pte, entry);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1961	atomic_inc(&page[i]._mapcount);
				1962	pte_unmap(pte);
				1963	}
				1964
				1965	/*
				1966	* Set PG_double_map before dropping compound_mapcount to avoid
				1967	* false-negative page_mapped().
				1968	*/
				1969	if (compound_mapcount(page) > 1 && !TestSetPageDoubleMap(page)) {
				1970	for (i = 0; i < HPAGE_PMD_NR; i++)
				1971	atomic_inc(&page[i]._mapcount);
				1972	}
				1973
				1974	if (atomic_add_negative(-1, compound_mapcount_ptr(page))) {
				1975	/* Last compound_mapcount is gone. */
Mel Gorman	11fb998	2016-07-28 15:46:20 -0700	[diff] [blame]	1976	__dec_node_page_state(page, NR_ANON_THPS);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	1977	if (TestClearPageDoubleMap(page)) {
				1978	/* No need in mapcount reference anymore */
				1979	for (i = 0; i < HPAGE_PMD_NR; i++)
				1980	atomic_dec(&page[i]._mapcount);
				1981	}
				1982	}
				1983
				1984	smp_wmb(); /* make pte visible before pmd */
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	1985	/*
				1986	* Up to this point the pmd is present and huge and userland has the
				1987	* whole access to the hugepage during the split (which happens in
				1988	* place). If we overwrite the pmd with the not-huge version pointing
				1989	* to the pte here (which of course we could if all CPUs were bug
				1990	* free), userland could trigger a small page size TLB miss on the
				1991	* small sized TLB while the hugepage TLB entry is still established in
				1992	* the huge TLB. Some CPU doesn't like that.
				1993	* See http://support.amd.com/us/Processor_TechDocs/41322.pdf, Erratum
				1994	* 383 on page 93. Intel should be safe but is also warns that it's
				1995	* only safe if the permission and cache attributes of the two entries
				1996	* loaded in the two TLB is identical (which should be the case here).
				1997	* But it is generally safer to never allow small and huge TLB entries
				1998	* for the same virtual address to be loaded simultaneously. So instead
				1999	* of doing "pmd_populate(); flush_pmd_tlb_range();" we first mark the
				2000	* current pmd notpresent (atomically because here the pmd_trans_huge
				2001	* and pmd_trans_splitting must remain set at all times on the pmd
				2002	* until the split is complete for this pmd), then we flush the SMP TLB
				2003	* and finally we write the non-huge version of the pmd entry with
				2004	* pmd_populate.
				2005	*/
				2006	pmdp_invalidate(vma, haddr, pmd);
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2007	pmd_populate(mm, pmd, pgtable);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2008
				2009	if (freeze) {
Kirill A. Shutemov	2ac015e	2016-02-24 18:58:03 +0300	[diff] [blame]	2010	for (i = 0; i < HPAGE_PMD_NR; i++) {
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2011	page_remove_rmap(page + i, false);
				2012	put_page(page + i);
				2013	}
				2014	}
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2015	}
				2016
				2017	void __split_huge_pmd(struct vm_area_struct vma, pmd_t pmd,
Naoya Horiguchi	33f4751	2016-07-14 12:07:32 -0700	[diff] [blame]	2018	unsigned long address, bool freeze, struct page *page)
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2019	{
				2020	spinlock_t *ptl;
				2021	struct mm_struct *mm = vma->vm_mm;
				2022	unsigned long haddr = address & HPAGE_PMD_MASK;
				2023
				2024	mmu_notifier_invalidate_range_start(mm, haddr, haddr + HPAGE_PMD_SIZE);
				2025	ptl = pmd_lock(mm, pmd);
Naoya Horiguchi	33f4751	2016-07-14 12:07:32 -0700	[diff] [blame]	2026
				2027	/*
				2028	* If caller asks to setup a migration entries, we need a page to check
				2029	* pmd against. Otherwise we can end up replacing wrong page.
				2030	*/
				2031	VM_BUG_ON(freeze && !page);
				2032	if (page && page != pmd_page(*pmd))
				2033	goto out;
				2034
Dan Williams	5c7fb56	2016-01-15 16:56:52 -0800	[diff] [blame]	2035	if (pmd_trans_huge(*pmd)) {
Naoya Horiguchi	33f4751	2016-07-14 12:07:32 -0700	[diff] [blame]	2036	page = pmd_page(*pmd);
Dan Williams	5c7fb56	2016-01-15 16:56:52 -0800	[diff] [blame]	2037	if (PageMlocked(page))
Kirill A. Shutemov	5f73771	2016-03-17 14:20:13 -0700	[diff] [blame]	2038	clear_page_mlock(page);
Dan Williams	5c7fb56	2016-01-15 16:56:52 -0800	[diff] [blame]	2039	} else if (!pmd_devmap(*pmd))
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	2040	goto out;
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2041	__split_huge_pmd_locked(vma, pmd, haddr, freeze);
Kirill A. Shutemov	e90309c	2016-01-15 16:54:33 -0800	[diff] [blame]	2042	out:
Kirill A. Shutemov	eef1b3b	2016-01-15 16:53:53 -0800	[diff] [blame]	2043	spin_unlock(ptl);
				2044	mmu_notifier_invalidate_range_end(mm, haddr, haddr + HPAGE_PMD_SIZE);
				2045	}
				2046
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2047	void split_huge_pmd_address(struct vm_area_struct *vma, unsigned long address,
				2048	bool freeze, struct page *page)
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2049	{
Hugh Dickins	f72e7dc	2014-06-23 13:22:05 -0700	[diff] [blame]	2050	pgd_t *pgd;
				2051	pud_t *pud;
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2052	pmd_t *pmd;
				2053
Kirill A. Shutemov	78ddc53	2016-01-15 16:52:42 -0800	[diff] [blame]	2054	pgd = pgd_offset(vma->vm_mm, address);
Hugh Dickins	f72e7dc	2014-06-23 13:22:05 -0700	[diff] [blame]	2055	if (!pgd_present(*pgd))
				2056	return;
				2057
				2058	pud = pud_offset(pgd, address);
				2059	if (!pud_present(*pud))
				2060	return;
				2061
				2062	pmd = pmd_offset(pud, address);
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2063
Naoya Horiguchi	33f4751	2016-07-14 12:07:32 -0700	[diff] [blame]	2064	__split_huge_pmd(vma, pmd, address, freeze, page);
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2065	}
				2066
Kirill A. Shutemov	e1b9996	2015-09-08 14:58:37 -0700	[diff] [blame]	2067	void vma_adjust_trans_huge(struct vm_area_struct *vma,
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2068	unsigned long start,
				2069	unsigned long end,
				2070	long adjust_next)
				2071	{
				2072	/*
				2073	* If the new start address isn't hpage aligned and it could
				2074	* previously contain an hugepage: check if we need to split
				2075	* an huge pmd.
				2076	*/
				2077	if (start & ~HPAGE_PMD_MASK &&
				2078	(start & HPAGE_PMD_MASK) >= vma->vm_start &&
				2079	(start & HPAGE_PMD_MASK) + HPAGE_PMD_SIZE <= vma->vm_end)
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2080	split_huge_pmd_address(vma, start, false, NULL);
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2081
				2082	/*
				2083	* If the new end address isn't hpage aligned and it could
				2084	* previously contain an hugepage: check if we need to split
				2085	* an huge pmd.
				2086	*/
				2087	if (end & ~HPAGE_PMD_MASK &&
				2088	(end & HPAGE_PMD_MASK) >= vma->vm_start &&
				2089	(end & HPAGE_PMD_MASK) + HPAGE_PMD_SIZE <= vma->vm_end)
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2090	split_huge_pmd_address(vma, end, false, NULL);
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2091
				2092	/*
				2093	* If we're also updating the vma->vm_next->vm_start, if the new
				2094	* vm_next->vm_start isn't page aligned and it could previously
				2095	* contain an hugepage: check if we need to split an huge pmd.
				2096	*/
				2097	if (adjust_next > 0) {
				2098	struct vm_area_struct *next = vma->vm_next;
				2099	unsigned long nstart = next->vm_start;
				2100	nstart += adjust_next << PAGE_SHIFT;
				2101	if (nstart & ~HPAGE_PMD_MASK &&
				2102	(nstart & HPAGE_PMD_MASK) >= next->vm_start &&
				2103	(nstart & HPAGE_PMD_MASK) + HPAGE_PMD_SIZE <= next->vm_end)
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2104	split_huge_pmd_address(next, nstart, false, NULL);
Andrea Arcangeli	94fcc58	2011-01-13 15:47:08 -0800	[diff] [blame]	2105	}
				2106	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2107
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2108	static void freeze_page(struct page *page)
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2109	{
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2110	enum ttu_flags ttu_flags = TTU_IGNORE_MLOCK \| TTU_IGNORE_ACCESS \|
Kirill A. Shutemov	c7ab0d2	2017-02-24 14:58:01 -0800	[diff] [blame]	2111	TTU_RMAP_LOCKED \| TTU_SPLIT_HUGE_PMD;
				2112	int ret;
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2113
				2114	VM_BUG_ON_PAGE(!PageHead(page), page);
				2115
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2116	if (PageAnon(page))
				2117	ttu_flags \|= TTU_MIGRATION;
				2118
Kirill A. Shutemov	c7ab0d2	2017-02-24 14:58:01 -0800	[diff] [blame]	2119	ret = try_to_unmap(page, ttu_flags);
				2120	VM_BUG_ON_PAGE(ret, page);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2121	}
				2122
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2123	static void unfreeze_page(struct page *page)
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2124	{
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2125	int i;
Kirill A. Shutemov	ace71a1	2017-02-24 14:57:45 -0800	[diff] [blame]	2126	if (PageTransHuge(page)) {
				2127	remove_migration_ptes(page, page, true);
				2128	} else {
				2129	for (i = 0; i < HPAGE_PMD_NR; i++)
				2130	remove_migration_ptes(page + i, page + i, true);
				2131	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2132	}
				2133
Kirill A. Shutemov	8df651c	2016-03-15 14:57:30 -0700	[diff] [blame]	2134	static void __split_huge_page_tail(struct page *head, int tail,
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2135	struct lruvec lruvec, struct list_head list)
				2136	{
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2137	struct page *page_tail = head + tail;
				2138
Kirill A. Shutemov	8df651c	2016-03-15 14:57:30 -0700	[diff] [blame]	2139	VM_BUG_ON_PAGE(atomic_read(&page_tail->_mapcount) != -1, page_tail);
Joonsoo Kim	fe896d1	2016-03-17 14:19:26 -0700	[diff] [blame]	2140	VM_BUG_ON_PAGE(page_ref_count(page_tail) != 0, page_tail);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2141
				2142	/*
Joonsoo Kim	0139aa7	2016-05-19 17:10:49 -0700	[diff] [blame]	2143	* tail_page->_refcount is zero and not changing from under us. But
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2144	* get_page_unless_zero() may be running from under us on the
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2145	* tail_page. If we used atomic_set() below instead of atomic_inc() or
				2146	* atomic_add(), we would then run atomic_set() concurrently with
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2147	* get_page_unless_zero(), and atomic_set() is implemented in C not
				2148	* using locked ops. spin_unlock on x86 sometime uses locked ops
				2149	* because of PPro errata 66, 92, so unless somebody can guarantee
				2150	* atomic_set() here would be safe on all archs (and not only on x86),
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2151	* it's safer to use atomic_inc()/atomic_add().
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2152	*/
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2153	if (PageAnon(head)) {
				2154	page_ref_inc(page_tail);
				2155	} else {
				2156	/* Additional pin to radix tree */
				2157	page_ref_add(page_tail, 2);
				2158	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2159
				2160	page_tail->flags &= ~PAGE_FLAGS_CHECK_AT_PREP;
				2161	page_tail->flags \|= (head->flags &
				2162	((1L << PG_referenced) \|
				2163	(1L << PG_swapbacked) \|
				2164	(1L << PG_mlocked) \|
				2165	(1L << PG_uptodate) \|
				2166	(1L << PG_active) \|
				2167	(1L << PG_locked) \|
Minchan Kim	b8d3c4c	2016-01-15 16:55:42 -0800	[diff] [blame]	2168	(1L << PG_unevictable) \|
				2169	(1L << PG_dirty)));
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2170
				2171	/*
				2172	* After clearing PageTail the gup refcount can be released.
				2173	* Page flags also must be visible before we make the page non-compound.
				2174	*/
				2175	smp_wmb();
				2176
				2177	clear_compound_head(page_tail);
				2178
				2179	if (page_is_young(head))
				2180	set_page_young(page_tail);
				2181	if (page_is_idle(head))
				2182	set_page_idle(page_tail);
				2183
				2184	/* ->mapping in first tail page is compound_mapcount */
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2185	VM_BUG_ON_PAGE(tail > 2 && page_tail->mapping != TAIL_MAPPING,
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2186	page_tail);
				2187	page_tail->mapping = head->mapping;
				2188
				2189	page_tail->index = head->index + tail;
				2190	page_cpupid_xchg_last(page_tail, page_cpupid_last(head));
				2191	lru_add_page_tail(head, page_tail, lruvec, list);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2192	}
				2193
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2194	static void __split_huge_page(struct page page, struct list_head list,
				2195	unsigned long flags)
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2196	{
				2197	struct page *head = compound_head(page);
				2198	struct zone *zone = page_zone(head);
				2199	struct lruvec *lruvec;
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2200	pgoff_t end = -1;
Kirill A. Shutemov	8df651c	2016-03-15 14:57:30 -0700	[diff] [blame]	2201	int i;
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2202
Mel Gorman	599d0c9	2016-07-28 15:45:31 -0700	[diff] [blame]	2203	lruvec = mem_cgroup_page_lruvec(head, zone->zone_pgdat);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2204
				2205	/* complete memcg works before add pages to LRU */
				2206	mem_cgroup_split_huge_fixup(head);
				2207
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2208	if (!PageAnon(page))
				2209	end = DIV_ROUND_UP(i_size_read(head->mapping->host), PAGE_SIZE);
				2210
				2211	for (i = HPAGE_PMD_NR - 1; i >= 1; i--) {
Kirill A. Shutemov	8df651c	2016-03-15 14:57:30 -0700	[diff] [blame]	2212	__split_huge_page_tail(head, i, lruvec, list);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2213	/* Some pages can be beyond i_size: drop them from page cache */
				2214	if (head[i].index >= end) {
				2215	__ClearPageDirty(head + i);
				2216	__delete_from_page_cache(head + i, NULL);
Kirill A. Shutemov	800d8c6	2016-07-26 15:26:18 -0700	[diff] [blame]	2217	if (IS_ENABLED(CONFIG_SHMEM) && PageSwapBacked(head))
				2218	shmem_uncharge(head->mapping->host, 1);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2219	put_page(head + i);
				2220	}
				2221	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2222
				2223	ClearPageCompound(head);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2224	/* See comment in __split_huge_page_tail() */
				2225	if (PageAnon(head)) {
				2226	page_ref_inc(head);
				2227	} else {
				2228	/* Additional pin to radix tree */
				2229	page_ref_add(head, 2);
				2230	spin_unlock(&head->mapping->tree_lock);
				2231	}
				2232
Mel Gorman	a52633d	2016-07-28 15:45:28 -0700	[diff] [blame]	2233	spin_unlock_irqrestore(zone_lru_lock(page_zone(head)), flags);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2234
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2235	unfreeze_page(head);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2236
				2237	for (i = 0; i < HPAGE_PMD_NR; i++) {
				2238	struct page *subpage = head + i;
				2239	if (subpage == page)
				2240	continue;
				2241	unlock_page(subpage);
				2242
				2243	/*
				2244	* Subpages may be freed if there wasn't any mapping
				2245	* like if add_to_swap() is running on a lru page that
				2246	* had its mapping zapped. And freeing these pages
				2247	* requires taking the lru_lock so we do the put_page
				2248	* of the tail pages after the split is complete.
				2249	*/
				2250	put_page(subpage);
				2251	}
				2252	}
				2253
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2254	int total_mapcount(struct page *page)
				2255	{
Kirill A. Shutemov	dd78fed	2016-07-26 15:25:26 -0700	[diff] [blame]	2256	int i, compound, ret;
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2257
				2258	VM_BUG_ON_PAGE(PageTail(page), page);
				2259
				2260	if (likely(!PageCompound(page)))
				2261	return atomic_read(&page->_mapcount) + 1;
				2262
Kirill A. Shutemov	dd78fed	2016-07-26 15:25:26 -0700	[diff] [blame]	2263	compound = compound_mapcount(page);
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2264	if (PageHuge(page))
Kirill A. Shutemov	dd78fed	2016-07-26 15:25:26 -0700	[diff] [blame]	2265	return compound;
				2266	ret = compound;
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2267	for (i = 0; i < HPAGE_PMD_NR; i++)
				2268	ret += atomic_read(&page[i]._mapcount) + 1;
Kirill A. Shutemov	dd78fed	2016-07-26 15:25:26 -0700	[diff] [blame]	2269	/* File pages has compound_mapcount included in _mapcount */
				2270	if (!PageAnon(page))
				2271	return ret - compound * HPAGE_PMD_NR;
Kirill A. Shutemov	b20ce5e	2016-01-15 16:54:37 -0800	[diff] [blame]	2272	if (PageDoubleMap(page))
				2273	ret -= HPAGE_PMD_NR;
				2274	return ret;
				2275	}
				2276
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2277	/*
Andrea Arcangeli	6d0a07e	2016-05-12 15:42:25 -0700	[diff] [blame]	2278	* This calculates accurately how many mappings a transparent hugepage
				2279	* has (unlike page_mapcount() which isn't fully accurate). This full
				2280	* accuracy is primarily needed to know if copy-on-write faults can
				2281	* reuse the page and change the mapping to read-write instead of
				2282	* copying them. At the same time this returns the total_mapcount too.
				2283	*
				2284	* The function returns the highest mapcount any one of the subpages
				2285	* has. If the return value is one, even if different processes are
				2286	* mapping different subpages of the transparent hugepage, they can
				2287	* all reuse it, because each process is reusing a different subpage.
				2288	*
				2289	* The total_mapcount is instead counting all virtual mappings of the
				2290	* subpages. If the total_mapcount is equal to "one", it tells the
				2291	* caller all mappings belong to the same "mm" and in turn the
				2292	* anon_vma of the transparent hugepage can become the vma->anon_vma
				2293	* local one as no other process may be mapping any of the subpages.
				2294	*
				2295	* It would be more accurate to replace page_mapcount() with
				2296	* page_trans_huge_mapcount(), however we only use
				2297	* page_trans_huge_mapcount() in the copy-on-write faults where we
				2298	* need full accuracy to avoid breaking page pinning, because
				2299	* page_trans_huge_mapcount() is slower than page_mapcount().
				2300	*/
				2301	int page_trans_huge_mapcount(struct page page, int total_mapcount)
				2302	{
				2303	int i, ret, _total_mapcount, mapcount;
				2304
				2305	/* hugetlbfs shouldn't call it */
				2306	VM_BUG_ON_PAGE(PageHuge(page), page);
				2307
				2308	if (likely(!PageTransCompound(page))) {
				2309	mapcount = atomic_read(&page->_mapcount) + 1;
				2310	if (total_mapcount)
				2311	*total_mapcount = mapcount;
				2312	return mapcount;
				2313	}
				2314
				2315	page = compound_head(page);
				2316
				2317	_total_mapcount = ret = 0;
				2318	for (i = 0; i < HPAGE_PMD_NR; i++) {
				2319	mapcount = atomic_read(&page[i]._mapcount) + 1;
				2320	ret = max(ret, mapcount);
				2321	_total_mapcount += mapcount;
				2322	}
				2323	if (PageDoubleMap(page)) {
				2324	ret -= 1;
				2325	_total_mapcount -= HPAGE_PMD_NR;
				2326	}
				2327	mapcount = compound_mapcount(page);
				2328	ret += mapcount;
				2329	_total_mapcount += mapcount;
				2330	if (total_mapcount)
				2331	*total_mapcount = _total_mapcount;
				2332	return ret;
				2333	}
				2334
				2335	/*
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2336	* This function splits huge page into normal pages. @page can point to any
				2337	* subpage of huge page to split. Split doesn't change the position of @page.
				2338	*
				2339	* Only caller must hold pin on the @page, otherwise split fails with -EBUSY.
				2340	* The huge page must be locked.
				2341	*
				2342	* If @list is null, tail pages will be added to LRU list, otherwise, to @list.
				2343	*
				2344	* Both head page and tail pages will inherit mapping, flags, and so on from
				2345	* the hugepage.
				2346	*
				2347	* GUP pin and PG_locked transferred to @page. Rest subpages can be freed if
				2348	* they are not mapped.
				2349	*
				2350	* Returns 0 if the hugepage is split successfully.
				2351	* Returns -EBUSY if the page is pinned or if anon_vma disappeared from under
				2352	* us.
				2353	*/
				2354	int split_huge_page_to_list(struct page page, struct list_head list)
				2355	{
				2356	struct page *head = compound_head(page);
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2357	struct pglist_data *pgdata = NODE_DATA(page_to_nid(head));
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2358	struct anon_vma *anon_vma = NULL;
				2359	struct address_space *mapping = NULL;
				2360	int count, mapcount, extra_pins, ret;
Kirill A. Shutemov	d965432	2016-01-15 16:54:43 -0800	[diff] [blame]	2361	bool mlocked;
Kirill A. Shutemov	0b9b6ff	2016-01-20 14:58:09 -0800	[diff] [blame]	2362	unsigned long flags;
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2363
				2364	VM_BUG_ON_PAGE(is_huge_zero_page(page), page);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2365	VM_BUG_ON_PAGE(!PageLocked(page), page);
				2366	VM_BUG_ON_PAGE(!PageSwapBacked(page), page);
				2367	VM_BUG_ON_PAGE(!PageCompound(page), page);
				2368
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2369	if (PageAnon(head)) {
				2370	/*
				2371	* The caller does not necessarily hold an mmap_sem that would
				2372	* prevent the anon_vma disappearing so we first we take a
				2373	* reference to it and then lock the anon_vma for write. This
				2374	* is similar to page_lock_anon_vma_read except the write lock
				2375	* is taken to serialise against parallel split or collapse
				2376	* operations.
				2377	*/
				2378	anon_vma = page_get_anon_vma(head);
				2379	if (!anon_vma) {
				2380	ret = -EBUSY;
				2381	goto out;
				2382	}
				2383	extra_pins = 0;
				2384	mapping = NULL;
				2385	anon_vma_lock_write(anon_vma);
				2386	} else {
				2387	mapping = head->mapping;
				2388
				2389	/* Truncated ? */
				2390	if (!mapping) {
				2391	ret = -EBUSY;
				2392	goto out;
				2393	}
				2394
				2395	/* Addidional pins from radix tree */
				2396	extra_pins = HPAGE_PMD_NR;
				2397	anon_vma = NULL;
				2398	i_mmap_lock_read(mapping);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2399	}
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2400
				2401	/*
				2402	* Racy check if we can split the page, before freeze_page() will
				2403	* split PMDs
				2404	*/
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2405	if (total_mapcount(head) != page_count(head) - extra_pins - 1) {
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2406	ret = -EBUSY;
				2407	goto out_unlock;
				2408	}
				2409
Kirill A. Shutemov	d965432	2016-01-15 16:54:43 -0800	[diff] [blame]	2410	mlocked = PageMlocked(page);
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2411	freeze_page(head);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2412	VM_BUG_ON_PAGE(compound_mapcount(head), head);
				2413
Kirill A. Shutemov	d965432	2016-01-15 16:54:43 -0800	[diff] [blame]	2414	/* Make sure the page is not on per-CPU pagevec as it takes pin */
				2415	if (mlocked)
				2416	lru_add_drain();
				2417
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2418	/* prevent PageLRU to go away from under us, and freeze lru stats */
Mel Gorman	a52633d	2016-07-28 15:45:28 -0700	[diff] [blame]	2419	spin_lock_irqsave(zone_lru_lock(page_zone(head)), flags);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2420
				2421	if (mapping) {
				2422	void **pslot;
				2423
				2424	spin_lock(&mapping->tree_lock);
				2425	pslot = radix_tree_lookup_slot(&mapping->page_tree,
				2426	page_index(head));
				2427	/*
				2428	* Check if the head page is present in radix tree.
				2429	* We assume all tail are present too, if head is there.
				2430	*/
				2431	if (radix_tree_deref_slot_protected(pslot,
				2432	&mapping->tree_lock) != head)
				2433	goto fail;
				2434	}
				2435
Joonsoo Kim	0139aa7	2016-05-19 17:10:49 -0700	[diff] [blame]	2436	/* Prevent deferred_split_scan() touching ->_refcount */
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2437	spin_lock(&pgdata->split_queue_lock);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2438	count = page_count(head);
				2439	mapcount = total_mapcount(head);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2440	if (!mapcount && page_ref_freeze(head, 1 + extra_pins)) {
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2441	if (!list_empty(page_deferred_list(head))) {
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2442	pgdata->split_queue_len--;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2443	list_del(page_deferred_list(head));
				2444	}
Kirill A. Shutemov	65c4537	2016-07-26 15:26:10 -0700	[diff] [blame]	2445	if (mapping)
Mel Gorman	11fb998	2016-07-28 15:46:20 -0700	[diff] [blame]	2446	__dec_node_page_state(page, NR_SHMEM_THPS);
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2447	spin_unlock(&pgdata->split_queue_lock);
				2448	__split_huge_page(page, list, flags);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2449	ret = 0;
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2450	} else {
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2451	if (IS_ENABLED(CONFIG_DEBUG_VM) && mapcount) {
				2452	pr_alert("total_mapcount: %u, page_count(): %u\n",
				2453	mapcount, count);
				2454	if (PageTail(page))
				2455	dump_page(head, NULL);
				2456	dump_page(page, "total_mapcount(head) > 0");
				2457	BUG();
				2458	}
				2459	spin_unlock(&pgdata->split_queue_lock);
				2460	fail: if (mapping)
				2461	spin_unlock(&mapping->tree_lock);
Mel Gorman	a52633d	2016-07-28 15:45:28 -0700	[diff] [blame]	2462	spin_unlock_irqrestore(zone_lru_lock(page_zone(head)), flags);
Kirill A. Shutemov	fec89c1	2016-03-17 14:20:10 -0700	[diff] [blame]	2463	unfreeze_page(head);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2464	ret = -EBUSY;
				2465	}
				2466
				2467	out_unlock:
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2468	if (anon_vma) {
				2469	anon_vma_unlock_write(anon_vma);
				2470	put_anon_vma(anon_vma);
				2471	}
				2472	if (mapping)
				2473	i_mmap_unlock_read(mapping);
Kirill A. Shutemov	e9b61f1	2016-01-15 16:54:10 -0800	[diff] [blame]	2474	out:
				2475	count_vm_event(!ret ? THP_SPLIT_PAGE : THP_SPLIT_PAGE_FAILED);
				2476	return ret;
				2477	}
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2478
				2479	void free_transhuge_page(struct page *page)
				2480	{
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2481	struct pglist_data *pgdata = NODE_DATA(page_to_nid(page));
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2482	unsigned long flags;
				2483
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2484	spin_lock_irqsave(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2485	if (!list_empty(page_deferred_list(page))) {
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2486	pgdata->split_queue_len--;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2487	list_del(page_deferred_list(page));
				2488	}
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2489	spin_unlock_irqrestore(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2490	free_compound_page(page);
				2491	}
				2492
				2493	void deferred_split_huge_page(struct page *page)
				2494	{
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2495	struct pglist_data *pgdata = NODE_DATA(page_to_nid(page));
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2496	unsigned long flags;
				2497
				2498	VM_BUG_ON_PAGE(!PageTransHuge(page), page);
				2499
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2500	spin_lock_irqsave(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2501	if (list_empty(page_deferred_list(page))) {
Kirill A. Shutemov	f9719a0	2016-03-17 14:18:45 -0700	[diff] [blame]	2502	count_vm_event(THP_DEFERRED_SPLIT_PAGE);
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2503	list_add_tail(page_deferred_list(page), &pgdata->split_queue);
				2504	pgdata->split_queue_len++;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2505	}
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2506	spin_unlock_irqrestore(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2507	}
				2508
				2509	static unsigned long deferred_split_count(struct shrinker *shrink,
				2510	struct shrink_control *sc)
				2511	{
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2512	struct pglist_data *pgdata = NODE_DATA(sc->nid);
Kirill A. Shutemov	cb8d68e	2016-02-02 16:57:12 -0800	[diff] [blame]	2513	return ACCESS_ONCE(pgdata->split_queue_len);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2514	}
				2515
				2516	static unsigned long deferred_split_scan(struct shrinker *shrink,
				2517	struct shrink_control *sc)
				2518	{
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2519	struct pglist_data *pgdata = NODE_DATA(sc->nid);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2520	unsigned long flags;
				2521	LIST_HEAD(list), pos, next;
				2522	struct page *page;
				2523	int split = 0;
				2524
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2525	spin_lock_irqsave(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2526	/* Take pin on all head pages to avoid freeing them under us */
Kirill A. Shutemov	ae02620	2016-02-05 15:36:53 -0800	[diff] [blame]	2527	list_for_each_safe(pos, next, &pgdata->split_queue) {
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2528	page = list_entry((void *)pos, struct page, mapping);
				2529	page = compound_head(page);
Kirill A. Shutemov	e3ae195	2016-02-02 16:57:15 -0800	[diff] [blame]	2530	if (get_page_unless_zero(page)) {
				2531	list_move(page_deferred_list(page), &list);
				2532	} else {
				2533	/* We lost race with put_compound_page() */
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2534	list_del_init(page_deferred_list(page));
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2535	pgdata->split_queue_len--;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2536	}
Kirill A. Shutemov	e3ae195	2016-02-02 16:57:15 -0800	[diff] [blame]	2537	if (!--sc->nr_to_scan)
				2538	break;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2539	}
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2540	spin_unlock_irqrestore(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2541
				2542	list_for_each_safe(pos, next, &list) {
				2543	page = list_entry((void *)pos, struct page, mapping);
				2544	lock_page(page);
				2545	/* split_huge_page() removes page from list on success */
				2546	if (!split_huge_page(page))
				2547	split++;
				2548	unlock_page(page);
				2549	put_page(page);
				2550	}
				2551
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2552	spin_lock_irqsave(&pgdata->split_queue_lock, flags);
				2553	list_splice_tail(&list, &pgdata->split_queue);
				2554	spin_unlock_irqrestore(&pgdata->split_queue_lock, flags);
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2555
Kirill A. Shutemov	cb8d68e	2016-02-02 16:57:12 -0800	[diff] [blame]	2556	/*
				2557	* Stop shrinker if we didn't split any page, but the queue is empty.
				2558	* This can happen if pages were freed under us.
				2559	*/
				2560	if (!split && list_empty(&pgdata->split_queue))
				2561	return SHRINK_STOP;
				2562	return split;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2563	}
				2564
				2565	static struct shrinker deferred_split_shrinker = {
				2566	.count_objects = deferred_split_count,
				2567	.scan_objects = deferred_split_scan,
				2568	.seeks = DEFAULT_SEEKS,
Kirill A. Shutemov	a3d0a918	2016-02-02 16:57:08 -0800	[diff] [blame]	2569	.flags = SHRINKER_NUMA_AWARE,
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2570	};
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	2571
				2572	#ifdef CONFIG_DEBUG_FS
				2573	static int split_huge_pages_set(void *data, u64 val)
				2574	{
				2575	struct zone *zone;
				2576	struct page *page;
				2577	unsigned long pfn, max_zone_pfn;
				2578	unsigned long total = 0, split = 0;
				2579
				2580	if (val != 1)
				2581	return -EINVAL;
				2582
				2583	for_each_populated_zone(zone) {
				2584	max_zone_pfn = zone_end_pfn(zone);
				2585	for (pfn = zone->zone_start_pfn; pfn < max_zone_pfn; pfn++) {
				2586	if (!pfn_valid(pfn))
				2587	continue;
				2588
				2589	page = pfn_to_page(pfn);
				2590	if (!get_page_unless_zero(page))
				2591	continue;
				2592
				2593	if (zone != page_zone(page))
				2594	goto next;
				2595
Kirill A. Shutemov	baa355f	2016-07-26 15:25:51 -0700	[diff] [blame]	2596	if (!PageHead(page) \|\| PageHuge(page) \|\| !PageLRU(page))
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	2597	goto next;
				2598
				2599	total++;
				2600	lock_page(page);
				2601	if (!split_huge_page(page))
				2602	split++;
				2603	unlock_page(page);
				2604	next:
				2605	put_page(page);
				2606	}
				2607	}
				2608
Yang Shi	145bdaa	2016-05-05 16:22:00 -0700	[diff] [blame]	2609	pr_info("%lu of %lu THP split\n", split, total);
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	2610
				2611	return 0;
				2612	}
				2613	DEFINE_SIMPLE_ATTRIBUTE(split_huge_pages_fops, NULL, split_huge_pages_set,
				2614	"%llu\n");
				2615
				2616	static int __init split_huge_pages_debugfs(void)
				2617	{
				2618	void *ret;
				2619
Yang Shi	145bdaa	2016-05-05 16:22:00 -0700	[diff] [blame]	2620	ret = debugfs_create_file("split_huge_pages", 0200, NULL, NULL,
Kirill A. Shutemov	49071d4	2016-01-15 16:54:40 -0800	[diff] [blame]	2621	&split_huge_pages_fops);
				2622	if (!ret)
				2623	pr_warn("Failed to create split_huge_pages in debugfs");
				2624	return 0;
				2625	}
				2626	late_initcall(split_huge_pages_debugfs);
				2627	#endif