Blame - mm/migrate.c - kernel/msm-4.19

blob: a69b842f95dafb560395debe9938e8b3cfbe5463 [file] [log] [blame]

Greg Kroah-Hartman	b244131	2017-11-01 15:07:57 +0100	[diff] [blame]	1	// SPDX-License-Identifier: GPL-2.0
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	2	/*
Hugh Dickins	14e0f9b	2015-11-05 18:49:43 -0800	[diff] [blame]	3	* Memory Migration functionality - linux/mm/migrate.c
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	4	*
				5	* Copyright (C) 2006 Silicon Graphics, Inc., Christoph Lameter
				6	*
				7	* Page migration was first developed in the context of the memory hotplug
				8	* project. The main authors of the migration code are:
				9	*
				10	* IWAMOTO Toshihiro <iwamoto@valinux.co.jp>
				11	* Hirokazu Takahashi <taka@valinux.co.jp>
				12	* Dave Hansen <haveblue@us.ibm.com>
Christoph Lameter	cde5353	2008-07-04 09:59:22 -0700	[diff] [blame]	13	* Christoph Lameter
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	14	*/
				15
				16	#include <linux/migrate.h>
Paul Gortmaker	b95f1b31	2011-10-16 02:01:52 -0400	[diff] [blame]	17	#include <linux/export.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	18	#include <linux/swap.h>
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	19	#include <linux/swapops.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	20	#include <linux/pagemap.h>
Christoph Lameter	e23ca00	2006-04-10 22:52:57 -0700	[diff] [blame]	21	#include <linux/buffer_head.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	22	#include <linux/mm_inline.h>
Pavel Emelyanov	b488893	2007-10-18 23:40:14 -0700	[diff] [blame]	23	#include <linux/nsproxy.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	24	#include <linux/pagevec.h>
Hugh Dickins	e9995ef	2009-12-14 17:59:31 -0800	[diff] [blame]	25	#include <linux/ksm.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	26	#include <linux/rmap.h>
				27	#include <linux/topology.h>
				28	#include <linux/cpu.h>
				29	#include <linux/cpuset.h>
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	30	#include <linux/writeback.h>
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	31	#include <linux/mempolicy.h>
				32	#include <linux/vmalloc.h>
David Quigley	86c3a76	2006-06-23 02:04:02 -0700	[diff] [blame]	33	#include <linux/security.h>
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	34	#include <linux/backing-dev.h>
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	35	#include <linux/compaction.h>
Adrian Bunk	4f5ca26	2008-07-23 21:27:02 -0700	[diff] [blame]	36	#include <linux/syscalls.h>
Dominik Brodowski	7addf44	2018-03-17 16:08:03 +0100	[diff] [blame]	37	#include <linux/compat.h>
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	38	#include <linux/hugetlb.h>
Aneesh Kumar K.V	8e6ac7f	2012-07-31 16:42:27 -0700	[diff] [blame]	39	#include <linux/hugetlb_cgroup.h>
Tejun Heo	5a0e3ad	2010-03-24 17:04:11 +0900	[diff] [blame]	40	#include <linux/gfp.h>
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	41	#include <linux/pfn_t.h>
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	42	#include <linux/memremap.h>
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	43	#include <linux/userfaultfd_k.h>
Rafael Aquini	bf6bddf	2012-12-11 16:02:42 -0800	[diff] [blame]	44	#include <linux/balloon_compaction.h>
Mel Gorman	f714f4f	2013-12-18 17:08:33 -0800	[diff] [blame]	45	#include <linux/mmu_notifier.h>
Vladimir Davydov	33c3fc7	2015-09-09 15:35:45 -0700	[diff] [blame]	46	#include <linux/page_idle.h>
Vlastimil Babka	d435edc	2016-03-15 14:56:15 -0700	[diff] [blame]	47	#include <linux/page_owner.h>
Ingo Molnar	6e84f31	2017-02-08 18:51:29 +0100	[diff] [blame]	48	#include <linux/sched/mm.h>
Linus Torvalds	197e7e5	2017-08-20 13:26:27 -0700	[diff] [blame]	49	#include <linux/ptrace.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	50
Michal Nazarewicz	0d1836c	2010-12-21 17:24:26 -0800	[diff] [blame]	51	#include <asm/tlbflush.h>
				52
Mel Gorman	7b2a2d4	2012-10-19 14:07:31 +0100	[diff] [blame]	53	#define CREATE_TRACE_POINTS
				54	#include <trace/events/migrate.h>
				55
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	56	#include "internal.h"
				57
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	58	/*
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	59	* migrate_prep() needs to be called before we start compiling a list of pages
Mel Gorman	748446b	2010-05-24 14:32:27 -0700	[diff] [blame]	60	* to be migrated using isolate_lru_page(). If scheduling work on other CPUs is
				61	* undesirable, use migrate_prep_local()
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	62	*/
				63	int migrate_prep(void)
				64	{
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	65	/*
				66	* Clear the LRU lists so pages can be isolated.
				67	* Note that pages may be moved off the LRU after we have
				68	* drained them. Those pages will fail to migrate like other
				69	* pages that may be busy.
				70	*/
				71	lru_add_drain_all();
				72
				73	return 0;
				74	}
				75
Mel Gorman	748446b	2010-05-24 14:32:27 -0700	[diff] [blame]	76	/* Do the necessary work of migrate_prep but not if it involves other CPUs */
				77	int migrate_prep_local(void)
				78	{
				79	lru_add_drain();
				80
				81	return 0;
				82	}
				83
Yisheng Xie	9e5bcd6	2017-02-24 14:57:29 -0800	[diff] [blame]	84	int isolate_movable_page(struct page *page, isolate_mode_t mode)
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	85	{
				86	struct address_space *mapping;
				87
				88	/*
				89	* Avoid burning cycles with pages that are yet under __free_pages(),
				90	* or just got freed under us.
				91	*
				92	* In case we 'win' a race for a movable page being freed under us and
				93	* raise its refcount preventing __free_pages() from doing its job
				94	* the put_page() at the end of this block will take care of
				95	* release this page, thus avoiding a nasty leakage.
				96	*/
				97	if (unlikely(!get_page_unless_zero(page)))
				98	goto out;
				99
				100	/*
				101	* Check PageMovable before holding a PG_lock because page's owner
				102	* assumes anybody doesn't touch PG_lock of newly allocated page
				103	* so unconditionally grapping the lock ruins page's owner side.
				104	*/
				105	if (unlikely(!__PageMovable(page)))
				106	goto out_putpage;
				107	/*
				108	* As movable pages are not isolated from LRU lists, concurrent
				109	* compaction threads can race against page migration functions
				110	* as well as race against the releasing a page.
				111	*
				112	* In order to avoid having an already isolated movable page
				113	* being (wrongly) re-isolated while it is under migration,
				114	* or to avoid attempting to isolate pages being released,
				115	* lets be sure we have the page lock
				116	* before proceeding with the movable page isolation steps.
				117	*/
				118	if (unlikely(!trylock_page(page)))
				119	goto out_putpage;
				120
				121	if (!PageMovable(page) \|\| PageIsolated(page))
				122	goto out_no_isolated;
				123
				124	mapping = page_mapping(page);
				125	VM_BUG_ON_PAGE(!mapping, page);
				126
				127	if (!mapping->a_ops->isolate_page(page, mode))
				128	goto out_no_isolated;
				129
				130	/* Driver shouldn't use PG_isolated bit of page->flags */
				131	WARN_ON_ONCE(PageIsolated(page));
				132	__SetPageIsolated(page);
				133	unlock_page(page);
				134
Yisheng Xie	9e5bcd6	2017-02-24 14:57:29 -0800	[diff] [blame]	135	return 0;
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	136
				137	out_no_isolated:
				138	unlock_page(page);
				139	out_putpage:
				140	put_page(page);
				141	out:
Yisheng Xie	9e5bcd6	2017-02-24 14:57:29 -0800	[diff] [blame]	142	return -EBUSY;
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	143	}
				144
				145	/* It should be called on page which is PG_movable */
				146	void putback_movable_page(struct page *page)
				147	{
				148	struct address_space *mapping;
				149
				150	VM_BUG_ON_PAGE(!PageLocked(page), page);
				151	VM_BUG_ON_PAGE(!PageMovable(page), page);
				152	VM_BUG_ON_PAGE(!PageIsolated(page), page);
				153
				154	mapping = page_mapping(page);
				155	mapping->a_ops->putback_page(page);
				156	__ClearPageIsolated(page);
				157	}
				158
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	159	/*
Rafael Aquini	5733c7d	2012-12-11 16:02:47 -0800	[diff] [blame]	160	* Put previously isolated pages back onto the appropriate lists
				161	* from where they were once taken off for compaction/migration.
				162	*
Joonsoo Kim	59c82b7	2014-01-21 15:51:17 -0800	[diff] [blame]	163	* This function shall be used whenever the isolated pageset has been
				164	* built from lru, balloon, hugetlbfs page. See isolate_migratepages_range()
				165	* and isolate_huge_page().
Rafael Aquini	5733c7d	2012-12-11 16:02:47 -0800	[diff] [blame]	166	*/
				167	void putback_movable_pages(struct list_head *l)
				168	{
				169	struct page *page;
				170	struct page *page2;
				171
				172	list_for_each_entry_safe(page, page2, l, lru) {
Naoya Horiguchi	31caf66	2013-09-11 14:21:59 -0700	[diff] [blame]	173	if (unlikely(PageHuge(page))) {
				174	putback_active_hugepage(page);
				175	continue;
				176	}
Rafael Aquini	5733c7d	2012-12-11 16:02:47 -0800	[diff] [blame]	177	list_del(&page->lru);
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	178	/*
				179	* We isolated non-lru movable page so here we can use
				180	* __PageMovable because LRU page's mapping cannot have
				181	* PAGE_MAPPING_MOVABLE.
				182	*/
Minchan Kim	b1123ea6	2016-07-26 15:23:09 -0700	[diff] [blame]	183	if (unlikely(__PageMovable(page))) {
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	184	VM_BUG_ON_PAGE(!PageIsolated(page), page);
				185	lock_page(page);
				186	if (PageMovable(page))
				187	putback_movable_page(page);
				188	else
				189	__ClearPageIsolated(page);
				190	unlock_page(page);
				191	put_page(page);
				192	} else {
Naoya Horiguchi	e8db67e	2017-09-08 16:11:12 -0700	[diff] [blame]	193	mod_node_page_state(page_pgdat(page), NR_ISOLATED_ANON +
				194	page_is_file_cache(page), -hpage_nr_pages(page));
Rabin Vincent	fc280fe	2017-04-20 14:37:46 -0700	[diff] [blame]	195	putback_lru_page(page);
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	196	}
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	197	}
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	198	}
				199
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	200	/*
				201	* Restore a potential migration pte to a working pte entry
				202	*/
Minchan Kim	e4b8222	2017-05-03 14:54:27 -0700	[diff] [blame]	203	static bool remove_migration_pte(struct page page, struct vm_area_struct vma,
Hugh Dickins	e9995ef	2009-12-14 17:59:31 -0800	[diff] [blame]	204	unsigned long addr, void *old)
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	205	{
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	206	struct page_vma_mapped_walk pvmw = {
				207	.page = old,
				208	.vma = vma,
				209	.address = addr,
				210	.flags = PVMW_SYNC \| PVMW_MIGRATION,
				211	};
				212	struct page *new;
				213	pte_t pte;
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	214	swp_entry_t entry;
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	215
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	216	VM_BUG_ON_PAGE(PageTail(page), page);
				217	while (page_vma_mapped_walk(&pvmw)) {
Naoya Horiguchi	4b0ece6	2017-03-31 15:11:44 -0700	[diff] [blame]	218	if (PageKsm(page))
				219	new = page;
				220	else
				221	new = page - pvmw.page->index +
				222	linear_page_index(vma, pvmw.address);
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	223
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	224	#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
				225	/* PMD-mapped THP migration entry */
				226	if (!pvmw.pte) {
				227	VM_BUG_ON_PAGE(PageHuge(page) \|\| !PageTransCompound(page), page);
				228	remove_migration_pmd(&pvmw, new);
				229	continue;
				230	}
				231	#endif
				232
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	233	get_page(new);
				234	pte = pte_mkold(mk_pte(new, READ_ONCE(vma->vm_page_prot)));
				235	if (pte_swp_soft_dirty(*pvmw.pte))
				236	pte = pte_mksoft_dirty(pte);
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	237
Hugh Dickins	486cf46	2011-10-19 12:50:35 -0700	[diff] [blame]	238	/*
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	239	* Recheck VMA as permissions can change since migration started
Hugh Dickins	486cf46	2011-10-19 12:50:35 -0700	[diff] [blame]	240	*/
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	241	entry = pte_to_swp_entry(*pvmw.pte);
				242	if (is_write_migration_entry(entry))
				243	pte = maybe_mkwrite(pte, vma);
Mel Gorman	d3cb8bf	2014-10-02 19:47:41 +0100	[diff] [blame]	244
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	245	if (unlikely(is_zone_device_page(new))) {
				246	if (is_device_private_page(new)) {
				247	entry = make_device_private_entry(new, pte_write(pte));
				248	pte = swp_entry_to_pte(entry);
				249	} else if (is_device_public_page(new)) {
				250	pte = pte_mkdevmap(pte);
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	251	}
Lars Persson	f70ddae	2019-03-28 20:44:28 -0700	[diff] [blame]	252	}
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	253
Andi Kleen	3ef8fd7	2010-10-11 16:03:21 +0200	[diff] [blame]	254	#ifdef CONFIG_HUGETLB_PAGE
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	255	if (PageHuge(new)) {
				256	pte = pte_mkhuge(pte);
				257	pte = arch_make_huge_pte(pte, vma, new, 0);
Aneesh Kumar K.V	383321a	2017-07-06 15:38:41 -0700	[diff] [blame]	258	set_huge_pte_at(vma->vm_mm, pvmw.address, pvmw.pte, pte);
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	259	if (PageAnon(new))
				260	hugepage_add_anon_rmap(new, vma, pvmw.address);
				261	else
				262	page_dup_rmap(new, true);
Aneesh Kumar K.V	383321a	2017-07-06 15:38:41 -0700	[diff] [blame]	263	} else
				264	#endif
				265	{
				266	set_pte_at(vma->vm_mm, pvmw.address, pvmw.pte, pte);
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	267
Aneesh Kumar K.V	383321a	2017-07-06 15:38:41 -0700	[diff] [blame]	268	if (PageAnon(new))
				269	page_add_anon_rmap(new, vma, pvmw.address, false);
				270	else
				271	page_add_file_rmap(new, false);
				272	}
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	273	if (vma->vm_flags & VM_LOCKED && !PageTransCompound(new))
				274	mlock_vma_page(new);
Hugh Dickins	51afb12	2015-11-05 18:49:37 -0800	[diff] [blame]	275
Kirill A. Shutemov	e125fe4	2018-10-05 15:51:41 -0700	[diff] [blame]	276	if (PageTransHuge(page) && PageMlocked(page))
				277	clear_page_mlock(page);
				278
Kirill A. Shutemov	3fe8796	2017-02-24 14:58:16 -0800	[diff] [blame]	279	/* No need to invalidate - it was non-present before */
				280	update_mmu_cache(vma, pvmw.address, pvmw.pte);
				281	}
				282
Minchan Kim	e4b8222	2017-05-03 14:54:27 -0700	[diff] [blame]	283	return true;
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	284	}
				285
				286	/*
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	287	* Get rid of all migration entries and replace them by
				288	* references to the indicated page.
				289	*/
Kirill A. Shutemov	e388466	2016-03-17 14:20:07 -0700	[diff] [blame]	290	void remove_migration_ptes(struct page old, struct page new, bool locked)
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	291	{
Joonsoo Kim	051ac83	2014-01-21 15:49:48 -0800	[diff] [blame]	292	struct rmap_walk_control rwc = {
				293	.rmap_one = remove_migration_pte,
				294	.arg = old,
				295	};
				296
Kirill A. Shutemov	e388466	2016-03-17 14:20:07 -0700	[diff] [blame]	297	if (locked)
				298	rmap_walk_locked(new, &rwc);
				299	else
				300	rmap_walk(new, &rwc);
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	301	}
				302
				303	/*
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	304	* Something used the pte of a page under migration. We need to
				305	* get to the page and wait until migration is finished.
				306	* When we return from this function the fault will be retried.
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	307	*/
Naoya Horiguchi	e66f17f	2015-02-11 15:25:22 -0800	[diff] [blame]	308	void __migration_entry_wait(struct mm_struct mm, pte_t ptep,
Naoya Horiguchi	30dad30	2013-06-12 14:05:04 -0700	[diff] [blame]	309	spinlock_t *ptl)
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	310	{
Naoya Horiguchi	30dad30	2013-06-12 14:05:04 -0700	[diff] [blame]	311	pte_t pte;
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	312	swp_entry_t entry;
				313	struct page *page;
				314
Naoya Horiguchi	30dad30	2013-06-12 14:05:04 -0700	[diff] [blame]	315	spin_lock(ptl);
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	316	pte = *ptep;
				317	if (!is_swap_pte(pte))
				318	goto out;
				319
				320	entry = pte_to_swp_entry(pte);
				321	if (!is_migration_entry(entry))
				322	goto out;
				323
				324	page = migration_entry_to_page(entry);
				325
Nick Piggin	e286781	2008-07-25 19:45:30 -0700	[diff] [blame]	326	/*
				327	* Once radix-tree replacement of page migration started, page_count
				328	* must be zero. And, we don't want to call wait_on_page_locked()
				329	* against a page without get_page().
				330	* So, we use get_page_unless_zero(), here. Even failed, page fault
				331	* will occur again.
				332	*/
				333	if (!get_page_unless_zero(page))
				334	goto out;
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	335	pte_unmap_unlock(ptep, ptl);
				336	wait_on_page_locked(page);
				337	put_page(page);
				338	return;
				339	out:
				340	pte_unmap_unlock(ptep, ptl);
				341	}
				342
Naoya Horiguchi	30dad30	2013-06-12 14:05:04 -0700	[diff] [blame]	343	void migration_entry_wait(struct mm_struct mm, pmd_t pmd,
				344	unsigned long address)
				345	{
				346	spinlock_t *ptl = pte_lockptr(mm, pmd);
				347	pte_t *ptep = pte_offset_map(pmd, address);
				348	__migration_entry_wait(mm, ptep, ptl);
				349	}
				350
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	351	void migration_entry_wait_huge(struct vm_area_struct *vma,
				352	struct mm_struct mm, pte_t pte)
Naoya Horiguchi	30dad30	2013-06-12 14:05:04 -0700	[diff] [blame]	353	{
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	354	spinlock_t *ptl = huge_pte_lockptr(hstate_vma(vma), mm, pte);
Naoya Horiguchi	30dad30	2013-06-12 14:05:04 -0700	[diff] [blame]	355	__migration_entry_wait(mm, pte, ptl);
				356	}
				357
Zi Yan	616b837	2017-09-08 16:10:57 -0700	[diff] [blame]	358	#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
				359	void pmd_migration_entry_wait(struct mm_struct mm, pmd_t pmd)
				360	{
				361	spinlock_t *ptl;
				362	struct page *page;
				363
				364	ptl = pmd_lock(mm, pmd);
				365	if (!is_pmd_migration_entry(*pmd))
				366	goto unlock;
				367	page = migration_entry_to_page(pmd_to_swp_entry(*pmd));
				368	if (!get_page_unless_zero(page))
				369	goto unlock;
				370	spin_unlock(ptl);
				371	wait_on_page_locked(page);
				372	put_page(page);
				373	return;
				374	unlock:
				375	spin_unlock(ptl);
				376	}
				377	#endif
				378
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	379	#ifdef CONFIG_BLOCK
				380	/* Returns true if all buffers are successfully locked */
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	381	static bool buffer_migrate_lock_buffers(struct buffer_head *head,
				382	enum migrate_mode mode)
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	383	{
				384	struct buffer_head *bh = head;
				385
				386	/* Simple case, sync compaction */
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	387	if (mode != MIGRATE_ASYNC) {
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	388	do {
				389	get_bh(bh);
				390	lock_buffer(bh);
				391	bh = bh->b_this_page;
				392
				393	} while (bh != head);
				394
				395	return true;
				396	}
				397
				398	/* async case, we cannot block on lock_buffer so use trylock_buffer */
				399	do {
				400	get_bh(bh);
				401	if (!trylock_buffer(bh)) {
				402	/*
				403	* We failed to lock the buffer and cannot stall in
				404	* async migration. Release the taken locks
				405	*/
				406	struct buffer_head *failed_bh = bh;
				407	put_bh(failed_bh);
				408	bh = head;
				409	while (bh != failed_bh) {
				410	unlock_buffer(bh);
				411	put_bh(bh);
				412	bh = bh->b_this_page;
				413	}
				414	return false;
				415	}
				416
				417	bh = bh->b_this_page;
				418	} while (bh != head);
				419	return true;
				420	}
				421	#else
				422	static inline bool buffer_migrate_lock_buffers(struct buffer_head *head,
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	423	enum migrate_mode mode)
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	424	{
				425	return true;
				426	}
				427	#endif /* CONFIG_BLOCK */
				428
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	429	/*
Christoph Lameter	c3fcf8a	2006-06-23 02:03:32 -0700	[diff] [blame]	430	* Replace the page in the mapping.
Christoph Lameter	5b5c712	2006-06-23 02:03:29 -0700	[diff] [blame]	431	*
				432	* The number of remaining references must be:
				433	* 1 for anonymous pages without a mapping
				434	* 2 for pages with a mapping
David Howells	266cf65	2009-04-03 16:42:36 +0100	[diff] [blame]	435	* 3 for pages with a mapping and PagePrivate/PagePrivate2 set.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	436	*/
Gu Zheng	36bc08c	2013-07-16 17:56:16 +0800	[diff] [blame]	437	int migrate_page_move_mapping(struct address_space *mapping,
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	438	struct page newpage, struct page page,
Benjamin LaHaise	8e321fe	2013-12-21 17:56:08 -0500	[diff] [blame]	439	struct buffer_head *head, enum migrate_mode mode,
				440	int extra_count)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	441	{
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	442	struct zone oldzone, newzone;
				443	int dirty;
Benjamin LaHaise	8e321fe	2013-12-21 17:56:08 -0500	[diff] [blame]	444	int expected_count = 1 + extra_count;
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	445	void **pslot;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	446
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	447	/*
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	448	* Device public or private pages have an extra refcount as they are
				449	* ZONE_DEVICE pages.
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	450	*/
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	451	expected_count += is_device_private_page(page);
				452	expected_count += is_device_public_page(page);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	453
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	454	if (!mapping) {
Christoph Lameter	0e8c7d0	2007-04-23 14:41:09 -0700	[diff] [blame]	455	/* Anonymous page without mapping */
Benjamin LaHaise	8e321fe	2013-12-21 17:56:08 -0500	[diff] [blame]	456	if (page_count(page) != expected_count)
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	457	return -EAGAIN;
Hugh Dickins	cf4b769	2015-11-05 18:50:02 -0800	[diff] [blame]	458
				459	/* No turning back from here */
Hugh Dickins	cf4b769	2015-11-05 18:50:02 -0800	[diff] [blame]	460	newpage->index = page->index;
				461	newpage->mapping = page->mapping;
				462	if (PageSwapBacked(page))
Hugh Dickins	fa9949d	2016-05-19 17:12:41 -0700	[diff] [blame]	463	__SetPageSwapBacked(newpage);
Hugh Dickins	cf4b769	2015-11-05 18:50:02 -0800	[diff] [blame]	464
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	465	return MIGRATEPAGE_SUCCESS;
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	466	}
				467
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	468	oldzone = page_zone(page);
				469	newzone = page_zone(newpage);
				470
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	471	xa_lock_irq(&mapping->i_pages);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	472
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	473	pslot = radix_tree_lookup_slot(&mapping->i_pages,
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	474	page_index(page));
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	475
Naoya Horiguchi	e71769a	2018-04-20 14:55:45 -0700	[diff] [blame]	476	expected_count += hpage_nr_pages(page) + page_has_private(page);
Nick Piggin	e286781	2008-07-25 19:45:30 -0700	[diff] [blame]	477	if (page_count(page) != expected_count \|\|
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	478	radix_tree_deref_slot_protected(pslot,
				479	&mapping->i_pages.xa_lock) != page) {
				480	xa_unlock_irq(&mapping->i_pages);
Christoph Lameter	e23ca00	2006-04-10 22:52:57 -0700	[diff] [blame]	481	return -EAGAIN;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	482	}
				483
Joonsoo Kim	fe896d1	2016-03-17 14:19:26 -0700	[diff] [blame]	484	if (!page_ref_freeze(page, expected_count)) {
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	485	xa_unlock_irq(&mapping->i_pages);
Nick Piggin	e286781	2008-07-25 19:45:30 -0700	[diff] [blame]	486	return -EAGAIN;
				487	}
				488
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	489	/*
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	490	* In the async migration case of moving a page with buffers, lock the
				491	* buffers using trylock before the mapping is moved. If the mapping
				492	* was moved, we later failed to lock the buffers and could not move
				493	* the mapping back due to an elevated page count, we would have to
				494	* block waiting on other references to be dropped.
				495	*/
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	496	if (mode == MIGRATE_ASYNC && head &&
				497	!buffer_migrate_lock_buffers(head, mode)) {
Joonsoo Kim	fe896d1	2016-03-17 14:19:26 -0700	[diff] [blame]	498	page_ref_unfreeze(page, expected_count);
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	499	xa_unlock_irq(&mapping->i_pages);
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	500	return -EAGAIN;
				501	}
				502
				503	/*
Hugh Dickins	cf4b769	2015-11-05 18:50:02 -0800	[diff] [blame]	504	* Now we know that no one else is looking at the page:
				505	* no turning back from here.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	506	*/
Hugh Dickins	cf4b769	2015-11-05 18:50:02 -0800	[diff] [blame]	507	newpage->index = page->index;
				508	newpage->mapping = page->mapping;
Naoya Horiguchi	e71769a	2018-04-20 14:55:45 -0700	[diff] [blame]	509	page_ref_add(newpage, hpage_nr_pages(page)); /* add cache reference */
Nicholas Piggin	6326fec	2016-12-25 13:00:29 +1000	[diff] [blame]	510	if (PageSwapBacked(page)) {
				511	__SetPageSwapBacked(newpage);
				512	if (PageSwapCache(page)) {
				513	SetPageSwapCache(newpage);
				514	set_page_private(newpage, page_private(page));
				515	}
				516	} else {
				517	VM_BUG_ON_PAGE(PageSwapCache(page), page);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	518	}
				519
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	520	/* Move dirty while page refs frozen and newpage not yet exposed */
				521	dirty = PageDirty(page);
				522	if (dirty) {
				523	ClearPageDirty(page);
				524	SetPageDirty(newpage);
				525	}
				526
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	527	radix_tree_replace_slot(&mapping->i_pages, pslot, newpage);
Naoya Horiguchi	e71769a	2018-04-20 14:55:45 -0700	[diff] [blame]	528	if (PageTransHuge(page)) {
				529	int i;
				530	int index = page_index(page);
				531
Naoya Horiguchi	013567b	2018-05-11 16:02:00 -0700	[diff] [blame]	532	for (i = 1; i < HPAGE_PMD_NR; i++) {
Naoya Horiguchi	e71769a	2018-04-20 14:55:45 -0700	[diff] [blame]	533	pslot = radix_tree_lookup_slot(&mapping->i_pages,
				534	index + i);
				535	radix_tree_replace_slot(&mapping->i_pages, pslot,
				536	newpage + i);
				537	}
Naoya Horiguchi	e71769a	2018-04-20 14:55:45 -0700	[diff] [blame]	538	}
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	539
				540	/*
Jacobo Giralt	937a94c	2012-01-10 15:07:11 -0800	[diff] [blame]	541	* Drop cache reference from old page by unfreezing
				542	* to one less reference.
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	543	* We know this isn't the last reference.
				544	*/
Naoya Horiguchi	e71769a	2018-04-20 14:55:45 -0700	[diff] [blame]	545	page_ref_unfreeze(page, expected_count - hpage_nr_pages(page));
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	546
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	547	xa_unlock(&mapping->i_pages);
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	548	/* Leave irq disabled to prevent preemption while updating stats */
				549
Christoph Lameter	0e8c7d0	2007-04-23 14:41:09 -0700	[diff] [blame]	550	/*
				551	* If moved to a different zone then also account
				552	* the page for that zone. Other VM counters will be
				553	* taken care of when we establish references to the
				554	* new page and drop references to the old page.
				555	*
				556	* Note that anonymous pages are accounted for
Mel Gorman	4b9d0fa	2016-07-28 15:46:17 -0700	[diff] [blame]	557	* via NR_FILE_PAGES and NR_ANON_MAPPED if they
Christoph Lameter	0e8c7d0	2007-04-23 14:41:09 -0700	[diff] [blame]	558	* are mapped to swap space.
				559	*/
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	560	if (newzone != oldzone) {
Mel Gorman	11fb998	2016-07-28 15:46:20 -0700	[diff] [blame]	561	__dec_node_state(oldzone->zone_pgdat, NR_FILE_PAGES);
				562	__inc_node_state(newzone->zone_pgdat, NR_FILE_PAGES);
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	563	if (PageSwapBacked(page) && !PageSwapCache(page)) {
Mel Gorman	11fb998	2016-07-28 15:46:20 -0700	[diff] [blame]	564	__dec_node_state(oldzone->zone_pgdat, NR_SHMEM);
				565	__inc_node_state(newzone->zone_pgdat, NR_SHMEM);
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	566	}
				567	if (dirty && mapping_cap_account_dirty(mapping)) {
Mel Gorman	11fb998	2016-07-28 15:46:20 -0700	[diff] [blame]	568	__dec_node_state(oldzone->zone_pgdat, NR_FILE_DIRTY);
Mel Gorman	5a1c84b	2016-07-28 15:47:31 -0700	[diff] [blame]	569	__dec_zone_state(oldzone, NR_ZONE_WRITE_PENDING);
Mel Gorman	11fb998	2016-07-28 15:46:20 -0700	[diff] [blame]	570	__inc_node_state(newzone->zone_pgdat, NR_FILE_DIRTY);
Mel Gorman	5a1c84b	2016-07-28 15:47:31 -0700	[diff] [blame]	571	__inc_zone_state(newzone, NR_ZONE_WRITE_PENDING);
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	572	}
KOSAKI Motohiro	4b02108	2009-09-21 17:01:33 -0700	[diff] [blame]	573	}
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	574	local_irq_enable();
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	575
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	576	return MIGRATEPAGE_SUCCESS;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	577	}
Richard Weinberger	1118dce	2016-06-16 23:26:14 +0200	[diff] [blame]	578	EXPORT_SYMBOL(migrate_page_move_mapping);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	579
				580	/*
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	581	* The expected number of remaining references is the same as that
				582	* of migrate_page_move_mapping().
				583	*/
				584	int migrate_huge_page_move_mapping(struct address_space *mapping,
				585	struct page newpage, struct page page)
				586	{
				587	int expected_count;
				588	void **pslot;
				589
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	590	xa_lock_irq(&mapping->i_pages);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	591
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	592	pslot = radix_tree_lookup_slot(&mapping->i_pages, page_index(page));
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	593
				594	expected_count = 2 + page_has_private(page);
				595	if (page_count(page) != expected_count \|\|
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	596	radix_tree_deref_slot_protected(pslot, &mapping->i_pages.xa_lock) != page) {
				597	xa_unlock_irq(&mapping->i_pages);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	598	return -EAGAIN;
				599	}
				600
Joonsoo Kim	fe896d1	2016-03-17 14:19:26 -0700	[diff] [blame]	601	if (!page_ref_freeze(page, expected_count)) {
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	602	xa_unlock_irq(&mapping->i_pages);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	603	return -EAGAIN;
				604	}
				605
Hugh Dickins	cf4b769	2015-11-05 18:50:02 -0800	[diff] [blame]	606	newpage->index = page->index;
				607	newpage->mapping = page->mapping;
Johannes Weiner	6a93ca8	2016-03-15 14:57:19 -0700	[diff] [blame]	608
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	609	get_page(newpage);
				610
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	611	radix_tree_replace_slot(&mapping->i_pages, pslot, newpage);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	612
Joonsoo Kim	fe896d1	2016-03-17 14:19:26 -0700	[diff] [blame]	613	page_ref_unfreeze(page, expected_count - 1);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	614
Matthew Wilcox	b93b016	2018-04-10 16:36:56 -0700	[diff] [blame]	615	xa_unlock_irq(&mapping->i_pages);
Johannes Weiner	6a93ca8	2016-03-15 14:57:19 -0700	[diff] [blame]	616
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	617	return MIGRATEPAGE_SUCCESS;
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	618	}
				619
				620	/*
Dave Hansen	30b0a10	2013-11-21 14:31:58 -0800	[diff] [blame]	621	* Gigantic pages are so large that we do not guarantee that page++ pointer
				622	* arithmetic will work across the entire page. We need something more
				623	* specialized.
				624	*/
				625	static void __copy_gigantic_page(struct page dst, struct page src,
				626	int nr_pages)
				627	{
				628	int i;
				629	struct page *dst_base = dst;
				630	struct page *src_base = src;
				631
				632	for (i = 0; i < nr_pages; ) {
				633	cond_resched();
				634	copy_highpage(dst, src);
				635
				636	i++;
				637	dst = mem_map_next(dst, dst_base, i);
				638	src = mem_map_next(src, src_base, i);
				639	}
				640	}
				641
				642	static void copy_huge_page(struct page dst, struct page src)
				643	{
				644	int i;
				645	int nr_pages;
				646
				647	if (PageHuge(src)) {
				648	/* hugetlbfs page */
				649	struct hstate *h = page_hstate(src);
				650	nr_pages = pages_per_huge_page(h);
				651
				652	if (unlikely(nr_pages > MAX_ORDER_NR_PAGES)) {
				653	__copy_gigantic_page(dst, src, nr_pages);
				654	return;
				655	}
				656	} else {
				657	/* thp page */
				658	BUG_ON(!PageTransHuge(src));
				659	nr_pages = hpage_nr_pages(src);
				660	}
				661
				662	for (i = 0; i < nr_pages; i++) {
				663	cond_resched();
				664	copy_highpage(dst + i, src + i);
				665	}
				666	}
				667
				668	/*
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	669	* Copy the page to its new location
				670	*/
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	671	void migrate_page_states(struct page newpage, struct page page)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	672	{
Rik van Riel	7851a45	2013-10-07 11:29:23 +0100	[diff] [blame]	673	int cpupid;
				674
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	675	if (PageError(page))
				676	SetPageError(newpage);
				677	if (PageReferenced(page))
				678	SetPageReferenced(newpage);
				679	if (PageUptodate(page))
				680	SetPageUptodate(newpage);
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame]	681	if (TestClearPageActive(page)) {
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	682	VM_BUG_ON_PAGE(PageUnevictable(page), page);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	683	SetPageActive(newpage);
Lee Schermerhorn	418b27e	2009-12-14 17:59:54 -0800	[diff] [blame]	684	} else if (TestClearPageUnevictable(page))
				685	SetPageUnevictable(newpage);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	686	if (PageChecked(page))
				687	SetPageChecked(newpage);
				688	if (PageMappedToDisk(page))
				689	SetPageMappedToDisk(newpage);
				690
Hugh Dickins	42cb14b	2015-11-05 18:50:05 -0800	[diff] [blame]	691	/* Move dirty on pages not done by migrate_page_move_mapping() */
				692	if (PageDirty(page))
				693	SetPageDirty(newpage);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	694
Vladimir Davydov	33c3fc7	2015-09-09 15:35:45 -0700	[diff] [blame]	695	if (page_is_young(page))
				696	set_page_young(newpage);
				697	if (page_is_idle(page))
				698	set_page_idle(newpage);
				699
Rik van Riel	7851a45	2013-10-07 11:29:23 +0100	[diff] [blame]	700	/*
				701	* Copy NUMA information to the new page, to prevent over-eager
				702	* future migrations of this same page.
				703	*/
				704	cpupid = page_cpupid_xchg_last(page, -1);
				705	page_cpupid_xchg_last(newpage, cpupid);
				706
Hugh Dickins	e9995ef	2009-12-14 17:59:31 -0800	[diff] [blame]	707	ksm_migrate_page(newpage, page);
Hugh Dickins	c8d6553	2013-02-22 16:35:10 -0800	[diff] [blame]	708	/*
				709	* Please do not reorder this without considering how mm/ksm.c's
				710	* get_ksm_page() depends upon ksm_migrate_page() and PageSwapCache().
				711	*/
Naoya Horiguchi	b3b3a99	2015-04-15 16:13:15 -0700	[diff] [blame]	712	if (PageSwapCache(page))
				713	ClearPageSwapCache(page);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	714	ClearPagePrivate(page);
				715	set_page_private(page, 0);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	716
				717	/*
				718	* If any waiters have accumulated on the new page then
				719	* wake them up.
				720	*/
				721	if (PageWriteback(newpage))
				722	end_page_writeback(newpage);
Vlastimil Babka	d435edc	2016-03-15 14:56:15 -0700	[diff] [blame]	723
				724	copy_page_owner(page, newpage);
Johannes Weiner	74485cf	2016-03-15 14:57:54 -0700	[diff] [blame]	725
				726	mem_cgroup_migrate(page, newpage);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	727	}
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	728	EXPORT_SYMBOL(migrate_page_states);
				729
				730	void migrate_page_copy(struct page newpage, struct page page)
				731	{
				732	if (PageHuge(page) \|\| PageTransHuge(page))
				733	copy_huge_page(newpage, page);
				734	else
				735	copy_highpage(newpage, page);
				736
				737	migrate_page_states(newpage, page);
				738	}
Richard Weinberger	1118dce	2016-06-16 23:26:14 +0200	[diff] [blame]	739	EXPORT_SYMBOL(migrate_page_copy);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	740
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	741	/************************************************************
				742	* Migration functions
				743	***********************************************************/
				744
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	745	/*
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	746	* Common logic to directly migrate a single LRU page suitable for
David Howells	266cf65	2009-04-03 16:42:36 +0100	[diff] [blame]	747	* pages that do not use PagePrivate/PagePrivate2.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	748	*
				749	* Pages are locked upon entry and exit.
				750	*/
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	751	int migrate_page(struct address_space *mapping,
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	752	struct page newpage, struct page page,
				753	enum migrate_mode mode)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	754	{
				755	int rc;
				756
				757	BUG_ON(PageWriteback(page)); /* Writeback must be complete */
				758
Benjamin LaHaise	8e321fe	2013-12-21 17:56:08 -0500	[diff] [blame]	759	rc = migrate_page_move_mapping(mapping, newpage, page, NULL, mode, 0);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	760
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	761	if (rc != MIGRATEPAGE_SUCCESS)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	762	return rc;
				763
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	764	if (mode != MIGRATE_SYNC_NO_COPY)
				765	migrate_page_copy(newpage, page);
				766	else
				767	migrate_page_states(newpage, page);
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	768	return MIGRATEPAGE_SUCCESS;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	769	}
				770	EXPORT_SYMBOL(migrate_page);
				771
David Howells	9361401	2006-09-30 20:45:40 +0200	[diff] [blame]	772	#ifdef CONFIG_BLOCK
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	773	/*
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	774	* Migration function for pages with buffers. This function can only be used
				775	* if the underlying filesystem guarantees that no other references to "page"
				776	* exist.
				777	*/
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	778	int buffer_migrate_page(struct address_space *mapping,
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	779	struct page newpage, struct page page, enum migrate_mode mode)
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	780	{
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	781	struct buffer_head bh, head;
				782	int rc;
				783
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	784	if (!page_has_buffers(page))
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	785	return migrate_page(mapping, newpage, page, mode);
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	786
				787	head = page_buffers(page);
				788
Benjamin LaHaise	8e321fe	2013-12-21 17:56:08 -0500	[diff] [blame]	789	rc = migrate_page_move_mapping(mapping, newpage, page, head, mode, 0);
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	790
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	791	if (rc != MIGRATEPAGE_SUCCESS)
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	792	return rc;
				793
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	794	/*
				795	* In the async case, migrate_page_move_mapping locked the buffers
				796	* with an IRQ-safe spinlock held. In the sync case, the buffers
				797	* need to be locked now
				798	*/
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	799	if (mode != MIGRATE_ASYNC)
				800	BUG_ON(!buffer_migrate_lock_buffers(head, mode));
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	801
				802	ClearPagePrivate(page);
				803	set_page_private(newpage, page_private(page));
				804	set_page_private(page, 0);
				805	put_page(page);
				806	get_page(newpage);
				807
				808	bh = head;
				809	do {
				810	set_bh_page(bh, newpage, bh_offset(bh));
				811	bh = bh->b_this_page;
				812
				813	} while (bh != head);
				814
				815	SetPagePrivate(newpage);
				816
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	817	if (mode != MIGRATE_SYNC_NO_COPY)
				818	migrate_page_copy(newpage, page);
				819	else
				820	migrate_page_states(newpage, page);
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	821
				822	bh = head;
				823	do {
				824	unlock_buffer(bh);
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	825	put_bh(bh);
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	826	bh = bh->b_this_page;
				827
				828	} while (bh != head);
				829
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	830	return MIGRATEPAGE_SUCCESS;
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	831	}
				832	EXPORT_SYMBOL(buffer_migrate_page);
David Howells	9361401	2006-09-30 20:45:40 +0200	[diff] [blame]	833	#endif
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	834
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	835	/*
				836	* Writeback a page to clean the dirty state
				837	*/
				838	static int writeout(struct address_space mapping, struct page page)
				839	{
				840	struct writeback_control wbc = {
				841	.sync_mode = WB_SYNC_NONE,
				842	.nr_to_write = 1,
				843	.range_start = 0,
				844	.range_end = LLONG_MAX,
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	845	.for_reclaim = 1
				846	};
				847	int rc;
				848
				849	if (!mapping->a_ops->writepage)
				850	/* No write method for the address space */
				851	return -EINVAL;
				852
				853	if (!clear_page_dirty_for_io(page))
				854	/* Someone else already triggered a write */
				855	return -EAGAIN;
				856
				857	/*
				858	* A dirty page may imply that the underlying filesystem has
				859	* the page on some queue. So the page must be clean for
				860	* migration. Writeout may mean we loose the lock and the
				861	* page state is no longer what we checked for earlier.
				862	* At this point we know that the migration attempt cannot
				863	* be successful.
				864	*/
Kirill A. Shutemov	e388466	2016-03-17 14:20:07 -0700	[diff] [blame]	865	remove_migration_ptes(page, page, false);
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	866
				867	rc = mapping->a_ops->writepage(page, &wbc);
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	868
				869	if (rc != AOP_WRITEPAGE_ACTIVATE)
				870	/* unlocked. Relock */
				871	lock_page(page);
				872
Hugh Dickins	bda8550	2008-11-19 15:36:36 -0800	[diff] [blame]	873	return (rc < 0) ? -EIO : -EAGAIN;
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	874	}
				875
				876	/*
				877	* Default handling if a filesystem does not provide a migration function.
				878	*/
Christoph Lameter	8351a6e	2006-06-23 02:03:33 -0700	[diff] [blame]	879	static int fallback_migrate_page(struct address_space *mapping,
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	880	struct page newpage, struct page page, enum migrate_mode mode)
Christoph Lameter	8351a6e	2006-06-23 02:03:33 -0700	[diff] [blame]	881	{
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	882	if (PageDirty(page)) {
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	883	/* Only writeback pages in full synchronous migration */
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	884	switch (mode) {
				885	case MIGRATE_SYNC:
				886	case MIGRATE_SYNC_NO_COPY:
				887	break;
				888	default:
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	889	return -EBUSY;
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	890	}
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	891	return writeout(mapping, page);
Mel Gorman	b969c4a	2012-01-12 17:19:34 -0800	[diff] [blame]	892	}
Christoph Lameter	8351a6e	2006-06-23 02:03:33 -0700	[diff] [blame]	893
				894	/*
				895	* Buffers may be managed in a filesystem specific way.
				896	* We must have no buffers or drop them.
				897	*/
David Howells	266cf65	2009-04-03 16:42:36 +0100	[diff] [blame]	898	if (page_has_private(page) &&
Christoph Lameter	8351a6e	2006-06-23 02:03:33 -0700	[diff] [blame]	899	!try_to_release_page(page, GFP_KERNEL))
				900	return -EAGAIN;
				901
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	902	return migrate_page(mapping, newpage, page, mode);
Christoph Lameter	8351a6e	2006-06-23 02:03:33 -0700	[diff] [blame]	903	}
				904
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	905	/*
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	906	* Move a page to a newly allocated page
				907	* The page is locked and all ptes have been successfully removed.
				908	*
				909	* The new page will have replaced the old page if this function
				910	* is successful.
Lee Schermerhorn	894bc31	2008-10-18 20:26:39 -0700	[diff] [blame]	911	*
				912	* Return value:
				913	* < 0 - error code
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	914	* MIGRATEPAGE_SUCCESS - success
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	915	*/
Mel Gorman	3fe2011	2010-05-24 14:32:20 -0700	[diff] [blame]	916	static int move_to_new_page(struct page newpage, struct page page,
Hugh Dickins	5c3f9a6	2015-11-05 18:49:53 -0800	[diff] [blame]	917	enum migrate_mode mode)
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	918	{
				919	struct address_space *mapping;
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	920	int rc = -EAGAIN;
				921	bool is_lru = !__PageMovable(page);
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	922
Hugh Dickins	7db7671	2015-11-05 18:49:49 -0800	[diff] [blame]	923	VM_BUG_ON_PAGE(!PageLocked(page), page);
				924	VM_BUG_ON_PAGE(!PageLocked(newpage), newpage);
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	925
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	926	mapping = page_mapping(page);
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	927
				928	if (likely(is_lru)) {
				929	if (!mapping)
				930	rc = migrate_page(mapping, newpage, page, mode);
				931	else if (mapping->a_ops->migratepage)
				932	/*
				933	* Most pages have a mapping and most filesystems
				934	* provide a migratepage callback. Anonymous pages
				935	* are part of swap space which also has its own
				936	* migratepage callback. This is the most common path
				937	* for page migration.
				938	*/
				939	rc = mapping->a_ops->migratepage(mapping, newpage,
				940	page, mode);
				941	else
				942	rc = fallback_migrate_page(mapping, newpage,
				943	page, mode);
				944	} else {
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	945	/*
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	946	* In case of non-lru page, it could be released after
				947	* isolation step. In that case, we shouldn't try migration.
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	948	*/
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	949	VM_BUG_ON_PAGE(!PageIsolated(page), page);
				950	if (!PageMovable(page)) {
				951	rc = MIGRATEPAGE_SUCCESS;
				952	__ClearPageIsolated(page);
				953	goto out;
				954	}
				955
				956	rc = mapping->a_ops->migratepage(mapping, newpage,
				957	page, mode);
				958	WARN_ON_ONCE(rc == MIGRATEPAGE_SUCCESS &&
				959	!PageIsolated(page));
				960	}
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	961
Hugh Dickins	5c3f9a6	2015-11-05 18:49:53 -0800	[diff] [blame]	962	/*
				963	* When successful, old pagecache page->mapping must be cleared before
				964	* page is freed; but stats require that PageAnon be left as PageAnon.
				965	*/
				966	if (rc == MIGRATEPAGE_SUCCESS) {
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	967	if (__PageMovable(page)) {
				968	VM_BUG_ON_PAGE(!PageIsolated(page), page);
				969
				970	/*
				971	* We clear PG_movable under page_lock so any compactor
				972	* cannot try to migrate this page.
				973	*/
				974	__ClearPageIsolated(page);
				975	}
				976
				977	/*
				978	* Anonymous and movable page->mapping will be cleard by
				979	* free_pages_prepare so don't reset it here for keeping
				980	* the type to work PageAnon, for example.
				981	*/
				982	if (!PageMappingFlags(page))
Hugh Dickins	5c3f9a6	2015-11-05 18:49:53 -0800	[diff] [blame]	983	page->mapping = NULL;
Lars Persson	f70ddae	2019-03-28 20:44:28 -0700	[diff] [blame]	984
				985	if (unlikely(is_zone_device_page(newpage))) {
				986	if (is_device_public_page(newpage))
				987	flush_dcache_page(newpage);
				988	} else
				989	flush_dcache_page(newpage);
				990
Mel Gorman	3fe2011	2010-05-24 14:32:20 -0700	[diff] [blame]	991	}
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	992	out:
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	993	return rc;
				994	}
				995
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	996	static int __unmap_and_move(struct page page, struct page newpage,
Hugh Dickins	9c620e2	2013-02-22 16:35:14 -0800	[diff] [blame]	997	int force, enum migrate_mode mode)
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	998	{
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	999	int rc = -EAGAIN;
Hugh Dickins	2ebba6b	2014-12-12 16:56:19 -0800	[diff] [blame]	1000	int page_was_mapped = 0;
Mel Gorman	3f6c827	2010-05-24 14:32:17 -0700	[diff] [blame]	1001	struct anon_vma *anon_vma = NULL;
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	1002	bool is_lru = !__PageMovable(page);
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	1003
Nick Piggin	529ae9a	2008-08-02 12:01:03 +0200	[diff] [blame]	1004	if (!trylock_page(page)) {
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	1005	if (!force \|\| mode == MIGRATE_ASYNC)
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1006	goto out;
Mel Gorman	3e7d344	2011-01-13 15:45:56 -0800	[diff] [blame]	1007
				1008	/*
				1009	* It's not safe for direct compaction to call lock_page.
				1010	* For example, during page readahead pages are added locked
				1011	* to the LRU. Later, when the IO completes the pages are
				1012	* marked uptodate and unlocked. However, the queueing
				1013	* could be merging multiple pages for one bio (e.g.
				1014	* mpage_readpages). If an allocation happens for the
				1015	* second or third page, the process can end up locking
				1016	* the same page twice and deadlocking. Rather than
				1017	* trying to be clever about what pages can be locked,
				1018	* avoid the use of lock_page for direct compaction
				1019	* altogether.
				1020	*/
				1021	if (current->flags & PF_MEMALLOC)
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1022	goto out;
Mel Gorman	3e7d344	2011-01-13 15:45:56 -0800	[diff] [blame]	1023
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1024	lock_page(page);
				1025	}
				1026
				1027	if (PageWriteback(page)) {
Andrea Arcangeli	11bc82d	2011-03-22 16:33:11 -0700	[diff] [blame]	1028	/*
Jianguo Wu	fed5b64	2013-04-29 15:07:58 -0700	[diff] [blame]	1029	* Only in the case of a full synchronous migration is it
Mel Gorman	a6bc32b	2012-01-12 17:19:43 -0800	[diff] [blame]	1030	* necessary to wait for PageWriteback. In the async case,
				1031	* the retry loop is too short and in the sync-light case,
				1032	* the overhead of stalling is too much
Andrea Arcangeli	11bc82d	2011-03-22 16:33:11 -0700	[diff] [blame]	1033	*/
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	1034	switch (mode) {
				1035	case MIGRATE_SYNC:
				1036	case MIGRATE_SYNC_NO_COPY:
				1037	break;
				1038	default:
Andrea Arcangeli	11bc82d	2011-03-22 16:33:11 -0700	[diff] [blame]	1039	rc = -EBUSY;
Johannes Weiner	0a31bc9	2014-08-08 14:19:22 -0700	[diff] [blame]	1040	goto out_unlock;
Andrea Arcangeli	11bc82d	2011-03-22 16:33:11 -0700	[diff] [blame]	1041	}
				1042	if (!force)
Johannes Weiner	0a31bc9	2014-08-08 14:19:22 -0700	[diff] [blame]	1043	goto out_unlock;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1044	wait_on_page_writeback(page);
				1045	}
Hugh Dickins	03f15c8	2015-11-05 18:49:56 -0800	[diff] [blame]	1046
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1047	/*
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	1048	* By try_to_unmap(), page->mapcount goes down to 0 here. In this case,
				1049	* we cannot notice that anon_vma is freed while we migrates a page.
Hugh Dickins	1ce82b6	2011-01-13 15:47:30 -0800	[diff] [blame]	1050	* This get_anon_vma() delays freeing anon_vma pointer until the end
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	1051	* of migration. File cache pages are no problem because of page_lock()
KAMEZAWA Hiroyuki	989f89c	2007-08-30 23:56:21 -0700	[diff] [blame]	1052	* File Caches may use write_page() or lock_page() in migration, then,
				1053	* just care Anon page here.
Hugh Dickins	03f15c8	2015-11-05 18:49:56 -0800	[diff] [blame]	1054	*
				1055	* Only page_get_anon_vma() understands the subtleties of
				1056	* getting a hold on an anon_vma from outside one of its mms.
				1057	* But if we cannot get anon_vma, then we won't need it anyway,
				1058	* because that implies that the anon page is no longer mapped
				1059	* (and cannot be remapped so long as we hold the page lock).
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1060	*/
Hugh Dickins	03f15c8	2015-11-05 18:49:56 -0800	[diff] [blame]	1061	if (PageAnon(page) && !PageKsm(page))
Peter Zijlstra	746b18d	2011-05-24 17:12:10 -0700	[diff] [blame]	1062	anon_vma = page_get_anon_vma(page);
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	1063
Hugh Dickins	7db7671	2015-11-05 18:49:49 -0800	[diff] [blame]	1064	/*
				1065	* Block others from accessing the new page when we get around to
				1066	* establishing additional references. We are usually the only one
				1067	* holding a reference to newpage at this point. We used to have a BUG
				1068	* here if trylock_page(newpage) fails, but would like to allow for
				1069	* cases where there might be a race with the previous use of newpage.
				1070	* This is much like races on refcount of oldpage: just don't BUG().
				1071	*/
				1072	if (unlikely(!trylock_page(newpage)))
				1073	goto out_unlock;
				1074
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	1075	if (unlikely(!is_lru)) {
				1076	rc = move_to_new_page(newpage, page, mode);
				1077	goto out_unlock_both;
				1078	}
				1079
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	1080	/*
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	1081	* Corner case handling:
				1082	* 1. When a new swap-cache page is read into, it is added to the LRU
				1083	* and treated as swapcache but it has no rmap yet.
				1084	* Calling try_to_unmap() against a page->mapping==NULL page will
				1085	* trigger a BUG. So handle it here.
				1086	* 2. An orphaned page (see truncate_complete_page) might have
				1087	* fs-private metadata. The page can be picked up due to memory
				1088	* offlining. Everywhere else except page reclaim, the page is
				1089	* invisible to the vm, so the page can not be migrated. So try to
				1090	* free the metadata, so the page can be freed.
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	1091	*/
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	1092	if (!page->mapping) {
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	1093	VM_BUG_ON_PAGE(PageAnon(page), page);
Hugh Dickins	1ce82b6	2011-01-13 15:47:30 -0800	[diff] [blame]	1094	if (page_has_private(page)) {
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	1095	try_to_free_buffers(page);
Hugh Dickins	7db7671	2015-11-05 18:49:49 -0800	[diff] [blame]	1096	goto out_unlock_both;
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	1097	}
Hugh Dickins	7db7671	2015-11-05 18:49:49 -0800	[diff] [blame]	1098	} else if (page_mapped(page)) {
				1099	/* Establish migration ptes */
Hugh Dickins	03f15c8	2015-11-05 18:49:56 -0800	[diff] [blame]	1100	VM_BUG_ON_PAGE(PageAnon(page) && !PageKsm(page) && !anon_vma,
				1101	page);
Hugh Dickins	2ebba6b	2014-12-12 16:56:19 -0800	[diff] [blame]	1102	try_to_unmap(page,
Wanpeng Li	da1b13c	2015-09-08 15:03:27 -0700	[diff] [blame]	1103	TTU_MIGRATION\|TTU_IGNORE_MLOCK\|TTU_IGNORE_ACCESS);
Hugh Dickins	2ebba6b	2014-12-12 16:56:19 -0800	[diff] [blame]	1104	page_was_mapped = 1;
				1105	}
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	1106
Christoph Lameter	e6a1530	2006-06-25 05:46:49 -0700	[diff] [blame]	1107	if (!page_mapped(page))
Hugh Dickins	5c3f9a6	2015-11-05 18:49:53 -0800	[diff] [blame]	1108	rc = move_to_new_page(newpage, page, mode);
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1109
Hugh Dickins	5c3f9a6	2015-11-05 18:49:53 -0800	[diff] [blame]	1110	if (page_was_mapped)
				1111	remove_migration_ptes(page,
Kirill A. Shutemov	e388466	2016-03-17 14:20:07 -0700	[diff] [blame]	1112	rc == MIGRATEPAGE_SUCCESS ? newpage : page, false);
Mel Gorman	3f6c827	2010-05-24 14:32:17 -0700	[diff] [blame]	1113
Hugh Dickins	7db7671	2015-11-05 18:49:49 -0800	[diff] [blame]	1114	out_unlock_both:
				1115	unlock_page(newpage);
				1116	out_unlock:
Mel Gorman	3f6c827	2010-05-24 14:32:17 -0700	[diff] [blame]	1117	/* Drop an anon_vma reference if we took one */
Rik van Riel	7654506	2010-08-09 17:18:41 -0700	[diff] [blame]	1118	if (anon_vma)
Peter Zijlstra	9e60109	2011-03-22 16:32:46 -0700	[diff] [blame]	1119	put_anon_vma(anon_vma);
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1120	unlock_page(page);
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1121	out:
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1122	/*
				1123	* If migration is successful, decrease refcount of the newpage
				1124	* which will not free the page because new page owner increased
				1125	* refcounter. As well, if it is LRU page, add the page to LRU
David Hildenbrand	214dea1	2019-02-01 14:21:19 -0800	[diff] [blame]	1126	* list in here. Use the old state of the isolated source page to
				1127	* determine if we migrated a LRU page. newpage was already unlocked
				1128	* and possibly modified by its owner - don't rely on the page
				1129	* state.
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1130	*/
				1131	if (rc == MIGRATEPAGE_SUCCESS) {
David Hildenbrand	214dea1	2019-02-01 14:21:19 -0800	[diff] [blame]	1132	if (unlikely(!is_lru))
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1133	put_page(newpage);
				1134	else
				1135	putback_lru_page(newpage);
				1136	}
				1137
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1138	return rc;
				1139	}
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	1140
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1141	/*
Geert Uytterhoeven	ef2a515	2015-04-14 15:44:22 -0700	[diff] [blame]	1142	* gcc 4.7 and 4.8 on arm get an ICEs when inlining unmap_and_move(). Work
				1143	* around it.
				1144	*/
Nick Desaulniers	815f0dd	2018-08-22 16:37:24 -0700	[diff] [blame]	1145	#if defined(CONFIG_ARM) && \
				1146	defined(GCC_VERSION) && GCC_VERSION < 40900 && GCC_VERSION >= 40700
Geert Uytterhoeven	ef2a515	2015-04-14 15:44:22 -0700	[diff] [blame]	1147	#define ICE_noinline noinline
				1148	#else
				1149	#define ICE_noinline
				1150	#endif
				1151
				1152	/*
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1153	* Obtain the lock on page, remove all ptes and migrate the page
				1154	* to the newly allocated page in newpage.
				1155	*/
Geert Uytterhoeven	ef2a515	2015-04-14 15:44:22 -0700	[diff] [blame]	1156	static ICE_noinline int unmap_and_move(new_page_t get_new_page,
				1157	free_page_t put_new_page,
				1158	unsigned long private, struct page *page,
Naoya Horiguchi	add05ce	2015-06-24 16:56:50 -0700	[diff] [blame]	1159	int force, enum migrate_mode mode,
				1160	enum migrate_reason reason)
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1161	{
Hugh Dickins	2def742	2015-11-05 18:49:46 -0800	[diff] [blame]	1162	int rc = MIGRATEPAGE_SUCCESS;
Hugh Dickins	2def742	2015-11-05 18:49:46 -0800	[diff] [blame]	1163	struct page *newpage;
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1164
Michal Hocko	94723aa	2018-04-10 16:30:07 -0700	[diff] [blame]	1165	if (!thp_migration_supported() && PageTransHuge(page))
				1166	return -ENOMEM;
				1167
Michal Hocko	666feb2	2018-04-10 16:30:03 -0700	[diff] [blame]	1168	newpage = get_new_page(page, private);
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1169	if (!newpage)
				1170	return -ENOMEM;
				1171
				1172	if (page_count(page) == 1) {
				1173	/* page was freed from under us. So we are done. */
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1174	ClearPageActive(page);
				1175	ClearPageUnevictable(page);
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	1176	if (unlikely(__PageMovable(page))) {
				1177	lock_page(page);
				1178	if (!PageMovable(page))
				1179	__ClearPageIsolated(page);
				1180	unlock_page(page);
				1181	}
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1182	if (put_new_page)
				1183	put_new_page(newpage, private);
				1184	else
				1185	put_page(newpage);
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1186	goto out;
				1187	}
				1188
Hugh Dickins	9c620e2	2013-02-22 16:35:14 -0800	[diff] [blame]	1189	rc = __unmap_and_move(page, newpage, force, mode);
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1190	if (rc == MIGRATEPAGE_SUCCESS)
Vlastimil Babka	7cd12b4	2016-03-15 14:56:18 -0700	[diff] [blame]	1191	set_page_owner_migrate_reason(newpage, reason);
Rafael Aquini	bf6bddf	2012-12-11 16:02:42 -0800	[diff] [blame]	1192
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1193	out:
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1194	if (rc != -EAGAIN) {
Minchan Kim	0dabec9	2011-10-31 17:06:57 -0700	[diff] [blame]	1195	/*
				1196	* A page that has been migrated has all references
				1197	* removed and will be freed. A page that has not been
				1198	* migrated will have kepts its references and be
				1199	* restored.
				1200	*/
				1201	list_del(&page->lru);
Ming Ling	6afcf8e	2016-12-12 16:42:26 -0800	[diff] [blame]	1202
				1203	/*
				1204	* Compaction can migrate also non-LRU pages which are
				1205	* not accounted to NR_ISOLATED_*. They can be recognized
				1206	* as __PageMovable
				1207	*/
				1208	if (likely(!__PageMovable(page)))
Naoya Horiguchi	e8db67e	2017-09-08 16:11:12 -0700	[diff] [blame]	1209	mod_node_page_state(page_pgdat(page), NR_ISOLATED_ANON +
				1210	page_is_file_cache(page), -hpage_nr_pages(page));
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1211	}
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1212
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	1213	/*
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1214	* If migration is successful, releases reference grabbed during
				1215	* isolation. Otherwise, restore the page to right list unless
				1216	* we want to retry.
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	1217	*/
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1218	if (rc == MIGRATEPAGE_SUCCESS) {
				1219	put_page(page);
				1220	if (reason == MR_MEMORY_FAILURE) {
				1221	/*
				1222	* Set PG_HWPoison on just freed page
				1223	* intentionally. Although it's rather weird,
				1224	* it's how HWPoison flag works at the moment.
				1225	*/
Naoya Horiguchi	d4ae991	2018-08-23 17:00:42 -0700	[diff] [blame]	1226	if (set_hwpoison_free_buddy_page(page))
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1227	num_poisoned_pages_inc();
				1228	}
				1229	} else {
Minchan Kim	bda807d	2016-07-26 15:23:05 -0700	[diff] [blame]	1230	if (rc != -EAGAIN) {
				1231	if (likely(!__PageMovable(page))) {
				1232	putback_lru_page(page);
				1233	goto put_new;
				1234	}
				1235
				1236	lock_page(page);
				1237	if (PageMovable(page))
				1238	putback_movable_page(page);
				1239	else
				1240	__ClearPageIsolated(page);
				1241	unlock_page(page);
				1242	put_page(page);
				1243	}
				1244	put_new:
Minchan Kim	c6c919e	2016-07-26 15:23:02 -0700	[diff] [blame]	1245	if (put_new_page)
				1246	put_new_page(newpage, private);
				1247	else
				1248	put_page(newpage);
				1249	}
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1250
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1251	return rc;
				1252	}
				1253
				1254	/*
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1255	* Counterpart of unmap_and_move_page() for hugepage migration.
				1256	*
				1257	* This function doesn't wait the completion of hugepage I/O
				1258	* because there is no race between I/O and migration for hugepage.
				1259	* Note that currently hugepage I/O occurs only in direct I/O
				1260	* where no lock is held and PG_writeback is irrelevant,
				1261	* and writeback status of all subpages are counted in the reference
				1262	* count of the head page (i.e. if all subpages of a 2MB hugepage are
				1263	* under direct I/O, the reference of the head page is 512 and a bit more.)
				1264	* This means that when we try to migrate hugepage whose subpages are
				1265	* doing direct I/O, some references remain after try_to_unmap() and
				1266	* hugepage migration fails without data corruption.
				1267	*
				1268	* There is also no race when direct I/O is issued on the page under migration,
				1269	* because then pte is replaced with migration swap entry and direct I/O code
				1270	* will wait in the page fault for migration to complete.
				1271	*/
				1272	static int unmap_and_move_huge_page(new_page_t get_new_page,
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1273	free_page_t put_new_page, unsigned long private,
				1274	struct page *hpage, int force,
Vlastimil Babka	7cd12b4	2016-03-15 14:56:18 -0700	[diff] [blame]	1275	enum migrate_mode mode, int reason)
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1276	{
Hugh Dickins	2def742	2015-11-05 18:49:46 -0800	[diff] [blame]	1277	int rc = -EAGAIN;
Hugh Dickins	2ebba6b	2014-12-12 16:56:19 -0800	[diff] [blame]	1278	int page_was_mapped = 0;
Joonsoo Kim	32665f2	2014-01-21 15:51:15 -0800	[diff] [blame]	1279	struct page *new_hpage;
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1280	struct anon_vma *anon_vma = NULL;
				1281
Naoya Horiguchi	83467ef	2013-09-11 14:22:11 -0700	[diff] [blame]	1282	/*
				1283	* Movability of hugepages depends on architectures and hugepage size.
				1284	* This check is necessary because some callers of hugepage migration
				1285	* like soft offline and memory hotremove don't walk through page
				1286	* tables or check whether the hugepage is pmd-based or not before
				1287	* kicking migration.
				1288	*/
Naoya Horiguchi	100873d	2014-06-04 16:10:56 -0700	[diff] [blame]	1289	if (!hugepage_migration_supported(page_hstate(hpage))) {
Joonsoo Kim	32665f2	2014-01-21 15:51:15 -0800	[diff] [blame]	1290	putback_active_hugepage(hpage);
Naoya Horiguchi	83467ef	2013-09-11 14:22:11 -0700	[diff] [blame]	1291	return -ENOSYS;
Joonsoo Kim	32665f2	2014-01-21 15:51:15 -0800	[diff] [blame]	1292	}
Naoya Horiguchi	83467ef	2013-09-11 14:22:11 -0700	[diff] [blame]	1293
Michal Hocko	666feb2	2018-04-10 16:30:03 -0700	[diff] [blame]	1294	new_hpage = get_new_page(hpage, private);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1295	if (!new_hpage)
				1296	return -ENOMEM;
				1297
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1298	if (!trylock_page(hpage)) {
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	1299	if (!force)
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1300	goto out;
Jérôme Glisse	2916ecc	2017-09-08 16:12:06 -0700	[diff] [blame]	1301	switch (mode) {
				1302	case MIGRATE_SYNC:
				1303	case MIGRATE_SYNC_NO_COPY:
				1304	break;
				1305	default:
				1306	goto out;
				1307	}
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1308	lock_page(hpage);
				1309	}
				1310
Mike Kravetz	527cabf	2019-02-28 16:22:02 -0800	[diff] [blame]	1311	/*
				1312	* Check for pages which are in the process of being freed. Without
				1313	* page_mapping() set, hugetlbfs specific move page routine will not
				1314	* be called and we could leak usage counts for subpools.
				1315	*/
				1316	if (page_private(hpage) && !page_mapping(hpage)) {
				1317	rc = -EBUSY;
				1318	goto out_unlock;
				1319	}
				1320
Peter Zijlstra	746b18d	2011-05-24 17:12:10 -0700	[diff] [blame]	1321	if (PageAnon(hpage))
				1322	anon_vma = page_get_anon_vma(hpage);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1323
Hugh Dickins	7db7671	2015-11-05 18:49:49 -0800	[diff] [blame]	1324	if (unlikely(!trylock_page(new_hpage)))
				1325	goto put_anon;
				1326
Hugh Dickins	2ebba6b	2014-12-12 16:56:19 -0800	[diff] [blame]	1327	if (page_mapped(hpage)) {
				1328	try_to_unmap(hpage,
				1329	TTU_MIGRATION\|TTU_IGNORE_MLOCK\|TTU_IGNORE_ACCESS);
				1330	page_was_mapped = 1;
				1331	}
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1332
				1333	if (!page_mapped(hpage))
Hugh Dickins	5c3f9a6	2015-11-05 18:49:53 -0800	[diff] [blame]	1334	rc = move_to_new_page(new_hpage, hpage, mode);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1335
Hugh Dickins	5c3f9a6	2015-11-05 18:49:53 -0800	[diff] [blame]	1336	if (page_was_mapped)
				1337	remove_migration_ptes(hpage,
Kirill A. Shutemov	e388466	2016-03-17 14:20:07 -0700	[diff] [blame]	1338	rc == MIGRATEPAGE_SUCCESS ? new_hpage : hpage, false);
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1339
Hugh Dickins	7db7671	2015-11-05 18:49:49 -0800	[diff] [blame]	1340	unlock_page(new_hpage);
				1341
				1342	put_anon:
Hugh Dickins	fd4a466	2011-01-13 15:47:31 -0800	[diff] [blame]	1343	if (anon_vma)
Peter Zijlstra	9e60109	2011-03-22 16:32:46 -0700	[diff] [blame]	1344	put_anon_vma(anon_vma);
Aneesh Kumar K.V	8e6ac7f	2012-07-31 16:42:27 -0700	[diff] [blame]	1345
Hugh Dickins	2def742	2015-11-05 18:49:46 -0800	[diff] [blame]	1346	if (rc == MIGRATEPAGE_SUCCESS) {
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	1347	move_hugetlb_state(hpage, new_hpage, reason);
Hugh Dickins	2def742	2015-11-05 18:49:46 -0800	[diff] [blame]	1348	put_new_page = NULL;
				1349	}
Aneesh Kumar K.V	8e6ac7f	2012-07-31 16:42:27 -0700	[diff] [blame]	1350
Mike Kravetz	527cabf	2019-02-28 16:22:02 -0800	[diff] [blame]	1351	out_unlock:
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1352	unlock_page(hpage);
Hillf Danton	0976133	2011-12-08 14:34:20 -0800	[diff] [blame]	1353	out:
Naoya Horiguchi	b8ec1ce	2013-09-11 14:22:01 -0700	[diff] [blame]	1354	if (rc != -EAGAIN)
				1355	putback_active_hugepage(hpage);
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1356
				1357	/*
				1358	* If migration was not successful and there's a freeing callback, use
				1359	* it. Otherwise, put_page() will drop the reference grabbed during
				1360	* isolation.
				1361	*/
Hugh Dickins	2def742	2015-11-05 18:49:46 -0800	[diff] [blame]	1362	if (put_new_page)
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1363	put_new_page(new_hpage, private);
				1364	else
Naoya Horiguchi	3aaa76e	2015-09-22 14:59:14 -0700	[diff] [blame]	1365	putback_active_hugepage(new_hpage);
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1366
Naoya Horiguchi	290408d	2010-09-08 10:19:35 +0900	[diff] [blame]	1367	return rc;
				1368	}
				1369
				1370	/*
Srivatsa S. Bhat	c73e5c9	2013-04-29 15:08:16 -0700	[diff] [blame]	1371	* migrate_pages - migrate the pages specified in a list, to the free pages
				1372	* supplied as the target for the page migration
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1373	*
Srivatsa S. Bhat	c73e5c9	2013-04-29 15:08:16 -0700	[diff] [blame]	1374	* @from: The list of pages to be migrated.
				1375	* @get_new_page: The function used to allocate free pages to be used
				1376	* as the target of the page migration.
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1377	* @put_new_page: The function used to free target pages if migration
				1378	* fails, or NULL if no special handling is necessary.
Srivatsa S. Bhat	c73e5c9	2013-04-29 15:08:16 -0700	[diff] [blame]	1379	* @private: Private data to be passed on to get_new_page()
				1380	* @mode: The migration mode that specifies the constraints for
				1381	* page migration, if any.
				1382	* @reason: The reason for page migration.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1383	*
Srivatsa S. Bhat	c73e5c9	2013-04-29 15:08:16 -0700	[diff] [blame]	1384	* The function returns after 10 attempts or if no pages are movable any more
				1385	* because the list has become empty or no retryable pages exist any more.
Hugh Dickins	14e0f9b	2015-11-05 18:49:43 -0800	[diff] [blame]	1386	* The caller should call putback_movable_pages() to return pages to the LRU
Minchan Kim	28bd657	2011-01-25 15:07:26 -0800	[diff] [blame]	1387	* or free list only if ret != 0.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1388	*
Srivatsa S. Bhat	c73e5c9	2013-04-29 15:08:16 -0700	[diff] [blame]	1389	* Returns the number of pages that were not migrated, or an error code.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1390	*/
Hugh Dickins	9c620e2	2013-02-22 16:35:14 -0800	[diff] [blame]	1391	int migrate_pages(struct list_head *from, new_page_t get_new_page,
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1392	free_page_t put_new_page, unsigned long private,
				1393	enum migrate_mode mode, int reason)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1394	{
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1395	int retry = 1;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1396	int nr_failed = 0;
Mel Gorman	5647bc2	2012-10-19 10:46:20 +0100	[diff] [blame]	1397	int nr_succeeded = 0;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1398	int pass = 0;
				1399	struct page *page;
				1400	struct page *page2;
				1401	int swapwrite = current->flags & PF_SWAPWRITE;
				1402	int rc;
				1403
				1404	if (!swapwrite)
				1405	current->flags \|= PF_SWAPWRITE;
				1406
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1407	for(pass = 0; pass < 10 && retry; pass++) {
				1408	retry = 0;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1409
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1410	list_for_each_entry_safe(page, page2, from, lru) {
Michal Hocko	94723aa	2018-04-10 16:30:07 -0700	[diff] [blame]	1411	retry:
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1412	cond_resched();
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1413
Naoya Horiguchi	31caf66	2013-09-11 14:21:59 -0700	[diff] [blame]	1414	if (PageHuge(page))
				1415	rc = unmap_and_move_huge_page(get_new_page,
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1416	put_new_page, private, page,
Vlastimil Babka	7cd12b4	2016-03-15 14:56:18 -0700	[diff] [blame]	1417	pass > 2, mode, reason);
Naoya Horiguchi	31caf66	2013-09-11 14:21:59 -0700	[diff] [blame]	1418	else
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1419	rc = unmap_and_move(get_new_page, put_new_page,
Naoya Horiguchi	add05ce	2015-06-24 16:56:50 -0700	[diff] [blame]	1420	private, page, pass > 2, mode,
				1421	reason);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1422
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1423	switch(rc) {
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	1424	case -ENOMEM:
Michal Hocko	94723aa	2018-04-10 16:30:07 -0700	[diff] [blame]	1425	/*
				1426	* THP migration might be unsupported or the
				1427	* allocation could've failed so we should
				1428	* retry on the same page with the THP split
				1429	* to base pages.
				1430	*
				1431	* Head page is retried immediately and tail
				1432	* pages are added to the tail of the list so
				1433	* we encounter them after the rest of the list
				1434	* is processed.
				1435	*/
Anshuman Khandual	e6112fc	2018-10-05 15:51:51 -0700	[diff] [blame]	1436	if (PageTransHuge(page) && !PageHuge(page)) {
Michal Hocko	94723aa	2018-04-10 16:30:07 -0700	[diff] [blame]	1437	lock_page(page);
				1438	rc = split_huge_page_to_list(page, from);
				1439	unlock_page(page);
				1440	if (!rc) {
				1441	list_safe_reset_next(page, page2, lru);
				1442	goto retry;
				1443	}
				1444	}
David Rientjes	dfef2ef	2016-05-20 16:59:05 -0700	[diff] [blame]	1445	nr_failed++;
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	1446	goto out;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1447	case -EAGAIN:
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	1448	retry++;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1449	break;
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	1450	case MIGRATEPAGE_SUCCESS:
Mel Gorman	5647bc2	2012-10-19 10:46:20 +0100	[diff] [blame]	1451	nr_succeeded++;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1452	break;
				1453	default:
Naoya Horiguchi	354a336	2014-01-21 15:51:14 -0800	[diff] [blame]	1454	/*
				1455	* Permanent failure (-EBUSY, -ENOSYS, etc.):
				1456	* unlike -EAGAIN case, the failed page is
				1457	* removed from migration page list and not
				1458	* retried in the next outer loop.
				1459	*/
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	1460	nr_failed++;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	1461	break;
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	1462	}
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1463	}
				1464	}
Vlastimil Babka	f2f81fb	2015-11-05 18:47:03 -0800	[diff] [blame]	1465	nr_failed += retry;
				1466	rc = nr_failed;
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	1467	out:
Mel Gorman	5647bc2	2012-10-19 10:46:20 +0100	[diff] [blame]	1468	if (nr_succeeded)
				1469	count_vm_events(PGMIGRATE_SUCCESS, nr_succeeded);
				1470	if (nr_failed)
				1471	count_vm_events(PGMIGRATE_FAIL, nr_failed);
Mel Gorman	7b2a2d4	2012-10-19 14:07:31 +0100	[diff] [blame]	1472	trace_mm_migrate_pages(nr_succeeded, nr_failed, mode, reason);
				1473
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1474	if (!swapwrite)
				1475	current->flags &= ~PF_SWAPWRITE;
				1476
Rafael Aquini	78bd520	2012-12-11 16:02:31 -0800	[diff] [blame]	1477	return rc;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1478	}
				1479
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1480	#ifdef CONFIG_NUMA
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1481
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1482	static int store_status(int __user *status, int start, int value, int nr)
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1483	{
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1484	while (nr-- > 0) {
				1485	if (put_user(value, status + start))
				1486	return -EFAULT;
				1487	start++;
				1488	}
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1489
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1490	return 0;
				1491	}
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1492
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1493	static int do_move_pages_to_node(struct mm_struct *mm,
				1494	struct list_head *pagelist, int node)
				1495	{
				1496	int err;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1497
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1498	if (list_empty(pagelist))
				1499	return 0;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1500
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1501	err = migrate_pages(pagelist, alloc_new_node_page, NULL, node,
				1502	MIGRATE_SYNC, MR_SYSCALL);
				1503	if (err)
				1504	putback_movable_pages(pagelist);
				1505	return err;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1506	}
				1507
				1508	/*
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1509	* Resolves the given address to a struct page, isolates it from the LRU and
				1510	* puts it to the given pagelist.
Yang Shi	146a44d	2020-01-04 12:59:46 -0800	[diff] [blame]	1511	* Returns:
				1512	* errno - if the page cannot be found/isolated
				1513	* 0 - when it doesn't have to be migrated because it is already on the
				1514	* target node
				1515	* 1 - when it has been queued
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1516	*/
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1517	static int add_page_for_migration(struct mm_struct *mm, unsigned long addr,
				1518	int node, struct list_head *pagelist, bool migrate_all)
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1519	{
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1520	struct vm_area_struct *vma;
				1521	struct page *page;
				1522	unsigned int follflags;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1523	int err;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1524
				1525	down_read(&mm->mmap_sem);
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1526	err = -EFAULT;
				1527	vma = find_vma(mm, addr);
				1528	if (!vma \|\| addr < vma->vm_start \|\| !vma_migratable(vma))
				1529	goto out;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1530
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1531	/* FOLL_DUMP to ignore special (like zero) pages */
				1532	follflags = FOLL_GET \| FOLL_DUMP;
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1533	page = follow_page(vma, addr, follflags);
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1534
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1535	err = PTR_ERR(page);
				1536	if (IS_ERR(page))
				1537	goto out;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1538
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1539	err = -ENOENT;
				1540	if (!page)
				1541	goto out;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1542
Brice Goglin	e78bbfa	2008-10-18 20:27:15 -0700	[diff] [blame]	1543	err = 0;
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1544	if (page_to_nid(page) == node)
				1545	goto out_putpage;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1546
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1547	err = -EACCES;
				1548	if (page_mapcount(page) > 1 && !migrate_all)
				1549	goto out_putpage;
				1550
				1551	if (PageHuge(page)) {
				1552	if (PageHead(page)) {
				1553	isolate_huge_page(page, pagelist);
Yang Shi	146a44d	2020-01-04 12:59:46 -0800	[diff] [blame]	1554	err = 1;
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1555	}
				1556	} else {
				1557	struct page *head;
				1558
				1559	head = compound_head(page);
				1560	err = isolate_lru_page(head);
				1561	if (err)
				1562	goto out_putpage;
				1563
Yang Shi	146a44d	2020-01-04 12:59:46 -0800	[diff] [blame]	1564	err = 1;
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1565	list_add_tail(&head->lru, pagelist);
				1566	mod_node_page_state(page_pgdat(head),
				1567	NR_ISOLATED_ANON + page_is_file_cache(head),
				1568	hpage_nr_pages(head));
				1569	}
				1570	out_putpage:
				1571	/*
				1572	* Either remove the duplicate refcount from
				1573	* isolate_lru_page() or drop the page ref if it was
				1574	* not isolated.
				1575	*/
				1576	put_page(page);
				1577	out:
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1578	up_read(&mm->mmap_sem);
				1579	return err;
				1580	}
				1581
				1582	/*
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1583	* Migrate an array of page address onto an array of nodes and fill
				1584	* the corresponding array of status.
				1585	*/
Christoph Lameter	3268c63	2012-03-21 16:34:06 -0700	[diff] [blame]	1586	static int do_pages_move(struct mm_struct *mm, nodemask_t task_nodes,
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1587	unsigned long nr_pages,
				1588	const void __user * __user *pages,
				1589	const int __user *nodes,
				1590	int __user *status, int flags)
				1591	{
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1592	int current_node = NUMA_NO_NODE;
				1593	LIST_HEAD(pagelist);
				1594	int start, i;
				1595	int err = 0, err1;
Brice Goglin	35282a2	2009-06-16 15:32:43 -0700	[diff] [blame]	1596
				1597	migrate_prep();
				1598
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1599	for (i = start = 0; i < nr_pages; i++) {
				1600	const void __user *p;
				1601	unsigned long addr;
				1602	int node;
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1603
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1604	err = -EFAULT;
				1605	if (get_user(p, pages + i))
				1606	goto out_flush;
				1607	if (get_user(node, nodes + i))
				1608	goto out_flush;
				1609	addr = (unsigned long)p;
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1610
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1611	err = -ENODEV;
				1612	if (node < 0 \|\| node >= MAX_NUMNODES)
				1613	goto out_flush;
				1614	if (!node_state(node, N_MEMORY))
				1615	goto out_flush;
Brice Goglin	3140a22	2009-01-06 14:38:57 -0800	[diff] [blame]	1616
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1617	err = -EACCES;
				1618	if (!node_isset(node, task_nodes))
				1619	goto out_flush;
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1620
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1621	if (current_node == NUMA_NO_NODE) {
				1622	current_node = node;
				1623	start = i;
				1624	} else if (node != current_node) {
				1625	err = do_move_pages_to_node(mm, &pagelist, current_node);
Yang Shi	0730292	2020-01-30 22:11:24 -0800	[diff] [blame]	1626	if (err) {
				1627	/*
				1628	* Positive err means the number of failed
				1629	* pages to migrate. Since we are going to
				1630	* abort and return the number of non-migrated
				1631	* pages, so need to incude the rest of the
				1632	* nr_pages that have not been attempted as
				1633	* well.
				1634	*/
				1635	if (err > 0)
				1636	err += nr_pages - i - 1;
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1637	goto out;
Yang Shi	0730292	2020-01-30 22:11:24 -0800	[diff] [blame]	1638	}
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1639	err = store_status(status, start, current_node, i - start);
				1640	if (err)
				1641	goto out;
				1642	start = i;
				1643	current_node = node;
Brice Goglin	3140a22	2009-01-06 14:38:57 -0800	[diff] [blame]	1644	}
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1645
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1646	/*
				1647	* Errors in the page lookup or isolation are not fatal and we simply
				1648	* report them via status
				1649	*/
				1650	err = add_page_for_migration(mm, addr, current_node,
				1651	&pagelist, flags & MPOL_MF_MOVE_ALL);
Yang Shi	146a44d	2020-01-04 12:59:46 -0800	[diff] [blame]	1652
				1653	if (!err) {
				1654	/* The page is already on the target node */
				1655	err = store_status(status, i, current_node, 1);
				1656	if (err)
				1657	goto out_flush;
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1658	continue;
Yang Shi	146a44d	2020-01-04 12:59:46 -0800	[diff] [blame]	1659	} else if (err > 0) {
				1660	/* The page is successfully queued for migration */
				1661	continue;
				1662	}
Brice Goglin	3140a22	2009-01-06 14:38:57 -0800	[diff] [blame]	1663
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1664	err = store_status(status, i, err, 1);
				1665	if (err)
				1666	goto out_flush;
Brice Goglin	3140a22	2009-01-06 14:38:57 -0800	[diff] [blame]	1667
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1668	err = do_move_pages_to_node(mm, &pagelist, current_node);
Yang Shi	0730292	2020-01-30 22:11:24 -0800	[diff] [blame]	1669	if (err) {
				1670	if (err > 0)
				1671	err += nr_pages - i - 1;
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1672	goto out;
Yang Shi	0730292	2020-01-30 22:11:24 -0800	[diff] [blame]	1673	}
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1674	if (i > start) {
				1675	err = store_status(status, start, current_node, i - start);
				1676	if (err)
				1677	goto out;
				1678	}
				1679	current_node = NUMA_NO_NODE;
Brice Goglin	3140a22	2009-01-06 14:38:57 -0800	[diff] [blame]	1680	}
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1681	out_flush:
Michal Hocko	8f175cf	2018-04-20 14:55:35 -0700	[diff] [blame]	1682	if (list_empty(&pagelist))
				1683	return err;
				1684
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1685	/* Make sure we do not overwrite the existing error */
				1686	err1 = do_move_pages_to_node(mm, &pagelist, current_node);
Yang Shi	0730292	2020-01-30 22:11:24 -0800	[diff] [blame]	1687	/*
				1688	* Don't have to report non-attempted pages here since:
				1689	* - If the above loop is done gracefully all pages have been
				1690	* attempted.
				1691	* - If the above loop is aborted it means a fatal error
				1692	* happened, should return ret.
				1693	*/
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1694	if (!err1)
				1695	err1 = store_status(status, start, current_node, i - start);
Wei Yang	b6606cc	2020-01-30 22:11:14 -0800	[diff] [blame]	1696	if (err >= 0)
Michal Hocko	a49bd4d	2018-04-10 16:29:59 -0700	[diff] [blame]	1697	err = err1;
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1698	out:
				1699	return err;
				1700	}
				1701
				1702	/*
Brice Goglin	2f007e7	2008-10-18 20:27:16 -0700	[diff] [blame]	1703	* Determine the nodes of an array of pages and store it in an array of status.
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1704	*/
Brice Goglin	80bba12	2008-12-09 13:14:23 -0800	[diff] [blame]	1705	static void do_pages_stat_array(struct mm_struct *mm, unsigned long nr_pages,
				1706	const void __user *pages, int status)
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1707	{
Brice Goglin	2f007e7	2008-10-18 20:27:16 -0700	[diff] [blame]	1708	unsigned long i;
Brice Goglin	2f007e7	2008-10-18 20:27:16 -0700	[diff] [blame]	1709
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1710	down_read(&mm->mmap_sem);
				1711
Brice Goglin	2f007e7	2008-10-18 20:27:16 -0700	[diff] [blame]	1712	for (i = 0; i < nr_pages; i++) {
Brice Goglin	80bba12	2008-12-09 13:14:23 -0800	[diff] [blame]	1713	unsigned long addr = (unsigned long)(*pages);
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1714	struct vm_area_struct *vma;
				1715	struct page *page;
KOSAKI Motohiro	c095adb	2008-12-16 16:06:43 +0900	[diff] [blame]	1716	int err = -EFAULT;
Brice Goglin	2f007e7	2008-10-18 20:27:16 -0700	[diff] [blame]	1717
				1718	vma = find_vma(mm, addr);
Gleb Natapov	70384dc	2010-10-26 14:22:07 -0700	[diff] [blame]	1719	if (!vma \|\| addr < vma->vm_start)
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1720	goto set_status;
				1721
Kirill A. Shutemov	d899844	2015-09-04 15:47:53 -0700	[diff] [blame]	1722	/* FOLL_DUMP to ignore special (like zero) pages */
				1723	page = follow_page(vma, addr, FOLL_DUMP);
Linus Torvalds	89f5b7d	2008-06-20 11:18:25 -0700	[diff] [blame]	1724
				1725	err = PTR_ERR(page);
				1726	if (IS_ERR(page))
				1727	goto set_status;
				1728
Kirill A. Shutemov	d899844	2015-09-04 15:47:53 -0700	[diff] [blame]	1729	err = page ? page_to_nid(page) : -ENOENT;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1730	set_status:
Brice Goglin	80bba12	2008-12-09 13:14:23 -0800	[diff] [blame]	1731	*status = err;
				1732
				1733	pages++;
				1734	status++;
				1735	}
				1736
				1737	up_read(&mm->mmap_sem);
				1738	}
				1739
				1740	/*
				1741	* Determine the nodes of a user array of pages and store it in
				1742	* a user array of status.
				1743	*/
				1744	static int do_pages_stat(struct mm_struct *mm, unsigned long nr_pages,
				1745	const void __user * __user *pages,
				1746	int __user *status)
				1747	{
				1748	#define DO_PAGES_STAT_CHUNK_NR 16
				1749	const void __user *chunk_pages[DO_PAGES_STAT_CHUNK_NR];
				1750	int chunk_status[DO_PAGES_STAT_CHUNK_NR];
Brice Goglin	80bba12	2008-12-09 13:14:23 -0800	[diff] [blame]	1751
H. Peter Anvin	87b8d1a	2010-02-18 16:13:40 -0800	[diff] [blame]	1752	while (nr_pages) {
				1753	unsigned long chunk_nr;
Brice Goglin	80bba12	2008-12-09 13:14:23 -0800	[diff] [blame]	1754
H. Peter Anvin	87b8d1a	2010-02-18 16:13:40 -0800	[diff] [blame]	1755	chunk_nr = nr_pages;
				1756	if (chunk_nr > DO_PAGES_STAT_CHUNK_NR)
				1757	chunk_nr = DO_PAGES_STAT_CHUNK_NR;
				1758
				1759	if (copy_from_user(chunk_pages, pages, chunk_nr * sizeof(*chunk_pages)))
				1760	break;
Brice Goglin	80bba12	2008-12-09 13:14:23 -0800	[diff] [blame]	1761
				1762	do_pages_stat_array(mm, chunk_nr, chunk_pages, chunk_status);
				1763
H. Peter Anvin	87b8d1a	2010-02-18 16:13:40 -0800	[diff] [blame]	1764	if (copy_to_user(status, chunk_status, chunk_nr * sizeof(*status)))
				1765	break;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1766
H. Peter Anvin	87b8d1a	2010-02-18 16:13:40 -0800	[diff] [blame]	1767	pages += chunk_nr;
				1768	status += chunk_nr;
				1769	nr_pages -= chunk_nr;
				1770	}
				1771	return nr_pages ? -EFAULT : 0;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1772	}
				1773
				1774	/*
				1775	* Move a list of pages in the address space of the currently executing
				1776	* process.
				1777	*/
Dominik Brodowski	7addf44	2018-03-17 16:08:03 +0100	[diff] [blame]	1778	static int kernel_move_pages(pid_t pid, unsigned long nr_pages,
				1779	const void __user * __user *pages,
				1780	const int __user *nodes,
				1781	int __user *status, int flags)
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1782	{
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1783	struct task_struct *task;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1784	struct mm_struct *mm;
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1785	int err;
Christoph Lameter	3268c63	2012-03-21 16:34:06 -0700	[diff] [blame]	1786	nodemask_t task_nodes;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1787
				1788	/* Check flags */
				1789	if (flags & ~(MPOL_MF_MOVE\|MPOL_MF_MOVE_ALL))
				1790	return -EINVAL;
				1791
				1792	if ((flags & MPOL_MF_MOVE_ALL) && !capable(CAP_SYS_NICE))
				1793	return -EPERM;
				1794
				1795	/* Find the mm_struct */
Greg Thelen	a879bf5	2011-02-25 14:44:13 -0800	[diff] [blame]	1796	rcu_read_lock();
Pavel Emelyanov	228ebcb	2007-10-18 23:40:16 -0700	[diff] [blame]	1797	task = pid ? find_task_by_vpid(pid) : current;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1798	if (!task) {
Greg Thelen	a879bf5	2011-02-25 14:44:13 -0800	[diff] [blame]	1799	rcu_read_unlock();
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1800	return -ESRCH;
				1801	}
Christoph Lameter	3268c63	2012-03-21 16:34:06 -0700	[diff] [blame]	1802	get_task_struct(task);
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1803
				1804	/*
				1805	* Check if this process has the right to modify the specified
Linus Torvalds	197e7e5	2017-08-20 13:26:27 -0700	[diff] [blame]	1806	* process. Use the regular "ptrace_may_access()" checks.
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1807	*/
Linus Torvalds	197e7e5	2017-08-20 13:26:27 -0700	[diff] [blame]	1808	if (!ptrace_may_access(task, PTRACE_MODE_READ_REALCREDS)) {
David Howells	c69e8d9	2008-11-14 10:39:19 +1100	[diff] [blame]	1809	rcu_read_unlock();
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1810	err = -EPERM;
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1811	goto out;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1812	}
David Howells	c69e8d9	2008-11-14 10:39:19 +1100	[diff] [blame]	1813	rcu_read_unlock();
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1814
David Quigley	86c3a76	2006-06-23 02:04:02 -0700	[diff] [blame]	1815	err = security_task_movememory(task);
				1816	if (err)
Brice Goglin	5e9a0f0	2008-10-18 20:27:17 -0700	[diff] [blame]	1817	goto out;
David Quigley	86c3a76	2006-06-23 02:04:02 -0700	[diff] [blame]	1818
Christoph Lameter	3268c63	2012-03-21 16:34:06 -0700	[diff] [blame]	1819	task_nodes = cpuset_mems_allowed(task);
				1820	mm = get_task_mm(task);
				1821	put_task_struct(task);
				1822
Sasha Levin	6e8b09e	2012-04-25 16:01:53 -0700	[diff] [blame]	1823	if (!mm)
				1824	return -EINVAL;
				1825
				1826	if (nodes)
				1827	err = do_pages_move(mm, task_nodes, nr_pages, pages,
				1828	nodes, status, flags);
				1829	else
				1830	err = do_pages_stat(mm, nr_pages, pages, status);
Christoph Lameter	3268c63	2012-03-21 16:34:06 -0700	[diff] [blame]	1831
				1832	mmput(mm);
				1833	return err;
David Quigley	86c3a76	2006-06-23 02:04:02 -0700	[diff] [blame]	1834
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1835	out:
Christoph Lameter	3268c63	2012-03-21 16:34:06 -0700	[diff] [blame]	1836	put_task_struct(task);
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1837	return err;
				1838	}
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1839
Dominik Brodowski	7addf44	2018-03-17 16:08:03 +0100	[diff] [blame]	1840	SYSCALL_DEFINE6(move_pages, pid_t, pid, unsigned long, nr_pages,
				1841	const void __user * __user *, pages,
				1842	const int __user *, nodes,
				1843	int __user *, status, int, flags)
				1844	{
				1845	return kernel_move_pages(pid, nr_pages, pages, nodes, status, flags);
				1846	}
				1847
				1848	#ifdef CONFIG_COMPAT
				1849	COMPAT_SYSCALL_DEFINE6(move_pages, pid_t, pid, compat_ulong_t, nr_pages,
				1850	compat_uptr_t __user *, pages32,
				1851	const int __user *, nodes,
				1852	int __user *, status,
				1853	int, flags)
				1854	{
				1855	const void __user * __user *pages;
				1856	int i;
				1857
				1858	pages = compat_alloc_user_space(nr_pages * sizeof(void *));
				1859	for (i = 0; i < nr_pages; i++) {
				1860	compat_uptr_t p;
				1861
				1862	if (get_user(p, pages32 + i) \|\|
				1863	put_user(compat_ptr(p), pages + i))
				1864	return -EFAULT;
				1865	}
				1866	return kernel_move_pages(pid, nr_pages, pages, nodes, status, flags);
				1867	}
				1868	#endif /* CONFIG_COMPAT */
				1869
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1870	#ifdef CONFIG_NUMA_BALANCING
				1871	/*
				1872	* Returns true if this is a safe migration target node for misplaced NUMA
				1873	* pages. Currently it only checks the watermarks which crude
				1874	*/
				1875	static bool migrate_balanced_pgdat(struct pglist_data *pgdat,
Mel Gorman	3abef4e	2013-02-22 16:34:27 -0800	[diff] [blame]	1876	unsigned long nr_migrate_pages)
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1877	{
				1878	int z;
Mel Gorman	599d0c9	2016-07-28 15:45:31 -0700	[diff] [blame]	1879
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1880	for (z = pgdat->nr_zones - 1; z >= 0; z--) {
				1881	struct zone *zone = pgdat->node_zones + z;
				1882
				1883	if (!populated_zone(zone))
				1884	continue;
				1885
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1886	/* Avoid waking kswapd by allocating pages_to_migrate pages. */
				1887	if (!zone_watermark_ok(zone, 0,
				1888	high_wmark_pages(zone) +
				1889	nr_migrate_pages,
				1890	0, 0))
				1891	continue;
				1892	return true;
				1893	}
				1894	return false;
				1895	}
				1896
				1897	static struct page alloc_misplaced_dst_page(struct page page,
Michal Hocko	666feb2	2018-04-10 16:30:03 -0700	[diff] [blame]	1898	unsigned long data)
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1899	{
				1900	int nid = (int) data;
				1901	struct page *newpage;
				1902
Vlastimil Babka	96db800	2015-09-08 15:03:50 -0700	[diff] [blame]	1903	newpage = __alloc_pages_node(nid,
Johannes Weiner	e97ca8e	2014-03-10 15:49:43 -0700	[diff] [blame]	1904	(GFP_HIGHUSER_MOVABLE \|
				1905	__GFP_THISNODE \| __GFP_NOMEMALLOC \|
				1906	__GFP_NORETRY \| __GFP_NOWARN) &
Mel Gorman	8479eba	2016-02-26 15:19:31 -0800	[diff] [blame]	1907	~__GFP_RECLAIM, 0);
Hillf Danton	bac0382	2012-11-27 14:46:24 +0000	[diff] [blame]	1908
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1909	return newpage;
				1910	}
				1911
Mel Gorman	1c30e01	2014-01-21 15:50:58 -0800	[diff] [blame]	1912	static int numamigrate_isolate_page(pg_data_t pgdat, struct page page)
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1913	{
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	1914	int page_lru;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1915
Sasha Levin	309381fea	2014-01-23 15:52:54 -0800	[diff] [blame]	1916	VM_BUG_ON_PAGE(compound_order(page) && !PageTransHuge(page), page);
Mel Gorman	3abef4e	2013-02-22 16:34:27 -0800	[diff] [blame]	1917
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1918	/* Avoid migrating to a node that is nearly full */
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	1919	if (!migrate_balanced_pgdat(pgdat, 1UL << compound_order(page)))
				1920	return 0;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1921
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	1922	if (isolate_lru_page(page))
				1923	return 0;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1924
				1925	/*
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	1926	* migrate_misplaced_transhuge_page() skips page migration's usual
				1927	* check on page_count(), so we must do it here, now that the page
				1928	* has been isolated: a GUP pin, or any other pin, prevents migration.
				1929	* The expected page count is 3: 1 for page's mapcount and 1 for the
				1930	* caller's pin and 1 for the reference taken by isolate_lru_page().
				1931	*/
				1932	if (PageTransHuge(page) && page_count(page) != 3) {
				1933	putback_lru_page(page);
				1934	return 0;
				1935	}
				1936
				1937	page_lru = page_is_file_cache(page);
Mel Gorman	599d0c9	2016-07-28 15:45:31 -0700	[diff] [blame]	1938	mod_node_page_state(page_pgdat(page), NR_ISOLATED_ANON + page_lru,
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	1939	hpage_nr_pages(page));
				1940
				1941	/*
				1942	* Isolating the page has taken another reference, so the
				1943	* caller's reference can be safely dropped without the page
				1944	* disappearing underneath us during migration.
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1945	*/
				1946	put_page(page);
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	1947	return 1;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1948	}
				1949
Mel Gorman	de466bd	2013-12-18 17:08:42 -0800	[diff] [blame]	1950	bool pmd_trans_migrating(pmd_t pmd)
				1951	{
				1952	struct page *page = pmd_page(pmd);
				1953	return PageLocked(page);
				1954	}
				1955
Mel Gorman	a8f6077	2012-11-14 21:41:46 +0000	[diff] [blame]	1956	/*
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1957	* Attempt to migrate a misplaced page to the specified destination
				1958	* node. Caller is expected to have an elevated reference count on
				1959	* the page that will be dropped by this function before returning.
				1960	*/
Mel Gorman	1bc115d	2013-10-07 11:29:05 +0100	[diff] [blame]	1961	int migrate_misplaced_page(struct page page, struct vm_area_struct vma,
				1962	int node)
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1963	{
Mel Gorman	a8f6077	2012-11-14 21:41:46 +0000	[diff] [blame]	1964	pg_data_t *pgdat = NODE_DATA(node);
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	1965	int isolated;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1966	int nr_remaining;
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1967	LIST_HEAD(migratepages);
				1968
				1969	/*
Mel Gorman	1bc115d	2013-10-07 11:29:05 +0100	[diff] [blame]	1970	* Don't migrate file pages that are mapped in multiple processes
				1971	* with execute permissions as they are probably shared libraries.
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1972	*/
Mel Gorman	1bc115d	2013-10-07 11:29:05 +0100	[diff] [blame]	1973	if (page_mapcount(page) != 1 && page_is_file_cache(page) &&
				1974	(vma->vm_flags & VM_EXEC))
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1975	goto out;
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1976
Mel Gorman	a8f6077	2012-11-14 21:41:46 +0000	[diff] [blame]	1977	/*
Mel Gorman	09a913a	2018-04-10 16:29:20 -0700	[diff] [blame]	1978	* Also do not migrate dirty pages as not all filesystems can move
				1979	* dirty pages in MIGRATE_ASYNC mode which is a waste of cycles.
				1980	*/
				1981	if (page_is_file_cache(page) && PageDirty(page))
				1982	goto out;
				1983
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1984	isolated = numamigrate_isolate_page(pgdat, page);
				1985	if (!isolated)
				1986	goto out;
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	1987
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1988	list_add(&page->lru, &migratepages);
Hugh Dickins	9c620e2	2013-02-22 16:35:14 -0800	[diff] [blame]	1989	nr_remaining = migrate_pages(&migratepages, alloc_misplaced_dst_page,
David Rientjes	68711a7	2014-06-04 16:08:25 -0700	[diff] [blame]	1990	NULL, node, MIGRATE_ASYNC,
				1991	MR_NUMA_MISPLACED);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1992	if (nr_remaining) {
Joonsoo Kim	59c82b7	2014-01-21 15:51:17 -0800	[diff] [blame]	1993	if (!list_empty(&migratepages)) {
				1994	list_del(&page->lru);
Mel Gorman	599d0c9	2016-07-28 15:45:31 -0700	[diff] [blame]	1995	dec_node_page_state(page, NR_ISOLATED_ANON +
Joonsoo Kim	59c82b7	2014-01-21 15:51:17 -0800	[diff] [blame]	1996	page_is_file_cache(page));
				1997	putback_lru_page(page);
				1998	}
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	1999	isolated = 0;
				2000	} else
				2001	count_vm_numa_event(NUMA_PAGE_MIGRATE);
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	2002	BUG_ON(!list_empty(&migratepages));
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	2003	return isolated;
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	2004
				2005	out:
				2006	put_page(page);
				2007	return 0;
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	2008	}
Mel Gorman	220018d	2012-12-05 09:32:56 +0000	[diff] [blame]	2009	#endif /* CONFIG_NUMA_BALANCING */
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2010
Mel Gorman	220018d	2012-12-05 09:32:56 +0000	[diff] [blame]	2011	#if defined(CONFIG_NUMA_BALANCING) && defined(CONFIG_TRANSPARENT_HUGEPAGE)
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	2012	/*
				2013	* Migrates a THP to a given target node. page must be locked and is unlocked
				2014	* before returning.
				2015	*/
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2016	int migrate_misplaced_transhuge_page(struct mm_struct *mm,
				2017	struct vm_area_struct *vma,
				2018	pmd_t *pmd, pmd_t entry,
				2019	unsigned long address,
				2020	struct page *page, int node)
				2021	{
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	2022	spinlock_t *ptl;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2023	pg_data_t *pgdat = NODE_DATA(node);
				2024	int isolated = 0;
				2025	struct page *new_page = NULL;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2026	int page_lru = page_is_file_cache(page);
Mel Gorman	f714f4f	2013-12-18 17:08:33 -0800	[diff] [blame]	2027	unsigned long mmun_start = address & HPAGE_PMD_MASK;
				2028	unsigned long mmun_end = mmun_start + HPAGE_PMD_SIZE;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2029
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2030	new_page = alloc_pages_node(node,
Vlastimil Babka	2516035	2016-07-28 15:49:25 -0700	[diff] [blame]	2031	(GFP_TRANSHUGE_LIGHT \| __GFP_THISNODE),
Johannes Weiner	e97ca8e	2014-03-10 15:49:43 -0700	[diff] [blame]	2032	HPAGE_PMD_ORDER);
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	2033	if (!new_page)
				2034	goto out_fail;
Kirill A. Shutemov	9a98225	2016-01-15 16:54:17 -0800	[diff] [blame]	2035	prep_transhuge_page(new_page);
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	2036
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2037	isolated = numamigrate_isolate_page(pgdat, page);
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	2038	if (!isolated) {
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2039	put_page(new_page);
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	2040	goto out_fail;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2041	}
Mel Gorman	b0943d6	2013-12-18 17:08:46 -0800	[diff] [blame]	2042
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2043	/* Prepare a page as a migration target */
Kirill A. Shutemov	48c935a	2016-01-15 16:51:24 -0800	[diff] [blame]	2044	__SetPageLocked(new_page);
Shaohua Li	d44d363	2017-05-03 14:52:26 -0700	[diff] [blame]	2045	if (PageSwapBacked(page))
				2046	__SetPageSwapBacked(new_page);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2047
				2048	/* anon mapping, we can simply copy page->mapping to the new page: */
				2049	new_page->mapping = page->mapping;
				2050	new_page->index = page->index;
				2051	migrate_page_copy(new_page, page);
				2052	WARN_ON(PageLRU(new_page));
				2053
				2054	/* Recheck the target PMD */
Mel Gorman	f714f4f	2013-12-18 17:08:33 -0800	[diff] [blame]	2055	mmu_notifier_invalidate_range_start(mm, mmun_start, mmun_end);
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	2056	ptl = pmd_lock(mm, pmd);
Will Deacon	f4e177d	2017-07-10 15:48:31 -0700	[diff] [blame]	2057	if (unlikely(!pmd_same(*pmd, entry) \|\| !page_ref_freeze(page, 2))) {
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	2058	spin_unlock(ptl);
Mel Gorman	f714f4f	2013-12-18 17:08:33 -0800	[diff] [blame]	2059	mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2060
				2061	/* Reverse changes made by migrate_page_copy() */
				2062	if (TestClearPageActive(new_page))
				2063	SetPageActive(page);
				2064	if (TestClearPageUnevictable(new_page))
				2065	SetPageUnevictable(page);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2066
				2067	unlock_page(new_page);
				2068	put_page(new_page); /* Free it */
				2069
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	2070	/* Retake the callers reference and putback on LRU */
				2071	get_page(page);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2072	putback_lru_page(page);
Mel Gorman	599d0c9	2016-07-28 15:45:31 -0700	[diff] [blame]	2073	mod_node_page_state(page_pgdat(page),
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	2074	NR_ISOLATED_ANON + page_lru, -HPAGE_PMD_NR);
Mel Gorman	eb4489f6	2013-12-18 17:08:39 -0800	[diff] [blame]	2075
				2076	goto out_unlock;
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2077	}
				2078
Kirill A. Shutemov	1010245	2016-07-26 15:25:29 -0700	[diff] [blame]	2079	entry = mk_huge_pmd(new_page, vma->vm_page_prot);
Linus Torvalds	f55e101	2017-11-29 09:01:01 -0800	[diff] [blame]	2080	entry = maybe_pmd_mkwrite(pmd_mkdirty(entry), vma);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2081
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	2082	/*
Andrea Arcangeli	4291e97	2018-10-26 15:10:36 -0700	[diff] [blame]	2083	* Overwrite the old entry under pagetable lock and establish
				2084	* the new PTE. Any parallel GUP will either observe the old
				2085	* page blocking on the page lock, block on the page table
				2086	* lock or observe the new page. The SetPageUptodate on the
				2087	* new page and page_add_new_anon_rmap guarantee the copy is
				2088	* visible before the pagetable update.
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	2089	*/
Mel Gorman	f714f4f	2013-12-18 17:08:33 -0800	[diff] [blame]	2090	flush_cache_range(vma, mmun_start, mmun_end);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	2091	page_add_anon_rmap(new_page, vma, mmun_start, true);
Andrea Arcangeli	4291e97	2018-10-26 15:10:36 -0700	[diff] [blame]	2092	/*
				2093	* At this point the pmd is numa/protnone (i.e. non present) and the TLB
				2094	* has already been flushed globally. So no TLB can be currently
				2095	* caching this non present pmd mapping. There's no need to clear the
				2096	* pmd before doing set_pmd_at(), nor to flush the TLB after
				2097	* set_pmd_at(). Clearing the pmd here would introduce a race
				2098	* condition against MADV_DONTNEED, because MADV_DONTNEED only holds the
				2099	* mmap_sem for reading. If the pmd is set to NULL at any given time,
				2100	* MADV_DONTNEED won't wait on the pmd lock and it'll skip clearing this
				2101	* pmd.
				2102	*/
Mel Gorman	f714f4f	2013-12-18 17:08:33 -0800	[diff] [blame]	2103	set_pmd_at(mm, mmun_start, pmd, entry);
Stephen Rothwell	ce4a9cc	2012-12-10 19:50:57 +1100	[diff] [blame]	2104	update_mmu_cache_pmd(vma, address, &entry);
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	2105
Will Deacon	f4e177d	2017-07-10 15:48:31 -0700	[diff] [blame]	2106	page_ref_unfreeze(page, 2);
Hugh Dickins	51afb12	2015-11-05 18:49:37 -0800	[diff] [blame]	2107	mlock_migrate_page(new_page, page);
Kirill A. Shutemov	d281ee6	2016-01-15 16:52:16 -0800	[diff] [blame]	2108	page_remove_rmap(page, true);
Vlastimil Babka	7cd12b4	2016-03-15 14:56:18 -0700	[diff] [blame]	2109	set_page_owner_migrate_reason(new_page, MR_NUMA_MISPLACED);
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	2110
Kirill A. Shutemov	c4088eb	2013-11-14 14:31:04 -0800	[diff] [blame]	2111	spin_unlock(ptl);
Jérôme Glisse	4645b9f	2017-11-15 17:34:11 -0800	[diff] [blame]	2112	/*
				2113	* No need to double call mmu_notifier->invalidate_range() callback as
				2114	* the above pmdp_huge_clear_flush_notify() did already call it.
				2115	*/
Andrea Arcangeli	4291e97	2018-10-26 15:10:36 -0700	[diff] [blame]	2116	mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2117
Mel Gorman	11de992	2014-06-04 16:07:41 -0700	[diff] [blame]	2118	/* Take an "isolate" reference and put new page on the LRU. */
				2119	get_page(new_page);
				2120	putback_lru_page(new_page);
				2121
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2122	unlock_page(new_page);
				2123	unlock_page(page);
				2124	put_page(page); /* Drop the rmap reference */
				2125	put_page(page); /* Drop the LRU isolation reference */
				2126
				2127	count_vm_events(PGMIGRATE_SUCCESS, HPAGE_PMD_NR);
				2128	count_vm_numa_events(NUMA_PAGE_MIGRATE, HPAGE_PMD_NR);
				2129
Mel Gorman	599d0c9	2016-07-28 15:45:31 -0700	[diff] [blame]	2130	mod_node_page_state(page_pgdat(page),
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2131	NR_ISOLATED_ANON + page_lru,
				2132	-HPAGE_PMD_NR);
				2133	return isolated;
				2134
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	2135	out_fail:
				2136	count_vm_events(PGMIGRATE_FAIL, HPAGE_PMD_NR);
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	2137	ptl = pmd_lock(mm, pmd);
				2138	if (pmd_same(*pmd, entry)) {
Mel Gorman	4d94246	2015-02-12 14:58:28 -0800	[diff] [blame]	2139	entry = pmd_modify(entry, vma->vm_page_prot);
Mel Gorman	f714f4f	2013-12-18 17:08:33 -0800	[diff] [blame]	2140	set_pmd_at(mm, mmun_start, pmd, entry);
Mel Gorman	2b4847e	2013-12-18 17:08:32 -0800	[diff] [blame]	2141	update_mmu_cache_pmd(vma, address, &entry);
				2142	}
				2143	spin_unlock(ptl);
Mel Gorman	a54a407	2013-10-07 11:28:46 +0100	[diff] [blame]	2144
Mel Gorman	eb4489f6	2013-12-18 17:08:39 -0800	[diff] [blame]	2145	out_unlock:
Hugh Dickins	340ef39	2013-02-22 16:34:33 -0800	[diff] [blame]	2146	unlock_page(page);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2147	put_page(page);
Mel Gorman	b32967f	2012-11-19 12:35:47 +0000	[diff] [blame]	2148	return 0;
				2149	}
Peter Zijlstra	7039e1d	2012-10-25 14:16:34 +0200	[diff] [blame]	2150	#endif /* CONFIG_NUMA_BALANCING */
				2151
				2152	#endif /* CONFIG_NUMA */
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2153
Jérôme Glisse	6b368cd	2017-09-08 16:12:32 -0700	[diff] [blame]	2154	#if defined(CONFIG_MIGRATE_VMA_HELPER)
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2155	struct migrate_vma {
				2156	struct vm_area_struct *vma;
				2157	unsigned long *dst;
				2158	unsigned long *src;
				2159	unsigned long cpages;
				2160	unsigned long npages;
				2161	unsigned long start;
				2162	unsigned long end;
				2163	};
				2164
				2165	static int migrate_vma_collect_hole(unsigned long start,
				2166	unsigned long end,
				2167	struct mm_walk *walk)
				2168	{
				2169	struct migrate_vma *migrate = walk->private;
				2170	unsigned long addr;
				2171
				2172	for (addr = start & PAGE_MASK; addr < end; addr += PAGE_SIZE) {
Mark Hairgrove	e20d103	2017-10-13 15:57:30 -0700	[diff] [blame]	2173	migrate->src[migrate->npages] = MIGRATE_PFN_MIGRATE;
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2174	migrate->dst[migrate->npages] = 0;
Mark Hairgrove	e20d103	2017-10-13 15:57:30 -0700	[diff] [blame]	2175	migrate->npages++;
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2176	migrate->cpages++;
				2177	}
				2178
				2179	return 0;
				2180	}
				2181
				2182	static int migrate_vma_collect_skip(unsigned long start,
				2183	unsigned long end,
				2184	struct mm_walk *walk)
				2185	{
				2186	struct migrate_vma *migrate = walk->private;
				2187	unsigned long addr;
				2188
				2189	for (addr = start & PAGE_MASK; addr < end; addr += PAGE_SIZE) {
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2190	migrate->dst[migrate->npages] = 0;
				2191	migrate->src[migrate->npages++] = 0;
				2192	}
				2193
				2194	return 0;
				2195	}
				2196
				2197	static int migrate_vma_collect_pmd(pmd_t *pmdp,
				2198	unsigned long start,
				2199	unsigned long end,
				2200	struct mm_walk *walk)
				2201	{
				2202	struct migrate_vma *migrate = walk->private;
				2203	struct vm_area_struct *vma = walk->vma;
				2204	struct mm_struct *mm = vma->vm_mm;
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2205	unsigned long addr = start, unmapped = 0;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2206	spinlock_t *ptl;
				2207	pte_t *ptep;
				2208
				2209	again:
				2210	if (pmd_none(*pmdp))
				2211	return migrate_vma_collect_hole(start, end, walk);
				2212
				2213	if (pmd_trans_huge(*pmdp)) {
				2214	struct page *page;
				2215
				2216	ptl = pmd_lock(mm, pmdp);
				2217	if (unlikely(!pmd_trans_huge(*pmdp))) {
				2218	spin_unlock(ptl);
				2219	goto again;
				2220	}
				2221
				2222	page = pmd_page(*pmdp);
				2223	if (is_huge_zero_page(page)) {
				2224	spin_unlock(ptl);
				2225	split_huge_pmd(vma, pmdp, addr);
				2226	if (pmd_trans_unstable(pmdp))
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2227	return migrate_vma_collect_skip(start, end,
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2228	walk);
				2229	} else {
				2230	int ret;
				2231
				2232	get_page(page);
				2233	spin_unlock(ptl);
				2234	if (unlikely(!trylock_page(page)))
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2235	return migrate_vma_collect_skip(start, end,
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2236	walk);
				2237	ret = split_huge_page(page);
				2238	unlock_page(page);
				2239	put_page(page);
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2240	if (ret)
				2241	return migrate_vma_collect_skip(start, end,
				2242	walk);
				2243	if (pmd_none(*pmdp))
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2244	return migrate_vma_collect_hole(start, end,
				2245	walk);
				2246	}
				2247	}
				2248
				2249	if (unlikely(pmd_bad(*pmdp)))
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2250	return migrate_vma_collect_skip(start, end, walk);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2251
				2252	ptep = pte_offset_map_lock(mm, pmdp, addr, &ptl);
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2253	arch_enter_lazy_mmu_mode();
				2254
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2255	for (; addr < end; addr += PAGE_SIZE, ptep++) {
				2256	unsigned long mpfn, pfn;
				2257	struct page *page;
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2258	swp_entry_t entry;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2259	pte_t pte;
				2260
				2261	pte = *ptep;
				2262	pfn = pte_pfn(pte);
				2263
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2264	if (pte_none(pte)) {
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2265	mpfn = MIGRATE_PFN_MIGRATE;
				2266	migrate->cpages++;
				2267	pfn = 0;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2268	goto next;
				2269	}
				2270
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2271	if (!pte_present(pte)) {
				2272	mpfn = pfn = 0;
				2273
				2274	/*
				2275	* Only care about unaddressable device page special
				2276	* page table entry. Other special swap entries are not
				2277	* migratable, and we ignore regular swapped page.
				2278	*/
				2279	entry = pte_to_swp_entry(pte);
				2280	if (!is_device_private_entry(entry))
				2281	goto next;
				2282
				2283	page = device_private_entry_to_page(entry);
				2284	mpfn = migrate_pfn(page_to_pfn(page))\|
				2285	MIGRATE_PFN_DEVICE \| MIGRATE_PFN_MIGRATE;
				2286	if (is_write_device_private_entry(entry))
				2287	mpfn \|= MIGRATE_PFN_WRITE;
				2288	} else {
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2289	if (is_zero_pfn(pfn)) {
				2290	mpfn = MIGRATE_PFN_MIGRATE;
				2291	migrate->cpages++;
				2292	pfn = 0;
				2293	goto next;
				2294	}
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	2295	page = _vm_normal_page(migrate->vma, addr, pte, true);
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2296	mpfn = migrate_pfn(pfn) \| MIGRATE_PFN_MIGRATE;
				2297	mpfn \|= pte_write(pte) ? MIGRATE_PFN_WRITE : 0;
				2298	}
				2299
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2300	/* FIXME support THP */
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2301	if (!page \|\| !page->mapping \|\| PageTransCompound(page)) {
				2302	mpfn = pfn = 0;
				2303	goto next;
				2304	}
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2305	pfn = page_to_pfn(page);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2306
				2307	/*
				2308	* By getting a reference on the page we pin it and that blocks
				2309	* any kind of migration. Side effect is that it "freezes" the
				2310	* pte.
				2311	*
				2312	* We drop this reference after isolating the page from the lru
				2313	* for non device page (device page are not on the lru and thus
				2314	* can't be dropped from it).
				2315	*/
				2316	get_page(page);
				2317	migrate->cpages++;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2318
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2319	/*
				2320	* Optimize for the common case where page is only mapped once
				2321	* in one process. If we can lock the page, then we can safely
				2322	* set up a special migration page table entry now.
				2323	*/
				2324	if (trylock_page(page)) {
				2325	pte_t swp_pte;
				2326
				2327	mpfn \|= MIGRATE_PFN_LOCKED;
				2328	ptep_get_and_clear(mm, addr, ptep);
				2329
				2330	/* Setup special migration page table entry */
Ralph Campbell	0770712	2018-04-10 16:29:27 -0700	[diff] [blame]	2331	entry = make_migration_entry(page, mpfn &
				2332	MIGRATE_PFN_WRITE);
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2333	swp_pte = swp_entry_to_pte(entry);
				2334	if (pte_soft_dirty(pte))
				2335	swp_pte = pte_swp_mksoft_dirty(swp_pte);
				2336	set_pte_at(mm, addr, ptep, swp_pte);
				2337
				2338	/*
				2339	* This is like regular unmap: we remove the rmap and
				2340	* drop page refcount. Page won't be freed, as we took
				2341	* a reference just above.
				2342	*/
				2343	page_remove_rmap(page, false);
				2344	put_page(page);
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2345
				2346	if (pte_present(pte))
				2347	unmapped++;
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2348	}
				2349
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2350	next:
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2351	migrate->dst[migrate->npages] = 0;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2352	migrate->src[migrate->npages++] = mpfn;
				2353	}
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2354	arch_leave_lazy_mmu_mode();
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2355	pte_unmap_unlock(ptep - 1, ptl);
				2356
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2357	/* Only flush the TLB if we actually modified any entries */
				2358	if (unmapped)
				2359	flush_tlb_range(walk->vma, start, end);
				2360
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2361	return 0;
				2362	}
				2363
				2364	/*
				2365	* migrate_vma_collect() - collect pages over a range of virtual addresses
				2366	* @migrate: migrate struct containing all migration information
				2367	*
				2368	* This will walk the CPU page table. For each virtual address backed by a
				2369	* valid page, it updates the src array and takes a reference on the page, in
				2370	* order to pin the page until we lock it and unmap it.
				2371	*/
				2372	static void migrate_vma_collect(struct migrate_vma *migrate)
				2373	{
Ralph Campbell	2e7e7c8	2019-08-02 21:49:08 -0700	[diff] [blame]	2374	struct mm_walk mm_walk = {
				2375	.pmd_entry = migrate_vma_collect_pmd,
				2376	.pte_hole = migrate_vma_collect_hole,
				2377	.vma = migrate->vma,
				2378	.mm = migrate->vma->vm_mm,
				2379	.private = migrate,
				2380	};
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2381
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2382	mmu_notifier_invalidate_range_start(mm_walk.mm,
				2383	migrate->start,
				2384	migrate->end);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2385	walk_page_range(migrate->start, migrate->end, &mm_walk);
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2386	mmu_notifier_invalidate_range_end(mm_walk.mm,
				2387	migrate->start,
				2388	migrate->end);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2389
				2390	migrate->end = migrate->start + (migrate->npages << PAGE_SHIFT);
				2391	}
				2392
				2393	/*
				2394	* migrate_vma_check_page() - check if page is pinned or not
				2395	* @page: struct page to check
				2396	*
				2397	* Pinned pages cannot be migrated. This is the same test as in
				2398	* migrate_page_move_mapping(), except that here we allow migration of a
				2399	* ZONE_DEVICE page.
				2400	*/
				2401	static bool migrate_vma_check_page(struct page *page)
				2402	{
				2403	/*
				2404	* One extra ref because caller holds an extra reference, either from
				2405	* isolate_lru_page() for a regular page, or migrate_vma_collect() for
				2406	* a device page.
				2407	*/
				2408	int extra = 1;
				2409
				2410	/*
				2411	* FIXME support THP (transparent huge page), it is bit more complex to
				2412	* check them than regular pages, because they can be mapped with a pmd
				2413	* or with a pte (split pte mapping).
				2414	*/
				2415	if (PageCompound(page))
				2416	return false;
				2417
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2418	/* Page from ZONE_DEVICE have one extra reference */
				2419	if (is_zone_device_page(page)) {
				2420	/*
				2421	* Private page can never be pin as they have no valid pte and
				2422	* GUP will fail for those. Yet if there is a pending migration
				2423	* a thread might try to wait on the pte migration entry and
				2424	* will bump the page reference count. Sadly there is no way to
				2425	* differentiate a regular pin from migration wait. Hence to
				2426	* avoid 2 racing thread trying to migrate back to CPU to enter
				2427	* infinite loop (one stoping migration because the other is
				2428	* waiting on pte migration entry). We always return true here.
				2429	*
				2430	* FIXME proper solution is to rework migration_entry_wait() so
				2431	* it does not need to take a reference on page.
				2432	*/
				2433	if (is_device_private_page(page))
				2434	return true;
				2435
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	2436	/*
				2437	* Only allow device public page to be migrated and account for
				2438	* the extra reference count imply by ZONE_DEVICE pages.
				2439	*/
				2440	if (!is_device_public_page(page))
				2441	return false;
				2442	extra++;
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2443	}
				2444
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	2445	/* For file back page */
				2446	if (page_mapping(page))
				2447	extra += 1 + page_has_private(page);
				2448
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2449	if ((page_count(page) - extra) > page_mapcount(page))
				2450	return false;
				2451
				2452	return true;
				2453	}
				2454
				2455	/*
				2456	* migrate_vma_prepare() - lock pages and isolate them from the lru
				2457	* @migrate: migrate struct containing all migration information
				2458	*
				2459	* This locks pages that have been collected by migrate_vma_collect(). Once each
				2460	* page is locked it is isolated from the lru (for non-device pages). Finally,
				2461	* the ref taken by migrate_vma_collect() is dropped, as locked pages cannot be
				2462	* migrated by concurrent kernel threads.
				2463	*/
				2464	static void migrate_vma_prepare(struct migrate_vma *migrate)
				2465	{
				2466	const unsigned long npages = migrate->npages;
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2467	const unsigned long start = migrate->start;
				2468	unsigned long addr, i, restore = 0;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2469	bool allow_drain = true;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2470
				2471	lru_add_drain();
				2472
				2473	for (i = 0; (i < npages) && migrate->cpages; i++) {
				2474	struct page *page = migrate_pfn_to_page(migrate->src[i]);
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2475	bool remap = true;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2476
				2477	if (!page)
				2478	continue;
				2479
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2480	if (!(migrate->src[i] & MIGRATE_PFN_LOCKED)) {
				2481	/*
				2482	* Because we are migrating several pages there can be
				2483	* a deadlock between 2 concurrent migration where each
				2484	* are waiting on each other page lock.
				2485	*
				2486	* Make migrate_vma() a best effort thing and backoff
				2487	* for any page we can not lock right away.
				2488	*/
				2489	if (!trylock_page(page)) {
				2490	migrate->src[i] = 0;
				2491	migrate->cpages--;
				2492	put_page(page);
				2493	continue;
				2494	}
				2495	remap = false;
				2496	migrate->src[i] \|= MIGRATE_PFN_LOCKED;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2497	}
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2498
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2499	/* ZONE_DEVICE pages are not on LRU */
				2500	if (!is_zone_device_page(page)) {
				2501	if (!PageLRU(page) && allow_drain) {
				2502	/* Drain CPU's pagevec */
				2503	lru_add_drain_all();
				2504	allow_drain = false;
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2505	}
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2506
				2507	if (isolate_lru_page(page)) {
				2508	if (remap) {
				2509	migrate->src[i] &= ~MIGRATE_PFN_MIGRATE;
				2510	migrate->cpages--;
				2511	restore++;
				2512	} else {
				2513	migrate->src[i] = 0;
				2514	unlock_page(page);
				2515	migrate->cpages--;
				2516	put_page(page);
				2517	}
				2518	continue;
				2519	}
				2520
				2521	/* Drop the reference we took in collect */
				2522	put_page(page);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2523	}
				2524
				2525	if (!migrate_vma_check_page(page)) {
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2526	if (remap) {
				2527	migrate->src[i] &= ~MIGRATE_PFN_MIGRATE;
				2528	migrate->cpages--;
				2529	restore++;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2530
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2531	if (!is_zone_device_page(page)) {
				2532	get_page(page);
				2533	putback_lru_page(page);
				2534	}
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2535	} else {
				2536	migrate->src[i] = 0;
				2537	unlock_page(page);
				2538	migrate->cpages--;
				2539
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2540	if (!is_zone_device_page(page))
				2541	putback_lru_page(page);
				2542	else
				2543	put_page(page);
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2544	}
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2545	}
				2546	}
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2547
				2548	for (i = 0, addr = start; i < npages && restore; i++, addr += PAGE_SIZE) {
				2549	struct page *page = migrate_pfn_to_page(migrate->src[i]);
				2550
				2551	if (!page \|\| (migrate->src[i] & MIGRATE_PFN_MIGRATE))
				2552	continue;
				2553
				2554	remove_migration_pte(page, migrate->vma, addr, page);
				2555
				2556	migrate->src[i] = 0;
				2557	unlock_page(page);
				2558	put_page(page);
				2559	restore--;
				2560	}
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2561	}
				2562
				2563	/*
				2564	* migrate_vma_unmap() - replace page mapping with special migration pte entry
				2565	* @migrate: migrate struct containing all migration information
				2566	*
				2567	* Replace page mapping (CPU page table pte) with a special migration pte entry
				2568	* and check again if it has been pinned. Pinned pages are restored because we
				2569	* cannot migrate them.
				2570	*
				2571	* This is the last step before we call the device driver callback to allocate
				2572	* destination memory and copy contents of original page over to new page.
				2573	*/
				2574	static void migrate_vma_unmap(struct migrate_vma *migrate)
				2575	{
				2576	int flags = TTU_MIGRATION \| TTU_IGNORE_MLOCK \| TTU_IGNORE_ACCESS;
				2577	const unsigned long npages = migrate->npages;
				2578	const unsigned long start = migrate->start;
				2579	unsigned long addr, i, restore = 0;
				2580
				2581	for (i = 0; i < npages; i++) {
				2582	struct page *page = migrate_pfn_to_page(migrate->src[i]);
				2583
				2584	if (!page \|\| !(migrate->src[i] & MIGRATE_PFN_MIGRATE))
				2585	continue;
				2586
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2587	if (page_mapped(page)) {
				2588	try_to_unmap(page, flags);
				2589	if (page_mapped(page))
				2590	goto restore;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2591	}
Jérôme Glisse	8c3328f	2017-09-08 16:12:13 -0700	[diff] [blame]	2592
				2593	if (migrate_vma_check_page(page))
				2594	continue;
				2595
				2596	restore:
				2597	migrate->src[i] &= ~MIGRATE_PFN_MIGRATE;
				2598	migrate->cpages--;
				2599	restore++;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2600	}
				2601
				2602	for (addr = start, i = 0; i < npages && restore; addr += PAGE_SIZE, i++) {
				2603	struct page *page = migrate_pfn_to_page(migrate->src[i]);
				2604
				2605	if (!page \|\| (migrate->src[i] & MIGRATE_PFN_MIGRATE))
				2606	continue;
				2607
				2608	remove_migration_ptes(page, page, false);
				2609
				2610	migrate->src[i] = 0;
				2611	unlock_page(page);
				2612	restore--;
				2613
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2614	if (is_zone_device_page(page))
				2615	put_page(page);
				2616	else
				2617	putback_lru_page(page);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2618	}
				2619	}
				2620
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2621	static void migrate_vma_insert_page(struct migrate_vma *migrate,
				2622	unsigned long addr,
				2623	struct page *page,
				2624	unsigned long *src,
				2625	unsigned long *dst)
				2626	{
				2627	struct vm_area_struct *vma = migrate->vma;
				2628	struct mm_struct *mm = vma->vm_mm;
				2629	struct mem_cgroup *memcg;
				2630	bool flush = false;
				2631	spinlock_t *ptl;
				2632	pte_t entry;
				2633	pgd_t *pgdp;
				2634	p4d_t *p4dp;
				2635	pud_t *pudp;
				2636	pmd_t *pmdp;
				2637	pte_t *ptep;
				2638
				2639	/* Only allow populating anonymous memory */
				2640	if (!vma_is_anonymous(vma))
				2641	goto abort;
				2642
				2643	pgdp = pgd_offset(mm, addr);
				2644	p4dp = p4d_alloc(mm, pgdp, addr);
				2645	if (!p4dp)
				2646	goto abort;
				2647	pudp = pud_alloc(mm, p4dp, addr);
				2648	if (!pudp)
				2649	goto abort;
				2650	pmdp = pmd_alloc(mm, pudp, addr);
				2651	if (!pmdp)
				2652	goto abort;
				2653
				2654	if (pmd_trans_huge(pmdp) \|\| pmd_devmap(pmdp))
				2655	goto abort;
				2656
				2657	/*
				2658	* Use pte_alloc() instead of pte_alloc_map(). We can't run
				2659	* pte_offset_map() on pmds where a huge pmd might be created
				2660	* from a different thread.
				2661	*
				2662	* pte_alloc_map() is safe to use under down_write(mmap_sem) or when
				2663	* parallel threads are excluded by other means.
				2664	*
				2665	* Here we only have down_read(mmap_sem).
				2666	*/
				2667	if (pte_alloc(mm, pmdp, addr))
				2668	goto abort;
				2669
				2670	/* See the comment in pte_alloc_one_map() */
				2671	if (unlikely(pmd_trans_unstable(pmdp)))
				2672	goto abort;
				2673
				2674	if (unlikely(anon_vma_prepare(vma)))
				2675	goto abort;
				2676	if (mem_cgroup_try_charge(page, vma->vm_mm, GFP_KERNEL, &memcg, false))
				2677	goto abort;
				2678
				2679	/*
				2680	* The memory barrier inside __SetPageUptodate makes sure that
				2681	* preceding stores to the page contents become visible before
				2682	* the set_pte_at() write.
				2683	*/
				2684	__SetPageUptodate(page);
				2685
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	2686	if (is_zone_device_page(page)) {
				2687	if (is_device_private_page(page)) {
				2688	swp_entry_t swp_entry;
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2689
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	2690	swp_entry = make_device_private_entry(page, vma->vm_flags & VM_WRITE);
				2691	entry = swp_entry_to_pte(swp_entry);
				2692	} else if (is_device_public_page(page)) {
				2693	entry = pte_mkold(mk_pte(page, READ_ONCE(vma->vm_page_prot)));
				2694	if (vma->vm_flags & VM_WRITE)
				2695	entry = pte_mkwrite(pte_mkdirty(entry));
				2696	entry = pte_mkdevmap(entry);
				2697	}
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2698	} else {
				2699	entry = mk_pte(page, vma->vm_page_prot);
				2700	if (vma->vm_flags & VM_WRITE)
				2701	entry = pte_mkwrite(pte_mkdirty(entry));
				2702	}
				2703
				2704	ptep = pte_offset_map_lock(mm, pmdp, addr, &ptl);
				2705
				2706	if (pte_present(*ptep)) {
				2707	unsigned long pfn = pte_pfn(*ptep);
				2708
				2709	if (!is_zero_pfn(pfn)) {
				2710	pte_unmap_unlock(ptep, ptl);
				2711	mem_cgroup_cancel_charge(page, memcg, false);
				2712	goto abort;
				2713	}
				2714	flush = true;
				2715	} else if (!pte_none(*ptep)) {
				2716	pte_unmap_unlock(ptep, ptl);
				2717	mem_cgroup_cancel_charge(page, memcg, false);
				2718	goto abort;
				2719	}
				2720
				2721	/*
				2722	* Check for usefaultfd but do not deliver the fault. Instead,
				2723	* just back off.
				2724	*/
				2725	if (userfaultfd_missing(vma)) {
				2726	pte_unmap_unlock(ptep, ptl);
				2727	mem_cgroup_cancel_charge(page, memcg, false);
				2728	goto abort;
				2729	}
				2730
				2731	inc_mm_counter(mm, MM_ANONPAGES);
				2732	page_add_new_anon_rmap(page, vma, addr, false);
				2733	mem_cgroup_commit_charge(page, memcg, false, false);
				2734	if (!is_zone_device_page(page))
				2735	lru_cache_add_active_or_unevictable(page, vma);
				2736	get_page(page);
				2737
				2738	if (flush) {
				2739	flush_cache_page(vma, addr, pte_pfn(*ptep));
				2740	ptep_clear_flush_notify(vma, addr, ptep);
				2741	set_pte_at_notify(mm, addr, ptep, entry);
				2742	update_mmu_cache(vma, addr, ptep);
				2743	} else {
				2744	/* No need to invalidate - it was non-present before */
				2745	set_pte_at(mm, addr, ptep, entry);
				2746	update_mmu_cache(vma, addr, ptep);
				2747	}
				2748
				2749	pte_unmap_unlock(ptep, ptl);
				2750	*src = MIGRATE_PFN_MIGRATE;
				2751	return;
				2752
				2753	abort:
				2754	*src &= ~MIGRATE_PFN_MIGRATE;
				2755	}
				2756
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2757	/*
				2758	* migrate_vma_pages() - migrate meta-data from src page to dst page
				2759	* @migrate: migrate struct containing all migration information
				2760	*
				2761	* This migrates struct page meta-data from source struct page to destination
				2762	* struct page. This effectively finishes the migration from source page to the
				2763	* destination page.
				2764	*/
				2765	static void migrate_vma_pages(struct migrate_vma *migrate)
				2766	{
				2767	const unsigned long npages = migrate->npages;
				2768	const unsigned long start = migrate->start;
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2769	struct vm_area_struct *vma = migrate->vma;
				2770	struct mm_struct *mm = vma->vm_mm;
				2771	unsigned long addr, i, mmu_start;
				2772	bool notified = false;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2773
				2774	for (i = 0, addr = start; i < npages; addr += PAGE_SIZE, i++) {
				2775	struct page *newpage = migrate_pfn_to_page(migrate->dst[i]);
				2776	struct page *page = migrate_pfn_to_page(migrate->src[i]);
				2777	struct address_space *mapping;
				2778	int r;
				2779
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2780	if (!newpage) {
				2781	migrate->src[i] &= ~MIGRATE_PFN_MIGRATE;
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2782	continue;
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2783	}
				2784
				2785	if (!page) {
				2786	if (!(migrate->src[i] & MIGRATE_PFN_MIGRATE)) {
				2787	continue;
				2788	}
				2789	if (!notified) {
				2790	mmu_start = addr;
				2791	notified = true;
				2792	mmu_notifier_invalidate_range_start(mm,
				2793	mmu_start,
				2794	migrate->end);
				2795	}
				2796	migrate_vma_insert_page(migrate, addr, newpage,
				2797	&migrate->src[i],
				2798	&migrate->dst[i]);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2799	continue;
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2800	}
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2801
				2802	mapping = page_mapping(page);
				2803
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2804	if (is_zone_device_page(newpage)) {
				2805	if (is_device_private_page(newpage)) {
				2806	/*
				2807	* For now only support private anonymous when
				2808	* migrating to un-addressable device memory.
				2809	*/
				2810	if (mapping) {
				2811	migrate->src[i] &= ~MIGRATE_PFN_MIGRATE;
				2812	continue;
				2813	}
Jérôme Glisse	df6ad69	2017-09-08 16:12:24 -0700	[diff] [blame]	2814	} else if (!is_device_public_page(newpage)) {
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2815	/*
				2816	* Other types of ZONE_DEVICE page are not
				2817	* supported.
				2818	*/
				2819	migrate->src[i] &= ~MIGRATE_PFN_MIGRATE;
				2820	continue;
				2821	}
				2822	}
				2823
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2824	r = migrate_page(mapping, newpage, page, MIGRATE_SYNC_NO_COPY);
				2825	if (r != MIGRATEPAGE_SUCCESS)
				2826	migrate->src[i] &= ~MIGRATE_PFN_MIGRATE;
				2827	}
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2828
Jérôme Glisse	4645b9f	2017-11-15 17:34:11 -0800	[diff] [blame]	2829	/*
				2830	* No need to double call mmu_notifier->invalidate_range() callback as
				2831	* the above ptep_clear_flush_notify() inside migrate_vma_insert_page()
				2832	* did already call it.
				2833	*/
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2834	if (notified)
Jérôme Glisse	4645b9f	2017-11-15 17:34:11 -0800	[diff] [blame]	2835	mmu_notifier_invalidate_range_only_end(mm, mmu_start,
				2836	migrate->end);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2837	}
				2838
				2839	/*
				2840	* migrate_vma_finalize() - restore CPU page table entry
				2841	* @migrate: migrate struct containing all migration information
				2842	*
				2843	* This replaces the special migration pte entry with either a mapping to the
				2844	* new page if migration was successful for that page, or to the original page
				2845	* otherwise.
				2846	*
				2847	* This also unlocks the pages and puts them back on the lru, or drops the extra
				2848	* refcount, for device pages.
				2849	*/
				2850	static void migrate_vma_finalize(struct migrate_vma *migrate)
				2851	{
				2852	const unsigned long npages = migrate->npages;
				2853	unsigned long i;
				2854
				2855	for (i = 0; i < npages; i++) {
				2856	struct page *newpage = migrate_pfn_to_page(migrate->dst[i]);
				2857	struct page *page = migrate_pfn_to_page(migrate->src[i]);
				2858
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2859	if (!page) {
				2860	if (newpage) {
				2861	unlock_page(newpage);
				2862	put_page(newpage);
				2863	}
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2864	continue;
Jérôme Glisse	8315ada	2017-09-08 16:12:21 -0700	[diff] [blame]	2865	}
				2866
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2867	if (!(migrate->src[i] & MIGRATE_PFN_MIGRATE) \|\| !newpage) {
				2868	if (newpage) {
				2869	unlock_page(newpage);
				2870	put_page(newpage);
				2871	}
				2872	newpage = page;
				2873	}
				2874
				2875	remove_migration_ptes(page, newpage, false);
				2876	unlock_page(page);
				2877	migrate->cpages--;
				2878
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2879	if (is_zone_device_page(page))
				2880	put_page(page);
				2881	else
				2882	putback_lru_page(page);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2883
				2884	if (newpage != page) {
				2885	unlock_page(newpage);
Jérôme Glisse	a5430dd	2017-09-08 16:12:17 -0700	[diff] [blame]	2886	if (is_zone_device_page(newpage))
				2887	put_page(newpage);
				2888	else
				2889	putback_lru_page(newpage);
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2890	}
				2891	}
				2892	}
				2893
				2894	/*
				2895	* migrate_vma() - migrate a range of memory inside vma
				2896	*
				2897	* @ops: migration callback for allocating destination memory and copying
				2898	* @vma: virtual memory area containing the range to be migrated
				2899	* @start: start address of the range to migrate (inclusive)
				2900	* @end: end address of the range to migrate (exclusive)
				2901	* @src: array of hmm_pfn_t containing source pfns
				2902	* @dst: array of hmm_pfn_t containing destination pfns
				2903	* @private: pointer passed back to each of the callback
				2904	* Returns: 0 on success, error code otherwise
				2905	*
				2906	* This function tries to migrate a range of memory virtual address range, using
				2907	* callbacks to allocate and copy memory from source to destination. First it
				2908	* collects all the pages backing each virtual address in the range, saving this
				2909	* inside the src array. Then it locks those pages and unmaps them. Once the pages
				2910	* are locked and unmapped, it checks whether each page is pinned or not. Pages
				2911	* that aren't pinned have the MIGRATE_PFN_MIGRATE flag set (by this function)
				2912	* in the corresponding src array entry. It then restores any pages that are
				2913	* pinned, by remapping and unlocking those pages.
				2914	*
				2915	* At this point it calls the alloc_and_copy() callback. For documentation on
				2916	* what is expected from that callback, see struct migrate_vma_ops comments in
				2917	* include/linux/migrate.h
				2918	*
				2919	* After the alloc_and_copy() callback, this function goes over each entry in
				2920	* the src array that has the MIGRATE_PFN_VALID and MIGRATE_PFN_MIGRATE flag
				2921	* set. If the corresponding entry in dst array has MIGRATE_PFN_VALID flag set,
				2922	* then the function tries to migrate struct page information from the source
				2923	* struct page to the destination struct page. If it fails to migrate the struct
				2924	* page information, then it clears the MIGRATE_PFN_MIGRATE flag in the src
				2925	* array.
				2926	*
				2927	* At this point all successfully migrated pages have an entry in the src
				2928	* array with MIGRATE_PFN_VALID and MIGRATE_PFN_MIGRATE flag set and the dst
				2929	* array entry with MIGRATE_PFN_VALID flag set.
				2930	*
				2931	* It then calls the finalize_and_map() callback. See comments for "struct
				2932	* migrate_vma_ops", in include/linux/migrate.h for details about
				2933	* finalize_and_map() behavior.
				2934	*
				2935	* After the finalize_and_map() callback, for successfully migrated pages, this
				2936	* function updates the CPU page table to point to new pages, otherwise it
				2937	* restores the CPU page table to point to the original source pages.
				2938	*
				2939	* Function returns 0 after the above steps, even if no pages were migrated
				2940	* (The function only returns an error if any of the arguments are invalid.)
				2941	*
				2942	* Both src and dst array must be big enough for (end - start) >> PAGE_SHIFT
				2943	* unsigned long entries.
				2944	*/
				2945	int migrate_vma(const struct migrate_vma_ops *ops,
				2946	struct vm_area_struct *vma,
				2947	unsigned long start,
				2948	unsigned long end,
				2949	unsigned long *src,
				2950	unsigned long *dst,
				2951	void *private)
				2952	{
				2953	struct migrate_vma migrate;
				2954
				2955	/* Sanity check the arguments */
				2956	start &= PAGE_MASK;
				2957	end &= PAGE_MASK;
Dave Jiang	e1fb4a0	2018-08-17 15:43:40 -0700	[diff] [blame]	2958	if (!vma \|\| is_vm_hugetlb_page(vma) \|\| (vma->vm_flags & VM_SPECIAL) \|\|
				2959	vma_is_dax(vma))
Jérôme Glisse	8763cb4	2017-09-08 16:12:09 -0700	[diff] [blame]	2960	return -EINVAL;
				2961	if (start < vma->vm_start \|\| start >= vma->vm_end)
				2962	return -EINVAL;
				2963	if (end <= vma->vm_start \|\| end > vma->vm_end)
				2964	return -EINVAL;
				2965	if (!ops \|\| !src \|\| !dst \|\| start >= end)
				2966	return -EINVAL;
				2967
				2968	memset(src, 0, sizeof(src) ((end - start) >> PAGE_SHIFT));
				2969	migrate.src = src;
				2970	migrate.dst = dst;
				2971	migrate.start = start;
				2972	migrate.npages = 0;
				2973	migrate.cpages = 0;
				2974	migrate.end = end;
				2975	migrate.vma = vma;
				2976
				2977	/* Collect, and try to unmap source pages */
				2978	migrate_vma_collect(&migrate);
				2979	if (!migrate.cpages)
				2980	return 0;
				2981
				2982	/* Lock and isolate page */
				2983	migrate_vma_prepare(&migrate);
				2984	if (!migrate.cpages)
				2985	return 0;
				2986
				2987	/* Unmap pages */
				2988	migrate_vma_unmap(&migrate);
				2989	if (!migrate.cpages)
				2990	return 0;
				2991
				2992	/*
				2993	* At this point pages are locked and unmapped, and thus they have
				2994	* stable content and can safely be copied to destination memory that
				2995	* is allocated by the callback.
				2996	*
				2997	* Note that migration can fail in migrate_vma_struct_page() for each
				2998	* individual page.
				2999	*/
				3000	ops->alloc_and_copy(vma, src, dst, start, end, private);
				3001
				3002	/* This does the real migration of struct page */
				3003	migrate_vma_pages(&migrate);
				3004
				3005	ops->finalize_and_map(vma, src, dst, start, end, private);
				3006
				3007	/* Unlock and remap pages */
				3008	migrate_vma_finalize(&migrate);
				3009
				3010	return 0;
				3011	}
				3012	EXPORT_SYMBOL(migrate_vma);
Jérôme Glisse	6b368cd	2017-09-08 16:12:32 -0700	[diff] [blame]	3013	#endif /* defined(MIGRATE_VMA_HELPER) */