Blame - mm/migrate.c - kernel/msm-5.4

blob: e7d13a708da0b5ea4571993f85e44c9f5c0c6876 [file] [log] [blame]

Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	1	/*
				2	* Memory Migration functionality - linux/mm/migration.c
				3	*
				4	* Copyright (C) 2006 Silicon Graphics, Inc., Christoph Lameter
				5	*
				6	* Page migration was first developed in the context of the memory hotplug
				7	* project. The main authors of the migration code are:
				8	*
				9	* IWAMOTO Toshihiro <iwamoto@valinux.co.jp>
				10	* Hirokazu Takahashi <taka@valinux.co.jp>
				11	* Dave Hansen <haveblue@us.ibm.com>
Christoph Lameter	cde5353	2008-07-04 09:59:22 -0700	[diff] [blame]	12	* Christoph Lameter
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	13	*/
				14
				15	#include <linux/migrate.h>
				16	#include <linux/module.h>
				17	#include <linux/swap.h>
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	18	#include <linux/swapops.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	19	#include <linux/pagemap.h>
Christoph Lameter	e23ca00	2006-04-10 22:52:57 -0700	[diff] [blame]	20	#include <linux/buffer_head.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	21	#include <linux/mm_inline.h>
Pavel Emelyanov	b488893	2007-10-18 23:40:14 -0700	[diff] [blame]	22	#include <linux/nsproxy.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	23	#include <linux/pagevec.h>
				24	#include <linux/rmap.h>
				25	#include <linux/topology.h>
				26	#include <linux/cpu.h>
				27	#include <linux/cpuset.h>
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	28	#include <linux/writeback.h>
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	29	#include <linux/mempolicy.h>
				30	#include <linux/vmalloc.h>
David Quigley	86c3a76	2006-06-23 02:04:02 -0700	[diff] [blame]	31	#include <linux/security.h>
Balbir Singh	8a9f3cc	2008-02-07 00:13:53 -0800	[diff] [blame]	32	#include <linux/memcontrol.h>
Adrian Bunk	4f5ca26	2008-07-23 21:27:02 -0700	[diff] [blame^]	33	#include <linux/syscalls.h>
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	34
				35	#include "internal.h"
				36
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	37	#define lru_to_page(_head) (list_entry((_head)->prev, struct page, lru))
				38
				39	/*
				40	* Isolate one page from the LRU lists. If successful put it onto
				41	* the indicated list with elevated page count.
				42	*
				43	* Result:
				44	* -EBUSY: page not on LRU list
				45	* 0: page removed from LRU list and added to the specified list.
				46	*/
				47	int isolate_lru_page(struct page page, struct list_head pagelist)
				48	{
				49	int ret = -EBUSY;
				50
				51	if (PageLRU(page)) {
				52	struct zone *zone = page_zone(page);
				53
				54	spin_lock_irq(&zone->lru_lock);
KAMEZAWA Hiroyuki	3dd9fe8	2007-07-26 10:41:08 -0700	[diff] [blame]	55	if (PageLRU(page) && get_page_unless_zero(page)) {
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	56	ret = 0;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	57	ClearPageLRU(page);
				58	if (PageActive(page))
				59	del_page_from_active_list(zone, page);
				60	else
				61	del_page_from_inactive_list(zone, page);
				62	list_add_tail(&page->lru, pagelist);
				63	}
				64	spin_unlock_irq(&zone->lru_lock);
				65	}
				66	return ret;
				67	}
				68
				69	/*
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	70	* migrate_prep() needs to be called before we start compiling a list of pages
				71	* to be migrated using isolate_lru_page().
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	72	*/
				73	int migrate_prep(void)
				74	{
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	75	/*
				76	* Clear the LRU lists so pages can be isolated.
				77	* Note that pages may be moved off the LRU after we have
				78	* drained them. Those pages will fail to migrate like other
				79	* pages that may be busy.
				80	*/
				81	lru_add_drain_all();
				82
				83	return 0;
				84	}
				85
				86	static inline void move_to_lru(struct page *page)
				87	{
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	88	if (PageActive(page)) {
				89	/*
				90	* lru_cache_add_active checks that
				91	* the PG_active bit is off.
				92	*/
				93	ClearPageActive(page);
				94	lru_cache_add_active(page);
				95	} else {
				96	lru_cache_add(page);
				97	}
				98	put_page(page);
				99	}
				100
				101	/*
				102	* Add isolated pages on the list back to the LRU.
				103	*
				104	* returns the number of pages put back.
				105	*/
				106	int putback_lru_pages(struct list_head *l)
				107	{
				108	struct page *page;
				109	struct page *page2;
				110	int count = 0;
				111
				112	list_for_each_entry_safe(page, page2, l, lru) {
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	113	list_del(&page->lru);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	114	move_to_lru(page);
				115	count++;
				116	}
				117	return count;
				118	}
				119
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	120	/*
				121	* Restore a potential migration pte to a working pte entry
				122	*/
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	123	static void remove_migration_pte(struct vm_area_struct *vma,
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	124	struct page old, struct page new)
				125	{
				126	struct mm_struct *mm = vma->vm_mm;
				127	swp_entry_t entry;
				128	pgd_t *pgd;
				129	pud_t *pud;
				130	pmd_t *pmd;
				131	pte_t *ptep, pte;
				132	spinlock_t *ptl;
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	133	unsigned long addr = page_address_in_vma(new, vma);
				134
				135	if (addr == -EFAULT)
				136	return;
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	137
				138	pgd = pgd_offset(mm, addr);
				139	if (!pgd_present(*pgd))
				140	return;
				141
				142	pud = pud_offset(pgd, addr);
				143	if (!pud_present(*pud))
				144	return;
				145
				146	pmd = pmd_offset(pud, addr);
				147	if (!pmd_present(*pmd))
				148	return;
				149
				150	ptep = pte_offset_map(pmd, addr);
				151
				152	if (!is_swap_pte(*ptep)) {
				153	pte_unmap(ptep);
				154	return;
				155	}
				156
				157	ptl = pte_lockptr(mm, pmd);
				158	spin_lock(ptl);
				159	pte = *ptep;
				160	if (!is_swap_pte(pte))
				161	goto out;
				162
				163	entry = pte_to_swp_entry(pte);
				164
				165	if (!is_migration_entry(entry) \|\| migration_entry_to_page(entry) != old)
				166	goto out;
				167
Hugh Dickins	98837c7	2008-03-04 14:29:06 -0800	[diff] [blame]	168	/*
				169	* Yes, ignore the return value from a GFP_ATOMIC mem_cgroup_charge.
				170	* Failure is not an option here: we're now expected to remove every
				171	* migration pte, and will cause crashes otherwise. Normally this
				172	* is not an issue: mem_cgroup_prepare_migration bumped up the old
				173	* page_cgroup count for safety, that's now attached to the new page,
				174	* so this charge should just be another incrementation of the count,
				175	* to keep in balance with rmap.c's mem_cgroup_uncharging. But if
				176	* there's been a force_empty, those reference counts may no longer
				177	* be reliable, and this charge can actually fail: oh well, we don't
				178	* make the situation any worse by proceeding as if it had succeeded.
				179	*/
				180	mem_cgroup_charge(new, mm, GFP_ATOMIC);
				181
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	182	get_page(new);
				183	pte = pte_mkold(mk_pte(new, vma->vm_page_prot));
				184	if (is_write_migration_entry(entry))
				185	pte = pte_mkwrite(pte);
KAMEZAWA Hiroyuki	97ee052	2007-10-16 01:25:43 -0700	[diff] [blame]	186	flush_cache_page(vma, addr, pte_pfn(pte));
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	187	set_pte_at(mm, addr, ptep, pte);
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	188
				189	if (PageAnon(new))
				190	page_add_anon_rmap(new, vma, addr);
				191	else
				192	page_add_file_rmap(new);
				193
				194	/* No need to invalidate - it was non-present before */
				195	update_mmu_cache(vma, addr, pte);
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	196
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	197	out:
				198	pte_unmap_unlock(ptep, ptl);
				199	}
				200
				201	/*
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	202	* Note that remove_file_migration_ptes will only work on regular mappings,
				203	* Nonlinear mappings do not use migration entries.
				204	*/
				205	static void remove_file_migration_ptes(struct page old, struct page new)
				206	{
				207	struct vm_area_struct *vma;
				208	struct address_space *mapping = page_mapping(new);
				209	struct prio_tree_iter iter;
				210	pgoff_t pgoff = new->index << (PAGE_CACHE_SHIFT - PAGE_SHIFT);
				211
				212	if (!mapping)
				213	return;
				214
				215	spin_lock(&mapping->i_mmap_lock);
				216
				217	vma_prio_tree_foreach(vma, &iter, &mapping->i_mmap, pgoff, pgoff)
				218	remove_migration_pte(vma, old, new);
				219
				220	spin_unlock(&mapping->i_mmap_lock);
				221	}
				222
				223	/*
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	224	* Must hold mmap_sem lock on at least one of the vmas containing
				225	* the page so that the anon_vma cannot vanish.
				226	*/
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	227	static void remove_anon_migration_ptes(struct page old, struct page new)
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	228	{
				229	struct anon_vma *anon_vma;
				230	struct vm_area_struct *vma;
				231	unsigned long mapping;
				232
				233	mapping = (unsigned long)new->mapping;
				234
				235	if (!mapping \|\| (mapping & PAGE_MAPPING_ANON) == 0)
				236	return;
				237
				238	/*
				239	* We hold the mmap_sem lock. So no need to call page_lock_anon_vma.
				240	*/
				241	anon_vma = (struct anon_vma *) (mapping - PAGE_MAPPING_ANON);
				242	spin_lock(&anon_vma->lock);
				243
				244	list_for_each_entry(vma, &anon_vma->head, anon_vma_node)
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	245	remove_migration_pte(vma, old, new);
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	246
				247	spin_unlock(&anon_vma->lock);
				248	}
				249
				250	/*
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	251	* Get rid of all migration entries and replace them by
				252	* references to the indicated page.
				253	*/
				254	static void remove_migration_ptes(struct page old, struct page new)
				255	{
				256	if (PageAnon(new))
				257	remove_anon_migration_ptes(old, new);
				258	else
				259	remove_file_migration_ptes(old, new);
				260	}
				261
				262	/*
Christoph Lameter	0697212	2006-06-23 02:03:35 -0700	[diff] [blame]	263	* Something used the pte of a page under migration. We need to
				264	* get to the page and wait until migration is finished.
				265	* When we return from this function the fault will be retried.
				266	*
				267	* This function is called from do_swap_page().
				268	*/
				269	void migration_entry_wait(struct mm_struct mm, pmd_t pmd,
				270	unsigned long address)
				271	{
				272	pte_t *ptep, pte;
				273	spinlock_t *ptl;
				274	swp_entry_t entry;
				275	struct page *page;
				276
				277	ptep = pte_offset_map_lock(mm, pmd, address, &ptl);
				278	pte = *ptep;
				279	if (!is_swap_pte(pte))
				280	goto out;
				281
				282	entry = pte_to_swp_entry(pte);
				283	if (!is_migration_entry(entry))
				284	goto out;
				285
				286	page = migration_entry_to_page(entry);
				287
				288	get_page(page);
				289	pte_unmap_unlock(ptep, ptl);
				290	wait_on_page_locked(page);
				291	put_page(page);
				292	return;
				293	out:
				294	pte_unmap_unlock(ptep, ptl);
				295	}
				296
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	297	/*
Christoph Lameter	c3fcf8a	2006-06-23 02:03:32 -0700	[diff] [blame]	298	* Replace the page in the mapping.
Christoph Lameter	5b5c712	2006-06-23 02:03:29 -0700	[diff] [blame]	299	*
				300	* The number of remaining references must be:
				301	* 1 for anonymous pages without a mapping
				302	* 2 for pages with a mapping
				303	* 3 for pages with a mapping and PagePrivate set.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	304	*/
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	305	static int migrate_page_move_mapping(struct address_space *mapping,
				306	struct page newpage, struct page page)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	307	{
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	308	void **pslot;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	309
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	310	if (!mapping) {
Christoph Lameter	0e8c7d0	2007-04-23 14:41:09 -0700	[diff] [blame]	311	/* Anonymous page without mapping */
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	312	if (page_count(page) != 1)
				313	return -EAGAIN;
				314	return 0;
				315	}
				316
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	317	write_lock_irq(&mapping->tree_lock);
				318
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	319	pslot = radix_tree_lookup_slot(&mapping->page_tree,
				320	page_index(page));
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	321
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	322	if (page_count(page) != 2 + !!PagePrivate(page) \|\|
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	323	(struct page *)radix_tree_deref_slot(pslot) != page) {
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	324	write_unlock_irq(&mapping->tree_lock);
Christoph Lameter	e23ca00	2006-04-10 22:52:57 -0700	[diff] [blame]	325	return -EAGAIN;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	326	}
				327
				328	/*
				329	* Now we know that no one else is looking at the page.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	330	*/
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	331	get_page(newpage); /* add cache reference */
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	332	#ifdef CONFIG_SWAP
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	333	if (PageSwapCache(page)) {
				334	SetPageSwapCache(newpage);
				335	set_page_private(newpage, page_private(page));
				336	}
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	337	#endif
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	338
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	339	radix_tree_replace_slot(pslot, newpage);
				340
				341	/*
				342	* Drop cache reference from old page.
				343	* We know this isn't the last reference.
				344	*/
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	345	__put_page(page);
Nick Piggin	7cf9c2c	2006-12-06 20:33:44 -0800	[diff] [blame]	346
Christoph Lameter	0e8c7d0	2007-04-23 14:41:09 -0700	[diff] [blame]	347	/*
				348	* If moved to a different zone then also account
				349	* the page for that zone. Other VM counters will be
				350	* taken care of when we establish references to the
				351	* new page and drop references to the old page.
				352	*
				353	* Note that anonymous pages are accounted for
				354	* via NR_FILE_PAGES and NR_ANON_PAGES if they
				355	* are mapped to swap space.
				356	*/
				357	__dec_zone_page_state(page, NR_FILE_PAGES);
				358	__inc_zone_page_state(newpage, NR_FILE_PAGES);
				359
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	360	write_unlock_irq(&mapping->tree_lock);
				361
				362	return 0;
				363	}
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	364
				365	/*
				366	* Copy the page to its new location
				367	*/
Christoph Lameter	e7340f7	2006-06-23 02:03:29 -0700	[diff] [blame]	368	static void migrate_page_copy(struct page newpage, struct page page)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	369	{
				370	copy_highpage(newpage, page);
				371
				372	if (PageError(page))
				373	SetPageError(newpage);
				374	if (PageReferenced(page))
				375	SetPageReferenced(newpage);
				376	if (PageUptodate(page))
				377	SetPageUptodate(newpage);
				378	if (PageActive(page))
				379	SetPageActive(newpage);
				380	if (PageChecked(page))
				381	SetPageChecked(newpage);
				382	if (PageMappedToDisk(page))
				383	SetPageMappedToDisk(newpage);
				384
				385	if (PageDirty(page)) {
				386	clear_page_dirty_for_io(page);
Nick Piggin	3a902c5	2008-04-30 00:55:16 -0700	[diff] [blame]	387	/*
				388	* Want to mark the page and the radix tree as dirty, and
				389	* redo the accounting that clear_page_dirty_for_io undid,
				390	* but we can't use set_page_dirty because that function
				391	* is actually a signal that all of the page has become dirty.
				392	* Wheras only part of our page may be dirty.
				393	*/
				394	__set_page_dirty_nobuffers(newpage);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	395	}
				396
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	397	#ifdef CONFIG_SWAP
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	398	ClearPageSwapCache(page);
Christoph Lameter	6c5240a	2006-06-23 02:03:37 -0700	[diff] [blame]	399	#endif
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	400	ClearPageActive(page);
				401	ClearPagePrivate(page);
				402	set_page_private(page, 0);
				403	page->mapping = NULL;
				404
				405	/*
				406	* If any waiters have accumulated on the new page then
				407	* wake them up.
				408	*/
				409	if (PageWriteback(newpage))
				410	end_page_writeback(newpage);
				411	}
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	412
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	413	/************************************************************
				414	* Migration functions
				415	***********************************************************/
				416
				417	/* Always fail migration. Used for mappings that are not movable */
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	418	int fail_migrate_page(struct address_space *mapping,
				419	struct page newpage, struct page page)
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	420	{
				421	return -EIO;
				422	}
				423	EXPORT_SYMBOL(fail_migrate_page);
				424
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	425	/*
				426	* Common logic to directly migrate a single page suitable for
				427	* pages that do not use PagePrivate.
				428	*
				429	* Pages are locked upon entry and exit.
				430	*/
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	431	int migrate_page(struct address_space *mapping,
				432	struct page newpage, struct page page)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	433	{
				434	int rc;
				435
				436	BUG_ON(PageWriteback(page)); /* Writeback must be complete */
				437
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	438	rc = migrate_page_move_mapping(mapping, newpage, page);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	439
				440	if (rc)
				441	return rc;
				442
				443	migrate_page_copy(newpage, page);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	444	return 0;
				445	}
				446	EXPORT_SYMBOL(migrate_page);
				447
David Howells	9361401	2006-09-30 20:45:40 +0200	[diff] [blame]	448	#ifdef CONFIG_BLOCK
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	449	/*
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	450	* Migration function for pages with buffers. This function can only be used
				451	* if the underlying filesystem guarantees that no other references to "page"
				452	* exist.
				453	*/
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	454	int buffer_migrate_page(struct address_space *mapping,
				455	struct page newpage, struct page page)
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	456	{
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	457	struct buffer_head bh, head;
				458	int rc;
				459
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	460	if (!page_has_buffers(page))
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	461	return migrate_page(mapping, newpage, page);
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	462
				463	head = page_buffers(page);
				464
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	465	rc = migrate_page_move_mapping(mapping, newpage, page);
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	466
				467	if (rc)
				468	return rc;
				469
				470	bh = head;
				471	do {
				472	get_bh(bh);
				473	lock_buffer(bh);
				474	bh = bh->b_this_page;
				475
				476	} while (bh != head);
				477
				478	ClearPagePrivate(page);
				479	set_page_private(newpage, page_private(page));
				480	set_page_private(page, 0);
				481	put_page(page);
				482	get_page(newpage);
				483
				484	bh = head;
				485	do {
				486	set_bh_page(bh, newpage, bh_offset(bh));
				487	bh = bh->b_this_page;
				488
				489	} while (bh != head);
				490
				491	SetPagePrivate(newpage);
				492
				493	migrate_page_copy(newpage, page);
				494
				495	bh = head;
				496	do {
				497	unlock_buffer(bh);
				498	put_bh(bh);
				499	bh = bh->b_this_page;
				500
				501	} while (bh != head);
				502
				503	return 0;
				504	}
				505	EXPORT_SYMBOL(buffer_migrate_page);
David Howells	9361401	2006-09-30 20:45:40 +0200	[diff] [blame]	506	#endif
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	507
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	508	/*
				509	* Writeback a page to clean the dirty state
				510	*/
				511	static int writeout(struct address_space mapping, struct page page)
				512	{
				513	struct writeback_control wbc = {
				514	.sync_mode = WB_SYNC_NONE,
				515	.nr_to_write = 1,
				516	.range_start = 0,
				517	.range_end = LLONG_MAX,
				518	.nonblocking = 1,
				519	.for_reclaim = 1
				520	};
				521	int rc;
				522
				523	if (!mapping->a_ops->writepage)
				524	/* No write method for the address space */
				525	return -EINVAL;
				526
				527	if (!clear_page_dirty_for_io(page))
				528	/* Someone else already triggered a write */
				529	return -EAGAIN;
				530
				531	/*
				532	* A dirty page may imply that the underlying filesystem has
				533	* the page on some queue. So the page must be clean for
				534	* migration. Writeout may mean we loose the lock and the
				535	* page state is no longer what we checked for earlier.
				536	* At this point we know that the migration attempt cannot
				537	* be successful.
				538	*/
				539	remove_migration_ptes(page, page);
				540
				541	rc = mapping->a_ops->writepage(page, &wbc);
				542	if (rc < 0)
				543	/* I/O Error writing */
				544	return -EIO;
				545
				546	if (rc != AOP_WRITEPAGE_ACTIVATE)
				547	/* unlocked. Relock */
				548	lock_page(page);
				549
				550	return -EAGAIN;
				551	}
				552
				553	/*
				554	* Default handling if a filesystem does not provide a migration function.
				555	*/
Christoph Lameter	8351a6e	2006-06-23 02:03:33 -0700	[diff] [blame]	556	static int fallback_migrate_page(struct address_space *mapping,
				557	struct page newpage, struct page page)
				558	{
Christoph Lameter	04e62a2	2006-06-23 02:03:38 -0700	[diff] [blame]	559	if (PageDirty(page))
				560	return writeout(mapping, page);
Christoph Lameter	8351a6e	2006-06-23 02:03:33 -0700	[diff] [blame]	561
				562	/*
				563	* Buffers may be managed in a filesystem specific way.
				564	* We must have no buffers or drop them.
				565	*/
David Howells	b398f6b	2006-08-29 19:05:58 +0100	[diff] [blame]	566	if (PagePrivate(page) &&
Christoph Lameter	8351a6e	2006-06-23 02:03:33 -0700	[diff] [blame]	567	!try_to_release_page(page, GFP_KERNEL))
				568	return -EAGAIN;
				569
				570	return migrate_page(mapping, newpage, page);
				571	}
				572
Christoph Lameter	1d8b85c	2006-06-23 02:03:28 -0700	[diff] [blame]	573	/*
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	574	* Move a page to a newly allocated page
				575	* The page is locked and all ptes have been successfully removed.
				576	*
				577	* The new page will have replaced the old page if this function
				578	* is successful.
				579	*/
				580	static int move_to_new_page(struct page newpage, struct page page)
				581	{
				582	struct address_space *mapping;
				583	int rc;
				584
				585	/*
				586	* Block others from accessing the page when we get around to
				587	* establishing additional references. We are the only one
				588	* holding a reference to the new page at this point.
				589	*/
				590	if (TestSetPageLocked(newpage))
				591	BUG();
				592
				593	/* Prepare mapping for the new page.*/
				594	newpage->index = page->index;
				595	newpage->mapping = page->mapping;
				596
				597	mapping = page_mapping(page);
				598	if (!mapping)
				599	rc = migrate_page(mapping, newpage, page);
				600	else if (mapping->a_ops->migratepage)
				601	/*
				602	* Most pages have a mapping and most filesystems
				603	* should provide a migration function. Anonymous
				604	* pages are part of swap space which also has its
				605	* own migration function. This is the most common
				606	* path for page migration.
				607	*/
				608	rc = mapping->a_ops->migratepage(mapping,
				609	newpage, page);
				610	else
				611	rc = fallback_migrate_page(mapping, newpage, page);
				612
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	613	if (!rc) {
				614	mem_cgroup_page_migration(page, newpage);
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	615	remove_migration_ptes(page, newpage);
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	616	} else
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	617	newpage->mapping = NULL;
				618
				619	unlock_page(newpage);
				620
				621	return rc;
				622	}
				623
				624	/*
				625	* Obtain the lock on page, remove all ptes and migrate the page
				626	* to the newly allocated page in newpage.
				627	*/
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	628	static int unmap_and_move(new_page_t get_new_page, unsigned long private,
				629	struct page *page, int force)
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	630	{
				631	int rc = 0;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	632	int *result = NULL;
				633	struct page *newpage = get_new_page(page, private, &result);
KAMEZAWA Hiroyuki	989f89c	2007-08-30 23:56:21 -0700	[diff] [blame]	634	int rcu_locked = 0;
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	635	int charge = 0;
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	636
				637	if (!newpage)
				638	return -ENOMEM;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	639
				640	if (page_count(page) == 1)
				641	/* page was freed from under us. So we are done. */
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	642	goto move_newpage;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	643
				644	rc = -EAGAIN;
				645	if (TestSetPageLocked(page)) {
				646	if (!force)
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	647	goto move_newpage;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	648	lock_page(page);
				649	}
				650
				651	if (PageWriteback(page)) {
				652	if (!force)
				653	goto unlock;
				654	wait_on_page_writeback(page);
				655	}
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	656	/*
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	657	* By try_to_unmap(), page->mapcount goes down to 0 here. In this case,
				658	* we cannot notice that anon_vma is freed while we migrates a page.
				659	* This rcu_read_lock() delays freeing anon_vma pointer until the end
				660	* of migration. File cache pages are no problem because of page_lock()
KAMEZAWA Hiroyuki	989f89c	2007-08-30 23:56:21 -0700	[diff] [blame]	661	* File Caches may use write_page() or lock_page() in migration, then,
				662	* just care Anon page here.
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	663	*/
KAMEZAWA Hiroyuki	989f89c	2007-08-30 23:56:21 -0700	[diff] [blame]	664	if (PageAnon(page)) {
				665	rcu_read_lock();
				666	rcu_locked = 1;
				667	}
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	668
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	669	/*
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	670	* Corner case handling:
				671	* 1. When a new swap-cache page is read into, it is added to the LRU
				672	* and treated as swapcache but it has no rmap yet.
				673	* Calling try_to_unmap() against a page->mapping==NULL page will
				674	* trigger a BUG. So handle it here.
				675	* 2. An orphaned page (see truncate_complete_page) might have
				676	* fs-private metadata. The page can be picked up due to memory
				677	* offlining. Everywhere else except page reclaim, the page is
				678	* invisible to the vm, so the page can not be migrated. So try to
				679	* free the metadata, so the page can be freed.
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	680	*/
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	681	if (!page->mapping) {
				682	if (!PageAnon(page) && PagePrivate(page)) {
				683	/*
				684	* Go direct to try_to_free_buffers() here because
				685	* a) that's what try_to_release_page() would do anyway
				686	* b) we may be under rcu_read_lock() here, so we can't
				687	* use GFP_KERNEL which is what try_to_release_page()
				688	* needs to be effective.
				689	*/
				690	try_to_free_buffers(page);
				691	}
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	692	goto rcu_unlock;
Shaohua Li	62e1c55	2008-02-04 22:29:33 -0800	[diff] [blame]	693	}
				694
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	695	charge = mem_cgroup_prepare_migration(page);
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	696	/* Establish migration ptes or remove ptes */
Christoph Lameter	e6a1530	2006-06-25 05:46:49 -0700	[diff] [blame]	697	try_to_unmap(page, 1);
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	698
Christoph Lameter	e6a1530	2006-06-25 05:46:49 -0700	[diff] [blame]	699	if (!page_mapped(page))
				700	rc = move_to_new_page(newpage, page);
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	701
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	702	if (rc) {
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	703	remove_migration_ptes(page, page);
KAMEZAWA Hiroyuki	ae41be3	2008-02-07 00:14:10 -0800	[diff] [blame]	704	if (charge)
				705	mem_cgroup_end_migration(page);
				706	} else if (charge)
				707	mem_cgroup_end_migration(newpage);
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	708	rcu_unlock:
KAMEZAWA Hiroyuki	989f89c	2007-08-30 23:56:21 -0700	[diff] [blame]	709	if (rcu_locked)
				710	rcu_read_unlock();
Christoph Lameter	e6a1530	2006-06-25 05:46:49 -0700	[diff] [blame]	711
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	712	unlock:
KAMEZAWA Hiroyuki	dc386d4	2007-07-26 10:41:07 -0700	[diff] [blame]	713
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	714	unlock_page(page);
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	715
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	716	if (rc != -EAGAIN) {
Christoph Lameter	aaa994b	2006-06-23 02:03:52 -0700	[diff] [blame]	717	/*
				718	* A page that has been migrated has all references
				719	* removed and will be freed. A page that has not been
				720	* migrated will have kepts its references and be
				721	* restored.
				722	*/
				723	list_del(&page->lru);
				724	move_to_lru(page);
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	725	}
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	726
				727	move_newpage:
				728	/*
				729	* Move the new page to the LRU. If migration was not successful
				730	* then this will free the page.
				731	*/
				732	move_to_lru(newpage);
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	733	if (result) {
				734	if (rc)
				735	*result = rc;
				736	else
				737	*result = page_to_nid(newpage);
				738	}
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	739	return rc;
				740	}
				741
				742	/*
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	743	* migrate_pages
				744	*
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	745	* The function takes one list of pages to migrate and a function
				746	* that determines from the page to be migrated and the private data
				747	* the target of the move and allocates the page.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	748	*
				749	* The function returns after 10 attempts or if no pages
				750	* are movable anymore because to has become empty
Christoph Lameter	aaa994b	2006-06-23 02:03:52 -0700	[diff] [blame]	751	* or no retryable pages exist anymore. All pages will be
Gabriel Craciunescu	e9534b3	2007-10-20 02:13:26 +0200	[diff] [blame]	752	* returned to the LRU or freed.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	753	*
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	754	* Return: Number of pages not migrated or error code.
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	755	*/
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	756	int migrate_pages(struct list_head *from,
				757	new_page_t get_new_page, unsigned long private)
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	758	{
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	759	int retry = 1;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	760	int nr_failed = 0;
				761	int pass = 0;
				762	struct page *page;
				763	struct page *page2;
				764	int swapwrite = current->flags & PF_SWAPWRITE;
				765	int rc;
				766
				767	if (!swapwrite)
				768	current->flags \|= PF_SWAPWRITE;
				769
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	770	for(pass = 0; pass < 10 && retry; pass++) {
				771	retry = 0;
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	772
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	773	list_for_each_entry_safe(page, page2, from, lru) {
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	774	cond_resched();
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	775
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	776	rc = unmap_and_move(get_new_page, private,
				777	page, pass > 2);
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	778
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	779	switch(rc) {
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	780	case -ENOMEM:
				781	goto out;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	782	case -EAGAIN:
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	783	retry++;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	784	break;
				785	case 0:
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	786	break;
				787	default:
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	788	/* Permanent failure */
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	789	nr_failed++;
Christoph Lameter	e24f0b8	2006-06-23 02:03:51 -0700	[diff] [blame]	790	break;
Christoph Lameter	2d1db3b	2006-06-23 02:03:33 -0700	[diff] [blame]	791	}
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	792	}
				793	}
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	794	rc = 0;
				795	out:
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	796	if (!swapwrite)
				797	current->flags &= ~PF_SWAPWRITE;
				798
Christoph Lameter	aaa994b	2006-06-23 02:03:52 -0700	[diff] [blame]	799	putback_lru_pages(from);
Christoph Lameter	95a402c	2006-06-23 02:03:53 -0700	[diff] [blame]	800
				801	if (rc)
				802	return rc;
				803
Christoph Lameter	b20a350	2006-03-22 00:09:12 -0800	[diff] [blame]	804	return nr_failed + retry;
				805	}
				806
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	807	#ifdef CONFIG_NUMA
				808	/*
				809	* Move a list of individual pages
				810	*/
				811	struct page_to_node {
				812	unsigned long addr;
				813	struct page *page;
				814	int node;
				815	int status;
				816	};
				817
				818	static struct page new_page_node(struct page p, unsigned long private,
				819	int **result)
				820	{
				821	struct page_to_node pm = (struct page_to_node )private;
				822
				823	while (pm->node != MAX_NUMNODES && pm->page != p)
				824	pm++;
				825
				826	if (pm->node == MAX_NUMNODES)
				827	return NULL;
				828
				829	*result = &pm->status;
				830
Mel Gorman	769848c	2007-07-17 04:03:05 -0700	[diff] [blame]	831	return alloc_pages_node(pm->node,
				832	GFP_HIGHUSER_MOVABLE \| GFP_THISNODE, 0);
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	833	}
				834
				835	/*
				836	* Move a set of pages as indicated in the pm array. The addr
				837	* field must be set to the virtual address of the page to be moved
				838	* and the node number must contain a valid target node.
				839	*/
				840	static int do_move_pages(struct mm_struct mm, struct page_to_node pm,
				841	int migrate_all)
				842	{
				843	int err;
				844	struct page_to_node *pp;
				845	LIST_HEAD(pagelist);
				846
				847	down_read(&mm->mmap_sem);
				848
				849	/*
				850	* Build a list of pages to migrate
				851	*/
				852	migrate_prep();
				853	for (pp = pm; pp->node != MAX_NUMNODES; pp++) {
				854	struct vm_area_struct *vma;
				855	struct page *page;
				856
				857	/*
				858	* A valid page pointer that will not match any of the
				859	* pages that will be moved.
				860	*/
				861	pp->page = ZERO_PAGE(0);
				862
				863	err = -EFAULT;
				864	vma = find_vma(mm, pp->addr);
Christoph Lameter	0dc952d	2007-03-05 00:30:33 -0800	[diff] [blame]	865	if (!vma \|\| !vma_migratable(vma))
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	866	goto set_status;
				867
				868	page = follow_page(vma, pp->addr, FOLL_GET);
Linus Torvalds	89f5b7d	2008-06-20 11:18:25 -0700	[diff] [blame]	869
				870	err = PTR_ERR(page);
				871	if (IS_ERR(page))
				872	goto set_status;
				873
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	874	err = -ENOENT;
				875	if (!page)
				876	goto set_status;
				877
				878	if (PageReserved(page)) /* Check for zero page */
				879	goto put_and_set;
				880
				881	pp->page = page;
				882	err = page_to_nid(page);
				883
				884	if (err == pp->node)
				885	/*
				886	* Node already in the right place
				887	*/
				888	goto put_and_set;
				889
				890	err = -EACCES;
				891	if (page_mapcount(page) > 1 &&
				892	!migrate_all)
				893	goto put_and_set;
				894
				895	err = isolate_lru_page(page, &pagelist);
				896	put_and_set:
				897	/*
				898	* Either remove the duplicate refcount from
				899	* isolate_lru_page() or drop the page ref if it was
				900	* not isolated.
				901	*/
				902	put_page(page);
				903	set_status:
				904	pp->status = err;
				905	}
				906
				907	if (!list_empty(&pagelist))
				908	err = migrate_pages(&pagelist, new_page_node,
				909	(unsigned long)pm);
				910	else
				911	err = -ENOENT;
				912
				913	up_read(&mm->mmap_sem);
				914	return err;
				915	}
				916
				917	/*
				918	* Determine the nodes of a list of pages. The addr in the pm array
				919	* must have been set to the virtual address of which we want to determine
				920	* the node number.
				921	*/
				922	static int do_pages_stat(struct mm_struct mm, struct page_to_node pm)
				923	{
				924	down_read(&mm->mmap_sem);
				925
				926	for ( ; pm->node != MAX_NUMNODES; pm++) {
				927	struct vm_area_struct *vma;
				928	struct page *page;
				929	int err;
				930
				931	err = -EFAULT;
				932	vma = find_vma(mm, pm->addr);
				933	if (!vma)
				934	goto set_status;
				935
				936	page = follow_page(vma, pm->addr, 0);
Linus Torvalds	89f5b7d	2008-06-20 11:18:25 -0700	[diff] [blame]	937
				938	err = PTR_ERR(page);
				939	if (IS_ERR(page))
				940	goto set_status;
				941
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	942	err = -ENOENT;
				943	/* Use PageReserved to check for zero page */
				944	if (!page \|\| PageReserved(page))
				945	goto set_status;
				946
				947	err = page_to_nid(page);
				948	set_status:
				949	pm->status = err;
				950	}
				951
				952	up_read(&mm->mmap_sem);
				953	return 0;
				954	}
				955
				956	/*
				957	* Move a list of pages in the address space of the currently executing
				958	* process.
				959	*/
				960	asmlinkage long sys_move_pages(pid_t pid, unsigned long nr_pages,
				961	const void __user * __user *pages,
				962	const int __user *nodes,
				963	int __user *status, int flags)
				964	{
				965	int err = 0;
				966	int i;
				967	struct task_struct *task;
				968	nodemask_t task_nodes;
				969	struct mm_struct *mm;
				970	struct page_to_node *pm = NULL;
				971
				972	/* Check flags */
				973	if (flags & ~(MPOL_MF_MOVE\|MPOL_MF_MOVE_ALL))
				974	return -EINVAL;
				975
				976	if ((flags & MPOL_MF_MOVE_ALL) && !capable(CAP_SYS_NICE))
				977	return -EPERM;
				978
				979	/* Find the mm_struct */
				980	read_lock(&tasklist_lock);
Pavel Emelyanov	228ebcb	2007-10-18 23:40:16 -0700	[diff] [blame]	981	task = pid ? find_task_by_vpid(pid) : current;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	982	if (!task) {
				983	read_unlock(&tasklist_lock);
				984	return -ESRCH;
				985	}
				986	mm = get_task_mm(task);
				987	read_unlock(&tasklist_lock);
				988
				989	if (!mm)
				990	return -EINVAL;
				991
				992	/*
				993	* Check if this process has the right to modify the specified
				994	* process. The right exists if the process has administrative
				995	* capabilities, superuser privileges or the same
				996	* userid as the target process.
				997	*/
				998	if ((current->euid != task->suid) && (current->euid != task->uid) &&
				999	(current->uid != task->suid) && (current->uid != task->uid) &&
				1000	!capable(CAP_SYS_NICE)) {
				1001	err = -EPERM;
				1002	goto out2;
				1003	}
				1004
David Quigley	86c3a76	2006-06-23 02:04:02 -0700	[diff] [blame]	1005	err = security_task_movememory(task);
				1006	if (err)
				1007	goto out2;
				1008
				1009
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1010	task_nodes = cpuset_mems_allowed(task);
				1011
				1012	/* Limit nr_pages so that the multiplication may not overflow */
				1013	if (nr_pages >= ULONG_MAX / sizeof(struct page_to_node) - 1) {
				1014	err = -E2BIG;
				1015	goto out2;
				1016	}
				1017
				1018	pm = vmalloc((nr_pages + 1) * sizeof(struct page_to_node));
				1019	if (!pm) {
				1020	err = -ENOMEM;
				1021	goto out2;
				1022	}
				1023
				1024	/*
				1025	* Get parameters from user space and initialize the pm
				1026	* array. Return various errors if the user did something wrong.
				1027	*/
				1028	for (i = 0; i < nr_pages; i++) {
Al Viro	9d966d4	2007-10-14 19:34:10 +0100	[diff] [blame]	1029	const void __user *p;
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1030
				1031	err = -EFAULT;
				1032	if (get_user(p, pages + i))
				1033	goto out;
				1034
				1035	pm[i].addr = (unsigned long)p;
				1036	if (nodes) {
				1037	int node;
				1038
				1039	if (get_user(node, nodes + i))
				1040	goto out;
				1041
				1042	err = -ENODEV;
Christoph Lameter	56bbd65	2007-10-16 01:25:35 -0700	[diff] [blame]	1043	if (!node_state(node, N_HIGH_MEMORY))
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1044	goto out;
				1045
				1046	err = -EACCES;
				1047	if (!node_isset(node, task_nodes))
				1048	goto out;
				1049
				1050	pm[i].node = node;
Stephen Rothwell	8ce0846	2006-11-02 22:07:28 -0800	[diff] [blame]	1051	} else
				1052	pm[i].node = 0; /* anything to not match MAX_NUMNODES */
Christoph Lameter	742755a	2006-06-23 02:03:55 -0700	[diff] [blame]	1053	}
				1054	/* End marker */
				1055	pm[nr_pages].node = MAX_NUMNODES;
				1056
				1057	if (nodes)
				1058	err = do_move_pages(mm, pm, flags & MPOL_MF_MOVE_ALL);
				1059	else
				1060	err = do_pages_stat(mm, pm);
				1061
				1062	if (err >= 0)
				1063	/* Return status information */
				1064	for (i = 0; i < nr_pages; i++)
				1065	if (put_user(pm[i].status, status + i))
				1066	err = -EFAULT;
				1067
				1068	out:
				1069	vfree(pm);
				1070	out2:
				1071	mmput(mm);
				1072	return err;
				1073	}
				1074	#endif
				1075
Christoph Lameter	7b2259b	2006-06-25 05:46:48 -0700	[diff] [blame]	1076	/*
				1077	* Call migration functions in the vma_ops that may prepare
				1078	* memory in a vm for migration. migration functions may perform
				1079	* the migration for vmas that do not have an underlying page struct.
				1080	*/
				1081	int migrate_vmas(struct mm_struct mm, const nodemask_t to,
				1082	const nodemask_t *from, unsigned long flags)
				1083	{
				1084	struct vm_area_struct *vma;
				1085	int err = 0;
				1086
				1087	for(vma = mm->mmap; vma->vm_next && !err; vma = vma->vm_next) {
				1088	if (vma->vm_ops && vma->vm_ops->migrate) {
				1089	err = vma->vm_ops->migrate(vma, to, from, flags);
				1090	if (err)
				1091	break;
				1092	}
				1093	}
				1094	return err;
				1095	}