Blame - mm/mlock.c - kernel/msm

blob: 67b3dd8616dc7f6ab4e10f9b98ec9cf32cae0076 [file] [log] [blame]

Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1	/*
				2	* linux/mm/mlock.c
				3	*
				4	* (C) Copyright 1995 Linus Torvalds
				5	* (C) Copyright 2002 Christoph Hellwig
				6	*/
				7
Randy.Dunlap	c59ede7	2006-01-11 12:17:46 -0800	[diff] [blame]	8	#include <linux/capability.h>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	9	#include <linux/mman.h>
				10	#include <linux/mm.h>
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	11	#include <linux/swap.h>
				12	#include <linux/swapops.h>
				13	#include <linux/pagemap.h>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	14	#include <linux/mempolicy.h>
				15	#include <linux/syscalls.h>
Alexey Dobriyan	e8edc6e	2007-05-21 01:22:52 +0400	[diff] [blame]	16	#include <linux/sched.h>
				17	#include <linux/module.h>
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	18	#include <linux/rmap.h>
				19	#include <linux/mmzone.h>
				20	#include <linux/hugetlb.h>
				21
				22	#include "internal.h"
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	23
Alexey Dobriyan	e8edc6e	2007-05-21 01:22:52 +0400	[diff] [blame]	24	int can_do_mlock(void)
				25	{
				26	if (capable(CAP_IPC_LOCK))
				27	return 1;
Jiri Slaby	59e99e5	2010-03-05 13:41:44 -0800	[diff] [blame]	28	if (rlimit(RLIMIT_MEMLOCK) != 0)
Alexey Dobriyan	e8edc6e	2007-05-21 01:22:52 +0400	[diff] [blame]	29	return 1;
				30	return 0;
				31	}
				32	EXPORT_SYMBOL(can_do_mlock);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	33
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	34	/*
				35	* Mlocked pages are marked with PageMlocked() flag for efficient testing
				36	* in vmscan and, possibly, the fault path; and to support semi-accurate
				37	* statistics.
				38	*
				39	* An mlocked page [PageMlocked(page)] is unevictable. As such, it will
				40	* be placed on the LRU "unevictable" list, rather than the [in]active lists.
				41	* The unevictable list is an LRU sibling list to the [in]active lists.
				42	* PageUnevictable is set to indicate the unevictable state.
				43	*
				44	* When lazy mlocking via vmscan, it is important to ensure that the
				45	* vma's VM_LOCKED status is not concurrently being modified, otherwise we
				46	* may have mlocked a page that is being munlocked. So lazy mlock must take
				47	* the mmap_sem for read, and verify that the vma really is locked
				48	* (see mm/rmap.c).
				49	*/
				50
				51	/*
				52	* LRU accounting for clear_page_mlock()
				53	*/
				54	void __clear_page_mlock(struct page *page)
				55	{
				56	VM_BUG_ON(!PageLocked(page));
				57
				58	if (!page->mapping) { /* truncated ? */
				59	return;
				60	}
				61
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	62	dec_zone_page_state(page, NR_MLOCK);
				63	count_vm_event(UNEVICTABLE_PGCLEARED);
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	64	if (!isolate_lru_page(page)) {
				65	putback_lru_page(page);
				66	} else {
				67	/*
KOSAKI Motohiro	8891d6d	2008-11-12 13:26:53 -0800	[diff] [blame]	68	* We lost the race. the page already moved to evictable list.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	69	*/
KOSAKI Motohiro	8891d6d	2008-11-12 13:26:53 -0800	[diff] [blame]	70	if (PageUnevictable(page))
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	71	count_vm_event(UNEVICTABLE_PGSTRANDED);
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	72	}
				73	}
				74
				75	/*
				76	* Mark page as mlocked if not already.
				77	* If page on LRU, isolate and putback to move to unevictable list.
				78	*/
				79	void mlock_vma_page(struct page *page)
				80	{
				81	BUG_ON(!PageLocked(page));
				82
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	83	if (!TestSetPageMlocked(page)) {
				84	inc_zone_page_state(page, NR_MLOCK);
				85	count_vm_event(UNEVICTABLE_PGMLOCKED);
				86	if (!isolate_lru_page(page))
				87	putback_lru_page(page);
				88	}
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	89	}
				90
Lee Schermerhorn	6927c1d	2009-12-14 17:59:55 -0800	[diff] [blame]	91	/**
				92	* munlock_vma_page - munlock a vma page
				93	* @page - page to be unlocked
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	94	*
Lee Schermerhorn	6927c1d	2009-12-14 17:59:55 -0800	[diff] [blame]	95	* called from munlock()/munmap() path with page supposedly on the LRU.
				96	* When we munlock a page, because the vma where we found the page is being
				97	* munlock()ed or munmap()ed, we want to check whether other vmas hold the
				98	* page locked so that we can leave it on the unevictable lru list and not
				99	* bother vmscan with it. However, to walk the page's rmap list in
				100	* try_to_munlock() we must isolate the page from the LRU. If some other
				101	* task has removed the page from the LRU, we won't be able to do that.
				102	* So we clear the PageMlocked as we might not get another chance. If we
				103	* can't isolate the page, we leave it for putback_lru_page() and vmscan
				104	* [page_referenced()/try_to_unmap()] to deal with.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	105	*/
Hugh Dickins	73848b4	2009-12-14 17:59:22 -0800	[diff] [blame]	106	void munlock_vma_page(struct page *page)
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	107	{
				108	BUG_ON(!PageLocked(page));
				109
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	110	if (TestClearPageMlocked(page)) {
				111	dec_zone_page_state(page, NR_MLOCK);
				112	if (!isolate_lru_page(page)) {
				113	int ret = try_to_munlock(page);
				114	/*
				115	* did try_to_unlock() succeed or punt?
				116	*/
Hugh Dickins	53f79ac	2009-12-14 17:58:58 -0800	[diff] [blame]	117	if (ret != SWAP_MLOCK)
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	118	count_vm_event(UNEVICTABLE_PGMUNLOCKED);
				119
				120	putback_lru_page(page);
				121	} else {
				122	/*
Lee Schermerhorn	6927c1d	2009-12-14 17:59:55 -0800	[diff] [blame]	123	* Some other task has removed the page from the LRU.
				124	* putback_lru_page() will take care of removing the
				125	* page from the unevictable list, if necessary.
				126	* vmscan [page_referenced()] will move the page back
				127	* to the unevictable list if some other vma has it
				128	* mlocked.
Nick Piggin	5344b7e	2008-10-18 20:26:51 -0700	[diff] [blame]	129	*/
				130	if (PageUnevictable(page))
				131	count_vm_event(UNEVICTABLE_PGSTRANDED);
				132	else
				133	count_vm_event(UNEVICTABLE_PGMUNLOCKED);
				134	}
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	135	}
				136	}
				137
Linus Torvalds	7798330	2010-08-20 16:39:25 -0700	[diff] [blame]	138	static inline int stack_guard_page(struct vm_area_struct *vma, unsigned long addr)
				139	{
				140	return (vma->vm_flags & VM_GROWSDOWN) &&
				141	(vma->vm_start == addr) &&
				142	!vma_stack_continue(vma->vm_prev, addr);
				143	}
				144
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	145	/**
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	146	* __mlock_vma_pages_range() - mlock a range of pages in the vma.
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	147	* @vma: target vma
				148	* @start: start address
				149	* @end: end address
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	150	*
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	151	* This takes care of making the pages present too.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	152	*
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	153	* return 0 on success, negative error code on error.
				154	*
				155	* vma->vm_mm->mmap_sem must be held for at least read.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	156	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	157	static long __mlock_vma_pages_range(struct vm_area_struct *vma,
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	158	unsigned long start, unsigned long end)
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	159	{
				160	struct mm_struct *mm = vma->vm_mm;
				161	unsigned long addr = start;
				162	struct page pages[16]; / 16 gives a reasonable batch */
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	163	int nr_pages = (end - start) / PAGE_SIZE;
Helge Deller	72eb8c6	2008-11-17 00:30:57 +0100	[diff] [blame]	164	int ret = 0;
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	165	int gup_flags;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	166
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	167	VM_BUG_ON(start & ~PAGE_MASK);
				168	VM_BUG_ON(end & ~PAGE_MASK);
				169	VM_BUG_ON(start < vma->vm_start);
				170	VM_BUG_ON(end > vma->vm_end);
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	171	VM_BUG_ON(!rwsem_is_locked(&mm->mmap_sem));
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	172
Hugh Dickins	58fa879	2009-09-21 17:03:31 -0700	[diff] [blame]	173	gup_flags = FOLL_TOUCH \| FOLL_GET;
Michel Lespinasse	5ecfda0	2011-01-13 15:46:09 -0800	[diff] [blame]	174	/*
				175	* We want to touch writable mappings with a write fault in order
				176	* to break COW, except for shared mappings because these don't COW
				177	* and we would not want to dirty them for nothing.
				178	*/
				179	if ((vma->vm_flags & (VM_WRITE \| VM_SHARED)) == VM_WRITE)
Hugh Dickins	58fa879	2009-09-21 17:03:31 -0700	[diff] [blame]	180	gup_flags \|= FOLL_WRITE;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	181
Linus Torvalds	d782437	2010-08-15 11:35:52 -0700	[diff] [blame]	182	/* We don't try to access the guard page of a stack vma */
Linus Torvalds	7798330	2010-08-20 16:39:25 -0700	[diff] [blame]	183	if (stack_guard_page(vma, start)) {
				184	addr += PAGE_SIZE;
				185	nr_pages--;
Linus Torvalds	d782437	2010-08-15 11:35:52 -0700	[diff] [blame]	186	}
				187
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	188	while (nr_pages > 0) {
				189	int i;
				190
				191	cond_resched();
				192
				193	/*
				194	* get_user_pages makes pages present if we are
				195	* setting mlock. and this extra reference count will
				196	* disable migration of this page. However, page may
				197	* still be truncated out from under us.
				198	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	199	ret = __get_user_pages(current, mm, addr,
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	200	min_t(int, nr_pages, ARRAY_SIZE(pages)),
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	201	gup_flags, pages, NULL);
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	202	/*
				203	* This can happen for, e.g., VM_NONLINEAR regions before
				204	* a page has been allocated and mapped at a given offset,
				205	* or for addresses that map beyond end of a file.
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	206	* We'll mlock the pages if/when they get faulted in.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	207	*/
				208	if (ret < 0)
				209	break;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	210
				211	lru_add_drain(); /* push cached pages to LRU */
				212
				213	for (i = 0; i < ret; i++) {
				214	struct page *page = pages[i];
				215
Hugh Dickins	6e91971	2009-09-21 17:03:32 -0700	[diff] [blame]	216	if (page->mapping) {
				217	/*
				218	* That preliminary check is mainly to avoid
				219	* the pointless overhead of lock_page on the
				220	* ZERO_PAGE: which might bounce very badly if
				221	* there is contention. However, we're still
				222	* dirtying its cacheline with get/put_page:
				223	* we'll add another __get_user_pages flag to
				224	* avoid it if that case turns out to matter.
				225	*/
				226	lock_page(page);
				227	/*
				228	* Because we lock page here and migration is
				229	* blocked by the elevated reference, we need
				230	* only check for file-cache page truncation.
				231	*/
				232	if (page->mapping)
				233	mlock_vma_page(page);
				234	unlock_page(page);
				235	}
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	236	put_page(page); /* ref from get_user_pages() */
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	237	}
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	238
				239	addr += ret * PAGE_SIZE;
				240	nr_pages -= ret;
Lee Schermerhorn	9978ad5	2008-10-18 20:26:56 -0700	[diff] [blame]	241	ret = 0;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	242	}
				243
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	244	return ret; /* 0 or negative error code */
Lee Schermerhorn	9978ad5	2008-10-18 20:26:56 -0700	[diff] [blame]	245	}
				246
				247	/*
				248	* convert get_user_pages() return value to posix mlock() error
				249	*/
				250	static int __mlock_posix_error_return(long retval)
				251	{
				252	if (retval == -EFAULT)
				253	retval = -ENOMEM;
				254	else if (retval == -ENOMEM)
				255	retval = -EAGAIN;
				256	return retval;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	257	}
				258
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	259	/**
				260	* mlock_vma_pages_range() - mlock pages in specified vma range.
				261	* @vma - the vma containing the specfied address range
				262	* @start - starting address in @vma to mlock
				263	* @end - end address [+1] in @vma to mlock
				264	*
				265	* For mmap()/mremap()/expansion of mlocked vma.
				266	*
				267	* return 0 on success for "normal" vmas.
				268	*
				269	* return number of pages [> 0] to be removed from locked_vm on success
				270	* of "special" vmas.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	271	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	272	long mlock_vma_pages_range(struct vm_area_struct *vma,
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	273	unsigned long start, unsigned long end)
				274	{
				275	int nr_pages = (end - start) / PAGE_SIZE;
				276	BUG_ON(!(vma->vm_flags & VM_LOCKED));
				277
				278	/*
				279	* filter unlockable vmas
				280	*/
				281	if (vma->vm_flags & (VM_IO \| VM_PFNMAP))
				282	goto no_mlock;
				283
				284	if (!((vma->vm_flags & (VM_DONTEXPAND \| VM_RESERVED)) \|\|
				285	is_vm_hugetlb_page(vma) \|\|
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	286	vma == get_gate_vma(current))) {
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	287
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	288	__mlock_vma_pages_range(vma, start, end);
Hugh Dickins	d5b5623	2009-02-08 20:56:58 +0000	[diff] [blame]	289
				290	/* Hide errors from mmap() and other callers */
				291	return 0;
Lee Schermerhorn	8edb08c	2008-10-18 20:26:49 -0700	[diff] [blame]	292	}
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	293
				294	/*
				295	* User mapped kernel pages or huge pages:
				296	* make these pages present to populate the ptes, but
				297	* fall thru' to reset VM_LOCKED--no need to unlock, and
				298	* return nr_pages so these don't get counted against task's
				299	* locked limit. huge pages are already counted against
				300	* locked vm limit.
				301	*/
				302	make_pages_present(start, end);
				303
				304	no_mlock:
				305	vma->vm_flags &= ~VM_LOCKED; /* and don't come back! */
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	306	return nr_pages; /* error or pages NOT mlocked */
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	307	}
				308
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	309	/*
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	310	* munlock_vma_pages_range() - munlock all pages in the vma range.'
				311	* @vma - vma containing range to be munlock()ed.
				312	* @start - start address in @vma of the range
				313	* @end - end of range in @vma.
				314	*
				315	* For mremap(), munmap() and exit().
				316	*
				317	* Called with @vma VM_LOCKED.
				318	*
				319	* Returns with VM_LOCKED cleared. Callers must be prepared to
				320	* deal with this.
				321	*
				322	* We don't save and restore VM_LOCKED here because pages are
				323	* still on lru. In unmap path, pages might be scanned by reclaim
				324	* and re-mlocked by try_to_{munlock\|unmap} before we unmap and
				325	* free them. This will result in freeing mlocked pages.
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	326	*/
Rik van Riel	ba470de	2008-10-18 20:26:50 -0700	[diff] [blame]	327	void munlock_vma_pages_range(struct vm_area_struct *vma,
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	328	unsigned long start, unsigned long end)
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	329	{
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	330	unsigned long addr;
				331
				332	lru_add_drain();
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	333	vma->vm_flags &= ~VM_LOCKED;
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	334
				335	for (addr = start; addr < end; addr += PAGE_SIZE) {
Hugh Dickins	6e91971	2009-09-21 17:03:32 -0700	[diff] [blame]	336	struct page *page;
				337	/*
				338	* Although FOLL_DUMP is intended for get_dump_page(),
				339	* it just so happens that its special treatment of the
				340	* ZERO_PAGE (returning an error instead of doing get_page)
				341	* suits munlock very well (and if somehow an abnormal page
				342	* has sneaked into the range, we won't oops here: great).
				343	*/
				344	page = follow_page(vma, addr, FOLL_GET \| FOLL_DUMP);
				345	if (page && !IS_ERR(page)) {
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	346	lock_page(page);
Hugh Dickins	6e91971	2009-09-21 17:03:32 -0700	[diff] [blame]	347	/*
				348	* Like in __mlock_vma_pages_range(),
				349	* because we lock page here and migration is
				350	* blocked by the elevated reference, we need
				351	* only check for file-cache page truncation.
				352	*/
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	353	if (page->mapping)
				354	munlock_vma_page(page);
				355	unlock_page(page);
				356	put_page(page);
				357	}
				358	cond_resched();
				359	}
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	360	}
				361
				362	/*
				363	* mlock_fixup - handle mlock[all]/munlock[all] requests.
				364	*
				365	* Filters out "special" vmas -- VM_LOCKED never gets set for these, and
				366	* munlock is a no-op. However, for some special vmas, we go ahead and
				367	* populate the ptes via make_pages_present().
				368	*
				369	* For vmas that pass the filters, merge/split as appropriate.
				370	*/
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	371	static int mlock_fixup(struct vm_area_struct vma, struct vm_area_struct *prev,
				372	unsigned long start, unsigned long end, unsigned int newflags)
				373	{
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	374	struct mm_struct *mm = vma->vm_mm;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	375	pgoff_t pgoff;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	376	int nr_pages;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	377	int ret = 0;
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	378	int lock = newflags & VM_LOCKED;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	379
Michel Lespinasse	fed067d	2011-01-13 15:46:10 -0800	[diff] [blame^]	380	if (newflags == vma->vm_flags \|\| (vma->vm_flags & VM_SPECIAL) \|\|
				381	is_vm_hugetlb_page(vma) \|\| vma == get_gate_vma(current))
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	382	goto out; /* don't set VM_LOCKED, don't count */
				383
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	384	pgoff = vma->vm_pgoff + ((start - vma->vm_start) >> PAGE_SHIFT);
				385	prev = vma_merge(mm, prev, start, end, newflags, vma->anon_vma,
				386	vma->vm_file, pgoff, vma_policy(vma));
				387	if (*prev) {
				388	vma = *prev;
				389	goto success;
				390	}
				391
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	392	if (start != vma->vm_start) {
				393	ret = split_vma(mm, vma, start, 1);
				394	if (ret)
				395	goto out;
				396	}
				397
				398	if (end != vma->vm_end) {
				399	ret = split_vma(mm, vma, end, 0);
				400	if (ret)
				401	goto out;
				402	}
				403
				404	success:
				405	/*
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	406	* Keep track of amount of locked VM.
				407	*/
				408	nr_pages = (end - start) >> PAGE_SHIFT;
				409	if (!lock)
				410	nr_pages = -nr_pages;
				411	mm->locked_vm += nr_pages;
				412
				413	/*
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	414	* vm_flags is protected by the mmap_sem held in write mode.
				415	* It's okay if try_to_unmap_one unmaps a page just after we
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	416	* set VM_LOCKED, __mlock_vma_pages_range will bring it back.
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	417	*/
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	418
Michel Lespinasse	fed067d	2011-01-13 15:46:10 -0800	[diff] [blame^]	419	if (lock)
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	420	vma->vm_flags = newflags;
Michel Lespinasse	fed067d	2011-01-13 15:46:10 -0800	[diff] [blame^]	421	else
Hugh Dickins	408e82b	2009-09-21 17:03:23 -0700	[diff] [blame]	422	munlock_vma_pages_range(vma, start, end);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	423
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	424	out:
Nick Piggin	b291f00	2008-10-18 20:26:44 -0700	[diff] [blame]	425	*prev = vma;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	426	return ret;
				427	}
				428
				429	static int do_mlock(unsigned long start, size_t len, int on)
				430	{
				431	unsigned long nstart, end, tmp;
				432	struct vm_area_struct * vma, * prev;
				433	int error;
				434
Michel Lespinasse	fed067d	2011-01-13 15:46:10 -0800	[diff] [blame^]	435	VM_BUG_ON(start & ~PAGE_MASK);
				436	VM_BUG_ON(len != PAGE_ALIGN(len));
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	437	end = start + len;
				438	if (end < start)
				439	return -EINVAL;
				440	if (end == start)
				441	return 0;
				442	vma = find_vma_prev(current->mm, start, &prev);
				443	if (!vma \|\| vma->vm_start > start)
				444	return -ENOMEM;
				445
				446	if (start > vma->vm_start)
				447	prev = vma;
				448
				449	for (nstart = start ; ; ) {
				450	unsigned int newflags;
				451
				452	/* Here we know that vma->vm_start <= nstart < vma->vm_end. */
				453
				454	newflags = vma->vm_flags \| VM_LOCKED;
				455	if (!on)
				456	newflags &= ~VM_LOCKED;
				457
				458	tmp = vma->vm_end;
				459	if (tmp > end)
				460	tmp = end;
				461	error = mlock_fixup(vma, &prev, nstart, tmp, newflags);
				462	if (error)
				463	break;
				464	nstart = tmp;
				465	if (nstart < prev->vm_end)
				466	nstart = prev->vm_end;
				467	if (nstart >= end)
				468	break;
				469
				470	vma = prev->vm_next;
				471	if (!vma \|\| vma->vm_start != nstart) {
				472	error = -ENOMEM;
				473	break;
				474	}
				475	}
				476	return error;
				477	}
				478
Michel Lespinasse	fed067d	2011-01-13 15:46:10 -0800	[diff] [blame^]	479	static int do_mlock_pages(unsigned long start, size_t len, int ignore_errors)
				480	{
				481	struct mm_struct *mm = current->mm;
				482	unsigned long end, nstart, nend;
				483	struct vm_area_struct *vma = NULL;
				484	int ret = 0;
				485
				486	VM_BUG_ON(start & ~PAGE_MASK);
				487	VM_BUG_ON(len != PAGE_ALIGN(len));
				488	end = start + len;
				489
				490	down_read(&mm->mmap_sem);
				491	for (nstart = start; nstart < end; nstart = nend) {
				492	/*
				493	* We want to fault in pages for [nstart; end) address range.
				494	* Find first corresponding VMA.
				495	*/
				496	if (!vma)
				497	vma = find_vma(mm, nstart);
				498	else
				499	vma = vma->vm_next;
				500	if (!vma \|\| vma->vm_start >= end)
				501	break;
				502	/*
				503	* Set [nstart; nend) to intersection of desired address
				504	* range with the first VMA. Also, skip undesirable VMA types.
				505	*/
				506	nend = min(end, vma->vm_end);
				507	if (vma->vm_flags & (VM_IO \| VM_PFNMAP))
				508	continue;
				509	if (nstart < vma->vm_start)
				510	nstart = vma->vm_start;
				511	/*
				512	* Now fault in a range of pages within the first VMA.
				513	*/
				514	if (vma->vm_flags & VM_LOCKED) {
				515	ret = __mlock_vma_pages_range(vma, nstart, nend);
				516	if (ret < 0 && ignore_errors) {
				517	ret = 0;
				518	continue; /* continue at next VMA */
				519	}
				520	if (ret) {
				521	ret = __mlock_posix_error_return(ret);
				522	break;
				523	}
				524	} else
				525	make_pages_present(nstart, nend);
				526	}
				527	up_read(&mm->mmap_sem);
				528	return ret; /* 0 or negative error code */
				529	}
				530
Heiko Carstens	6a6160a	2009-01-14 14:14:15 +0100	[diff] [blame]	531	SYSCALL_DEFINE2(mlock, unsigned long, start, size_t, len)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	532	{
				533	unsigned long locked;
				534	unsigned long lock_limit;
				535	int error = -ENOMEM;
				536
				537	if (!can_do_mlock())
				538	return -EPERM;
				539
KOSAKI Motohiro	8891d6d	2008-11-12 13:26:53 -0800	[diff] [blame]	540	lru_add_drain_all(); /* flush pagevec */
				541
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	542	down_write(&current->mm->mmap_sem);
				543	len = PAGE_ALIGN(len + (start & ~PAGE_MASK));
				544	start &= PAGE_MASK;
				545
				546	locked = len >> PAGE_SHIFT;
				547	locked += current->mm->locked_vm;
				548
Jiri Slaby	59e99e5	2010-03-05 13:41:44 -0800	[diff] [blame]	549	lock_limit = rlimit(RLIMIT_MEMLOCK);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	550	lock_limit >>= PAGE_SHIFT;
				551
				552	/* check against resource limits */
				553	if ((locked <= lock_limit) \|\| capable(CAP_IPC_LOCK))
				554	error = do_mlock(start, len, 1);
				555	up_write(&current->mm->mmap_sem);
Michel Lespinasse	fed067d	2011-01-13 15:46:10 -0800	[diff] [blame^]	556	if (!error)
				557	error = do_mlock_pages(start, len, 0);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	558	return error;
				559	}
				560
Heiko Carstens	6a6160a	2009-01-14 14:14:15 +0100	[diff] [blame]	561	SYSCALL_DEFINE2(munlock, unsigned long, start, size_t, len)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	562	{
				563	int ret;
				564
				565	down_write(&current->mm->mmap_sem);
				566	len = PAGE_ALIGN(len + (start & ~PAGE_MASK));
				567	start &= PAGE_MASK;
				568	ret = do_mlock(start, len, 0);
				569	up_write(&current->mm->mmap_sem);
				570	return ret;
				571	}
				572
				573	static int do_mlockall(int flags)
				574	{
				575	struct vm_area_struct * vma, * prev = NULL;
				576	unsigned int def_flags = 0;
				577
				578	if (flags & MCL_FUTURE)
				579	def_flags = VM_LOCKED;
				580	current->mm->def_flags = def_flags;
				581	if (flags == MCL_FUTURE)
				582	goto out;
				583
				584	for (vma = current->mm->mmap; vma ; vma = prev->vm_next) {
				585	unsigned int newflags;
				586
				587	newflags = vma->vm_flags \| VM_LOCKED;
				588	if (!(flags & MCL_CURRENT))
				589	newflags &= ~VM_LOCKED;
				590
				591	/* Ignore errors */
				592	mlock_fixup(vma, &prev, vma->vm_start, vma->vm_end, newflags);
				593	}
				594	out:
				595	return 0;
				596	}
				597
Heiko Carstens	3480b25	2009-01-14 14:14:16 +0100	[diff] [blame]	598	SYSCALL_DEFINE1(mlockall, int, flags)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	599	{
				600	unsigned long lock_limit;
				601	int ret = -EINVAL;
				602
				603	if (!flags \|\| (flags & ~(MCL_CURRENT \| MCL_FUTURE)))
				604	goto out;
				605
				606	ret = -EPERM;
				607	if (!can_do_mlock())
				608	goto out;
				609
KOSAKI Motohiro	8891d6d	2008-11-12 13:26:53 -0800	[diff] [blame]	610	lru_add_drain_all(); /* flush pagevec */
				611
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	612	down_write(&current->mm->mmap_sem);
				613
Jiri Slaby	59e99e5	2010-03-05 13:41:44 -0800	[diff] [blame]	614	lock_limit = rlimit(RLIMIT_MEMLOCK);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	615	lock_limit >>= PAGE_SHIFT;
				616
				617	ret = -ENOMEM;
				618	if (!(flags & MCL_CURRENT) \|\| (current->mm->total_vm <= lock_limit) \|\|
				619	capable(CAP_IPC_LOCK))
				620	ret = do_mlockall(flags);
				621	up_write(&current->mm->mmap_sem);
Michel Lespinasse	fed067d	2011-01-13 15:46:10 -0800	[diff] [blame^]	622	if (!ret && (flags & MCL_CURRENT)) {
				623	/* Ignore errors */
				624	do_mlock_pages(0, TASK_SIZE, 1);
				625	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	626	out:
				627	return ret;
				628	}
				629
Heiko Carstens	3480b25	2009-01-14 14:14:16 +0100	[diff] [blame]	630	SYSCALL_DEFINE0(munlockall)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	631	{
				632	int ret;
				633
				634	down_write(&current->mm->mmap_sem);
				635	ret = do_mlockall(0);
				636	up_write(&current->mm->mmap_sem);
				637	return ret;
				638	}
				639
				640	/*
				641	* Objects with different lifetime than processes (SHM_LOCK and SHM_HUGETLB
				642	* shm segments) get accounted against the user_struct instead.
				643	*/
				644	static DEFINE_SPINLOCK(shmlock_user_lock);
				645
				646	int user_shm_lock(size_t size, struct user_struct *user)
				647	{
				648	unsigned long lock_limit, locked;
				649	int allowed = 0;
				650
				651	locked = (size + PAGE_SIZE - 1) >> PAGE_SHIFT;
Jiri Slaby	59e99e5	2010-03-05 13:41:44 -0800	[diff] [blame]	652	lock_limit = rlimit(RLIMIT_MEMLOCK);
Herbert van den Bergh	5ed44a4	2007-07-15 23:38:25 -0700	[diff] [blame]	653	if (lock_limit == RLIM_INFINITY)
				654	allowed = 1;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	655	lock_limit >>= PAGE_SHIFT;
				656	spin_lock(&shmlock_user_lock);
Herbert van den Bergh	5ed44a4	2007-07-15 23:38:25 -0700	[diff] [blame]	657	if (!allowed &&
				658	locked + user->locked_shm > lock_limit && !capable(CAP_IPC_LOCK))
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	659	goto out;
				660	get_uid(user);
				661	user->locked_shm += locked;
				662	allowed = 1;
				663	out:
				664	spin_unlock(&shmlock_user_lock);
				665	return allowed;
				666	}
				667
				668	void user_shm_unlock(size_t size, struct user_struct *user)
				669	{
				670	spin_lock(&shmlock_user_lock);
				671	user->locked_shm -= (size + PAGE_SIZE - 1) >> PAGE_SHIFT;
				672	spin_unlock(&shmlock_user_lock);
				673	free_uid(user);
				674	}