Blame - kernel/events/ring_buffer.c - kernel/msm-4.9

blob: c8aa3f75bc4db8ad7a2242aae6406bfd6f86f8c5 [file] [log] [blame]

Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	1	/*
				2	* Performance events ring-buffer code:
				3	*
				4	* Copyright (C) 2008 Thomas Gleixner <tglx@linutronix.de>
				5	* Copyright (C) 2008-2011 Red Hat, Inc., Ingo Molnar
				6	* Copyright (C) 2008-2011 Red Hat, Inc., Peter Zijlstra <pzijlstr@redhat.com>
Al Viro	d36b691	2011-12-29 17:09:01 -0500	[diff] [blame]	7	* Copyright © 2009 Paul Mackerras, IBM Corp. <paulus@au1.ibm.com>
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	8	*
				9	* For licensing details see kernel-base/COPYING
				10	*/
				11
				12	#include <linux/perf_event.h>
				13	#include <linux/vmalloc.h>
				14	#include <linux/slab.h>
Peter Zijlstra	26c86da	2013-10-31 10:19:59 +0100	[diff] [blame]	15	#include <linux/circ_buf.h>
Jiri Olsa	7c60fc0	2015-01-28 18:54:38 +0100	[diff] [blame]	16	#include <linux/poll.h>
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	17
				18	#include "internal.h"
				19
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	20	static void perf_output_wakeup(struct perf_output_handle *handle)
				21	{
Jiri Olsa	7c60fc0	2015-01-28 18:54:38 +0100	[diff] [blame]	22	atomic_set(&handle->rb->poll, POLLIN);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	23
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	24	handle->event->pending_wakeup = 1;
				25	irq_work_queue(&handle->event->pending);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	26	}
				27
				28	/*
				29	* We need to ensure a later event_id doesn't publish a head when a former
				30	* event isn't done writing. However since we need to deal with NMIs we
				31	* cannot fully serialize things.
				32	*
				33	* We only publish the head (and generate a wakeup) when the outer-most
				34	* event completes.
				35	*/
				36	static void perf_output_get_handle(struct perf_output_handle *handle)
				37	{
				38	struct ring_buffer *rb = handle->rb;
				39
				40	preempt_disable();
				41	local_inc(&rb->nest);
				42	handle->wakeup = local_read(&rb->wakeup);
				43	}
				44
				45	static void perf_output_put_handle(struct perf_output_handle *handle)
				46	{
				47	struct ring_buffer *rb = handle->rb;
				48	unsigned long head;
				49
				50	again:
				51	head = local_read(&rb->head);
				52
				53	/*
				54	* IRQ/NMI can happen here, which means we can miss a head update.
				55	*/
				56
				57	if (!local_dec_and_test(&rb->nest))
				58	goto out;
				59
				60	/*
Peter Zijlstra	bf378d3	2013-10-28 13:55:29 +0100	[diff] [blame]	61	* Since the mmap() consumer (userspace) can run on a different CPU:
				62	*
				63	* kernel user
				64	*
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	65	* if (LOAD ->data_tail) { LOAD ->data_head
				66	* (A) smp_rmb() (C)
				67	* STORE $data LOAD $data
				68	* smp_wmb() (B) smp_mb() (D)
				69	* STORE ->data_head STORE ->data_tail
				70	* }
Peter Zijlstra	bf378d3	2013-10-28 13:55:29 +0100	[diff] [blame]	71	*
				72	* Where A pairs with D, and B pairs with C.
				73	*
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	74	* In our case (A) is a control dependency that separates the load of
				75	* the ->data_tail and the stores of $data. In case ->data_tail
				76	* indicates there is no room in the buffer to store $data we do not.
Peter Zijlstra	bf378d3	2013-10-28 13:55:29 +0100	[diff] [blame]	77	*
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	78	* D needs to be a full barrier since it separates the data READ
Peter Zijlstra	bf378d3	2013-10-28 13:55:29 +0100	[diff] [blame]	79	* from the tail WRITE.
				80	*
				81	* For B a WMB is sufficient since it separates two WRITEs, and for C
				82	* an RMB is sufficient since it separates two READs.
				83	*
				84	* See perf_output_begin().
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	85	*/
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	86	smp_wmb(); /* B, matches C */
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	87	rb->user_page->data_head = head;
				88
				89	/*
Peter Zijlstra	394570b	2013-10-31 17:41:23 +0100	[diff] [blame]	90	* Now check if we missed an update -- rely on previous implied
				91	* compiler barriers to force a re-read.
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	92	*/
				93	if (unlikely(head != local_read(&rb->head))) {
				94	local_inc(&rb->nest);
				95	goto again;
				96	}
				97
				98	if (handle->wakeup != local_read(&rb->wakeup))
				99	perf_output_wakeup(handle);
				100
				101	out:
				102	preempt_enable();
				103	}
				104
				105	int perf_output_begin(struct perf_output_handle *handle,
Peter Zijlstra	a7ac67e	2011-06-27 16:47:16 +0200	[diff] [blame]	106	struct perf_event *event, unsigned int size)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	107	{
				108	struct ring_buffer *rb;
				109	unsigned long tail, offset, head;
Peter Zijlstra	524feca	2013-10-31 17:36:25 +0100	[diff] [blame]	110	int have_lost, page_shift;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	111	struct {
				112	struct perf_event_header header;
				113	u64 id;
				114	u64 lost;
				115	} lost_event;
				116
				117	rcu_read_lock();
				118	/*
				119	* For inherited events we send all the output towards the parent.
				120	*/
				121	if (event->parent)
				122	event = event->parent;
				123
				124	rb = rcu_dereference(event->rb);
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	125	if (unlikely(!rb))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	126	goto out;
				127
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	128	if (unlikely(!rb->nr_pages))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	129	goto out;
				130
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	131	handle->rb = rb;
				132	handle->event = event;
				133
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	134	have_lost = local_read(&rb->lost);
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	135	if (unlikely(have_lost)) {
Peter Zijlstra	d20a973	2013-10-31 17:29:29 +0100	[diff] [blame]	136	size += sizeof(lost_event);
				137	if (event->attr.sample_id_all)
				138	size += event->id_header_size;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	139	}
				140
				141	perf_output_get_handle(handle);
				142
				143	do {
Paul E. McKenney	5af4692	2015-04-25 12:48:29 -0700	[diff] [blame]	144	tail = READ_ONCE_CTRL(rb->user_page->data_tail);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	145	offset = head = local_read(&rb->head);
Peter Zijlstra	26c86da	2013-10-31 10:19:59 +0100	[diff] [blame]	146	if (!rb->overwrite &&
				147	unlikely(CIRC_SPACE(head, tail, perf_data_size(rb)) < size))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	148	goto fail;
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	149
				150	/*
				151	* The above forms a control dependency barrier separating the
				152	* @tail load above from the data stores below. Since the @tail
				153	* load is required to compute the branch to fail below.
				154	*
				155	* A, matches D; the full memory barrier userspace SHOULD issue
				156	* after reading the data and before storing the new tail
				157	* position.
				158	*
				159	* See perf_output_put_handle().
				160	*/
				161
Peter Zijlstra	26c86da	2013-10-31 10:19:59 +0100	[diff] [blame]	162	head += size;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	163	} while (local_cmpxchg(&rb->head, offset, head) != offset);
				164
Peter Zijlstra	85f59ed	2013-10-31 17:25:38 +0100	[diff] [blame]	165	/*
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	166	* We rely on the implied barrier() by local_cmpxchg() to ensure
				167	* none of the data stores below can be lifted up by the compiler.
Peter Zijlstra	85f59ed	2013-10-31 17:25:38 +0100	[diff] [blame]	168	*/
Peter Zijlstra	85f59ed	2013-10-31 17:25:38 +0100	[diff] [blame]	169
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	170	if (unlikely(head - local_read(&rb->wakeup) > rb->watermark))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	171	local_add(rb->watermark, &rb->wakeup);
				172
Peter Zijlstra	524feca	2013-10-31 17:36:25 +0100	[diff] [blame]	173	page_shift = PAGE_SHIFT + page_order(rb);
				174
				175	handle->page = (offset >> page_shift) & (rb->nr_pages - 1);
				176	offset &= (1UL << page_shift) - 1;
				177	handle->addr = rb->data_pages[handle->page] + offset;
				178	handle->size = (1UL << page_shift) - offset;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	179
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	180	if (unlikely(have_lost)) {
Peter Zijlstra	d20a973	2013-10-31 17:29:29 +0100	[diff] [blame]	181	struct perf_sample_data sample_data;
				182
				183	lost_event.header.size = sizeof(lost_event);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	184	lost_event.header.type = PERF_RECORD_LOST;
				185	lost_event.header.misc = 0;
				186	lost_event.id = event->id;
				187	lost_event.lost = local_xchg(&rb->lost, 0);
				188
Peter Zijlstra	d20a973	2013-10-31 17:29:29 +0100	[diff] [blame]	189	perf_event_header__init_id(&lost_event.header,
				190	&sample_data, event);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	191	perf_output_put(handle, lost_event);
				192	perf_event__output_id_sample(event, handle, &sample_data);
				193	}
				194
				195	return 0;
				196
				197	fail:
				198	local_inc(&rb->lost);
				199	perf_output_put_handle(handle);
				200	out:
				201	rcu_read_unlock();
				202
				203	return -ENOSPC;
				204	}
				205
Frederic Weisbecker	91d7753	2012-08-07 15:20:38 +0200	[diff] [blame]	206	unsigned int perf_output_copy(struct perf_output_handle *handle,
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	207	const void *buf, unsigned int len)
				208	{
Frederic Weisbecker	91d7753	2012-08-07 15:20:38 +0200	[diff] [blame]	209	return __output_copy(handle, buf, len);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	210	}
				211
Jiri Olsa	5685e0f	2012-08-07 15:20:39 +0200	[diff] [blame]	212	unsigned int perf_output_skip(struct perf_output_handle *handle,
				213	unsigned int len)
				214	{
				215	return __output_skip(handle, NULL, len);
				216	}
				217
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	218	void perf_output_end(struct perf_output_handle *handle)
				219	{
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	220	perf_output_put_handle(handle);
				221	rcu_read_unlock();
				222	}
				223
Peter Zijlstra	57ffc5c	2015-06-18 12:32:49 +0200	[diff] [blame]	224	static void rb_irq_work(struct irq_work *work);
				225
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	226	static void
				227	ring_buffer_init(struct ring_buffer *rb, long watermark, int flags)
				228	{
				229	long max_size = perf_data_size(rb);
				230
				231	if (watermark)
				232	rb->watermark = min(max_size, watermark);
				233
				234	if (!rb->watermark)
				235	rb->watermark = max_size / 2;
				236
				237	if (flags & RING_BUFFER_WRITABLE)
Stephane Eranian	dd9c086	2013-03-18 14:33:28 +0100	[diff] [blame]	238	rb->overwrite = 0;
				239	else
				240	rb->overwrite = 1;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	241
				242	atomic_set(&rb->refcount, 1);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	243
				244	INIT_LIST_HEAD(&rb->event_list);
				245	spin_lock_init(&rb->event_lock);
Peter Zijlstra	57ffc5c	2015-06-18 12:32:49 +0200	[diff] [blame]	246	init_irq_work(&rb->irq_work, rb_irq_work);
				247	}
				248
				249	static void ring_buffer_put_async(struct ring_buffer *rb)
				250	{
				251	if (!atomic_dec_and_test(&rb->refcount))
				252	return;
				253
				254	rb->rcu_head.next = (void *)rb;
				255	irq_work_queue(&rb->irq_work);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	256	}
				257
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	258	/*
				259	* This is called before hardware starts writing to the AUX area to
				260	* obtain an output handle and make sure there's room in the buffer.
				261	* When the capture completes, call perf_aux_output_end() to commit
				262	* the recorded data to the buffer.
				263	*
				264	* The ordering is similar to that of perf_output_{begin,end}, with
				265	* the exception of (B), which should be taken care of by the pmu
				266	* driver, since ordering rules will differ depending on hardware.
				267	*/
				268	void perf_aux_output_begin(struct perf_output_handle handle,
				269	struct perf_event *event)
				270	{
				271	struct perf_event *output_event = event;
				272	unsigned long aux_head, aux_tail;
				273	struct ring_buffer *rb;
				274
				275	if (output_event->parent)
				276	output_event = output_event->parent;
				277
				278	/*
				279	* Since this will typically be open across pmu::add/pmu::del, we
				280	* grab ring_buffer's refcount instead of holding rcu read lock
				281	* to make sure it doesn't disappear under us.
				282	*/
				283	rb = ring_buffer_get(output_event);
				284	if (!rb)
				285	return NULL;
				286
				287	if (!rb_has_aux(rb) \|\| !atomic_inc_not_zero(&rb->aux_refcount))
				288	goto err;
				289
				290	/*
				291	* Nesting is not supported for AUX area, make sure nested
				292	* writers are caught early
				293	*/
				294	if (WARN_ON_ONCE(local_xchg(&rb->aux_nest, 1)))
				295	goto err_put;
				296
				297	aux_head = local_read(&rb->aux_head);
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	298
				299	handle->rb = rb;
				300	handle->event = event;
				301	handle->head = aux_head;
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	302	handle->size = 0;
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	303
				304	/*
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	305	* In overwrite mode, AUX data stores do not depend on aux_tail,
				306	* therefore (A) control dependency barrier does not exist. The
				307	* (B) <-> (C) ordering is still observed by the pmu driver.
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	308	*/
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	309	if (!rb->aux_overwrite) {
				310	aux_tail = ACCESS_ONCE(rb->user_page->aux_tail);
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	311	handle->wakeup = local_read(&rb->aux_wakeup) + rb->aux_watermark;
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	312	if (aux_head - aux_tail < perf_aux_size(rb))
				313	handle->size = CIRC_SPACE(aux_head, aux_tail, perf_aux_size(rb));
				314
				315	/*
				316	* handle->size computation depends on aux_tail load; this forms a
				317	* control dependency barrier separating aux_tail load from aux data
				318	* store that will be enabled on successful return
				319	*/
				320	if (!handle->size) { /* A, matches D */
				321	event->pending_disable = 1;
				322	perf_output_wakeup(handle);
				323	local_set(&rb->aux_nest, 0);
				324	goto err_put;
				325	}
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	326	}
				327
				328	return handle->rb->aux_priv;
				329
				330	err_put:
				331	rb_free_aux(rb);
				332
				333	err:
Peter Zijlstra	57ffc5c	2015-06-18 12:32:49 +0200	[diff] [blame]	334	ring_buffer_put_async(rb);
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	335	handle->event = NULL;
				336
				337	return NULL;
				338	}
				339
				340	/*
				341	* Commit the data written by hardware into the ring buffer by adjusting
				342	* aux_head and posting a PERF_RECORD_AUX into the perf buffer. It is the
				343	* pmu driver's responsibility to observe ordering rules of the hardware,
				344	* so that all the data is externally visible before this is called.
				345	*/
				346	void perf_aux_output_end(struct perf_output_handle *handle, unsigned long size,
				347	bool truncated)
				348	{
				349	struct ring_buffer *rb = handle->rb;
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	350	unsigned long aux_head;
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	351	u64 flags = 0;
				352
				353	if (truncated)
				354	flags \|= PERF_AUX_FLAG_TRUNCATED;
				355
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	356	/* in overwrite mode, driver provides aux_head via handle */
				357	if (rb->aux_overwrite) {
				358	flags \|= PERF_AUX_FLAG_OVERWRITE;
				359
				360	aux_head = handle->head;
				361	local_set(&rb->aux_head, aux_head);
				362	} else {
				363	aux_head = local_read(&rb->aux_head);
				364	local_add(size, &rb->aux_head);
				365	}
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	366
				367	if (size \|\| flags) {
				368	/*
				369	* Only send RECORD_AUX if we have something useful to communicate
				370	*/
				371
				372	perf_event_aux_event(handle->event, aux_head, size, flags);
				373	}
				374
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	375	aux_head = rb->user_page->aux_head = local_read(&rb->aux_head);
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	376
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	377	if (aux_head - local_read(&rb->aux_wakeup) >= rb->aux_watermark) {
				378	perf_output_wakeup(handle);
				379	local_add(rb->aux_watermark, &rb->aux_wakeup);
				380	}
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	381	handle->event = NULL;
				382
				383	local_set(&rb->aux_nest, 0);
				384	rb_free_aux(rb);
Peter Zijlstra	57ffc5c	2015-06-18 12:32:49 +0200	[diff] [blame]	385	ring_buffer_put_async(rb);
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	386	}
				387
				388	/*
				389	* Skip over a given number of bytes in the AUX buffer, due to, for example,
				390	* hardware's alignment constraints.
				391	*/
				392	int perf_aux_output_skip(struct perf_output_handle *handle, unsigned long size)
				393	{
				394	struct ring_buffer *rb = handle->rb;
				395	unsigned long aux_head;
				396
				397	if (size > handle->size)
				398	return -ENOSPC;
				399
				400	local_add(size, &rb->aux_head);
				401
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	402	aux_head = rb->user_page->aux_head = local_read(&rb->aux_head);
				403	if (aux_head - local_read(&rb->aux_wakeup) >= rb->aux_watermark) {
				404	perf_output_wakeup(handle);
				405	local_add(rb->aux_watermark, &rb->aux_wakeup);
				406	handle->wakeup = local_read(&rb->aux_wakeup) +
				407	rb->aux_watermark;
				408	}
				409
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	410	handle->head = aux_head;
				411	handle->size -= size;
				412
				413	return 0;
				414	}
				415
				416	void perf_get_aux(struct perf_output_handle handle)
				417	{
				418	/* this is only valid between perf_aux_output_begin and _end /
				419	if (!handle->event)
				420	return NULL;
				421
				422	return handle->rb->aux_priv;
				423	}
				424
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	425	#define PERF_AUX_GFP (GFP_KERNEL \| __GFP_ZERO \| __GFP_NOWARN \| __GFP_NORETRY)
				426
				427	static struct page *rb_alloc_aux_page(int node, int order)
				428	{
				429	struct page *page;
				430
				431	if (order > MAX_ORDER)
				432	order = MAX_ORDER;
				433
				434	do {
				435	page = alloc_pages_node(node, PERF_AUX_GFP, order);
				436	} while (!page && order--);
				437
				438	if (page && order) {
				439	/*
				440	* Communicate the allocation size to the driver
				441	*/
				442	split_page(page, order);
				443	SetPagePrivate(page);
				444	set_page_private(page, order);
				445	}
				446
				447	return page;
				448	}
				449
				450	static void rb_free_aux_page(struct ring_buffer *rb, int idx)
				451	{
				452	struct page *page = virt_to_page(rb->aux_pages[idx]);
				453
				454	ClearPagePrivate(page);
				455	page->mapping = NULL;
				456	__free_page(page);
				457	}
				458
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	459	int rb_alloc_aux(struct ring_buffer rb, struct perf_event event,
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	460	pgoff_t pgoff, int nr_pages, long watermark, int flags)
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	461	{
				462	bool overwrite = !(flags & RING_BUFFER_WRITABLE);
				463	int node = (event->cpu == -1) ? -1 : cpu_to_node(event->cpu);
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	464	int ret = -ENOMEM, max_order = 0;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	465
				466	if (!has_aux(event))
				467	return -ENOTSUPP;
				468
Alexander Shishkin	6a27923	2015-01-14 14:18:13 +0200	[diff] [blame]	469	if (event->pmu->capabilities & PERF_PMU_CAP_AUX_NO_SG) {
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	470	/*
				471	* We need to start with the max_order that fits in nr_pages,
				472	* not the other way around, hence ilog2() and not get_order.
				473	*/
				474	max_order = ilog2(nr_pages);
				475
Alexander Shishkin	6a27923	2015-01-14 14:18:13 +0200	[diff] [blame]	476	/*
				477	* PMU requests more than one contiguous chunks of memory
				478	* for SW double buffering
				479	*/
				480	if ((event->pmu->capabilities & PERF_PMU_CAP_AUX_SW_DOUBLEBUF) &&
				481	!overwrite) {
				482	if (!max_order)
				483	return -EINVAL;
				484
				485	max_order--;
				486	}
				487	}
				488
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	489	rb->aux_pages = kzalloc_node(nr_pages * sizeof(void *), GFP_KERNEL, node);
				490	if (!rb->aux_pages)
				491	return -ENOMEM;
				492
				493	rb->free_aux = event->pmu->free_aux;
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	494	for (rb->aux_nr_pages = 0; rb->aux_nr_pages < nr_pages;) {
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	495	struct page *page;
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	496	int last, order;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	497
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	498	order = min(max_order, ilog2(nr_pages - rb->aux_nr_pages));
				499	page = rb_alloc_aux_page(node, order);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	500	if (!page)
				501	goto out;
				502
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	503	for (last = rb->aux_nr_pages + (1 << page_private(page));
				504	last > rb->aux_nr_pages; rb->aux_nr_pages++)
				505	rb->aux_pages[rb->aux_nr_pages] = page_address(page++);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	506	}
				507
Alexander Shishkin	aa319bc	2015-05-22 18:30:20 +0300	[diff] [blame]	508	/*
				509	* In overwrite mode, PMUs that don't support SG may not handle more
				510	* than one contiguous allocation, since they rely on PMI to do double
				511	* buffering. In this case, the entire buffer has to be one contiguous
				512	* chunk.
				513	*/
				514	if ((event->pmu->capabilities & PERF_PMU_CAP_AUX_NO_SG) &&
				515	overwrite) {
				516	struct page *page = virt_to_page(rb->aux_pages[0]);
				517
				518	if (page_private(page) != max_order)
				519	goto out;
				520	}
				521
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	522	rb->aux_priv = event->pmu->setup_aux(event->cpu, rb->aux_pages, nr_pages,
				523	overwrite);
				524	if (!rb->aux_priv)
				525	goto out;
				526
				527	ret = 0;
				528
				529	/*
				530	* aux_pages (and pmu driver's private data, aux_priv) will be
				531	* referenced in both producer's and consumer's contexts, thus
				532	* we keep a refcount here to make sure either of the two can
				533	* reference them safely.
				534	*/
				535	atomic_set(&rb->aux_refcount, 1);
				536
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	537	rb->aux_overwrite = overwrite;
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	538	rb->aux_watermark = watermark;
				539
				540	if (!rb->aux_watermark && !rb->aux_overwrite)
				541	rb->aux_watermark = nr_pages << (PAGE_SHIFT - 1);
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	542
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	543	out:
				544	if (!ret)
				545	rb->aux_pgoff = pgoff;
				546	else
				547	rb_free_aux(rb);
				548
				549	return ret;
				550	}
				551
				552	static void __rb_free_aux(struct ring_buffer *rb)
				553	{
				554	int pg;
				555
				556	if (rb->aux_priv) {
				557	rb->free_aux(rb->aux_priv);
				558	rb->free_aux = NULL;
				559	rb->aux_priv = NULL;
				560	}
				561
Ben Hutchings	ee9397a	2015-07-27 00:31:08 +0100	[diff] [blame]	562	if (rb->aux_nr_pages) {
				563	for (pg = 0; pg < rb->aux_nr_pages; pg++)
				564	rb_free_aux_page(rb, pg);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	565
Ben Hutchings	ee9397a	2015-07-27 00:31:08 +0100	[diff] [blame]	566	kfree(rb->aux_pages);
				567	rb->aux_nr_pages = 0;
				568	}
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	569	}
				570
				571	void rb_free_aux(struct ring_buffer *rb)
				572	{
				573	if (atomic_dec_and_test(&rb->aux_refcount))
Peter Zijlstra	57ffc5c	2015-06-18 12:32:49 +0200	[diff] [blame]	574	irq_work_queue(&rb->irq_work);
				575	}
				576
				577	static void rb_irq_work(struct irq_work *work)
				578	{
				579	struct ring_buffer *rb = container_of(work, struct ring_buffer, irq_work);
				580
				581	if (!atomic_read(&rb->aux_refcount))
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	582	__rb_free_aux(rb);
Peter Zijlstra	57ffc5c	2015-06-18 12:32:49 +0200	[diff] [blame]	583
				584	if (rb->rcu_head.next == (void *)rb)
				585	call_rcu(&rb->rcu_head, rb_free_rcu);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	586	}
				587
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	588	#ifndef CONFIG_PERF_USE_VMALLOC
				589
				590	/*
				591	* Back perf_mmap() with regular GFP_KERNEL-0 pages.
				592	*/
				593
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	594	static struct page *
				595	__perf_mmap_to_page(struct ring_buffer *rb, unsigned long pgoff)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	596	{
				597	if (pgoff > rb->nr_pages)
				598	return NULL;
				599
				600	if (pgoff == 0)
				601	return virt_to_page(rb->user_page);
				602
				603	return virt_to_page(rb->data_pages[pgoff - 1]);
				604	}
				605
				606	static void *perf_mmap_alloc_page(int cpu)
				607	{
				608	struct page *page;
				609	int node;
				610
				611	node = (cpu == -1) ? cpu : cpu_to_node(cpu);
				612	page = alloc_pages_node(node, GFP_KERNEL \| __GFP_ZERO, 0);
				613	if (!page)
				614	return NULL;
				615
				616	return page_address(page);
				617	}
				618
				619	struct ring_buffer *rb_alloc(int nr_pages, long watermark, int cpu, int flags)
				620	{
				621	struct ring_buffer *rb;
				622	unsigned long size;
				623	int i;
				624
				625	size = sizeof(struct ring_buffer);
				626	size += nr_pages * sizeof(void *);
				627
				628	rb = kzalloc(size, GFP_KERNEL);
				629	if (!rb)
				630	goto fail;
				631
				632	rb->user_page = perf_mmap_alloc_page(cpu);
				633	if (!rb->user_page)
				634	goto fail_user_page;
				635
				636	for (i = 0; i < nr_pages; i++) {
				637	rb->data_pages[i] = perf_mmap_alloc_page(cpu);
				638	if (!rb->data_pages[i])
				639	goto fail_data_pages;
				640	}
				641
				642	rb->nr_pages = nr_pages;
				643
				644	ring_buffer_init(rb, watermark, flags);
				645
				646	return rb;
				647
				648	fail_data_pages:
				649	for (i--; i >= 0; i--)
				650	free_page((unsigned long)rb->data_pages[i]);
				651
				652	free_page((unsigned long)rb->user_page);
				653
				654	fail_user_page:
				655	kfree(rb);
				656
				657	fail:
				658	return NULL;
				659	}
				660
				661	static void perf_mmap_free_page(unsigned long addr)
				662	{
				663	struct page page = virt_to_page((void )addr);
				664
				665	page->mapping = NULL;
				666	__free_page(page);
				667	}
				668
				669	void rb_free(struct ring_buffer *rb)
				670	{
				671	int i;
				672
				673	perf_mmap_free_page((unsigned long)rb->user_page);
				674	for (i = 0; i < rb->nr_pages; i++)
				675	perf_mmap_free_page((unsigned long)rb->data_pages[i]);
				676	kfree(rb);
				677	}
				678
				679	#else
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	680	static int data_page_nr(struct ring_buffer *rb)
				681	{
				682	return rb->nr_pages << page_order(rb);
				683	}
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	684
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	685	static struct page *
				686	__perf_mmap_to_page(struct ring_buffer *rb, unsigned long pgoff)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	687	{
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	688	/* The '>' counts in the user page. */
				689	if (pgoff > data_page_nr(rb))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	690	return NULL;
				691
				692	return vmalloc_to_page((void )rb->user_page + pgoff PAGE_SIZE);
				693	}
				694
				695	static void perf_mmap_unmark_page(void *addr)
				696	{
				697	struct page *page = vmalloc_to_page(addr);
				698
				699	page->mapping = NULL;
				700	}
				701
				702	static void rb_free_work(struct work_struct *work)
				703	{
				704	struct ring_buffer *rb;
				705	void *base;
				706	int i, nr;
				707
				708	rb = container_of(work, struct ring_buffer, work);
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	709	nr = data_page_nr(rb);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	710
				711	base = rb->user_page;
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	712	/* The '<=' counts in the user page. */
				713	for (i = 0; i <= nr; i++)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	714	perf_mmap_unmark_page(base + (i * PAGE_SIZE));
				715
				716	vfree(base);
				717	kfree(rb);
				718	}
				719
				720	void rb_free(struct ring_buffer *rb)
				721	{
				722	schedule_work(&rb->work);
				723	}
				724
				725	struct ring_buffer *rb_alloc(int nr_pages, long watermark, int cpu, int flags)
				726	{
				727	struct ring_buffer *rb;
				728	unsigned long size;
				729	void *all_buf;
				730
				731	size = sizeof(struct ring_buffer);
				732	size += sizeof(void *);
				733
				734	rb = kzalloc(size, GFP_KERNEL);
				735	if (!rb)
				736	goto fail;
				737
				738	INIT_WORK(&rb->work, rb_free_work);
				739
				740	all_buf = vmalloc_user((nr_pages + 1) * PAGE_SIZE);
				741	if (!all_buf)
				742	goto fail_all_buf;
				743
				744	rb->user_page = all_buf;
				745	rb->data_pages[0] = all_buf + PAGE_SIZE;
				746	rb->page_order = ilog2(nr_pages);
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	747	rb->nr_pages = !!nr_pages;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	748
				749	ring_buffer_init(rb, watermark, flags);
				750
				751	return rb;
				752
				753	fail_all_buf:
				754	kfree(rb);
				755
				756	fail:
				757	return NULL;
				758	}
				759
				760	#endif
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	761
				762	struct page *
				763	perf_mmap_to_page(struct ring_buffer *rb, unsigned long pgoff)
				764	{
				765	if (rb->aux_nr_pages) {
				766	/* above AUX space */
				767	if (pgoff > rb->aux_pgoff + rb->aux_nr_pages)
				768	return NULL;
				769
				770	/* AUX space */
				771	if (pgoff >= rb->aux_pgoff)
				772	return virt_to_page(rb->aux_pages[pgoff - rb->aux_pgoff]);
				773	}
				774
				775	return __perf_mmap_to_page(rb, pgoff);
				776	}