Blame - kernel/events/ring_buffer.c - kernel/msm-4.9

blob: 8e8b903b761368852ced83538748c599ca370f9a [file] [log] [blame]

Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	1	/*
				2	* Performance events ring-buffer code:
				3	*
				4	* Copyright (C) 2008 Thomas Gleixner <tglx@linutronix.de>
				5	* Copyright (C) 2008-2011 Red Hat, Inc., Ingo Molnar
Peter Zijlstra	90eec10	2015-11-16 11:08:45 +0100	[diff] [blame]	6	* Copyright (C) 2008-2011 Red Hat, Inc., Peter Zijlstra
Al Viro	d36b691	2011-12-29 17:09:01 -0500	[diff] [blame]	7	* Copyright © 2009 Paul Mackerras, IBM Corp. <paulus@au1.ibm.com>
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	8	*
				9	* For licensing details see kernel-base/COPYING
				10	*/
				11
				12	#include <linux/perf_event.h>
				13	#include <linux/vmalloc.h>
				14	#include <linux/slab.h>
Peter Zijlstra	26c86da	2013-10-31 10:19:59 +0100	[diff] [blame]	15	#include <linux/circ_buf.h>
Jiri Olsa	7c60fc0	2015-01-28 18:54:38 +0100	[diff] [blame]	16	#include <linux/poll.h>
Peter Zijlstra	c64ca00	2018-04-20 14:03:18 +0200	[diff] [blame]	17	#include <linux/nospec.h>
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	18
				19	#include "internal.h"
				20
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	21	static void perf_output_wakeup(struct perf_output_handle *handle)
				22	{
Jiri Olsa	7c60fc0	2015-01-28 18:54:38 +0100	[diff] [blame]	23	atomic_set(&handle->rb->poll, POLLIN);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	24
Peter Zijlstra	a8b0ca1	2011-06-27 14:41:57 +0200	[diff] [blame]	25	handle->event->pending_wakeup = 1;
				26	irq_work_queue(&handle->event->pending);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	27	}
				28
				29	/*
				30	* We need to ensure a later event_id doesn't publish a head when a former
				31	* event isn't done writing. However since we need to deal with NMIs we
				32	* cannot fully serialize things.
				33	*
				34	* We only publish the head (and generate a wakeup) when the outer-most
				35	* event completes.
				36	*/
				37	static void perf_output_get_handle(struct perf_output_handle *handle)
				38	{
				39	struct ring_buffer *rb = handle->rb;
				40
				41	preempt_disable();
				42	local_inc(&rb->nest);
				43	handle->wakeup = local_read(&rb->wakeup);
				44	}
				45
				46	static void perf_output_put_handle(struct perf_output_handle *handle)
				47	{
				48	struct ring_buffer *rb = handle->rb;
				49	unsigned long head;
				50
				51	again:
Peter Zijlstra	abfdce3	2019-05-17 13:52:32 +0200	[diff] [blame]	52	/*
				53	* In order to avoid publishing a head value that goes backwards,
				54	* we must ensure the load of @rb->head happens after we've
				55	* incremented @rb->nest.
				56	*
				57	* Otherwise we can observe a @rb->head value before one published
				58	* by an IRQ/NMI happening between the load and the increment.
				59	*/
				60	barrier();
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	61	head = local_read(&rb->head);
				62
				63	/*
Yabin Cui	a446eb5	2019-05-17 13:52:31 +0200	[diff] [blame]	64	* IRQ/NMI can happen here and advance @rb->head, causing our
				65	* load above to be stale.
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	66	*/
				67
Yabin Cui	a446eb5	2019-05-17 13:52:31 +0200	[diff] [blame]	68	/*
				69	* If this isn't the outermost nesting, we don't have to update
				70	* @rb->user_page->data_head.
				71	*/
				72	if (local_read(&rb->nest) > 1) {
				73	local_dec(&rb->nest);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	74	goto out;
Yabin Cui	a446eb5	2019-05-17 13:52:31 +0200	[diff] [blame]	75	}
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	76
				77	/*
Peter Zijlstra	bf378d3	2013-10-28 13:55:29 +0100	[diff] [blame]	78	* Since the mmap() consumer (userspace) can run on a different CPU:
				79	*
				80	* kernel user
				81	*
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	82	* if (LOAD ->data_tail) { LOAD ->data_head
				83	* (A) smp_rmb() (C)
				84	* STORE $data LOAD $data
				85	* smp_wmb() (B) smp_mb() (D)
				86	* STORE ->data_head STORE ->data_tail
				87	* }
Peter Zijlstra	bf378d3	2013-10-28 13:55:29 +0100	[diff] [blame]	88	*
				89	* Where A pairs with D, and B pairs with C.
				90	*
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	91	* In our case (A) is a control dependency that separates the load of
				92	* the ->data_tail and the stores of $data. In case ->data_tail
				93	* indicates there is no room in the buffer to store $data we do not.
Peter Zijlstra	bf378d3	2013-10-28 13:55:29 +0100	[diff] [blame]	94	*
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	95	* D needs to be a full barrier since it separates the data READ
Peter Zijlstra	bf378d3	2013-10-28 13:55:29 +0100	[diff] [blame]	96	* from the tail WRITE.
				97	*
				98	* For B a WMB is sufficient since it separates two WRITEs, and for C
				99	* an RMB is sufficient since it separates two READs.
				100	*
				101	* See perf_output_begin().
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	102	*/
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	103	smp_wmb(); /* B, matches C */
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	104	rb->user_page->data_head = head;
				105
				106	/*
Yabin Cui	a446eb5	2019-05-17 13:52:31 +0200	[diff] [blame]	107	* We must publish the head before decrementing the nest count,
				108	* otherwise an IRQ/NMI can publish a more recent head value and our
				109	* write will (temporarily) publish a stale value.
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	110	*/
Yabin Cui	a446eb5	2019-05-17 13:52:31 +0200	[diff] [blame]	111	barrier();
				112	local_set(&rb->nest, 0);
				113
				114	/*
				115	* Ensure we decrement @rb->nest before we validate the @rb->head.
				116	* Otherwise we cannot be sure we caught the 'last' nested update.
				117	*/
				118	barrier();
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	119	if (unlikely(head != local_read(&rb->head))) {
				120	local_inc(&rb->nest);
				121	goto again;
				122	}
				123
				124	if (handle->wakeup != local_read(&rb->wakeup))
				125	perf_output_wakeup(handle);
				126
				127	out:
				128	preempt_enable();
				129	}
				130
Wang Nan	d1b26c7	2016-03-28 06:41:31 +0000	[diff] [blame]	131	static bool __always_inline
				132	ring_buffer_has_space(unsigned long head, unsigned long tail,
				133	unsigned long data_size, unsigned int size,
				134	bool backward)
				135	{
				136	if (!backward)
				137	return CIRC_SPACE(head, tail, data_size) >= size;
				138	else
				139	return CIRC_SPACE(tail, head, data_size) >= size;
				140	}
				141
				142	static int __always_inline
				143	__perf_output_begin(struct perf_output_handle *handle,
				144	struct perf_event *event, unsigned int size,
				145	bool backward)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	146	{
				147	struct ring_buffer *rb;
				148	unsigned long tail, offset, head;
Peter Zijlstra	524feca	2013-10-31 17:36:25 +0100	[diff] [blame]	149	int have_lost, page_shift;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	150	struct {
				151	struct perf_event_header header;
				152	u64 id;
				153	u64 lost;
				154	} lost_event;
				155
				156	rcu_read_lock();
				157	/*
				158	* For inherited events we send all the output towards the parent.
				159	*/
				160	if (event->parent)
				161	event = event->parent;
				162
				163	rb = rcu_dereference(event->rb);
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	164	if (unlikely(!rb))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	165	goto out;
				166
Wang Nan	86e7972	2016-03-28 06:41:29 +0000	[diff] [blame]	167	if (unlikely(rb->paused)) {
				168	if (rb->nr_pages)
				169	local_inc(&rb->lost);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	170	goto out;
Wang Nan	86e7972	2016-03-28 06:41:29 +0000	[diff] [blame]	171	}
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	172
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	173	handle->rb = rb;
				174	handle->event = event;
				175
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	176	have_lost = local_read(&rb->lost);
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	177	if (unlikely(have_lost)) {
Peter Zijlstra	d20a973	2013-10-31 17:29:29 +0100	[diff] [blame]	178	size += sizeof(lost_event);
				179	if (event->attr.sample_id_all)
				180	size += event->id_header_size;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	181	}
				182
				183	perf_output_get_handle(handle);
				184
				185	do {
Linus Torvalds	105ff3c	2015-11-03 17:22:17 -0800	[diff] [blame]	186	tail = READ_ONCE(rb->user_page->data_tail);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	187	offset = head = local_read(&rb->head);
Wang Nan	d1b26c7	2016-03-28 06:41:31 +0000	[diff] [blame]	188	if (!rb->overwrite) {
				189	if (unlikely(!ring_buffer_has_space(head, tail,
				190	perf_data_size(rb),
				191	size, backward)))
				192	goto fail;
				193	}
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	194
				195	/*
				196	* The above forms a control dependency barrier separating the
				197	* @tail load above from the data stores below. Since the @tail
				198	* load is required to compute the branch to fail below.
				199	*
				200	* A, matches D; the full memory barrier userspace SHOULD issue
				201	* after reading the data and before storing the new tail
				202	* position.
				203	*
				204	* See perf_output_put_handle().
				205	*/
				206
Wang Nan	d1b26c7	2016-03-28 06:41:31 +0000	[diff] [blame]	207	if (!backward)
				208	head += size;
				209	else
				210	head -= size;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	211	} while (local_cmpxchg(&rb->head, offset, head) != offset);
				212
Wang Nan	d1b26c7	2016-03-28 06:41:31 +0000	[diff] [blame]	213	if (backward) {
				214	offset = head;
				215	head = (u64)(-head);
				216	}
				217
Peter Zijlstra	85f59ed	2013-10-31 17:25:38 +0100	[diff] [blame]	218	/*
Peter Zijlstra	c7f2e3c	2013-11-25 11:49:10 +0100	[diff] [blame]	219	* We rely on the implied barrier() by local_cmpxchg() to ensure
				220	* none of the data stores below can be lifted up by the compiler.
Peter Zijlstra	85f59ed	2013-10-31 17:25:38 +0100	[diff] [blame]	221	*/
Peter Zijlstra	85f59ed	2013-10-31 17:25:38 +0100	[diff] [blame]	222
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	223	if (unlikely(head - local_read(&rb->wakeup) > rb->watermark))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	224	local_add(rb->watermark, &rb->wakeup);
				225
Peter Zijlstra	524feca	2013-10-31 17:36:25 +0100	[diff] [blame]	226	page_shift = PAGE_SHIFT + page_order(rb);
				227
				228	handle->page = (offset >> page_shift) & (rb->nr_pages - 1);
				229	offset &= (1UL << page_shift) - 1;
				230	handle->addr = rb->data_pages[handle->page] + offset;
				231	handle->size = (1UL << page_shift) - offset;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	232
Peter Zijlstra	c72b42a	2013-10-31 17:20:25 +0100	[diff] [blame]	233	if (unlikely(have_lost)) {
Peter Zijlstra	d20a973	2013-10-31 17:29:29 +0100	[diff] [blame]	234	struct perf_sample_data sample_data;
				235
				236	lost_event.header.size = sizeof(lost_event);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	237	lost_event.header.type = PERF_RECORD_LOST;
				238	lost_event.header.misc = 0;
				239	lost_event.id = event->id;
				240	lost_event.lost = local_xchg(&rb->lost, 0);
				241
Peter Zijlstra	d20a973	2013-10-31 17:29:29 +0100	[diff] [blame]	242	perf_event_header__init_id(&lost_event.header,
				243	&sample_data, event);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	244	perf_output_put(handle, lost_event);
				245	perf_event__output_id_sample(event, handle, &sample_data);
				246	}
				247
				248	return 0;
				249
				250	fail:
				251	local_inc(&rb->lost);
				252	perf_output_put_handle(handle);
				253	out:
				254	rcu_read_unlock();
				255
				256	return -ENOSPC;
				257	}
				258
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	259	int perf_output_begin_forward(struct perf_output_handle *handle,
				260	struct perf_event *event, unsigned int size)
				261	{
				262	return __perf_output_begin(handle, event, size, false);
				263	}
				264
				265	int perf_output_begin_backward(struct perf_output_handle *handle,
				266	struct perf_event *event, unsigned int size)
				267	{
				268	return __perf_output_begin(handle, event, size, true);
				269	}
				270
Wang Nan	d1b26c7	2016-03-28 06:41:31 +0000	[diff] [blame]	271	int perf_output_begin(struct perf_output_handle *handle,
				272	struct perf_event *event, unsigned int size)
				273	{
Wang Nan	9ecda41	2016-04-05 14:11:18 +0000	[diff] [blame]	274
				275	return __perf_output_begin(handle, event, size,
				276	unlikely(is_write_backward(event)));
Wang Nan	d1b26c7	2016-03-28 06:41:31 +0000	[diff] [blame]	277	}
				278
Frederic Weisbecker	91d7753	2012-08-07 15:20:38 +0200	[diff] [blame]	279	unsigned int perf_output_copy(struct perf_output_handle *handle,
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	280	const void *buf, unsigned int len)
				281	{
Frederic Weisbecker	91d7753	2012-08-07 15:20:38 +0200	[diff] [blame]	282	return __output_copy(handle, buf, len);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	283	}
				284
Jiri Olsa	5685e0f	2012-08-07 15:20:39 +0200	[diff] [blame]	285	unsigned int perf_output_skip(struct perf_output_handle *handle,
				286	unsigned int len)
				287	{
				288	return __output_skip(handle, NULL, len);
				289	}
				290
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	291	void perf_output_end(struct perf_output_handle *handle)
				292	{
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	293	perf_output_put_handle(handle);
				294	rcu_read_unlock();
				295	}
				296
				297	static void
				298	ring_buffer_init(struct ring_buffer *rb, long watermark, int flags)
				299	{
				300	long max_size = perf_data_size(rb);
				301
				302	if (watermark)
				303	rb->watermark = min(max_size, watermark);
				304
				305	if (!rb->watermark)
				306	rb->watermark = max_size / 2;
				307
				308	if (flags & RING_BUFFER_WRITABLE)
Stephane Eranian	dd9c086	2013-03-18 14:33:28 +0100	[diff] [blame]	309	rb->overwrite = 0;
				310	else
				311	rb->overwrite = 1;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	312
				313	atomic_set(&rb->refcount, 1);
Peter Zijlstra	10c6db1	2011-11-26 02:47:31 +0100	[diff] [blame]	314
				315	INIT_LIST_HEAD(&rb->event_list);
				316	spin_lock_init(&rb->event_lock);
Wang Nan	86e7972	2016-03-28 06:41:29 +0000	[diff] [blame]	317
				318	/*
				319	* perf_output_begin() only checks rb->paused, therefore
				320	* rb->paused must be true if we have no pages for output.
				321	*/
				322	if (!rb->nr_pages)
				323	rb->paused = 1;
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	324	}
				325
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	326	/*
				327	* This is called before hardware starts writing to the AUX area to
				328	* obtain an output handle and make sure there's room in the buffer.
				329	* When the capture completes, call perf_aux_output_end() to commit
				330	* the recorded data to the buffer.
				331	*
				332	* The ordering is similar to that of perf_output_{begin,end}, with
				333	* the exception of (B), which should be taken care of by the pmu
				334	* driver, since ordering rules will differ depending on hardware.
Alexander Shishkin	af5bb4e	2016-03-04 15:42:47 +0200	[diff] [blame]	335	*
				336	* Call this from pmu::start(); see the comment in perf_aux_output_end()
				337	* about its use in pmu callbacks. Both can also be called from the PMI
				338	* handler if needed.
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	339	*/
				340	void perf_aux_output_begin(struct perf_output_handle handle,
				341	struct perf_event *event)
				342	{
				343	struct perf_event *output_event = event;
				344	unsigned long aux_head, aux_tail;
				345	struct ring_buffer *rb;
				346
				347	if (output_event->parent)
				348	output_event = output_event->parent;
				349
				350	/*
				351	* Since this will typically be open across pmu::add/pmu::del, we
				352	* grab ring_buffer's refcount instead of holding rcu read lock
				353	* to make sure it doesn't disappear under us.
				354	*/
				355	rb = ring_buffer_get(output_event);
				356	if (!rb)
				357	return NULL;
				358
Alexander Shishkin	b79ccad	2016-09-06 16:23:50 +0300	[diff] [blame]	359	if (!rb_has_aux(rb))
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	360	goto err;
				361
				362	/*
Alexander Shishkin	b79ccad	2016-09-06 16:23:50 +0300	[diff] [blame]	363	* If aux_mmap_count is zero, the aux buffer is in perf_mmap_close(),
				364	* about to get freed, so we leave immediately.
				365	*
				366	* Checking rb::aux_mmap_count and rb::refcount has to be done in
				367	* the same order, see perf_mmap_close. Otherwise we end up freeing
				368	* aux pages in this path, which is a bug, because in_atomic().
Alexander Shishkin	dcb10a9	2016-03-04 15:42:45 +0200	[diff] [blame]	369	*/
				370	if (!atomic_read(&rb->aux_mmap_count))
Alexander Shishkin	b79ccad	2016-09-06 16:23:50 +0300	[diff] [blame]	371	goto err;
				372
				373	if (!atomic_inc_not_zero(&rb->aux_refcount))
				374	goto err;
Alexander Shishkin	dcb10a9	2016-03-04 15:42:45 +0200	[diff] [blame]	375
				376	/*
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	377	* Nesting is not supported for AUX area, make sure nested
				378	* writers are caught early
				379	*/
				380	if (WARN_ON_ONCE(local_xchg(&rb->aux_nest, 1)))
				381	goto err_put;
				382
				383	aux_head = local_read(&rb->aux_head);
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	384
				385	handle->rb = rb;
				386	handle->event = event;
				387	handle->head = aux_head;
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	388	handle->size = 0;
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	389
				390	/*
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	391	* In overwrite mode, AUX data stores do not depend on aux_tail,
				392	* therefore (A) control dependency barrier does not exist. The
				393	* (B) <-> (C) ordering is still observed by the pmu driver.
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	394	*/
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	395	if (!rb->aux_overwrite) {
				396	aux_tail = ACCESS_ONCE(rb->user_page->aux_tail);
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	397	handle->wakeup = local_read(&rb->aux_wakeup) + rb->aux_watermark;
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	398	if (aux_head - aux_tail < perf_aux_size(rb))
				399	handle->size = CIRC_SPACE(aux_head, aux_tail, perf_aux_size(rb));
				400
				401	/*
				402	* handle->size computation depends on aux_tail load; this forms a
				403	* control dependency barrier separating aux_tail load from aux data
				404	* store that will be enabled on successful return
				405	*/
				406	if (!handle->size) { /* A, matches D */
				407	event->pending_disable = 1;
				408	perf_output_wakeup(handle);
				409	local_set(&rb->aux_nest, 0);
				410	goto err_put;
				411	}
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	412	}
				413
				414	return handle->rb->aux_priv;
				415
				416	err_put:
Alexander Shishkin	af5bb4e	2016-03-04 15:42:47 +0200	[diff] [blame]	417	/* can't be last */
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	418	rb_free_aux(rb);
				419
				420	err:
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	421	ring_buffer_put(rb);
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	422	handle->event = NULL;
				423
				424	return NULL;
				425	}
				426
				427	/*
				428	* Commit the data written by hardware into the ring buffer by adjusting
				429	* aux_head and posting a PERF_RECORD_AUX into the perf buffer. It is the
				430	* pmu driver's responsibility to observe ordering rules of the hardware,
				431	* so that all the data is externally visible before this is called.
Alexander Shishkin	af5bb4e	2016-03-04 15:42:47 +0200	[diff] [blame]	432	*
				433	* Note: this has to be called from pmu::stop() callback, as the assumption
				434	* of the AUX buffer management code is that after pmu::stop(), the AUX
				435	* transaction must be stopped and therefore drop the AUX reference count.
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	436	*/
				437	void perf_aux_output_end(struct perf_output_handle *handle, unsigned long size,
				438	bool truncated)
				439	{
				440	struct ring_buffer *rb = handle->rb;
Alexander Shishkin	3f56e68	2016-05-10 16:18:33 +0300	[diff] [blame]	441	bool wakeup = truncated;
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	442	unsigned long aux_head;
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	443	u64 flags = 0;
				444
				445	if (truncated)
				446	flags \|= PERF_AUX_FLAG_TRUNCATED;
				447
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	448	/* in overwrite mode, driver provides aux_head via handle */
				449	if (rb->aux_overwrite) {
				450	flags \|= PERF_AUX_FLAG_OVERWRITE;
				451
				452	aux_head = handle->head;
				453	local_set(&rb->aux_head, aux_head);
				454	} else {
				455	aux_head = local_read(&rb->aux_head);
				456	local_add(size, &rb->aux_head);
				457	}
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	458
				459	if (size \|\| flags) {
				460	/*
				461	* Only send RECORD_AUX if we have something useful to communicate
				462	*/
				463
				464	perf_event_aux_event(handle->event, aux_head, size, flags);
				465	}
				466
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	467	aux_head = rb->user_page->aux_head = local_read(&rb->aux_head);
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	468
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	469	if (aux_head - local_read(&rb->aux_wakeup) >= rb->aux_watermark) {
Alexander Shishkin	3f56e68	2016-05-10 16:18:33 +0300	[diff] [blame]	470	wakeup = true;
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	471	local_add(rb->aux_watermark, &rb->aux_wakeup);
				472	}
Alexander Shishkin	3f56e68	2016-05-10 16:18:33 +0300	[diff] [blame]	473
				474	if (wakeup) {
				475	if (truncated)
				476	handle->event->pending_disable = 1;
				477	perf_output_wakeup(handle);
				478	}
				479
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	480	handle->event = NULL;
				481
				482	local_set(&rb->aux_nest, 0);
Alexander Shishkin	af5bb4e	2016-03-04 15:42:47 +0200	[diff] [blame]	483	/* can't be last */
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	484	rb_free_aux(rb);
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	485	ring_buffer_put(rb);
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	486	}
				487
				488	/*
				489	* Skip over a given number of bytes in the AUX buffer, due to, for example,
				490	* hardware's alignment constraints.
				491	*/
				492	int perf_aux_output_skip(struct perf_output_handle *handle, unsigned long size)
				493	{
				494	struct ring_buffer *rb = handle->rb;
				495	unsigned long aux_head;
				496
				497	if (size > handle->size)
				498	return -ENOSPC;
				499
				500	local_add(size, &rb->aux_head);
				501
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	502	aux_head = rb->user_page->aux_head = local_read(&rb->aux_head);
				503	if (aux_head - local_read(&rb->aux_wakeup) >= rb->aux_watermark) {
				504	perf_output_wakeup(handle);
				505	local_add(rb->aux_watermark, &rb->aux_wakeup);
				506	handle->wakeup = local_read(&rb->aux_wakeup) +
				507	rb->aux_watermark;
				508	}
				509
Alexander Shishkin	fdc2670	2015-01-14 14:18:16 +0200	[diff] [blame]	510	handle->head = aux_head;
				511	handle->size -= size;
				512
				513	return 0;
				514	}
				515
				516	void perf_get_aux(struct perf_output_handle handle)
				517	{
				518	/* this is only valid between perf_aux_output_begin and _end /
				519	if (!handle->event)
				520	return NULL;
				521
				522	return handle->rb->aux_priv;
				523	}
				524
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	525	#define PERF_AUX_GFP (GFP_KERNEL \| __GFP_ZERO \| __GFP_NOWARN \| __GFP_NORETRY)
				526
				527	static struct page *rb_alloc_aux_page(int node, int order)
				528	{
				529	struct page *page;
				530
				531	if (order > MAX_ORDER)
				532	order = MAX_ORDER;
				533
				534	do {
				535	page = alloc_pages_node(node, PERF_AUX_GFP, order);
				536	} while (!page && order--);
				537
				538	if (page && order) {
				539	/*
Alexander Shishkin	c2ad6b5	2015-07-28 09:00:04 +0300	[diff] [blame]	540	* Communicate the allocation size to the driver:
				541	* if we managed to secure a high-order allocation,
				542	* set its first page's private to this order;
				543	* !PagePrivate(page) means it's just a normal page.
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	544	*/
				545	split_page(page, order);
				546	SetPagePrivate(page);
				547	set_page_private(page, order);
				548	}
				549
				550	return page;
				551	}
				552
				553	static void rb_free_aux_page(struct ring_buffer *rb, int idx)
				554	{
				555	struct page *page = virt_to_page(rb->aux_pages[idx]);
				556
				557	ClearPagePrivate(page);
				558	page->mapping = NULL;
				559	__free_page(page);
				560	}
				561
Alexander Shishkin	45c815f	2016-01-19 17:14:29 +0200	[diff] [blame]	562	static void __rb_free_aux(struct ring_buffer *rb)
				563	{
				564	int pg;
				565
Alexander Shishkin	95ff4ca	2015-12-02 18:41:11 +0200	[diff] [blame]	566	/*
				567	* Should never happen, the last reference should be dropped from
				568	* perf_mmap_close() path, which first stops aux transactions (which
				569	* in turn are the atomic holders of aux_refcount) and then does the
				570	* last rb_free_aux().
				571	*/
				572	WARN_ON_ONCE(in_atomic());
				573
Alexander Shishkin	45c815f	2016-01-19 17:14:29 +0200	[diff] [blame]	574	if (rb->aux_priv) {
				575	rb->free_aux(rb->aux_priv);
				576	rb->free_aux = NULL;
				577	rb->aux_priv = NULL;
				578	}
				579
				580	if (rb->aux_nr_pages) {
				581	for (pg = 0; pg < rb->aux_nr_pages; pg++)
				582	rb_free_aux_page(rb, pg);
				583
				584	kfree(rb->aux_pages);
				585	rb->aux_nr_pages = 0;
				586	}
				587	}
				588
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	589	int rb_alloc_aux(struct ring_buffer rb, struct perf_event event,
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	590	pgoff_t pgoff, int nr_pages, long watermark, int flags)
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	591	{
				592	bool overwrite = !(flags & RING_BUFFER_WRITABLE);
				593	int node = (event->cpu == -1) ? -1 : cpu_to_node(event->cpu);
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	594	int ret = -ENOMEM, max_order = 0;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	595
				596	if (!has_aux(event))
				597	return -ENOTSUPP;
				598
Alexander Shishkin	6a27923	2015-01-14 14:18:13 +0200	[diff] [blame]	599	if (event->pmu->capabilities & PERF_PMU_CAP_AUX_NO_SG) {
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	600	/*
				601	* We need to start with the max_order that fits in nr_pages,
				602	* not the other way around, hence ilog2() and not get_order.
				603	*/
				604	max_order = ilog2(nr_pages);
				605
Alexander Shishkin	6a27923	2015-01-14 14:18:13 +0200	[diff] [blame]	606	/*
				607	* PMU requests more than one contiguous chunks of memory
				608	* for SW double buffering
				609	*/
				610	if ((event->pmu->capabilities & PERF_PMU_CAP_AUX_SW_DOUBLEBUF) &&
				611	!overwrite) {
				612	if (!max_order)
				613	return -EINVAL;
				614
				615	max_order--;
				616	}
				617	}
				618
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	619	rb->aux_pages = kzalloc_node(nr_pages * sizeof(void *), GFP_KERNEL, node);
				620	if (!rb->aux_pages)
				621	return -ENOMEM;
				622
				623	rb->free_aux = event->pmu->free_aux;
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	624	for (rb->aux_nr_pages = 0; rb->aux_nr_pages < nr_pages;) {
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	625	struct page *page;
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	626	int last, order;
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	627
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	628	order = min(max_order, ilog2(nr_pages - rb->aux_nr_pages));
				629	page = rb_alloc_aux_page(node, order);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	630	if (!page)
				631	goto out;
				632
Alexander Shishkin	0a4e38e	2015-01-14 14:18:12 +0200	[diff] [blame]	633	for (last = rb->aux_nr_pages + (1 << page_private(page));
				634	last > rb->aux_nr_pages; rb->aux_nr_pages++)
				635	rb->aux_pages[rb->aux_nr_pages] = page_address(page++);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	636	}
				637
Alexander Shishkin	aa319bc	2015-05-22 18:30:20 +0300	[diff] [blame]	638	/*
				639	* In overwrite mode, PMUs that don't support SG may not handle more
				640	* than one contiguous allocation, since they rely on PMI to do double
				641	* buffering. In this case, the entire buffer has to be one contiguous
				642	* chunk.
				643	*/
				644	if ((event->pmu->capabilities & PERF_PMU_CAP_AUX_NO_SG) &&
				645	overwrite) {
				646	struct page *page = virt_to_page(rb->aux_pages[0]);
				647
				648	if (page_private(page) != max_order)
				649	goto out;
				650	}
				651
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	652	rb->aux_priv = event->pmu->setup_aux(event->cpu, rb->aux_pages, nr_pages,
				653	overwrite);
				654	if (!rb->aux_priv)
				655	goto out;
				656
				657	ret = 0;
				658
				659	/*
				660	* aux_pages (and pmu driver's private data, aux_priv) will be
				661	* referenced in both producer's and consumer's contexts, thus
				662	* we keep a refcount here to make sure either of the two can
				663	* reference them safely.
				664	*/
				665	atomic_set(&rb->aux_refcount, 1);
				666
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	667	rb->aux_overwrite = overwrite;
Alexander Shishkin	1a59413	2015-01-14 14:18:18 +0200	[diff] [blame]	668	rb->aux_watermark = watermark;
				669
				670	if (!rb->aux_watermark && !rb->aux_overwrite)
				671	rb->aux_watermark = nr_pages << (PAGE_SHIFT - 1);
Alexander Shishkin	2023a0d	2015-01-14 14:18:17 +0200	[diff] [blame]	672
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	673	out:
				674	if (!ret)
				675	rb->aux_pgoff = pgoff;
				676	else
Alexander Shishkin	45c815f	2016-01-19 17:14:29 +0200	[diff] [blame]	677	__rb_free_aux(rb);
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	678
				679	return ret;
				680	}
				681
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	682	void rb_free_aux(struct ring_buffer *rb)
				683	{
				684	if (atomic_dec_and_test(&rb->aux_refcount))
				685	__rb_free_aux(rb);
				686	}
				687
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	688	#ifndef CONFIG_PERF_USE_VMALLOC
				689
				690	/*
				691	* Back perf_mmap() with regular GFP_KERNEL-0 pages.
				692	*/
				693
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	694	static struct page *
				695	__perf_mmap_to_page(struct ring_buffer *rb, unsigned long pgoff)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	696	{
				697	if (pgoff > rb->nr_pages)
				698	return NULL;
				699
				700	if (pgoff == 0)
				701	return virt_to_page(rb->user_page);
				702
				703	return virt_to_page(rb->data_pages[pgoff - 1]);
				704	}
				705
				706	static void *perf_mmap_alloc_page(int cpu)
				707	{
				708	struct page *page;
				709	int node;
				710
				711	node = (cpu == -1) ? cpu : cpu_to_node(cpu);
				712	page = alloc_pages_node(node, GFP_KERNEL \| __GFP_ZERO, 0);
				713	if (!page)
				714	return NULL;
				715
				716	return page_address(page);
				717	}
				718
				719	struct ring_buffer *rb_alloc(int nr_pages, long watermark, int cpu, int flags)
				720	{
				721	struct ring_buffer *rb;
				722	unsigned long size;
				723	int i;
				724
				725	size = sizeof(struct ring_buffer);
				726	size += nr_pages * sizeof(void *);
				727
Ingo Molnar	01d16f0	2019-02-13 07:57:02 +0100	[diff] [blame]	728	if (order_base_2(size) >= PAGE_SHIFT+MAX_ORDER)
Mark Rutland	9269ba3	2019-01-10 14:27:45 +0000	[diff] [blame]	729	goto fail;
				730
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	731	rb = kzalloc(size, GFP_KERNEL);
				732	if (!rb)
				733	goto fail;
				734
				735	rb->user_page = perf_mmap_alloc_page(cpu);
				736	if (!rb->user_page)
				737	goto fail_user_page;
				738
				739	for (i = 0; i < nr_pages; i++) {
				740	rb->data_pages[i] = perf_mmap_alloc_page(cpu);
				741	if (!rb->data_pages[i])
				742	goto fail_data_pages;
				743	}
				744
				745	rb->nr_pages = nr_pages;
				746
				747	ring_buffer_init(rb, watermark, flags);
				748
				749	return rb;
				750
				751	fail_data_pages:
				752	for (i--; i >= 0; i--)
				753	free_page((unsigned long)rb->data_pages[i]);
				754
				755	free_page((unsigned long)rb->user_page);
				756
				757	fail_user_page:
				758	kfree(rb);
				759
				760	fail:
				761	return NULL;
				762	}
				763
				764	static void perf_mmap_free_page(unsigned long addr)
				765	{
				766	struct page page = virt_to_page((void )addr);
				767
				768	page->mapping = NULL;
				769	__free_page(page);
				770	}
				771
				772	void rb_free(struct ring_buffer *rb)
				773	{
				774	int i;
				775
				776	perf_mmap_free_page((unsigned long)rb->user_page);
				777	for (i = 0; i < rb->nr_pages; i++)
				778	perf_mmap_free_page((unsigned long)rb->data_pages[i]);
				779	kfree(rb);
				780	}
				781
				782	#else
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	783	static int data_page_nr(struct ring_buffer *rb)
				784	{
				785	return rb->nr_pages << page_order(rb);
				786	}
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	787
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	788	static struct page *
				789	__perf_mmap_to_page(struct ring_buffer *rb, unsigned long pgoff)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	790	{
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	791	/* The '>' counts in the user page. */
				792	if (pgoff > data_page_nr(rb))
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	793	return NULL;
				794
				795	return vmalloc_to_page((void )rb->user_page + pgoff PAGE_SIZE);
				796	}
				797
				798	static void perf_mmap_unmark_page(void *addr)
				799	{
				800	struct page *page = vmalloc_to_page(addr);
				801
				802	page->mapping = NULL;
				803	}
				804
				805	static void rb_free_work(struct work_struct *work)
				806	{
				807	struct ring_buffer *rb;
				808	void *base;
				809	int i, nr;
				810
				811	rb = container_of(work, struct ring_buffer, work);
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	812	nr = data_page_nr(rb);
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	813
				814	base = rb->user_page;
Jiri Olsa	5919b30	2013-03-19 15:35:09 +0100	[diff] [blame]	815	/* The '<=' counts in the user page. */
				816	for (i = 0; i <= nr; i++)
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	817	perf_mmap_unmark_page(base + (i * PAGE_SIZE));
				818
				819	vfree(base);
				820	kfree(rb);
				821	}
				822
				823	void rb_free(struct ring_buffer *rb)
				824	{
				825	schedule_work(&rb->work);
				826	}
				827
				828	struct ring_buffer *rb_alloc(int nr_pages, long watermark, int cpu, int flags)
				829	{
				830	struct ring_buffer *rb;
				831	unsigned long size;
				832	void *all_buf;
				833
				834	size = sizeof(struct ring_buffer);
				835	size += sizeof(void *);
				836
				837	rb = kzalloc(size, GFP_KERNEL);
				838	if (!rb)
				839	goto fail;
				840
				841	INIT_WORK(&rb->work, rb_free_work);
				842
				843	all_buf = vmalloc_user((nr_pages + 1) * PAGE_SIZE);
				844	if (!all_buf)
				845	goto fail_all_buf;
				846
				847	rb->user_page = all_buf;
				848	rb->data_pages[0] = all_buf + PAGE_SIZE;
Peter Zijlstra	8184059	2016-01-29 15:17:51 +0100	[diff] [blame]	849	if (nr_pages) {
				850	rb->nr_pages = 1;
				851	rb->page_order = ilog2(nr_pages);
				852	}
Frederic Weisbecker	7636913	2011-05-19 19:55:04 +0200	[diff] [blame]	853
				854	ring_buffer_init(rb, watermark, flags);
				855
				856	return rb;
				857
				858	fail_all_buf:
				859	kfree(rb);
				860
				861	fail:
				862	return NULL;
				863	}
				864
				865	#endif
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	866
				867	struct page *
				868	perf_mmap_to_page(struct ring_buffer *rb, unsigned long pgoff)
				869	{
				870	if (rb->aux_nr_pages) {
				871	/* above AUX space */
				872	if (pgoff > rb->aux_pgoff + rb->aux_nr_pages)
				873	return NULL;
				874
				875	/* AUX space */
Peter Zijlstra	c64ca00	2018-04-20 14:03:18 +0200	[diff] [blame]	876	if (pgoff >= rb->aux_pgoff) {
				877	int aux_pgoff = array_index_nospec(pgoff - rb->aux_pgoff, rb->aux_nr_pages);
				878	return virt_to_page(rb->aux_pages[aux_pgoff]);
				879	}
Peter Zijlstra	45bfb2e	2015-01-14 14:18:11 +0200	[diff] [blame]	880	}
				881
				882	return __perf_mmap_to_page(rb, pgoff);
				883	}