Blame - drivers/block/drbd/drbd_receiver.c - kernel/msm-4.19

blob: d0e19a242af45db4e8d79b47ae84f0c656dc1605 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd_receiver.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	drbd is free software; you can redistribute it and/or modify
				11	it under the terms of the GNU General Public License as published by
				12	the Free Software Foundation; either version 2, or (at your option)
				13	any later version.
				14
				15	drbd is distributed in the hope that it will be useful,
				16	but WITHOUT ANY WARRANTY; without even the implied warranty of
				17	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				18	GNU General Public License for more details.
				19
				20	You should have received a copy of the GNU General Public License
				21	along with drbd; see the file COPYING. If not, write to
				22	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				23	*/
				24
				25
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	26	#include <linux/module.h>
				27
				28	#include <asm/uaccess.h>
				29	#include <net/sock.h>
				30
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	31	#include <linux/drbd.h>
				32	#include <linux/fs.h>
				33	#include <linux/file.h>
				34	#include <linux/in.h>
				35	#include <linux/mm.h>
				36	#include <linux/memcontrol.h>
				37	#include <linux/mm_inline.h>
				38	#include <linux/slab.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	39	#include <linux/pkt_sched.h>
				40	#define __KERNEL_SYSCALLS__
				41	#include <linux/unistd.h>
				42	#include <linux/vmalloc.h>
				43	#include <linux/random.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	44	#include <linux/string.h>
				45	#include <linux/scatterlist.h>
				46	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	47	#include "drbd_req.h"
				48
				49	#include "drbd_vli.h"
				50
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	51	enum finish_epoch {
				52	FE_STILL_LIVE,
				53	FE_DESTROYED,
				54	FE_RECYCLED,
				55	};
				56
				57	static int drbd_do_handshake(struct drbd_conf *mdev);
				58	static int drbd_do_auth(struct drbd_conf *mdev);
				59
				60	static enum finish_epoch drbd_may_finish_epoch(struct drbd_conf , struct drbd_epoch , enum epoch_event);
				61	static int e_end_block(struct drbd_conf , struct drbd_work , int);
				62
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	63
				64	#define GFP_TRY (__GFP_HIGHMEM \| __GFP_NOWARN)
				65
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	66	/*
				67	* some helper functions to deal with single linked page lists,
				68	* page->private being our "next" pointer.
				69	*/
				70
				71	/* If at least n pages are linked at head, get n pages off.
				72	* Otherwise, don't modify head, and return NULL.
				73	* Locking is the responsibility of the caller.
				74	*/
				75	static struct page page_chain_del(struct page *head, int n)
				76	{
				77	struct page *page;
				78	struct page *tmp;
				79
				80	BUG_ON(!n);
				81	BUG_ON(!head);
				82
				83	page = *head;
Philipp Reisner	23ce422	2010-05-20 13:35:31 +0200	[diff] [blame]	84
				85	if (!page)
				86	return NULL;
				87
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	88	while (page) {
				89	tmp = page_chain_next(page);
				90	if (--n == 0)
				91	break; /* found sufficient pages */
				92	if (tmp == NULL)
				93	/* insufficient pages, don't use any of them. */
				94	return NULL;
				95	page = tmp;
				96	}
				97
				98	/* add end of list marker for the returned list */
				99	set_page_private(page, 0);
				100	/* actual return value, and adjustment of head */
				101	page = *head;
				102	*head = tmp;
				103	return page;
				104	}
				105
				106	/* may be used outside of locks to find the tail of a (usually short)
				107	* "private" page chain, before adding it back to a global chain head
				108	* with page_chain_add() under a spinlock. */
				109	static struct page page_chain_tail(struct page page, int *len)
				110	{
				111	struct page *tmp;
				112	int i = 1;
				113	while ((tmp = page_chain_next(page)))
				114	++i, page = tmp;
				115	if (len)
				116	*len = i;
				117	return page;
				118	}
				119
				120	static int page_chain_free(struct page *page)
				121	{
				122	struct page *tmp;
				123	int i = 0;
				124	page_chain_for_each_safe(page, tmp) {
				125	put_page(page);
				126	++i;
				127	}
				128	return i;
				129	}
				130
				131	static void page_chain_add(struct page **head,
				132	struct page chain_first, struct page chain_last)
				133	{
				134	#if 1
				135	struct page *tmp;
				136	tmp = page_chain_tail(chain_first, NULL);
				137	BUG_ON(tmp != chain_last);
				138	#endif
				139
				140	/* add chain to head */
				141	set_page_private(chain_last, (unsigned long)*head);
				142	*head = chain_first;
				143	}
				144
				145	static struct page drbd_pp_first_pages_or_try_alloc(struct drbd_conf mdev, int number)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	146	{
				147	struct page *page = NULL;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	148	struct page *tmp = NULL;
				149	int i = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	150
				151	/* Yes, testing drbd_pp_vacant outside the lock is racy.
				152	* So what. It saves a spin_lock. */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	153	if (drbd_pp_vacant >= number) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	154	spin_lock(&drbd_pp_lock);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	155	page = page_chain_del(&drbd_pp_pool, number);
				156	if (page)
				157	drbd_pp_vacant -= number;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	158	spin_unlock(&drbd_pp_lock);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	159	if (page)
				160	return page;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	161	}
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	162
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	163	/* GFP_TRY, because we must not cause arbitrary write-out: in a DRBD
				164	* "criss-cross" setup, that might cause write-out on some other DRBD,
				165	* which in turn might block on the other node at this very place. */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	166	for (i = 0; i < number; i++) {
				167	tmp = alloc_page(GFP_TRY);
				168	if (!tmp)
				169	break;
				170	set_page_private(tmp, (unsigned long)page);
				171	page = tmp;
				172	}
				173
				174	if (i == number)
				175	return page;
				176
				177	/* Not enough pages immediately available this time.
				178	* No need to jump around here, drbd_pp_alloc will retry this
				179	* function "soon". */
				180	if (page) {
				181	tmp = page_chain_tail(page, NULL);
				182	spin_lock(&drbd_pp_lock);
				183	page_chain_add(&drbd_pp_pool, page, tmp);
				184	drbd_pp_vacant += i;
				185	spin_unlock(&drbd_pp_lock);
				186	}
				187	return NULL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	188	}
				189
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	190	static void reclaim_net_ee(struct drbd_conf mdev, struct list_head to_be_freed)
				191	{
				192	struct drbd_epoch_entry *e;
				193	struct list_head le, tle;
				194
				195	/* The EEs are always appended to the end of the list. Since
				196	they are sent in order over the wire, they have to finish
				197	in order. As soon as we see the first not finished we can
				198	stop to examine the list... */
				199
				200	list_for_each_safe(le, tle, &mdev->net_ee) {
				201	e = list_entry(le, struct drbd_epoch_entry, w.list);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	202	if (drbd_ee_has_active_page(e))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	break;
				204	list_move(le, to_be_freed);
				205	}
				206	}
				207
				208	static void drbd_kick_lo_and_reclaim_net(struct drbd_conf *mdev)
				209	{
				210	LIST_HEAD(reclaimed);
				211	struct drbd_epoch_entry e, t;
				212
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	213	spin_lock_irq(&mdev->req_lock);
				214	reclaim_net_ee(mdev, &reclaimed);
				215	spin_unlock_irq(&mdev->req_lock);
				216
				217	list_for_each_entry_safe(e, t, &reclaimed, w.list)
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	218	drbd_free_net_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	219	}
				220
				221	/**
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	222	* drbd_pp_alloc() - Returns @number pages, retries forever (or until signalled)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	223	* @mdev: DRBD device.
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	224	* @number: number of pages requested
				225	* @retry: whether to retry, if not enough pages are available right now
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	226	*
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	227	* Tries to allocate number pages, first from our own page pool, then from
				228	* the kernel, unless this allocation would exceed the max_buffers setting.
				229	* Possibly retry until DRBD frees sufficient pages somewhere else.
				230	*
				231	* Returns a page chain linked via page->private.
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	232	*/
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	233	static struct page drbd_pp_alloc(struct drbd_conf mdev, unsigned number, bool retry)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	234	{
				235	struct page *page = NULL;
				236	DEFINE_WAIT(wait);
				237
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	238	/* Yes, we may run up to @number over max_buffers. If we
				239	* follow it strictly, the admin will get it wrong anyways. */
				240	if (atomic_read(&mdev->pp_in_use) < mdev->net_conf->max_buffers)
				241	page = drbd_pp_first_pages_or_try_alloc(mdev, number);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	242
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	243	while (page == NULL) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	244	prepare_to_wait(&drbd_pp_wait, &wait, TASK_INTERRUPTIBLE);
				245
				246	drbd_kick_lo_and_reclaim_net(mdev);
				247
				248	if (atomic_read(&mdev->pp_in_use) < mdev->net_conf->max_buffers) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	249	page = drbd_pp_first_pages_or_try_alloc(mdev, number);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	250	if (page)
				251	break;
				252	}
				253
				254	if (!retry)
				255	break;
				256
				257	if (signal_pending(current)) {
				258	dev_warn(DEV, "drbd_pp_alloc interrupted!\n");
				259	break;
				260	}
				261
				262	schedule();
				263	}
				264	finish_wait(&drbd_pp_wait, &wait);
				265
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	266	if (page)
				267	atomic_add(number, &mdev->pp_in_use);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	268	return page;
				269	}
				270
				271	/* Must not be used from irq, as that may deadlock: see drbd_pp_alloc.
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	272	* Is also used from inside an other spin_lock_irq(&mdev->req_lock);
				273	* Either links the page chain back to the global pool,
				274	* or returns all pages to the system. */
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	275	static void drbd_pp_free(struct drbd_conf mdev, struct page page, int is_net)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	276	{
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	277	atomic_t *a = is_net ? &mdev->pp_in_use_by_net : &mdev->pp_in_use;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	278	int i;
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	279
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	280	if (drbd_pp_vacant > (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE)*minor_count)
				281	i = page_chain_free(page);
				282	else {
				283	struct page *tmp;
				284	tmp = page_chain_tail(page, &i);
				285	spin_lock(&drbd_pp_lock);
				286	page_chain_add(&drbd_pp_pool, page, tmp);
				287	drbd_pp_vacant += i;
				288	spin_unlock(&drbd_pp_lock);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	289	}
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	290	i = atomic_sub_return(i, a);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	291	if (i < 0)
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	292	dev_warn(DEV, "ASSERTION FAILED: %s: %d < 0\n",
				293	is_net ? "pp_in_use_by_net" : "pp_in_use", i);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	294	wake_up(&drbd_pp_wait);
				295	}
				296
				297	/*
				298	You need to hold the req_lock:
				299	_drbd_wait_ee_list_empty()
				300
				301	You must not have the req_lock:
				302	drbd_free_ee()
				303	drbd_alloc_ee()
				304	drbd_init_ee()
				305	drbd_release_ee()
				306	drbd_ee_fix_bhs()
				307	drbd_process_done_ee()
				308	drbd_clear_done_ee()
				309	drbd_wait_ee_list_empty()
				310	*/
				311
				312	struct drbd_epoch_entry drbd_alloc_ee(struct drbd_conf mdev,
				313	u64 id,
				314	sector_t sector,
				315	unsigned int data_size,
				316	gfp_t gfp_mask) __must_hold(local)
				317	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	318	struct drbd_epoch_entry *e;
				319	struct page *page;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	320	unsigned nr_pages = (data_size + PAGE_SIZE -1) >> PAGE_SHIFT;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	321
				322	if (FAULT_ACTIVE(mdev, DRBD_FAULT_AL_EE))
				323	return NULL;
				324
				325	e = mempool_alloc(drbd_ee_mempool, gfp_mask & ~__GFP_HIGHMEM);
				326	if (!e) {
				327	if (!(gfp_mask & __GFP_NOWARN))
				328	dev_err(DEV, "alloc_ee: Allocation of an EE failed\n");
				329	return NULL;
				330	}
				331
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	332	page = drbd_pp_alloc(mdev, nr_pages, (gfp_mask & __GFP_WAIT));
				333	if (!page)
				334	goto fail;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	335
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	336	INIT_HLIST_NODE(&e->colision);
				337	e->epoch = NULL;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	338	e->mdev = mdev;
				339	e->pages = page;
				340	atomic_set(&e->pending_bios, 0);
				341	e->size = data_size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	342	e->flags = 0;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	343	e->sector = sector;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	344	e->block_id = id;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	345
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	346	return e;
				347
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	348	fail:
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	349	mempool_free(e, drbd_ee_mempool);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	350	return NULL;
				351	}
				352
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	353	void drbd_free_some_ee(struct drbd_conf mdev, struct drbd_epoch_entry e, int is_net)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	354	{
Lars Ellenberg	c36c3ce	2010-08-11 20:42:55 +0200	[diff] [blame]	355	if (e->flags & EE_HAS_DIGEST)
				356	kfree(e->digest);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	357	drbd_pp_free(mdev, e->pages, is_net);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	358	D_ASSERT(atomic_read(&e->pending_bios) == 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	359	D_ASSERT(hlist_unhashed(&e->colision));
				360	mempool_free(e, drbd_ee_mempool);
				361	}
				362
				363	int drbd_release_ee(struct drbd_conf mdev, struct list_head list)
				364	{
				365	LIST_HEAD(work_list);
				366	struct drbd_epoch_entry e, t;
				367	int count = 0;
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	368	int is_net = list == &mdev->net_ee;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	369
				370	spin_lock_irq(&mdev->req_lock);
				371	list_splice_init(list, &work_list);
				372	spin_unlock_irq(&mdev->req_lock);
				373
				374	list_for_each_entry_safe(e, t, &work_list, w.list) {
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	375	drbd_free_some_ee(mdev, e, is_net);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	376	count++;
				377	}
				378	return count;
				379	}
				380
				381
				382	/*
				383	* This function is called from _asender only_
				384	* but see also comments in _req_mod(,barrier_acked)
				385	* and receive_Barrier.
				386	*
				387	* Move entries from net_ee to done_ee, if ready.
				388	* Grab done_ee, call all callbacks, free the entries.
				389	* The callbacks typically send out ACKs.
				390	*/
				391	static int drbd_process_done_ee(struct drbd_conf *mdev)
				392	{
				393	LIST_HEAD(work_list);
				394	LIST_HEAD(reclaimed);
				395	struct drbd_epoch_entry e, t;
				396	int ok = (mdev->state.conn >= C_WF_REPORT_PARAMS);
				397
				398	spin_lock_irq(&mdev->req_lock);
				399	reclaim_net_ee(mdev, &reclaimed);
				400	list_splice_init(&mdev->done_ee, &work_list);
				401	spin_unlock_irq(&mdev->req_lock);
				402
				403	list_for_each_entry_safe(e, t, &reclaimed, w.list)
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	404	drbd_free_net_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	405
				406	/* possible callbacks here:
				407	* e_end_block, and e_end_resync_block, e_send_discard_ack.
				408	* all ignore the last argument.
				409	*/
				410	list_for_each_entry_safe(e, t, &work_list, w.list) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	411	/* list_del not necessary, next/prev members not touched */
				412	ok = e->w.cb(mdev, &e->w, !ok) && ok;
				413	drbd_free_ee(mdev, e);
				414	}
				415	wake_up(&mdev->ee_wait);
				416
				417	return ok;
				418	}
				419
				420	void _drbd_wait_ee_list_empty(struct drbd_conf mdev, struct list_head head)
				421	{
				422	DEFINE_WAIT(wait);
				423
				424	/* avoids spin_lock/unlock
				425	* and calling prepare_to_wait in the fast path */
				426	while (!list_empty(head)) {
				427	prepare_to_wait(&mdev->ee_wait, &wait, TASK_UNINTERRUPTIBLE);
				428	spin_unlock_irq(&mdev->req_lock);
Jens Axboe	7eaceac	2011-03-10 08:52:07 +0100	[diff] [blame]	429	io_schedule();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	430	finish_wait(&mdev->ee_wait, &wait);
				431	spin_lock_irq(&mdev->req_lock);
				432	}
				433	}
				434
				435	void drbd_wait_ee_list_empty(struct drbd_conf mdev, struct list_head head)
				436	{
				437	spin_lock_irq(&mdev->req_lock);
				438	_drbd_wait_ee_list_empty(mdev, head);
				439	spin_unlock_irq(&mdev->req_lock);
				440	}
				441
				442	/* see also kernel_accept; which is only present since 2.6.18.
				443	* also we want to log which part of it failed, exactly */
				444	static int drbd_accept(struct drbd_conf mdev, const char *what,
				445	struct socket sock, struct socket *newsock)
				446	{
				447	struct sock *sk = sock->sk;
				448	int err = 0;
				449
				450	*what = "listen";
				451	err = sock->ops->listen(sock, 5);
				452	if (err < 0)
				453	goto out;
				454
				455	*what = "sock_create_lite";
				456	err = sock_create_lite(sk->sk_family, sk->sk_type, sk->sk_protocol,
				457	newsock);
				458	if (err < 0)
				459	goto out;
				460
				461	*what = "accept";
				462	err = sock->ops->accept(sock, *newsock, 0);
				463	if (err < 0) {
				464	sock_release(*newsock);
				465	*newsock = NULL;
				466	goto out;
				467	}
				468	(*newsock)->ops = sock->ops;
				469
				470	out:
				471	return err;
				472	}
				473
				474	static int drbd_recv_short(struct drbd_conf mdev, struct socket sock,
				475	void *buf, size_t size, int flags)
				476	{
				477	mm_segment_t oldfs;
				478	struct kvec iov = {
				479	.iov_base = buf,
				480	.iov_len = size,
				481	};
				482	struct msghdr msg = {
				483	.msg_iovlen = 1,
				484	.msg_iov = (struct iovec *)&iov,
				485	.msg_flags = (flags ? flags : MSG_WAITALL \| MSG_NOSIGNAL)
				486	};
				487	int rv;
				488
				489	oldfs = get_fs();
				490	set_fs(KERNEL_DS);
				491	rv = sock_recvmsg(sock, &msg, size, msg.msg_flags);
				492	set_fs(oldfs);
				493
				494	return rv;
				495	}
				496
				497	static int drbd_recv(struct drbd_conf mdev, void buf, size_t size)
				498	{
				499	mm_segment_t oldfs;
				500	struct kvec iov = {
				501	.iov_base = buf,
				502	.iov_len = size,
				503	};
				504	struct msghdr msg = {
				505	.msg_iovlen = 1,
				506	.msg_iov = (struct iovec *)&iov,
				507	.msg_flags = MSG_WAITALL \| MSG_NOSIGNAL
				508	};
				509	int rv;
				510
				511	oldfs = get_fs();
				512	set_fs(KERNEL_DS);
				513
				514	for (;;) {
				515	rv = sock_recvmsg(mdev->data.socket, &msg, size, msg.msg_flags);
				516	if (rv == size)
				517	break;
				518
				519	/* Note:
				520	* ECONNRESET other side closed the connection
				521	* ERESTARTSYS (on sock) we got a signal
				522	*/
				523
				524	if (rv < 0) {
				525	if (rv == -ECONNRESET)
				526	dev_info(DEV, "sock was reset by peer\n");
				527	else if (rv != -ERESTARTSYS)
				528	dev_err(DEV, "sock_recvmsg returned %d\n", rv);
				529	break;
				530	} else if (rv == 0) {
				531	dev_info(DEV, "sock was shut down by peer\n");
				532	break;
				533	} else {
				534	/* signal came in, or peer/link went down,
				535	* after we read a partial message
				536	*/
				537	/* D_ASSERT(signal_pending(current)); */
				538	break;
				539	}
				540	};
				541
				542	set_fs(oldfs);
				543
				544	if (rv != size)
				545	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				546
				547	return rv;
				548	}
				549
Lars Ellenberg	5dbf167	2010-05-25 16:18:01 +0200	[diff] [blame]	550	/* quoting tcp(7):
				551	* On individual connections, the socket buffer size must be set prior to the
				552	* listen(2) or connect(2) calls in order to have it take effect.
				553	* This is our wrapper to do so.
				554	*/
				555	static void drbd_setbufsize(struct socket *sock, unsigned int snd,
				556	unsigned int rcv)
				557	{
				558	/* open coded SO_SNDBUF, SO_RCVBUF */
				559	if (snd) {
				560	sock->sk->sk_sndbuf = snd;
				561	sock->sk->sk_userlocks \|= SOCK_SNDBUF_LOCK;
				562	}
				563	if (rcv) {
				564	sock->sk->sk_rcvbuf = rcv;
				565	sock->sk->sk_userlocks \|= SOCK_RCVBUF_LOCK;
				566	}
				567	}
				568
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	569	static struct socket drbd_try_connect(struct drbd_conf mdev)
				570	{
				571	const char *what;
				572	struct socket *sock;
				573	struct sockaddr_in6 src_in6;
				574	int err;
				575	int disconnect_on_error = 1;
				576
				577	if (!get_net_conf(mdev))
				578	return NULL;
				579
				580	what = "sock_create_kern";
				581	err = sock_create_kern(((struct sockaddr *)mdev->net_conf->my_addr)->sa_family,
				582	SOCK_STREAM, IPPROTO_TCP, &sock);
				583	if (err < 0) {
				584	sock = NULL;
				585	goto out;
				586	}
				587
				588	sock->sk->sk_rcvtimeo =
				589	sock->sk->sk_sndtimeo = mdev->net_conf->try_connect_int*HZ;
Lars Ellenberg	5dbf167	2010-05-25 16:18:01 +0200	[diff] [blame]	590	drbd_setbufsize(sock, mdev->net_conf->sndbuf_size,
				591	mdev->net_conf->rcvbuf_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	592
				593	/* explicitly bind to the configured IP as source IP
				594	* for the outgoing connections.
				595	* This is needed for multihomed hosts and to be
				596	* able to use lo: interfaces for drbd.
				597	* Make sure to use 0 as port number, so linux selects
				598	* a free one dynamically.
				599	*/
				600	memcpy(&src_in6, mdev->net_conf->my_addr,
				601	min_t(int, mdev->net_conf->my_addr_len, sizeof(src_in6)));
				602	if (((struct sockaddr *)mdev->net_conf->my_addr)->sa_family == AF_INET6)
				603	src_in6.sin6_port = 0;
				604	else
				605	((struct sockaddr_in )&src_in6)->sin_port = 0; / AF_INET & AF_SCI */
				606
				607	what = "bind before connect";
				608	err = sock->ops->bind(sock,
				609	(struct sockaddr *) &src_in6,
				610	mdev->net_conf->my_addr_len);
				611	if (err < 0)
				612	goto out;
				613
				614	/* connect may fail, peer not yet available.
				615	* stay C_WF_CONNECTION, don't go Disconnecting! */
				616	disconnect_on_error = 0;
				617	what = "connect";
				618	err = sock->ops->connect(sock,
				619	(struct sockaddr *)mdev->net_conf->peer_addr,
				620	mdev->net_conf->peer_addr_len, 0);
				621
				622	out:
				623	if (err < 0) {
				624	if (sock) {
				625	sock_release(sock);
				626	sock = NULL;
				627	}
				628	switch (-err) {
				629	/* timeout, busy, signal pending */
				630	case ETIMEDOUT: case EAGAIN: case EINPROGRESS:
				631	case EINTR: case ERESTARTSYS:
				632	/* peer not (yet) available, network problem */
				633	case ECONNREFUSED: case ENETUNREACH:
				634	case EHOSTDOWN: case EHOSTUNREACH:
				635	disconnect_on_error = 0;
				636	break;
				637	default:
				638	dev_err(DEV, "%s failed, err = %d\n", what, err);
				639	}
				640	if (disconnect_on_error)
				641	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				642	}
				643	put_net_conf(mdev);
				644	return sock;
				645	}
				646
				647	static struct socket drbd_wait_for_connect(struct drbd_conf mdev)
				648	{
				649	int timeo, err;
				650	struct socket s_estab = NULL, s_listen;
				651	const char *what;
				652
				653	if (!get_net_conf(mdev))
				654	return NULL;
				655
				656	what = "sock_create_kern";
				657	err = sock_create_kern(((struct sockaddr *)mdev->net_conf->my_addr)->sa_family,
				658	SOCK_STREAM, IPPROTO_TCP, &s_listen);
				659	if (err) {
				660	s_listen = NULL;
				661	goto out;
				662	}
				663
				664	timeo = mdev->net_conf->try_connect_int * HZ;
				665	timeo += (random32() & 1) ? timeo / 7 : -timeo / 7; /* 28.5% random jitter */
				666
				667	s_listen->sk->sk_reuse = 1; /* SO_REUSEADDR */
				668	s_listen->sk->sk_rcvtimeo = timeo;
				669	s_listen->sk->sk_sndtimeo = timeo;
Lars Ellenberg	5dbf167	2010-05-25 16:18:01 +0200	[diff] [blame]	670	drbd_setbufsize(s_listen, mdev->net_conf->sndbuf_size,
				671	mdev->net_conf->rcvbuf_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	672
				673	what = "bind before listen";
				674	err = s_listen->ops->bind(s_listen,
				675	(struct sockaddr *) mdev->net_conf->my_addr,
				676	mdev->net_conf->my_addr_len);
				677	if (err < 0)
				678	goto out;
				679
				680	err = drbd_accept(mdev, &what, s_listen, &s_estab);
				681
				682	out:
				683	if (s_listen)
				684	sock_release(s_listen);
				685	if (err < 0) {
				686	if (err != -EAGAIN && err != -EINTR && err != -ERESTARTSYS) {
				687	dev_err(DEV, "%s failed, err = %d\n", what, err);
				688	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				689	}
				690	}
				691	put_net_conf(mdev);
				692
				693	return s_estab;
				694	}
				695
				696	static int drbd_send_fp(struct drbd_conf *mdev,
				697	struct socket *sock, enum drbd_packets cmd)
				698	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	699	struct p_header80 *h = &mdev->data.sbuf.header.h80;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	700
				701	return _drbd_send_cmd(mdev, sock, cmd, h, sizeof(*h), 0);
				702	}
				703
				704	static enum drbd_packets drbd_recv_fp(struct drbd_conf mdev, struct socket sock)
				705	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	706	struct p_header80 *h = &mdev->data.rbuf.header.h80;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	707	int rr;
				708
				709	rr = drbd_recv_short(mdev, sock, h, sizeof(*h), 0);
				710
				711	if (rr == sizeof(*h) && h->magic == BE_DRBD_MAGIC)
				712	return be16_to_cpu(h->command);
				713
				714	return 0xffff;
				715	}
				716
				717	/**
				718	* drbd_socket_okay() - Free the socket if its connection is not okay
				719	* @mdev: DRBD device.
				720	* @sock: pointer to the pointer to the socket.
				721	*/
				722	static int drbd_socket_okay(struct drbd_conf mdev, struct socket *sock)
				723	{
				724	int rr;
				725	char tb[4];
				726
				727	if (!*sock)
				728	return FALSE;
				729
				730	rr = drbd_recv_short(mdev, *sock, tb, 4, MSG_DONTWAIT \| MSG_PEEK);
				731
				732	if (rr > 0 \|\| rr == -EAGAIN) {
				733	return TRUE;
				734	} else {
				735	sock_release(*sock);
				736	*sock = NULL;
				737	return FALSE;
				738	}
				739	}
				740
				741	/*
				742	* return values:
				743	* 1 yes, we have a valid connection
				744	* 0 oops, did not work out, please try again
				745	* -1 peer talks different language,
				746	* no point in trying again, please go standalone.
				747	* -2 We do not have a network config...
				748	*/
				749	static int drbd_connect(struct drbd_conf *mdev)
				750	{
				751	struct socket s, sock, *msock;
				752	int try, h, ok;
				753
				754	D_ASSERT(!mdev->data.socket);
				755
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	756	if (drbd_request_state(mdev, NS(conn, C_WF_CONNECTION)) < SS_SUCCESS)
				757	return -2;
				758
				759	clear_bit(DISCARD_CONCURRENT, &mdev->flags);
				760
				761	sock = NULL;
				762	msock = NULL;
				763
				764	do {
				765	for (try = 0;;) {
				766	/* 3 tries, this should take less than a second! */
				767	s = drbd_try_connect(mdev);
				768	if (s \|\| ++try >= 3)
				769	break;
				770	/* give the other side time to call bind() & listen() */
				771	__set_current_state(TASK_INTERRUPTIBLE);
				772	schedule_timeout(HZ / 10);
				773	}
				774
				775	if (s) {
				776	if (!sock) {
				777	drbd_send_fp(mdev, s, P_HAND_SHAKE_S);
				778	sock = s;
				779	s = NULL;
				780	} else if (!msock) {
				781	drbd_send_fp(mdev, s, P_HAND_SHAKE_M);
				782	msock = s;
				783	s = NULL;
				784	} else {
				785	dev_err(DEV, "Logic error in drbd_connect()\n");
				786	goto out_release_sockets;
				787	}
				788	}
				789
				790	if (sock && msock) {
				791	__set_current_state(TASK_INTERRUPTIBLE);
				792	schedule_timeout(HZ / 10);
				793	ok = drbd_socket_okay(mdev, &sock);
				794	ok = drbd_socket_okay(mdev, &msock) && ok;
				795	if (ok)
				796	break;
				797	}
				798
				799	retry:
				800	s = drbd_wait_for_connect(mdev);
				801	if (s) {
				802	try = drbd_recv_fp(mdev, s);
				803	drbd_socket_okay(mdev, &sock);
				804	drbd_socket_okay(mdev, &msock);
				805	switch (try) {
				806	case P_HAND_SHAKE_S:
				807	if (sock) {
				808	dev_warn(DEV, "initial packet S crossed\n");
				809	sock_release(sock);
				810	}
				811	sock = s;
				812	break;
				813	case P_HAND_SHAKE_M:
				814	if (msock) {
				815	dev_warn(DEV, "initial packet M crossed\n");
				816	sock_release(msock);
				817	}
				818	msock = s;
				819	set_bit(DISCARD_CONCURRENT, &mdev->flags);
				820	break;
				821	default:
				822	dev_warn(DEV, "Error receiving initial packet\n");
				823	sock_release(s);
				824	if (random32() & 1)
				825	goto retry;
				826	}
				827	}
				828
				829	if (mdev->state.conn <= C_DISCONNECTING)
				830	goto out_release_sockets;
				831	if (signal_pending(current)) {
				832	flush_signals(current);
				833	smp_rmb();
				834	if (get_t_state(&mdev->receiver) == Exiting)
				835	goto out_release_sockets;
				836	}
				837
				838	if (sock && msock) {
				839	ok = drbd_socket_okay(mdev, &sock);
				840	ok = drbd_socket_okay(mdev, &msock) && ok;
				841	if (ok)
				842	break;
				843	}
				844	} while (1);
				845
				846	msock->sk->sk_reuse = 1; /* SO_REUSEADDR */
				847	sock->sk->sk_reuse = 1; /* SO_REUSEADDR */
				848
				849	sock->sk->sk_allocation = GFP_NOIO;
				850	msock->sk->sk_allocation = GFP_NOIO;
				851
				852	sock->sk->sk_priority = TC_PRIO_INTERACTIVE_BULK;
				853	msock->sk->sk_priority = TC_PRIO_INTERACTIVE;
				854
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	855	/* NOT YET ...
				856	* sock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
				857	* sock->sk->sk_rcvtimeo = MAX_SCHEDULE_TIMEOUT;
				858	* first set it to the P_HAND_SHAKE timeout,
				859	* which we set to 4x the configured ping_timeout. */
				860	sock->sk->sk_sndtimeo =
				861	sock->sk->sk_rcvtimeo = mdev->net_conf->ping_timeo4HZ/10;
				862
				863	msock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
				864	msock->sk->sk_rcvtimeo = mdev->net_conf->ping_int*HZ;
				865
				866	/* we don't want delays.
				867	* we use TCP_CORK where apropriate, though */
				868	drbd_tcp_nodelay(sock);
				869	drbd_tcp_nodelay(msock);
				870
				871	mdev->data.socket = sock;
				872	mdev->meta.socket = msock;
				873	mdev->last_received = jiffies;
				874
				875	D_ASSERT(mdev->asender.task == NULL);
				876
				877	h = drbd_do_handshake(mdev);
				878	if (h <= 0)
				879	return h;
				880
				881	if (mdev->cram_hmac_tfm) {
				882	/* drbd_request_state(mdev, NS(conn, WFAuth)); */
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	883	switch (drbd_do_auth(mdev)) {
				884	case -1:
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	885	dev_err(DEV, "Authentication of peer failed\n");
				886	return -1;
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	887	case 0:
				888	dev_err(DEV, "Authentication of peer failed, trying again.\n");
				889	return 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	890	}
				891	}
				892
				893	if (drbd_request_state(mdev, NS(conn, C_WF_REPORT_PARAMS)) < SS_SUCCESS)
				894	return 0;
				895
				896	sock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
				897	sock->sk->sk_rcvtimeo = MAX_SCHEDULE_TIMEOUT;
				898
				899	atomic_set(&mdev->packet_seq, 0);
				900	mdev->peer_seq = 0;
				901
				902	drbd_thread_start(&mdev->asender);
				903
Philipp Reisner	d537338	2010-08-23 15:18:33 +0200	[diff] [blame]	904	if (mdev->agreed_pro_version < 95 && get_ldev(mdev)) {
				905	drbd_setup_queue_param(mdev, DRBD_MAX_SIZE_H80_PACKET);
				906	put_ldev(mdev);
				907	}
				908
Philipp Reisner	7e2455c	2010-04-22 14:50:23 +0200	[diff] [blame]	909	if (!drbd_send_protocol(mdev))
				910	return -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	911	drbd_send_sync_param(mdev, &mdev->sync_conf);
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	912	drbd_send_sizes(mdev, 0, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	913	drbd_send_uuids(mdev);
				914	drbd_send_state(mdev);
				915	clear_bit(USE_DEGR_WFC_T, &mdev->flags);
				916	clear_bit(RESIZE_PENDING, &mdev->flags);
				917
				918	return 1;
				919
				920	out_release_sockets:
				921	if (sock)
				922	sock_release(sock);
				923	if (msock)
				924	sock_release(msock);
				925	return -1;
				926	}
				927
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	928	static int drbd_recv_header(struct drbd_conf mdev, enum drbd_packets cmd, unsigned int *packet_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	929	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	930	union p_header *h = &mdev->data.rbuf.header;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	931	int r;
				932
				933	r = drbd_recv(mdev, h, sizeof(*h));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	934	if (unlikely(r != sizeof(*h))) {
				935	dev_err(DEV, "short read expecting header on sock: r=%d\n", r);
				936	return FALSE;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	937	}
				938
				939	if (likely(h->h80.magic == BE_DRBD_MAGIC)) {
				940	*cmd = be16_to_cpu(h->h80.command);
				941	*packet_size = be16_to_cpu(h->h80.length);
				942	} else if (h->h95.magic == BE_DRBD_MAGIC_BIG) {
				943	*cmd = be16_to_cpu(h->h95.command);
				944	*packet_size = be32_to_cpu(h->h95.length);
				945	} else {
Lars Ellenberg	004352f	2010-10-05 20:13:58 +0200	[diff] [blame]	946	dev_err(DEV, "magic?? on data m: 0x%08x c: %d l: %d\n",
				947	be32_to_cpu(h->h80.magic),
				948	be16_to_cpu(h->h80.command),
				949	be16_to_cpu(h->h80.length));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	950	return FALSE;
				951	}
				952	mdev->last_received = jiffies;
				953
				954	return TRUE;
				955	}
				956
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	957	static void drbd_flush(struct drbd_conf *mdev)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	958	{
				959	int rv;
				960
				961	if (mdev->write_ordering >= WO_bdev_flush && get_ldev(mdev)) {
Dmitry Monakhov	fbd9b09	2010-04-28 17:55:06 +0400	[diff] [blame]	962	rv = blkdev_issue_flush(mdev->ldev->backing_bdev, GFP_KERNEL,
Christoph Hellwig	dd3932e	2010-09-16 20:51:46 +0200	[diff] [blame]	963	NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	964	if (rv) {
				965	dev_err(DEV, "local disk flush failed with status %d\n", rv);
				966	/* would rather check on EOPNOTSUPP, but that is not reliable.
				967	* don't try again for ANY return value != 0
				968	* if (rv == -EOPNOTSUPP) */
				969	drbd_bump_write_ordering(mdev, WO_drain_io);
				970	}
				971	put_ldev(mdev);
				972	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	973	}
				974
				975	/**
				976	* drbd_may_finish_epoch() - Applies an epoch_event to the epoch's state, eventually finishes it.
				977	* @mdev: DRBD device.
				978	* @epoch: Epoch object.
				979	* @ev: Epoch event.
				980	*/
				981	static enum finish_epoch drbd_may_finish_epoch(struct drbd_conf *mdev,
				982	struct drbd_epoch *epoch,
				983	enum epoch_event ev)
				984	{
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	985	int epoch_size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	986	struct drbd_epoch *next_epoch;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	987	enum finish_epoch rv = FE_STILL_LIVE;
				988
				989	spin_lock(&mdev->epoch_lock);
				990	do {
				991	next_epoch = NULL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	992
				993	epoch_size = atomic_read(&epoch->epoch_size);
				994
				995	switch (ev & ~EV_CLEANUP) {
				996	case EV_PUT:
				997	atomic_dec(&epoch->active);
				998	break;
				999	case EV_GOT_BARRIER_NR:
				1000	set_bit(DE_HAVE_BARRIER_NUMBER, &epoch->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1001	break;
				1002	case EV_BECAME_LAST:
				1003	/* nothing to do*/
				1004	break;
				1005	}
				1006
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1007	if (epoch_size != 0 &&
				1008	atomic_read(&epoch->active) == 0 &&
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	1009	test_bit(DE_HAVE_BARRIER_NUMBER, &epoch->flags)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1010	if (!(ev & EV_CLEANUP)) {
				1011	spin_unlock(&mdev->epoch_lock);
				1012	drbd_send_b_ack(mdev, epoch->barrier_nr, epoch_size);
				1013	spin_lock(&mdev->epoch_lock);
				1014	}
				1015	dec_unacked(mdev);
				1016
				1017	if (mdev->current_epoch != epoch) {
				1018	next_epoch = list_entry(epoch->list.next, struct drbd_epoch, list);
				1019	list_del(&epoch->list);
				1020	ev = EV_BECAME_LAST \| (ev & EV_CLEANUP);
				1021	mdev->epochs--;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1022	kfree(epoch);
				1023
				1024	if (rv == FE_STILL_LIVE)
				1025	rv = FE_DESTROYED;
				1026	} else {
				1027	epoch->flags = 0;
				1028	atomic_set(&epoch->epoch_size, 0);
Uwe Kleine-König	698f931	2010-07-02 20:41:51 +0200	[diff] [blame]	1029	/* atomic_set(&epoch->active, 0); is already zero */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1030	if (rv == FE_STILL_LIVE)
				1031	rv = FE_RECYCLED;
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	1032	wake_up(&mdev->ee_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1033	}
				1034	}
				1035
				1036	if (!next_epoch)
				1037	break;
				1038
				1039	epoch = next_epoch;
				1040	} while (1);
				1041
				1042	spin_unlock(&mdev->epoch_lock);
				1043
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1044	return rv;
				1045	}
				1046
				1047	/**
				1048	* drbd_bump_write_ordering() - Fall back to an other write ordering method
				1049	* @mdev: DRBD device.
				1050	* @wo: Write ordering method to try.
				1051	*/
				1052	void drbd_bump_write_ordering(struct drbd_conf *mdev, enum write_ordering_e wo) __must_hold(local)
				1053	{
				1054	enum write_ordering_e pwo;
				1055	static char *write_ordering_str[] = {
				1056	[WO_none] = "none",
				1057	[WO_drain_io] = "drain",
				1058	[WO_bdev_flush] = "flush",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1059	};
				1060
				1061	pwo = mdev->write_ordering;
				1062	wo = min(pwo, wo);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1063	if (wo == WO_bdev_flush && mdev->ldev->dc.no_disk_flush)
				1064	wo = WO_drain_io;
				1065	if (wo == WO_drain_io && mdev->ldev->dc.no_disk_drain)
				1066	wo = WO_none;
				1067	mdev->write_ordering = wo;
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	1068	if (pwo != mdev->write_ordering \|\| wo == WO_bdev_flush)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1069	dev_info(DEV, "Method to ensure write ordering: %s\n", write_ordering_str[mdev->write_ordering]);
				1070	}
				1071
				1072	/**
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1073	* drbd_submit_ee()
				1074	* @mdev: DRBD device.
				1075	* @e: epoch entry
				1076	* @rw: flag field, see bio->bi_rw
				1077	*/
				1078	/* TODO allocate from our own bio_set. */
				1079	int drbd_submit_ee(struct drbd_conf mdev, struct drbd_epoch_entry e,
				1080	const unsigned rw, const int fault_type)
				1081	{
				1082	struct bio *bios = NULL;
				1083	struct bio *bio;
				1084	struct page *page = e->pages;
				1085	sector_t sector = e->sector;
				1086	unsigned ds = e->size;
				1087	unsigned n_bios = 0;
				1088	unsigned nr_pages = (ds + PAGE_SIZE -1) >> PAGE_SHIFT;
				1089
				1090	/* In most cases, we will only need one bio. But in case the lower
				1091	* level restrictions happen to be different at this offset on this
				1092	* side than those of the sending peer, we may need to submit the
				1093	* request in more than one bio. */
				1094	next_bio:
				1095	bio = bio_alloc(GFP_NOIO, nr_pages);
				1096	if (!bio) {
				1097	dev_err(DEV, "submit_ee: Allocation of a bio failed\n");
				1098	goto fail;
				1099	}
				1100	/* > e->sector, unless this is the first bio */
				1101	bio->bi_sector = sector;
				1102	bio->bi_bdev = mdev->ldev->backing_bdev;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1103	bio->bi_rw = rw;
				1104	bio->bi_private = e;
				1105	bio->bi_end_io = drbd_endio_sec;
				1106
				1107	bio->bi_next = bios;
				1108	bios = bio;
				1109	++n_bios;
				1110
				1111	page_chain_for_each(page) {
				1112	unsigned len = min_t(unsigned, ds, PAGE_SIZE);
				1113	if (!bio_add_page(bio, page, len, 0)) {
				1114	/* a single page must always be possible! */
				1115	BUG_ON(bio->bi_vcnt == 0);
				1116	goto next_bio;
				1117	}
				1118	ds -= len;
				1119	sector += len >> 9;
				1120	--nr_pages;
				1121	}
				1122	D_ASSERT(page == NULL);
				1123	D_ASSERT(ds == 0);
				1124
				1125	atomic_set(&e->pending_bios, n_bios);
				1126	do {
				1127	bio = bios;
				1128	bios = bios->bi_next;
				1129	bio->bi_next = NULL;
				1130
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1131	drbd_generic_make_request(mdev, fault_type, bio);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1132	} while (bios);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1133	return 0;
				1134
				1135	fail:
				1136	while (bios) {
				1137	bio = bios;
				1138	bios = bios->bi_next;
				1139	bio_put(bio);
				1140	}
				1141	return -ENOMEM;
				1142	}
				1143
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1144	static int receive_Barrier(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1145	{
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	1146	int rv;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1147	struct p_barrier *p = &mdev->data.rbuf.barrier;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1148	struct drbd_epoch *epoch;
				1149
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1150	inc_unacked(mdev);
				1151
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1152	mdev->current_epoch->barrier_nr = p->barrier;
				1153	rv = drbd_may_finish_epoch(mdev, mdev->current_epoch, EV_GOT_BARRIER_NR);
				1154
				1155	/* P_BARRIER_ACK may imply that the corresponding extent is dropped from
				1156	* the activity log, which means it would not be resynced in case the
				1157	* R_PRIMARY crashes now.
				1158	* Therefore we must send the barrier_ack after the barrier request was
				1159	* completed. */
				1160	switch (mdev->write_ordering) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1161	case WO_none:
				1162	if (rv == FE_RECYCLED)
				1163	return TRUE;
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	1164
				1165	/* receiver context, in the writeout path of the other node.
				1166	* avoid potential distributed deadlock */
				1167	epoch = kmalloc(sizeof(struct drbd_epoch), GFP_NOIO);
				1168	if (epoch)
				1169	break;
				1170	else
				1171	dev_warn(DEV, "Allocation of an epoch failed, slowing down\n");
				1172	/* Fall through */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1173
				1174	case WO_bdev_flush:
				1175	case WO_drain_io:
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1176	drbd_wait_ee_list_empty(mdev, &mdev->active_ee);
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	1177	drbd_flush(mdev);
				1178
				1179	if (atomic_read(&mdev->current_epoch->epoch_size)) {
				1180	epoch = kmalloc(sizeof(struct drbd_epoch), GFP_NOIO);
				1181	if (epoch)
				1182	break;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1183	}
				1184
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	1185	epoch = mdev->current_epoch;
				1186	wait_event(mdev->ee_wait, atomic_read(&epoch->epoch_size) == 0);
				1187
				1188	D_ASSERT(atomic_read(&epoch->active) == 0);
				1189	D_ASSERT(epoch->flags == 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1190
				1191	return TRUE;
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	1192	default:
				1193	dev_err(DEV, "Strangeness in mdev->write_ordering %d\n", mdev->write_ordering);
				1194	return FALSE;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1195	}
				1196
				1197	epoch->flags = 0;
				1198	atomic_set(&epoch->epoch_size, 0);
				1199	atomic_set(&epoch->active, 0);
				1200
				1201	spin_lock(&mdev->epoch_lock);
				1202	if (atomic_read(&mdev->current_epoch->epoch_size)) {
				1203	list_add(&epoch->list, &mdev->current_epoch->list);
				1204	mdev->current_epoch = epoch;
				1205	mdev->epochs++;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1206	} else {
				1207	/* The current_epoch got recycled while we allocated this one... */
				1208	kfree(epoch);
				1209	}
				1210	spin_unlock(&mdev->epoch_lock);
				1211
				1212	return TRUE;
				1213	}
				1214
				1215	/* used from receive_RSDataReply (recv_resync_read)
				1216	* and from receive_Data */
				1217	static struct drbd_epoch_entry *
				1218	read_in_block(struct drbd_conf *mdev, u64 id, sector_t sector, int data_size) __must_hold(local)
				1219	{
Lars Ellenberg	6666032	2010-04-06 12:15:04 +0200	[diff] [blame]	1220	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1221	struct drbd_epoch_entry *e;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1222	struct page *page;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1223	int dgs, ds, rr;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1224	void *dig_in = mdev->int_dig_in;
				1225	void *dig_vv = mdev->int_dig_vv;
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	1226	unsigned long *data;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1227
				1228	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
				1229	crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
				1230
				1231	if (dgs) {
				1232	rr = drbd_recv(mdev, dig_in, dgs);
				1233	if (rr != dgs) {
				1234	dev_warn(DEV, "short read receiving data digest: read %d expected %d\n",
				1235	rr, dgs);
				1236	return NULL;
				1237	}
				1238	}
				1239
				1240	data_size -= dgs;
				1241
				1242	ERR_IF(data_size & 0x1ff) return NULL;
				1243	ERR_IF(data_size > DRBD_MAX_SEGMENT_SIZE) return NULL;
				1244
Lars Ellenberg	6666032	2010-04-06 12:15:04 +0200	[diff] [blame]	1245	/* even though we trust out peer,
				1246	* we sometimes have to double check. */
				1247	if (sector + (data_size>>9) > capacity) {
				1248	dev_err(DEV, "capacity: %llus < sector: %llus + size: %u\n",
				1249	(unsigned long long)capacity,
				1250	(unsigned long long)sector, data_size);
				1251	return NULL;
				1252	}
				1253
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1254	/* GFP_NOIO, because we must not cause arbitrary write-out: in a DRBD
				1255	* "criss-cross" setup, that might cause write-out on some other DRBD,
				1256	* which in turn might block on the other node at this very place. */
				1257	e = drbd_alloc_ee(mdev, id, sector, data_size, GFP_NOIO);
				1258	if (!e)
				1259	return NULL;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1260
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1261	ds = data_size;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1262	page = e->pages;
				1263	page_chain_for_each(page) {
				1264	unsigned len = min_t(int, ds, PAGE_SIZE);
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	1265	data = kmap(page);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1266	rr = drbd_recv(mdev, data, len);
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	1267	if (FAULT_ACTIVE(mdev, DRBD_FAULT_RECEIVE)) {
				1268	dev_err(DEV, "Fault injection: Corrupting data on receive\n");
				1269	data[0] = data[0] ^ (unsigned long)-1;
				1270	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1271	kunmap(page);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1272	if (rr != len) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1273	drbd_free_ee(mdev, e);
				1274	dev_warn(DEV, "short read receiving data: read %d expected %d\n",
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1275	rr, len);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1276	return NULL;
				1277	}
				1278	ds -= rr;
				1279	}
				1280
				1281	if (dgs) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1282	drbd_csum_ee(mdev, mdev->integrity_r_tfm, e, dig_vv);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1283	if (memcmp(dig_in, dig_vv, dgs)) {
				1284	dev_err(DEV, "Digest integrity check FAILED.\n");
				1285	drbd_bcast_ee(mdev, "digest failed",
				1286	dgs, dig_in, dig_vv, e);
				1287	drbd_free_ee(mdev, e);
				1288	return NULL;
				1289	}
				1290	}
				1291	mdev->recv_cnt += data_size>>9;
				1292	return e;
				1293	}
				1294
				1295	/* drbd_drain_block() just takes a data block
				1296	* out of the socket input buffer, and discards it.
				1297	*/
				1298	static int drbd_drain_block(struct drbd_conf *mdev, int data_size)
				1299	{
				1300	struct page *page;
				1301	int rr, rv = 1;
				1302	void *data;
				1303
Lars Ellenberg	c3470cd	2010-04-01 16:57:19 +0200	[diff] [blame]	1304	if (!data_size)
				1305	return TRUE;
				1306
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1307	page = drbd_pp_alloc(mdev, 1, 1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1308
				1309	data = kmap(page);
				1310	while (data_size) {
				1311	rr = drbd_recv(mdev, data, min_t(int, data_size, PAGE_SIZE));
				1312	if (rr != min_t(int, data_size, PAGE_SIZE)) {
				1313	rv = 0;
				1314	dev_warn(DEV, "short read receiving data: read %d expected %d\n",
				1315	rr, min_t(int, data_size, PAGE_SIZE));
				1316	break;
				1317	}
				1318	data_size -= rr;
				1319	}
				1320	kunmap(page);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	1321	drbd_pp_free(mdev, page, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1322	return rv;
				1323	}
				1324
				1325	static int recv_dless_read(struct drbd_conf mdev, struct drbd_request req,
				1326	sector_t sector, int data_size)
				1327	{
				1328	struct bio_vec *bvec;
				1329	struct bio *bio;
				1330	int dgs, rr, i, expect;
				1331	void *dig_in = mdev->int_dig_in;
				1332	void *dig_vv = mdev->int_dig_vv;
				1333
				1334	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
				1335	crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
				1336
				1337	if (dgs) {
				1338	rr = drbd_recv(mdev, dig_in, dgs);
				1339	if (rr != dgs) {
				1340	dev_warn(DEV, "short read receiving data reply digest: read %d expected %d\n",
				1341	rr, dgs);
				1342	return 0;
				1343	}
				1344	}
				1345
				1346	data_size -= dgs;
				1347
				1348	/* optimistically update recv_cnt. if receiving fails below,
				1349	* we disconnect anyways, and counters will be reset. */
				1350	mdev->recv_cnt += data_size>>9;
				1351
				1352	bio = req->master_bio;
				1353	D_ASSERT(sector == bio->bi_sector);
				1354
				1355	bio_for_each_segment(bvec, bio, i) {
				1356	expect = min_t(int, data_size, bvec->bv_len);
				1357	rr = drbd_recv(mdev,
				1358	kmap(bvec->bv_page)+bvec->bv_offset,
				1359	expect);
				1360	kunmap(bvec->bv_page);
				1361	if (rr != expect) {
				1362	dev_warn(DEV, "short read receiving data reply: "
				1363	"read %d expected %d\n",
				1364	rr, expect);
				1365	return 0;
				1366	}
				1367	data_size -= rr;
				1368	}
				1369
				1370	if (dgs) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1371	drbd_csum_bio(mdev, mdev->integrity_r_tfm, bio, dig_vv);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1372	if (memcmp(dig_in, dig_vv, dgs)) {
				1373	dev_err(DEV, "Digest integrity check FAILED. Broken NICs?\n");
				1374	return 0;
				1375	}
				1376	}
				1377
				1378	D_ASSERT(data_size == 0);
				1379	return 1;
				1380	}
				1381
				1382	/* e_end_resync_block() is called via
				1383	* drbd_process_done_ee() by asender only */
				1384	static int e_end_resync_block(struct drbd_conf mdev, struct drbd_work w, int unused)
				1385	{
				1386	struct drbd_epoch_entry e = (struct drbd_epoch_entry )w;
				1387	sector_t sector = e->sector;
				1388	int ok;
				1389
				1390	D_ASSERT(hlist_unhashed(&e->colision));
				1391
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1392	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1393	drbd_set_in_sync(mdev, sector, e->size);
				1394	ok = drbd_send_ack(mdev, P_RS_WRITE_ACK, e);
				1395	} else {
				1396	/* Record failure to sync */
				1397	drbd_rs_failed_io(mdev, sector, e->size);
				1398
				1399	ok = drbd_send_ack(mdev, P_NEG_ACK, e);
				1400	}
				1401	dec_unacked(mdev);
				1402
				1403	return ok;
				1404	}
				1405
				1406	static int recv_resync_read(struct drbd_conf *mdev, sector_t sector, int data_size) __releases(local)
				1407	{
				1408	struct drbd_epoch_entry *e;
				1409
				1410	e = read_in_block(mdev, ID_SYNCER, sector, data_size);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1411	if (!e)
				1412	goto fail;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1413
				1414	dec_rs_pending(mdev);
				1415
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1416	inc_unacked(mdev);
				1417	/* corresponding dec_unacked() in e_end_resync_block()
				1418	* respective _drbd_clear_done_ee */
				1419
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1420	e->w.cb = e_end_resync_block;
				1421
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1422	spin_lock_irq(&mdev->req_lock);
				1423	list_add(&e->w.list, &mdev->sync_ee);
				1424	spin_unlock_irq(&mdev->req_lock);
				1425
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1426	atomic_add(data_size >> 9, &mdev->rs_sect_ev);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1427	if (drbd_submit_ee(mdev, e, WRITE, DRBD_FAULT_RS_WR) == 0)
				1428	return TRUE;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1429
Lars Ellenberg	22cc37a	2010-09-14 20:40:41 +0200	[diff] [blame]	1430	/* drbd_submit_ee currently fails for one reason only:
				1431	* not being able to allocate enough bios.
				1432	* Is dropping the connection going to help? */
				1433	spin_lock_irq(&mdev->req_lock);
				1434	list_del(&e->w.list);
				1435	spin_unlock_irq(&mdev->req_lock);
				1436
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1437	drbd_free_ee(mdev, e);
				1438	fail:
				1439	put_ldev(mdev);
				1440	return FALSE;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1441	}
				1442
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1443	static int receive_DataReply(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1444	{
				1445	struct drbd_request *req;
				1446	sector_t sector;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1447	int ok;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1448	struct p_data *p = &mdev->data.rbuf.data;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1449
				1450	sector = be64_to_cpu(p->sector);
				1451
				1452	spin_lock_irq(&mdev->req_lock);
				1453	req = _ar_id_to_req(mdev, p->block_id, sector);
				1454	spin_unlock_irq(&mdev->req_lock);
				1455	if (unlikely(!req)) {
				1456	dev_err(DEV, "Got a corrupt block_id/sector pair(1).\n");
				1457	return FALSE;
				1458	}
				1459
				1460	/* hlist_del(&req->colision) is done in _req_may_be_done, to avoid
				1461	* special casing it there for the various failure cases.
				1462	* still no race with drbd_fail_pending_reads */
				1463	ok = recv_dless_read(mdev, req, sector, data_size);
				1464
				1465	if (ok)
				1466	req_mod(req, data_received);
				1467	/* else: nothing. handled from drbd_disconnect...
				1468	* I don't think we may complete this just yet
				1469	* in case we are "on-disconnect: freeze" */
				1470
				1471	return ok;
				1472	}
				1473
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1474	static int receive_RSDataReply(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1475	{
				1476	sector_t sector;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1477	int ok;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1478	struct p_data *p = &mdev->data.rbuf.data;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1479
				1480	sector = be64_to_cpu(p->sector);
				1481	D_ASSERT(p->block_id == ID_SYNCER);
				1482
				1483	if (get_ldev(mdev)) {
				1484	/* data is submitted to disk within recv_resync_read.
				1485	* corresponding put_ldev done below on error,
				1486	* or in drbd_endio_write_sec. */
				1487	ok = recv_resync_read(mdev, sector, data_size);
				1488	} else {
				1489	if (__ratelimit(&drbd_ratelimit_state))
				1490	dev_err(DEV, "Can not write resync data to local disk.\n");
				1491
				1492	ok = drbd_drain_block(mdev, data_size);
				1493
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame]	1494	drbd_send_ack_dp(mdev, P_NEG_ACK, p, data_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1495	}
				1496
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	1497	atomic_add(data_size >> 9, &mdev->rs_sect_in);
				1498
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1499	return ok;
				1500	}
				1501
				1502	/* e_end_block() is called via drbd_process_done_ee().
				1503	* this means this function only runs in the asender thread
				1504	*/
				1505	static int e_end_block(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1506	{
				1507	struct drbd_epoch_entry e = (struct drbd_epoch_entry )w;
				1508	sector_t sector = e->sector;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1509	int ok = 1, pcmd;
				1510
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1511	if (mdev->net_conf->wire_protocol == DRBD_PROT_C) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1512	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1513	pcmd = (mdev->state.conn >= C_SYNC_SOURCE &&
				1514	mdev->state.conn <= C_PAUSED_SYNC_T &&
				1515	e->flags & EE_MAY_SET_IN_SYNC) ?
				1516	P_RS_WRITE_ACK : P_WRITE_ACK;
				1517	ok &= drbd_send_ack(mdev, pcmd, e);
				1518	if (pcmd == P_RS_WRITE_ACK)
				1519	drbd_set_in_sync(mdev, sector, e->size);
				1520	} else {
				1521	ok = drbd_send_ack(mdev, P_NEG_ACK, e);
				1522	/* we expect it to be marked out of sync anyways...
				1523	* maybe assert this? */
				1524	}
				1525	dec_unacked(mdev);
				1526	}
				1527	/* we delete from the conflict detection hash _after_ we sent out the
				1528	* P_WRITE_ACK / P_NEG_ACK, to get the sequence number right. */
				1529	if (mdev->net_conf->two_primaries) {
				1530	spin_lock_irq(&mdev->req_lock);
				1531	D_ASSERT(!hlist_unhashed(&e->colision));
				1532	hlist_del_init(&e->colision);
				1533	spin_unlock_irq(&mdev->req_lock);
				1534	} else {
				1535	D_ASSERT(hlist_unhashed(&e->colision));
				1536	}
				1537
				1538	drbd_may_finish_epoch(mdev, e->epoch, EV_PUT + (cancel ? EV_CLEANUP : 0));
				1539
				1540	return ok;
				1541	}
				1542
				1543	static int e_send_discard_ack(struct drbd_conf mdev, struct drbd_work w, int unused)
				1544	{
				1545	struct drbd_epoch_entry e = (struct drbd_epoch_entry )w;
				1546	int ok = 1;
				1547
				1548	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				1549	ok = drbd_send_ack(mdev, P_DISCARD_ACK, e);
				1550
				1551	spin_lock_irq(&mdev->req_lock);
				1552	D_ASSERT(!hlist_unhashed(&e->colision));
				1553	hlist_del_init(&e->colision);
				1554	spin_unlock_irq(&mdev->req_lock);
				1555
				1556	dec_unacked(mdev);
				1557
				1558	return ok;
				1559	}
				1560
				1561	/* Called from receive_Data.
				1562	* Synchronize packets on sock with packets on msock.
				1563	*
				1564	* This is here so even when a P_DATA packet traveling via sock overtook an Ack
				1565	* packet traveling on msock, they are still processed in the order they have
				1566	* been sent.
				1567	*
				1568	* Note: we don't care for Ack packets overtaking P_DATA packets.
				1569	*
				1570	* In case packet_seq is larger than mdev->peer_seq number, there are
				1571	* outstanding packets on the msock. We wait for them to arrive.
				1572	* In case we are the logically next packet, we update mdev->peer_seq
				1573	* ourselves. Correctly handles 32bit wrap around.
				1574	*
				1575	* Assume we have a 10 GBit connection, that is about 1<<30 byte per second,
				1576	* about 1<<21 sectors per second. So "worst" case, we have 1<<3 == 8 seconds
				1577	* for the 24bit wrap (historical atomic_t guarantee on some archs), and we have
				1578	* 1<<9 == 512 seconds aka ages for the 32bit wrap around...
				1579	*
				1580	* returns 0 if we may process the packet,
				1581	* -ERESTARTSYS if we were interrupted (by disconnect signal). */
				1582	static int drbd_wait_peer_seq(struct drbd_conf *mdev, const u32 packet_seq)
				1583	{
				1584	DEFINE_WAIT(wait);
				1585	unsigned int p_seq;
				1586	long timeout;
				1587	int ret = 0;
				1588	spin_lock(&mdev->peer_seq_lock);
				1589	for (;;) {
				1590	prepare_to_wait(&mdev->seq_wait, &wait, TASK_INTERRUPTIBLE);
				1591	if (seq_le(packet_seq, mdev->peer_seq+1))
				1592	break;
				1593	if (signal_pending(current)) {
				1594	ret = -ERESTARTSYS;
				1595	break;
				1596	}
				1597	p_seq = mdev->peer_seq;
				1598	spin_unlock(&mdev->peer_seq_lock);
				1599	timeout = schedule_timeout(30*HZ);
				1600	spin_lock(&mdev->peer_seq_lock);
				1601	if (timeout == 0 && p_seq == mdev->peer_seq) {
				1602	ret = -ETIMEDOUT;
				1603	dev_err(DEV, "ASSERT FAILED waited 30 seconds for sequence update, forcing reconnect\n");
				1604	break;
				1605	}
				1606	}
				1607	finish_wait(&mdev->seq_wait, &wait);
				1608	if (mdev->peer_seq+1 == packet_seq)
				1609	mdev->peer_seq++;
				1610	spin_unlock(&mdev->peer_seq_lock);
				1611	return ret;
				1612	}
				1613
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	1614	static unsigned long write_flags_to_bio(struct drbd_conf *mdev, u32 dpf)
				1615	{
				1616	if (mdev->agreed_pro_version >= 95)
				1617	return (dpf & DP_RW_SYNC ? REQ_SYNC : 0) \|
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	1618	(dpf & DP_FUA ? REQ_FUA : 0) \|
				1619	(dpf & DP_FLUSH ? REQ_FUA : 0) \|
				1620	(dpf & DP_DISCARD ? REQ_DISCARD : 0);
				1621	else
Jens Axboe	721a960	2011-03-09 11:56:30 +0100	[diff] [blame]	1622	return dpf & DP_RW_SYNC ? REQ_SYNC : 0;
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	1623	}
				1624
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1625	/* mirrored write */
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1626	static int receive_Data(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1627	{
				1628	sector_t sector;
				1629	struct drbd_epoch_entry *e;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1630	struct p_data *p = &mdev->data.rbuf.data;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1631	int rw = WRITE;
				1632	u32 dp_flags;
				1633
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1634	if (!get_ldev(mdev)) {
				1635	if (__ratelimit(&drbd_ratelimit_state))
				1636	dev_err(DEV, "Can not write mirrored data block "
				1637	"to local disk.\n");
				1638	spin_lock(&mdev->peer_seq_lock);
				1639	if (mdev->peer_seq+1 == be32_to_cpu(p->seq_num))
				1640	mdev->peer_seq++;
				1641	spin_unlock(&mdev->peer_seq_lock);
				1642
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame]	1643	drbd_send_ack_dp(mdev, P_NEG_ACK, p, data_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1644	atomic_inc(&mdev->current_epoch->epoch_size);
				1645	return drbd_drain_block(mdev, data_size);
				1646	}
				1647
				1648	/* get_ldev(mdev) successful.
				1649	* Corresponding put_ldev done either below (on various errors),
				1650	* or in drbd_endio_write_sec, if we successfully submit the data at
				1651	* the end of this function. */
				1652
				1653	sector = be64_to_cpu(p->sector);
				1654	e = read_in_block(mdev, p->block_id, sector, data_size);
				1655	if (!e) {
				1656	put_ldev(mdev);
				1657	return FALSE;
				1658	}
				1659
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1660	e->w.cb = e_end_block;
				1661
				1662	spin_lock(&mdev->epoch_lock);
				1663	e->epoch = mdev->current_epoch;
				1664	atomic_inc(&e->epoch->epoch_size);
				1665	atomic_inc(&e->epoch->active);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1666	spin_unlock(&mdev->epoch_lock);
				1667
				1668	dp_flags = be32_to_cpu(p->dp_flags);
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	1669	rw \|= write_flags_to_bio(mdev, dp_flags);
				1670
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1671	if (dp_flags & DP_MAY_SET_IN_SYNC)
				1672	e->flags \|= EE_MAY_SET_IN_SYNC;
				1673
				1674	/* I'm the receiver, I do hold a net_cnt reference. */
				1675	if (!mdev->net_conf->two_primaries) {
				1676	spin_lock_irq(&mdev->req_lock);
				1677	} else {
				1678	/* don't get the req_lock yet,
				1679	* we may sleep in drbd_wait_peer_seq */
				1680	const int size = e->size;
				1681	const int discard = test_bit(DISCARD_CONCURRENT, &mdev->flags);
				1682	DEFINE_WAIT(wait);
				1683	struct drbd_request *i;
				1684	struct hlist_node *n;
				1685	struct hlist_head *slot;
				1686	int first;
				1687
				1688	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				1689	BUG_ON(mdev->ee_hash == NULL);
				1690	BUG_ON(mdev->tl_hash == NULL);
				1691
				1692	/* conflict detection and handling:
				1693	* 1. wait on the sequence number,
				1694	* in case this data packet overtook ACK packets.
				1695	* 2. check our hash tables for conflicting requests.
				1696	* we only need to walk the tl_hash, since an ee can not
				1697	* have a conflict with an other ee: on the submitting
				1698	* node, the corresponding req had already been conflicting,
				1699	* and a conflicting req is never sent.
				1700	*
				1701	* Note: for two_primaries, we are protocol C,
				1702	* so there cannot be any request that is DONE
				1703	* but still on the transfer log.
				1704	*
				1705	* unconditionally add to the ee_hash.
				1706	*
				1707	* if no conflicting request is found:
				1708	* submit.
				1709	*
				1710	* if any conflicting request is found
				1711	* that has not yet been acked,
				1712	* AND I have the "discard concurrent writes" flag:
				1713	* queue (via done_ee) the P_DISCARD_ACK; OUT.
				1714	*
				1715	* if any conflicting request is found:
				1716	* block the receiver, waiting on misc_wait
				1717	* until no more conflicting requests are there,
				1718	* or we get interrupted (disconnect).
				1719	*
				1720	* we do not just write after local io completion of those
				1721	* requests, but only after req is done completely, i.e.
				1722	* we wait for the P_DISCARD_ACK to arrive!
				1723	*
				1724	* then proceed normally, i.e. submit.
				1725	*/
				1726	if (drbd_wait_peer_seq(mdev, be32_to_cpu(p->seq_num)))
				1727	goto out_interrupted;
				1728
				1729	spin_lock_irq(&mdev->req_lock);
				1730
				1731	hlist_add_head(&e->colision, ee_hash_slot(mdev, sector));
				1732
				1733	#define OVERLAPS overlaps(i->sector, i->size, sector, size)
				1734	slot = tl_hash_slot(mdev, sector);
				1735	first = 1;
				1736	for (;;) {
				1737	int have_unacked = 0;
				1738	int have_conflict = 0;
				1739	prepare_to_wait(&mdev->misc_wait, &wait,
				1740	TASK_INTERRUPTIBLE);
				1741	hlist_for_each_entry(i, n, slot, colision) {
				1742	if (OVERLAPS) {
				1743	/* only ALERT on first iteration,
				1744	* we may be woken up early... */
				1745	if (first)
				1746	dev_alert(DEV, "%s[%u] Concurrent local write detected!"
				1747	" new: %llus +%u; pending: %llus +%u\n",
				1748	current->comm, current->pid,
				1749	(unsigned long long)sector, size,
				1750	(unsigned long long)i->sector, i->size);
				1751	if (i->rq_state & RQ_NET_PENDING)
				1752	++have_unacked;
				1753	++have_conflict;
				1754	}
				1755	}
				1756	#undef OVERLAPS
				1757	if (!have_conflict)
				1758	break;
				1759
				1760	/* Discard Ack only for the _first_ iteration */
				1761	if (first && discard && have_unacked) {
				1762	dev_alert(DEV, "Concurrent write! [DISCARD BY FLAG] sec=%llus\n",
				1763	(unsigned long long)sector);
				1764	inc_unacked(mdev);
				1765	e->w.cb = e_send_discard_ack;
				1766	list_add_tail(&e->w.list, &mdev->done_ee);
				1767
				1768	spin_unlock_irq(&mdev->req_lock);
				1769
				1770	/* we could probably send that P_DISCARD_ACK ourselves,
				1771	* but I don't like the receiver using the msock */
				1772
				1773	put_ldev(mdev);
				1774	wake_asender(mdev);
				1775	finish_wait(&mdev->misc_wait, &wait);
				1776	return TRUE;
				1777	}
				1778
				1779	if (signal_pending(current)) {
				1780	hlist_del_init(&e->colision);
				1781
				1782	spin_unlock_irq(&mdev->req_lock);
				1783
				1784	finish_wait(&mdev->misc_wait, &wait);
				1785	goto out_interrupted;
				1786	}
				1787
				1788	spin_unlock_irq(&mdev->req_lock);
				1789	if (first) {
				1790	first = 0;
				1791	dev_alert(DEV, "Concurrent write! [W AFTERWARDS] "
				1792	"sec=%llus\n", (unsigned long long)sector);
				1793	} else if (discard) {
				1794	/* we had none on the first iteration.
				1795	* there must be none now. */
				1796	D_ASSERT(have_unacked == 0);
				1797	}
				1798	schedule();
				1799	spin_lock_irq(&mdev->req_lock);
				1800	}
				1801	finish_wait(&mdev->misc_wait, &wait);
				1802	}
				1803
				1804	list_add(&e->w.list, &mdev->active_ee);
				1805	spin_unlock_irq(&mdev->req_lock);
				1806
				1807	switch (mdev->net_conf->wire_protocol) {
				1808	case DRBD_PROT_C:
				1809	inc_unacked(mdev);
				1810	/* corresponding dec_unacked() in e_end_block()
				1811	* respective _drbd_clear_done_ee */
				1812	break;
				1813	case DRBD_PROT_B:
				1814	/* I really don't like it that the receiver thread
				1815	* sends on the msock, but anyways */
				1816	drbd_send_ack(mdev, P_RECV_ACK, e);
				1817	break;
				1818	case DRBD_PROT_A:
				1819	/* nothing to do */
				1820	break;
				1821	}
				1822
Lars Ellenberg	6719fb0	2010-10-18 23:04:07 +0200	[diff] [blame]	1823	if (mdev->state.pdsk < D_INCONSISTENT) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1824	/* In case we have the only disk of the cluster, */
				1825	drbd_set_out_of_sync(mdev, e->sector, e->size);
				1826	e->flags \|= EE_CALL_AL_COMPLETE_IO;
Lars Ellenberg	6719fb0	2010-10-18 23:04:07 +0200	[diff] [blame]	1827	e->flags &= ~EE_MAY_SET_IN_SYNC;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1828	drbd_al_begin_io(mdev, e->sector);
				1829	}
				1830
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1831	if (drbd_submit_ee(mdev, e, rw, DRBD_FAULT_DT_WR) == 0)
				1832	return TRUE;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1833
Lars Ellenberg	22cc37a	2010-09-14 20:40:41 +0200	[diff] [blame]	1834	/* drbd_submit_ee currently fails for one reason only:
				1835	* not being able to allocate enough bios.
				1836	* Is dropping the connection going to help? */
				1837	spin_lock_irq(&mdev->req_lock);
				1838	list_del(&e->w.list);
				1839	hlist_del_init(&e->colision);
				1840	spin_unlock_irq(&mdev->req_lock);
				1841	if (e->flags & EE_CALL_AL_COMPLETE_IO)
				1842	drbd_al_complete_io(mdev, e->sector);
				1843
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1844	out_interrupted:
				1845	/* yes, the epoch_size now is imbalanced.
				1846	* but we drop the connection anyways, so we don't have a chance to
				1847	* receive a barrier... atomic_inc(&mdev->epoch_size); */
				1848	put_ldev(mdev);
				1849	drbd_free_ee(mdev, e);
				1850	return FALSE;
				1851	}
				1852
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1853	/* We may throttle resync, if the lower device seems to be busy,
				1854	* and current sync rate is above c_min_rate.
				1855	*
				1856	* To decide whether or not the lower device is busy, we use a scheme similar
				1857	* to MD RAID is_mddev_idle(): if the partition stats reveal "significant"
				1858	* (more than 64 sectors) of activity we cannot account for with our own resync
				1859	* activity, it obviously is "busy".
				1860	*
				1861	* The current sync rate used here uses only the most recent two step marks,
				1862	* to have a short time average so we can react faster.
				1863	*/
				1864	int drbd_rs_should_slow_down(struct drbd_conf *mdev)
				1865	{
				1866	struct gendisk *disk = mdev->ldev->backing_bdev->bd_contains->bd_disk;
				1867	unsigned long db, dt, dbdt;
				1868	int curr_events;
				1869	int throttle = 0;
				1870
				1871	/* feature disabled? */
				1872	if (mdev->sync_conf.c_min_rate == 0)
				1873	return 0;
				1874
				1875	curr_events = (int)part_stat_read(&disk->part0, sectors[0]) +
				1876	(int)part_stat_read(&disk->part0, sectors[1]) -
				1877	atomic_read(&mdev->rs_sect_ev);
				1878	if (!mdev->rs_last_events \|\| curr_events - mdev->rs_last_events > 64) {
				1879	unsigned long rs_left;
				1880	int i;
				1881
				1882	mdev->rs_last_events = curr_events;
				1883
				1884	/* sync speed average over the last 2*DRBD_SYNC_MARK_STEP,
				1885	* approx. */
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	1886	i = (mdev->rs_last_mark + DRBD_SYNC_MARKS-1) % DRBD_SYNC_MARKS;
				1887
				1888	if (mdev->state.conn == C_VERIFY_S \|\| mdev->state.conn == C_VERIFY_T)
				1889	rs_left = mdev->ov_left;
				1890	else
				1891	rs_left = drbd_bm_total_weight(mdev) - mdev->rs_failed;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1892
				1893	dt = ((long)jiffies - (long)mdev->rs_mark_time[i]) / HZ;
				1894	if (!dt)
				1895	dt++;
				1896	db = mdev->rs_mark_left[i] - rs_left;
				1897	dbdt = Bit2KB(db/dt);
				1898
				1899	if (dbdt > mdev->sync_conf.c_min_rate)
				1900	throttle = 1;
				1901	}
				1902	return throttle;
				1903	}
				1904
				1905
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1906	static int receive_DataRequest(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int digest_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1907	{
				1908	sector_t sector;
				1909	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
				1910	struct drbd_epoch_entry *e;
				1911	struct digest_info *di = NULL;
Philipp Reisner	b18b37b	2010-10-13 15:32:44 +0200	[diff] [blame]	1912	int size, verb;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1913	unsigned int fault_type;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1914	struct p_block_req *p = &mdev->data.rbuf.block_req;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1915
				1916	sector = be64_to_cpu(p->sector);
				1917	size = be32_to_cpu(p->blksize);
				1918
				1919	if (size <= 0 \|\| (size & 0x1ff) != 0 \|\| size > DRBD_MAX_SEGMENT_SIZE) {
				1920	dev_err(DEV, "%s:%d: sector: %llus, size: %u\n", __FILE__, __LINE__,
				1921	(unsigned long long)sector, size);
				1922	return FALSE;
				1923	}
				1924	if (sector + (size>>9) > capacity) {
				1925	dev_err(DEV, "%s:%d: sector: %llus, size: %u\n", __FILE__, __LINE__,
				1926	(unsigned long long)sector, size);
				1927	return FALSE;
				1928	}
				1929
				1930	if (!get_ldev_if_state(mdev, D_UP_TO_DATE)) {
Philipp Reisner	b18b37b	2010-10-13 15:32:44 +0200	[diff] [blame]	1931	verb = 1;
				1932	switch (cmd) {
				1933	case P_DATA_REQUEST:
				1934	drbd_send_ack_rp(mdev, P_NEG_DREPLY, p);
				1935	break;
				1936	case P_RS_DATA_REQUEST:
				1937	case P_CSUM_RS_REQUEST:
				1938	case P_OV_REQUEST:
				1939	drbd_send_ack_rp(mdev, P_NEG_RS_DREPLY , p);
				1940	break;
				1941	case P_OV_REPLY:
				1942	verb = 0;
				1943	dec_rs_pending(mdev);
				1944	drbd_send_ack_ex(mdev, P_OV_RESULT, sector, size, ID_IN_SYNC);
				1945	break;
				1946	default:
				1947	dev_err(DEV, "unexpected command (%s) in receive_DataRequest\n",
				1948	cmdname(cmd));
				1949	}
				1950	if (verb && __ratelimit(&drbd_ratelimit_state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1951	dev_err(DEV, "Can not satisfy peer's read request, "
				1952	"no local data.\n");
Philipp Reisner	b18b37b	2010-10-13 15:32:44 +0200	[diff] [blame]	1953
Lars Ellenberg	a821cc4	2010-09-06 12:31:37 +0200	[diff] [blame]	1954	/* drain possibly payload */
				1955	return drbd_drain_block(mdev, digest_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1956	}
				1957
				1958	/* GFP_NOIO, because we must not cause arbitrary write-out: in a DRBD
				1959	* "criss-cross" setup, that might cause write-out on some other DRBD,
				1960	* which in turn might block on the other node at this very place. */
				1961	e = drbd_alloc_ee(mdev, p->block_id, sector, size, GFP_NOIO);
				1962	if (!e) {
				1963	put_ldev(mdev);
				1964	return FALSE;
				1965	}
				1966
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1967	switch (cmd) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1968	case P_DATA_REQUEST:
				1969	e->w.cb = w_e_end_data_req;
				1970	fault_type = DRBD_FAULT_DT_RD;
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	1971	/* application IO, don't drbd_rs_begin_io */
				1972	goto submit;
				1973
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1974	case P_RS_DATA_REQUEST:
				1975	e->w.cb = w_e_end_rsdata_req;
				1976	fault_type = DRBD_FAULT_RS_RD;
Lars Ellenberg	5f9915b	2010-11-09 14:15:24 +0100	[diff] [blame^]	1977	/* used in the sector offset progress display */
				1978	mdev->bm_resync_fo = BM_SECT_TO_BIT(sector);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1979	break;
				1980
				1981	case P_OV_REPLY:
				1982	case P_CSUM_RS_REQUEST:
				1983	fault_type = DRBD_FAULT_RS_RD;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1984	di = kmalloc(sizeof(*di) + digest_size, GFP_NOIO);
				1985	if (!di)
				1986	goto out_free_e;
				1987
				1988	di->digest_size = digest_size;
				1989	di->digest = (((char *)di)+sizeof(struct digest_info));
				1990
Lars Ellenberg	c36c3ce	2010-08-11 20:42:55 +0200	[diff] [blame]	1991	e->digest = di;
				1992	e->flags \|= EE_HAS_DIGEST;
				1993
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1994	if (drbd_recv(mdev, di->digest, digest_size) != digest_size)
				1995	goto out_free_e;
				1996
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	1997	if (cmd == P_CSUM_RS_REQUEST) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1998	D_ASSERT(mdev->agreed_pro_version >= 89);
				1999	e->w.cb = w_e_end_csum_rs_req;
Lars Ellenberg	5f9915b	2010-11-09 14:15:24 +0100	[diff] [blame^]	2000	/* used in the sector offset progress display */
				2001	mdev->bm_resync_fo = BM_SECT_TO_BIT(sector);
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2002	} else if (cmd == P_OV_REPLY) {
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	2003	/* track progress, we may need to throttle */
				2004	atomic_add(size >> 9, &mdev->rs_sect_in);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2005	e->w.cb = w_e_end_ov_reply;
				2006	dec_rs_pending(mdev);
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2007	/* drbd_rs_begin_io done when we sent this request,
				2008	* but accounting still needs to be done. */
				2009	goto submit_for_resync;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2010	}
				2011	break;
				2012
				2013	case P_OV_REQUEST:
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2014	if (mdev->ov_start_sector == ~(sector_t)0 &&
				2015	mdev->agreed_pro_version >= 90) {
Lars Ellenberg	de228bb	2010-11-05 09:43:15 +0100	[diff] [blame]	2016	unsigned long now = jiffies;
				2017	int i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2018	mdev->ov_start_sector = sector;
				2019	mdev->ov_position = sector;
Lars Ellenberg	30b743a	2010-11-05 09:39:06 +0100	[diff] [blame]	2020	mdev->ov_left = drbd_bm_bits(mdev) - BM_SECT_TO_BIT(sector);
				2021	mdev->rs_total = mdev->ov_left;
Lars Ellenberg	de228bb	2010-11-05 09:43:15 +0100	[diff] [blame]	2022	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				2023	mdev->rs_mark_left[i] = mdev->ov_left;
				2024	mdev->rs_mark_time[i] = now;
				2025	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2026	dev_info(DEV, "Online Verify start sector: %llu\n",
				2027	(unsigned long long)sector);
				2028	}
				2029	e->w.cb = w_e_end_ov_req;
				2030	fault_type = DRBD_FAULT_RS_RD;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2031	break;
				2032
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2033	default:
				2034	dev_err(DEV, "unexpected command (%s) in receive_DataRequest\n",
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2035	cmdname(cmd));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2036	fault_type = DRBD_FAULT_MAX;
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	2037	goto out_free_e;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2038	}
				2039
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2040	/* Throttle, drbd_rs_begin_io and submit should become asynchronous
				2041	* wrt the receiver, but it is not as straightforward as it may seem.
				2042	* Various places in the resync start and stop logic assume resync
				2043	* requests are processed in order, requeuing this on the worker thread
				2044	* introduces a bunch of new code for synchronization between threads.
				2045	*
				2046	* Unlimited throttling before drbd_rs_begin_io may stall the resync
				2047	* "forever", throttling after drbd_rs_begin_io will lock that extent
				2048	* for application writes for the same time. For now, just throttle
				2049	* here, where the rest of the code expects the receiver to sleep for
				2050	* a while, anyways.
				2051	*/
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2052
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2053	/* Throttle before drbd_rs_begin_io, as that locks out application IO;
				2054	* this defers syncer requests for some time, before letting at least
				2055	* on request through. The resync controller on the receiving side
				2056	* will adapt to the incoming rate accordingly.
				2057	*
				2058	* We cannot throttle here if remote is Primary/SyncTarget:
				2059	* we would also throttle its application reads.
				2060	* In that case, throttling is done on the SyncTarget only.
				2061	*/
				2062	if (mdev->state.peer != R_PRIMARY && drbd_rs_should_slow_down(mdev))
				2063	msleep(100);
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	2064	if (drbd_rs_begin_io(mdev, e->sector))
				2065	goto out_free_e;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2066
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2067	submit_for_resync:
				2068	atomic_add(size >> 9, &mdev->rs_sect_ev);
				2069
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	2070	submit:
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2071	inc_unacked(mdev);
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	2072	spin_lock_irq(&mdev->req_lock);
				2073	list_add_tail(&e->w.list, &mdev->read_ee);
				2074	spin_unlock_irq(&mdev->req_lock);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2075
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2076	if (drbd_submit_ee(mdev, e, READ, fault_type) == 0)
				2077	return TRUE;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2078
Lars Ellenberg	22cc37a	2010-09-14 20:40:41 +0200	[diff] [blame]	2079	/* drbd_submit_ee currently fails for one reason only:
				2080	* not being able to allocate enough bios.
				2081	* Is dropping the connection going to help? */
				2082	spin_lock_irq(&mdev->req_lock);
				2083	list_del(&e->w.list);
				2084	spin_unlock_irq(&mdev->req_lock);
				2085	/* no drbd_rs_complete_io(), we are dropping the connection anyways */
				2086
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2087	out_free_e:
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2088	put_ldev(mdev);
				2089	drbd_free_ee(mdev, e);
				2090	return FALSE;
				2091	}
				2092
				2093	static int drbd_asb_recover_0p(struct drbd_conf *mdev) __must_hold(local)
				2094	{
				2095	int self, peer, rv = -100;
				2096	unsigned long ch_self, ch_peer;
				2097
				2098	self = mdev->ldev->md.uuid[UI_BITMAP] & 1;
				2099	peer = mdev->p_uuid[UI_BITMAP] & 1;
				2100
				2101	ch_peer = mdev->p_uuid[UI_SIZE];
				2102	ch_self = mdev->comm_bm_set;
				2103
				2104	switch (mdev->net_conf->after_sb_0p) {
				2105	case ASB_CONSENSUS:
				2106	case ASB_DISCARD_SECONDARY:
				2107	case ASB_CALL_HELPER:
				2108	dev_err(DEV, "Configuration error.\n");
				2109	break;
				2110	case ASB_DISCONNECT:
				2111	break;
				2112	case ASB_DISCARD_YOUNGER_PRI:
				2113	if (self == 0 && peer == 1) {
				2114	rv = -1;
				2115	break;
				2116	}
				2117	if (self == 1 && peer == 0) {
				2118	rv = 1;
				2119	break;
				2120	}
				2121	/* Else fall through to one of the other strategies... */
				2122	case ASB_DISCARD_OLDER_PRI:
				2123	if (self == 0 && peer == 1) {
				2124	rv = 1;
				2125	break;
				2126	}
				2127	if (self == 1 && peer == 0) {
				2128	rv = -1;
				2129	break;
				2130	}
				2131	/* Else fall through to one of the other strategies... */
Lars Ellenberg	ad19bf6	2009-10-14 09:36:49 +0200	[diff] [blame]	2132	dev_warn(DEV, "Discard younger/older primary did not find a decision\n"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2133	"Using discard-least-changes instead\n");
				2134	case ASB_DISCARD_ZERO_CHG:
				2135	if (ch_peer == 0 && ch_self == 0) {
				2136	rv = test_bit(DISCARD_CONCURRENT, &mdev->flags)
				2137	? -1 : 1;
				2138	break;
				2139	} else {
				2140	if (ch_peer == 0) { rv = 1; break; }
				2141	if (ch_self == 0) { rv = -1; break; }
				2142	}
				2143	if (mdev->net_conf->after_sb_0p == ASB_DISCARD_ZERO_CHG)
				2144	break;
				2145	case ASB_DISCARD_LEAST_CHG:
				2146	if (ch_self < ch_peer)
				2147	rv = -1;
				2148	else if (ch_self > ch_peer)
				2149	rv = 1;
				2150	else /* ( ch_self == ch_peer ) */
				2151	/* Well, then use something else. */
				2152	rv = test_bit(DISCARD_CONCURRENT, &mdev->flags)
				2153	? -1 : 1;
				2154	break;
				2155	case ASB_DISCARD_LOCAL:
				2156	rv = -1;
				2157	break;
				2158	case ASB_DISCARD_REMOTE:
				2159	rv = 1;
				2160	}
				2161
				2162	return rv;
				2163	}
				2164
				2165	static int drbd_asb_recover_1p(struct drbd_conf *mdev) __must_hold(local)
				2166	{
				2167	int self, peer, hg, rv = -100;
				2168
				2169	self = mdev->ldev->md.uuid[UI_BITMAP] & 1;
				2170	peer = mdev->p_uuid[UI_BITMAP] & 1;
				2171
				2172	switch (mdev->net_conf->after_sb_1p) {
				2173	case ASB_DISCARD_YOUNGER_PRI:
				2174	case ASB_DISCARD_OLDER_PRI:
				2175	case ASB_DISCARD_LEAST_CHG:
				2176	case ASB_DISCARD_LOCAL:
				2177	case ASB_DISCARD_REMOTE:
				2178	dev_err(DEV, "Configuration error.\n");
				2179	break;
				2180	case ASB_DISCONNECT:
				2181	break;
				2182	case ASB_CONSENSUS:
				2183	hg = drbd_asb_recover_0p(mdev);
				2184	if (hg == -1 && mdev->state.role == R_SECONDARY)
				2185	rv = hg;
				2186	if (hg == 1 && mdev->state.role == R_PRIMARY)
				2187	rv = hg;
				2188	break;
				2189	case ASB_VIOLENTLY:
				2190	rv = drbd_asb_recover_0p(mdev);
				2191	break;
				2192	case ASB_DISCARD_SECONDARY:
				2193	return mdev->state.role == R_PRIMARY ? 1 : -1;
				2194	case ASB_CALL_HELPER:
				2195	hg = drbd_asb_recover_0p(mdev);
				2196	if (hg == -1 && mdev->state.role == R_PRIMARY) {
				2197	self = drbd_set_role(mdev, R_SECONDARY, 0);
				2198	/* drbd_change_state() does not sleep while in SS_IN_TRANSIENT_STATE,
				2199	* we might be here in C_WF_REPORT_PARAMS which is transient.
				2200	* we do not need to wait for the after state change work either. */
				2201	self = drbd_change_state(mdev, CS_VERBOSE, NS(role, R_SECONDARY));
				2202	if (self != SS_SUCCESS) {
				2203	drbd_khelper(mdev, "pri-lost-after-sb");
				2204	} else {
				2205	dev_warn(DEV, "Successfully gave up primary role.\n");
				2206	rv = hg;
				2207	}
				2208	} else
				2209	rv = hg;
				2210	}
				2211
				2212	return rv;
				2213	}
				2214
				2215	static int drbd_asb_recover_2p(struct drbd_conf *mdev) __must_hold(local)
				2216	{
				2217	int self, peer, hg, rv = -100;
				2218
				2219	self = mdev->ldev->md.uuid[UI_BITMAP] & 1;
				2220	peer = mdev->p_uuid[UI_BITMAP] & 1;
				2221
				2222	switch (mdev->net_conf->after_sb_2p) {
				2223	case ASB_DISCARD_YOUNGER_PRI:
				2224	case ASB_DISCARD_OLDER_PRI:
				2225	case ASB_DISCARD_LEAST_CHG:
				2226	case ASB_DISCARD_LOCAL:
				2227	case ASB_DISCARD_REMOTE:
				2228	case ASB_CONSENSUS:
				2229	case ASB_DISCARD_SECONDARY:
				2230	dev_err(DEV, "Configuration error.\n");
				2231	break;
				2232	case ASB_VIOLENTLY:
				2233	rv = drbd_asb_recover_0p(mdev);
				2234	break;
				2235	case ASB_DISCONNECT:
				2236	break;
				2237	case ASB_CALL_HELPER:
				2238	hg = drbd_asb_recover_0p(mdev);
				2239	if (hg == -1) {
				2240	/* drbd_change_state() does not sleep while in SS_IN_TRANSIENT_STATE,
				2241	* we might be here in C_WF_REPORT_PARAMS which is transient.
				2242	* we do not need to wait for the after state change work either. */
				2243	self = drbd_change_state(mdev, CS_VERBOSE, NS(role, R_SECONDARY));
				2244	if (self != SS_SUCCESS) {
				2245	drbd_khelper(mdev, "pri-lost-after-sb");
				2246	} else {
				2247	dev_warn(DEV, "Successfully gave up primary role.\n");
				2248	rv = hg;
				2249	}
				2250	} else
				2251	rv = hg;
				2252	}
				2253
				2254	return rv;
				2255	}
				2256
				2257	static void drbd_uuid_dump(struct drbd_conf mdev, char text, u64 *uuid,
				2258	u64 bits, u64 flags)
				2259	{
				2260	if (!uuid) {
				2261	dev_info(DEV, "%s uuid info vanished while I was looking!\n", text);
				2262	return;
				2263	}
				2264	dev_info(DEV, "%s %016llX:%016llX:%016llX:%016llX bits:%llu flags:%llX\n",
				2265	text,
				2266	(unsigned long long)uuid[UI_CURRENT],
				2267	(unsigned long long)uuid[UI_BITMAP],
				2268	(unsigned long long)uuid[UI_HISTORY_START],
				2269	(unsigned long long)uuid[UI_HISTORY_END],
				2270	(unsigned long long)bits,
				2271	(unsigned long long)flags);
				2272	}
				2273
				2274	/*
				2275	100 after split brain try auto recover
				2276	2 C_SYNC_SOURCE set BitMap
				2277	1 C_SYNC_SOURCE use BitMap
				2278	0 no Sync
				2279	-1 C_SYNC_TARGET use BitMap
				2280	-2 C_SYNC_TARGET set BitMap
				2281	-100 after split brain, disconnect
				2282	-1000 unrelated data
				2283	*/
				2284	static int drbd_uuid_compare(struct drbd_conf mdev, int rule_nr) __must_hold(local)
				2285	{
				2286	u64 self, peer;
				2287	int i, j;
				2288
				2289	self = mdev->ldev->md.uuid[UI_CURRENT] & ~((u64)1);
				2290	peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
				2291
				2292	*rule_nr = 10;
				2293	if (self == UUID_JUST_CREATED && peer == UUID_JUST_CREATED)
				2294	return 0;
				2295
				2296	*rule_nr = 20;
				2297	if ((self == UUID_JUST_CREATED \|\| self == (u64)0) &&
				2298	peer != UUID_JUST_CREATED)
				2299	return -2;
				2300
				2301	*rule_nr = 30;
				2302	if (self != UUID_JUST_CREATED &&
				2303	(peer == UUID_JUST_CREATED \|\| peer == (u64)0))
				2304	return 2;
				2305
				2306	if (self == peer) {
				2307	int rct, dc; /* roles at crash time */
				2308
				2309	if (mdev->p_uuid[UI_BITMAP] == (u64)0 && mdev->ldev->md.uuid[UI_BITMAP] != (u64)0) {
				2310
				2311	if (mdev->agreed_pro_version < 91)
				2312	return -1001;
				2313
				2314	if ((mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START] & ~((u64)1)) &&
				2315	(mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START + 1] & ~((u64)1))) {
				2316	dev_info(DEV, "was SyncSource, missed the resync finished event, corrected myself:\n");
				2317	drbd_uuid_set_bm(mdev, 0UL);
				2318
				2319	drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid,
				2320	mdev->state.disk >= D_NEGOTIATING ? drbd_bm_total_weight(mdev) : 0, 0);
				2321	*rule_nr = 34;
				2322	} else {
				2323	dev_info(DEV, "was SyncSource (peer failed to write sync_uuid)\n");
				2324	*rule_nr = 36;
				2325	}
				2326
				2327	return 1;
				2328	}
				2329
				2330	if (mdev->ldev->md.uuid[UI_BITMAP] == (u64)0 && mdev->p_uuid[UI_BITMAP] != (u64)0) {
				2331
				2332	if (mdev->agreed_pro_version < 91)
				2333	return -1001;
				2334
				2335	if ((mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1)) == (mdev->p_uuid[UI_BITMAP] & ~((u64)1)) &&
				2336	(mdev->ldev->md.uuid[UI_HISTORY_START + 1] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START] & ~((u64)1))) {
				2337	dev_info(DEV, "was SyncTarget, peer missed the resync finished event, corrected peer:\n");
				2338
				2339	mdev->p_uuid[UI_HISTORY_START + 1] = mdev->p_uuid[UI_HISTORY_START];
				2340	mdev->p_uuid[UI_HISTORY_START] = mdev->p_uuid[UI_BITMAP];
				2341	mdev->p_uuid[UI_BITMAP] = 0UL;
				2342
				2343	drbd_uuid_dump(mdev, "peer", mdev->p_uuid, mdev->p_uuid[UI_SIZE], mdev->p_uuid[UI_FLAGS]);
				2344	*rule_nr = 35;
				2345	} else {
				2346	dev_info(DEV, "was SyncTarget (failed to write sync_uuid)\n");
				2347	*rule_nr = 37;
				2348	}
				2349
				2350	return -1;
				2351	}
				2352
				2353	/* Common power [off\|failure] */
				2354	rct = (test_bit(CRASHED_PRIMARY, &mdev->flags) ? 1 : 0) +
				2355	(mdev->p_uuid[UI_FLAGS] & 2);
				2356	/* lowest bit is set when we were primary,
				2357	* next bit (weight 2) is set when peer was primary */
				2358	*rule_nr = 40;
				2359
				2360	switch (rct) {
				2361	case 0: /* !self_pri && !peer_pri */ return 0;
				2362	case 1: /* self_pri && !peer_pri */ return 1;
				2363	case 2: /* !self_pri && peer_pri */ return -1;
				2364	case 3: /* self_pri && peer_pri */
				2365	dc = test_bit(DISCARD_CONCURRENT, &mdev->flags);
				2366	return dc ? -1 : 1;
				2367	}
				2368	}
				2369
				2370	*rule_nr = 50;
				2371	peer = mdev->p_uuid[UI_BITMAP] & ~((u64)1);
				2372	if (self == peer)
				2373	return -1;
				2374
				2375	*rule_nr = 51;
				2376	peer = mdev->p_uuid[UI_HISTORY_START] & ~((u64)1);
				2377	if (self == peer) {
				2378	self = mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1);
				2379	peer = mdev->p_uuid[UI_HISTORY_START + 1] & ~((u64)1);
				2380	if (self == peer) {
				2381	/* The last P_SYNC_UUID did not get though. Undo the last start of
				2382	resync as sync source modifications of the peer's UUIDs. */
				2383
				2384	if (mdev->agreed_pro_version < 91)
				2385	return -1001;
				2386
				2387	mdev->p_uuid[UI_BITMAP] = mdev->p_uuid[UI_HISTORY_START];
				2388	mdev->p_uuid[UI_HISTORY_START] = mdev->p_uuid[UI_HISTORY_START + 1];
				2389	return -1;
				2390	}
				2391	}
				2392
				2393	*rule_nr = 60;
				2394	self = mdev->ldev->md.uuid[UI_CURRENT] & ~((u64)1);
				2395	for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
				2396	peer = mdev->p_uuid[i] & ~((u64)1);
				2397	if (self == peer)
				2398	return -2;
				2399	}
				2400
				2401	*rule_nr = 70;
				2402	self = mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1);
				2403	peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
				2404	if (self == peer)
				2405	return 1;
				2406
				2407	*rule_nr = 71;
				2408	self = mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1);
				2409	if (self == peer) {
				2410	self = mdev->ldev->md.uuid[UI_HISTORY_START + 1] & ~((u64)1);
				2411	peer = mdev->p_uuid[UI_HISTORY_START] & ~((u64)1);
				2412	if (self == peer) {
				2413	/* The last P_SYNC_UUID did not get though. Undo the last start of
				2414	resync as sync source modifications of our UUIDs. */
				2415
				2416	if (mdev->agreed_pro_version < 91)
				2417	return -1001;
				2418
				2419	_drbd_uuid_set(mdev, UI_BITMAP, mdev->ldev->md.uuid[UI_HISTORY_START]);
				2420	_drbd_uuid_set(mdev, UI_HISTORY_START, mdev->ldev->md.uuid[UI_HISTORY_START + 1]);
				2421
				2422	dev_info(DEV, "Undid last start of resync:\n");
				2423
				2424	drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid,
				2425	mdev->state.disk >= D_NEGOTIATING ? drbd_bm_total_weight(mdev) : 0, 0);
				2426
				2427	return 1;
				2428	}
				2429	}
				2430
				2431
				2432	*rule_nr = 80;
Philipp Reisner	d8c2a36	2009-11-18 15:52:51 +0100	[diff] [blame]	2433	peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2434	for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
				2435	self = mdev->ldev->md.uuid[i] & ~((u64)1);
				2436	if (self == peer)
				2437	return 2;
				2438	}
				2439
				2440	*rule_nr = 90;
				2441	self = mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1);
				2442	peer = mdev->p_uuid[UI_BITMAP] & ~((u64)1);
				2443	if (self == peer && self != ((u64)0))
				2444	return 100;
				2445
				2446	*rule_nr = 100;
				2447	for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
				2448	self = mdev->ldev->md.uuid[i] & ~((u64)1);
				2449	for (j = UI_HISTORY_START; j <= UI_HISTORY_END; j++) {
				2450	peer = mdev->p_uuid[j] & ~((u64)1);
				2451	if (self == peer)
				2452	return -100;
				2453	}
				2454	}
				2455
				2456	return -1000;
				2457	}
				2458
				2459	/* drbd_sync_handshake() returns the new conn state on success, or
				2460	CONN_MASK (-1) on failure.
				2461	*/
				2462	static enum drbd_conns drbd_sync_handshake(struct drbd_conf *mdev, enum drbd_role peer_role,
				2463	enum drbd_disk_state peer_disk) __must_hold(local)
				2464	{
				2465	int hg, rule_nr;
				2466	enum drbd_conns rv = C_MASK;
				2467	enum drbd_disk_state mydisk;
				2468
				2469	mydisk = mdev->state.disk;
				2470	if (mydisk == D_NEGOTIATING)
				2471	mydisk = mdev->new_state_tmp.disk;
				2472
				2473	dev_info(DEV, "drbd_sync_handshake:\n");
				2474	drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid, mdev->comm_bm_set, 0);
				2475	drbd_uuid_dump(mdev, "peer", mdev->p_uuid,
				2476	mdev->p_uuid[UI_SIZE], mdev->p_uuid[UI_FLAGS]);
				2477
				2478	hg = drbd_uuid_compare(mdev, &rule_nr);
				2479
				2480	dev_info(DEV, "uuid_compare()=%d by rule %d\n", hg, rule_nr);
				2481
				2482	if (hg == -1000) {
				2483	dev_alert(DEV, "Unrelated data, aborting!\n");
				2484	return C_MASK;
				2485	}
				2486	if (hg == -1001) {
				2487	dev_alert(DEV, "To resolve this both sides have to support at least protocol\n");
				2488	return C_MASK;
				2489	}
				2490
				2491	if ((mydisk == D_INCONSISTENT && peer_disk > D_INCONSISTENT) \|\|
				2492	(peer_disk == D_INCONSISTENT && mydisk > D_INCONSISTENT)) {
				2493	int f = (hg == -100) \|\| abs(hg) == 2;
				2494	hg = mydisk > D_INCONSISTENT ? 1 : -1;
				2495	if (f)
				2496	hg = hg*2;
				2497	dev_info(DEV, "Becoming sync %s due to disk states.\n",
				2498	hg > 0 ? "source" : "target");
				2499	}
				2500
Adam Gandelman	3a11a48	2010-04-08 16:48:23 -0700	[diff] [blame]	2501	if (abs(hg) == 100)
				2502	drbd_khelper(mdev, "initial-split-brain");
				2503
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2504	if (hg == 100 \|\| (hg == -100 && mdev->net_conf->always_asbp)) {
				2505	int pcount = (mdev->state.role == R_PRIMARY)
				2506	+ (peer_role == R_PRIMARY);
				2507	int forced = (hg == -100);
				2508
				2509	switch (pcount) {
				2510	case 0:
				2511	hg = drbd_asb_recover_0p(mdev);
				2512	break;
				2513	case 1:
				2514	hg = drbd_asb_recover_1p(mdev);
				2515	break;
				2516	case 2:
				2517	hg = drbd_asb_recover_2p(mdev);
				2518	break;
				2519	}
				2520	if (abs(hg) < 100) {
				2521	dev_warn(DEV, "Split-Brain detected, %d primaries, "
				2522	"automatically solved. Sync from %s node\n",
				2523	pcount, (hg < 0) ? "peer" : "this");
				2524	if (forced) {
				2525	dev_warn(DEV, "Doing a full sync, since"
				2526	" UUIDs where ambiguous.\n");
				2527	hg = hg*2;
				2528	}
				2529	}
				2530	}
				2531
				2532	if (hg == -100) {
				2533	if (mdev->net_conf->want_lose && !(mdev->p_uuid[UI_FLAGS]&1))
				2534	hg = -1;
				2535	if (!mdev->net_conf->want_lose && (mdev->p_uuid[UI_FLAGS]&1))
				2536	hg = 1;
				2537
				2538	if (abs(hg) < 100)
				2539	dev_warn(DEV, "Split-Brain detected, manually solved. "
				2540	"Sync from %s node\n",
				2541	(hg < 0) ? "peer" : "this");
				2542	}
				2543
				2544	if (hg == -100) {
Lars Ellenberg	580b976	2010-02-26 23:15:23 +0100	[diff] [blame]	2545	/* FIXME this log message is not correct if we end up here
				2546	* after an attempted attach on a diskless node.
				2547	* We just refuse to attach -- well, we drop the "connection"
				2548	* to that disk, in a way... */
Adam Gandelman	3a11a48	2010-04-08 16:48:23 -0700	[diff] [blame]	2549	dev_alert(DEV, "Split-Brain detected but unresolved, dropping connection!\n");
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2550	drbd_khelper(mdev, "split-brain");
				2551	return C_MASK;
				2552	}
				2553
				2554	if (hg > 0 && mydisk <= D_INCONSISTENT) {
				2555	dev_err(DEV, "I shall become SyncSource, but I am inconsistent!\n");
				2556	return C_MASK;
				2557	}
				2558
				2559	if (hg < 0 && /* by intention we do not use mydisk here. */
				2560	mdev->state.role == R_PRIMARY && mdev->state.disk >= D_CONSISTENT) {
				2561	switch (mdev->net_conf->rr_conflict) {
				2562	case ASB_CALL_HELPER:
				2563	drbd_khelper(mdev, "pri-lost");
				2564	/* fall through */
				2565	case ASB_DISCONNECT:
				2566	dev_err(DEV, "I shall become SyncTarget, but I am primary!\n");
				2567	return C_MASK;
				2568	case ASB_VIOLENTLY:
				2569	dev_warn(DEV, "Becoming SyncTarget, violating the stable-data"
				2570	"assumption\n");
				2571	}
				2572	}
				2573
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	2574	if (mdev->net_conf->dry_run \|\| test_bit(CONN_DRY_RUN, &mdev->flags)) {
				2575	if (hg == 0)
				2576	dev_info(DEV, "dry-run connect: No resync, would become Connected immediately.\n");
				2577	else
				2578	dev_info(DEV, "dry-run connect: Would become %s, doing a %s resync.",
				2579	drbd_conn_str(hg > 0 ? C_SYNC_SOURCE : C_SYNC_TARGET),
				2580	abs(hg) >= 2 ? "full" : "bit-map based");
				2581	return C_MASK;
				2582	}
				2583
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2584	if (abs(hg) >= 2) {
				2585	dev_info(DEV, "Writing the whole bitmap, full sync required after drbd_sync_handshake.\n");
				2586	if (drbd_bitmap_io(mdev, &drbd_bmio_set_n_write, "set_n_write from sync_handshake"))
				2587	return C_MASK;
				2588	}
				2589
				2590	if (hg > 0) { /* become sync source. */
				2591	rv = C_WF_BITMAP_S;
				2592	} else if (hg < 0) { /* become sync target */
				2593	rv = C_WF_BITMAP_T;
				2594	} else {
				2595	rv = C_CONNECTED;
				2596	if (drbd_bm_total_weight(mdev)) {
				2597	dev_info(DEV, "No resync, but %lu bits in bitmap!\n",
				2598	drbd_bm_total_weight(mdev));
				2599	}
				2600	}
				2601
				2602	return rv;
				2603	}
				2604
				2605	/* returns 1 if invalid */
				2606	static int cmp_after_sb(enum drbd_after_sb_p peer, enum drbd_after_sb_p self)
				2607	{
				2608	/* ASB_DISCARD_REMOTE - ASB_DISCARD_LOCAL is valid */
				2609	if ((peer == ASB_DISCARD_REMOTE && self == ASB_DISCARD_LOCAL) \|\|
				2610	(self == ASB_DISCARD_REMOTE && peer == ASB_DISCARD_LOCAL))
				2611	return 0;
				2612
				2613	/* any other things with ASB_DISCARD_REMOTE or ASB_DISCARD_LOCAL are invalid */
				2614	if (peer == ASB_DISCARD_REMOTE \|\| peer == ASB_DISCARD_LOCAL \|\|
				2615	self == ASB_DISCARD_REMOTE \|\| self == ASB_DISCARD_LOCAL)
				2616	return 1;
				2617
				2618	/* everything else is valid if they are equal on both sides. */
				2619	if (peer == self)
				2620	return 0;
				2621
				2622	/* everything es is invalid. */
				2623	return 1;
				2624	}
				2625
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2626	static int receive_protocol(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2627	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2628	struct p_protocol *p = &mdev->data.rbuf.protocol;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2629	int p_proto, p_after_sb_0p, p_after_sb_1p, p_after_sb_2p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	2630	int p_want_lose, p_two_primaries, cf;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2631	char p_integrity_alg[SHARED_SECRET_MAX] = "";
				2632
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2633	p_proto = be32_to_cpu(p->protocol);
				2634	p_after_sb_0p = be32_to_cpu(p->after_sb_0p);
				2635	p_after_sb_1p = be32_to_cpu(p->after_sb_1p);
				2636	p_after_sb_2p = be32_to_cpu(p->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2637	p_two_primaries = be32_to_cpu(p->two_primaries);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	2638	cf = be32_to_cpu(p->conn_flags);
				2639	p_want_lose = cf & CF_WANT_LOSE;
				2640
				2641	clear_bit(CONN_DRY_RUN, &mdev->flags);
				2642
				2643	if (cf & CF_DRY_RUN)
				2644	set_bit(CONN_DRY_RUN, &mdev->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2645
				2646	if (p_proto != mdev->net_conf->wire_protocol) {
				2647	dev_err(DEV, "incompatible communication protocols\n");
				2648	goto disconnect;
				2649	}
				2650
				2651	if (cmp_after_sb(p_after_sb_0p, mdev->net_conf->after_sb_0p)) {
				2652	dev_err(DEV, "incompatible after-sb-0pri settings\n");
				2653	goto disconnect;
				2654	}
				2655
				2656	if (cmp_after_sb(p_after_sb_1p, mdev->net_conf->after_sb_1p)) {
				2657	dev_err(DEV, "incompatible after-sb-1pri settings\n");
				2658	goto disconnect;
				2659	}
				2660
				2661	if (cmp_after_sb(p_after_sb_2p, mdev->net_conf->after_sb_2p)) {
				2662	dev_err(DEV, "incompatible after-sb-2pri settings\n");
				2663	goto disconnect;
				2664	}
				2665
				2666	if (p_want_lose && mdev->net_conf->want_lose) {
				2667	dev_err(DEV, "both sides have the 'want_lose' flag set\n");
				2668	goto disconnect;
				2669	}
				2670
				2671	if (p_two_primaries != mdev->net_conf->two_primaries) {
				2672	dev_err(DEV, "incompatible setting of the two-primaries options\n");
				2673	goto disconnect;
				2674	}
				2675
				2676	if (mdev->agreed_pro_version >= 87) {
				2677	unsigned char *my_alg = mdev->net_conf->integrity_alg;
				2678
				2679	if (drbd_recv(mdev, p_integrity_alg, data_size) != data_size)
				2680	return FALSE;
				2681
				2682	p_integrity_alg[SHARED_SECRET_MAX-1] = 0;
				2683	if (strcmp(p_integrity_alg, my_alg)) {
				2684	dev_err(DEV, "incompatible setting of the data-integrity-alg\n");
				2685	goto disconnect;
				2686	}
				2687	dev_info(DEV, "data-integrity-alg: %s\n",
				2688	my_alg[0] ? my_alg : (unsigned char *)"<not-used>");
				2689	}
				2690
				2691	return TRUE;
				2692
				2693	disconnect:
				2694	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2695	return FALSE;
				2696	}
				2697
				2698	/* helper function
				2699	* input: alg name, feature name
				2700	* return: NULL (alg name was "")
				2701	* ERR_PTR(error) if something goes wrong
				2702	* or the crypto hash ptr, if it worked out ok. */
				2703	struct crypto_hash drbd_crypto_alloc_digest_safe(const struct drbd_conf mdev,
				2704	const char alg, const char name)
				2705	{
				2706	struct crypto_hash *tfm;
				2707
				2708	if (!alg[0])
				2709	return NULL;
				2710
				2711	tfm = crypto_alloc_hash(alg, 0, CRYPTO_ALG_ASYNC);
				2712	if (IS_ERR(tfm)) {
				2713	dev_err(DEV, "Can not allocate \"%s\" as %s (reason: %ld)\n",
				2714	alg, name, PTR_ERR(tfm));
				2715	return tfm;
				2716	}
				2717	if (!drbd_crypto_is_hash(crypto_hash_tfm(tfm))) {
				2718	crypto_free_hash(tfm);
				2719	dev_err(DEV, "\"%s\" is not a digest (%s)\n", alg, name);
				2720	return ERR_PTR(-EINVAL);
				2721	}
				2722	return tfm;
				2723	}
				2724
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2725	static int receive_SyncParam(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int packet_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2726	{
				2727	int ok = TRUE;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2728	struct p_rs_param_95 *p = &mdev->data.rbuf.rs_param_95;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2729	unsigned int header_size, data_size, exp_max_sz;
				2730	struct crypto_hash *verify_tfm = NULL;
				2731	struct crypto_hash *csums_tfm = NULL;
				2732	const int apv = mdev->agreed_pro_version;
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	2733	int *rs_plan_s = NULL;
				2734	int fifo_size = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2735
				2736	exp_max_sz = apv <= 87 ? sizeof(struct p_rs_param)
				2737	: apv == 88 ? sizeof(struct p_rs_param)
				2738	+ SHARED_SECRET_MAX
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	2739	: apv <= 94 ? sizeof(struct p_rs_param_89)
				2740	: /* apv >= 95 */ sizeof(struct p_rs_param_95);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2741
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2742	if (packet_size > exp_max_sz) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2743	dev_err(DEV, "SyncParam packet too long: received %u, expected <= %u bytes\n",
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2744	packet_size, exp_max_sz);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2745	return FALSE;
				2746	}
				2747
				2748	if (apv <= 88) {
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2749	header_size = sizeof(struct p_rs_param) - sizeof(struct p_header80);
				2750	data_size = packet_size - header_size;
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	2751	} else if (apv <= 94) {
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2752	header_size = sizeof(struct p_rs_param_89) - sizeof(struct p_header80);
				2753	data_size = packet_size - header_size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2754	D_ASSERT(data_size == 0);
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	2755	} else {
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2756	header_size = sizeof(struct p_rs_param_95) - sizeof(struct p_header80);
				2757	data_size = packet_size - header_size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2758	D_ASSERT(data_size == 0);
				2759	}
				2760
				2761	/* initialize verify_alg and csums_alg */
				2762	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				2763
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2764	if (drbd_recv(mdev, &p->head.payload, header_size) != header_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2765	return FALSE;
				2766
				2767	mdev->sync_conf.rate = be32_to_cpu(p->rate);
				2768
				2769	if (apv >= 88) {
				2770	if (apv == 88) {
				2771	if (data_size > SHARED_SECRET_MAX) {
				2772	dev_err(DEV, "verify-alg too long, "
				2773	"peer wants %u, accepting only %u byte\n",
				2774	data_size, SHARED_SECRET_MAX);
				2775	return FALSE;
				2776	}
				2777
				2778	if (drbd_recv(mdev, p->verify_alg, data_size) != data_size)
				2779	return FALSE;
				2780
				2781	/* we expect NUL terminated string */
				2782	/* but just in case someone tries to be evil */
				2783	D_ASSERT(p->verify_alg[data_size-1] == 0);
				2784	p->verify_alg[data_size-1] = 0;
				2785
				2786	} else /* apv >= 89 */ {
				2787	/* we still expect NUL terminated strings */
				2788	/* but just in case someone tries to be evil */
				2789	D_ASSERT(p->verify_alg[SHARED_SECRET_MAX-1] == 0);
				2790	D_ASSERT(p->csums_alg[SHARED_SECRET_MAX-1] == 0);
				2791	p->verify_alg[SHARED_SECRET_MAX-1] = 0;
				2792	p->csums_alg[SHARED_SECRET_MAX-1] = 0;
				2793	}
				2794
				2795	if (strcmp(mdev->sync_conf.verify_alg, p->verify_alg)) {
				2796	if (mdev->state.conn == C_WF_REPORT_PARAMS) {
				2797	dev_err(DEV, "Different verify-alg settings. me=\"%s\" peer=\"%s\"\n",
				2798	mdev->sync_conf.verify_alg, p->verify_alg);
				2799	goto disconnect;
				2800	}
				2801	verify_tfm = drbd_crypto_alloc_digest_safe(mdev,
				2802	p->verify_alg, "verify-alg");
				2803	if (IS_ERR(verify_tfm)) {
				2804	verify_tfm = NULL;
				2805	goto disconnect;
				2806	}
				2807	}
				2808
				2809	if (apv >= 89 && strcmp(mdev->sync_conf.csums_alg, p->csums_alg)) {
				2810	if (mdev->state.conn == C_WF_REPORT_PARAMS) {
				2811	dev_err(DEV, "Different csums-alg settings. me=\"%s\" peer=\"%s\"\n",
				2812	mdev->sync_conf.csums_alg, p->csums_alg);
				2813	goto disconnect;
				2814	}
				2815	csums_tfm = drbd_crypto_alloc_digest_safe(mdev,
				2816	p->csums_alg, "csums-alg");
				2817	if (IS_ERR(csums_tfm)) {
				2818	csums_tfm = NULL;
				2819	goto disconnect;
				2820	}
				2821	}
				2822
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	2823	if (apv > 94) {
				2824	mdev->sync_conf.rate = be32_to_cpu(p->rate);
				2825	mdev->sync_conf.c_plan_ahead = be32_to_cpu(p->c_plan_ahead);
				2826	mdev->sync_conf.c_delay_target = be32_to_cpu(p->c_delay_target);
				2827	mdev->sync_conf.c_fill_target = be32_to_cpu(p->c_fill_target);
				2828	mdev->sync_conf.c_max_rate = be32_to_cpu(p->c_max_rate);
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	2829
				2830	fifo_size = (mdev->sync_conf.c_plan_ahead * 10 * SLEEP_TIME) / HZ;
				2831	if (fifo_size != mdev->rs_plan_s.size && fifo_size > 0) {
				2832	rs_plan_s = kzalloc(sizeof(int) * fifo_size, GFP_KERNEL);
				2833	if (!rs_plan_s) {
				2834	dev_err(DEV, "kmalloc of fifo_buffer failed");
				2835	goto disconnect;
				2836	}
				2837	}
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	2838	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2839
				2840	spin_lock(&mdev->peer_seq_lock);
				2841	/* lock against drbd_nl_syncer_conf() */
				2842	if (verify_tfm) {
				2843	strcpy(mdev->sync_conf.verify_alg, p->verify_alg);
				2844	mdev->sync_conf.verify_alg_len = strlen(p->verify_alg) + 1;
				2845	crypto_free_hash(mdev->verify_tfm);
				2846	mdev->verify_tfm = verify_tfm;
				2847	dev_info(DEV, "using verify-alg: \"%s\"\n", p->verify_alg);
				2848	}
				2849	if (csums_tfm) {
				2850	strcpy(mdev->sync_conf.csums_alg, p->csums_alg);
				2851	mdev->sync_conf.csums_alg_len = strlen(p->csums_alg) + 1;
				2852	crypto_free_hash(mdev->csums_tfm);
				2853	mdev->csums_tfm = csums_tfm;
				2854	dev_info(DEV, "using csums-alg: \"%s\"\n", p->csums_alg);
				2855	}
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	2856	if (fifo_size != mdev->rs_plan_s.size) {
				2857	kfree(mdev->rs_plan_s.values);
				2858	mdev->rs_plan_s.values = rs_plan_s;
				2859	mdev->rs_plan_s.size = fifo_size;
				2860	mdev->rs_planed = 0;
				2861	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2862	spin_unlock(&mdev->peer_seq_lock);
				2863	}
				2864
				2865	return ok;
				2866	disconnect:
				2867	/* just for completeness: actually not needed,
				2868	* as this is not reached if csums_tfm was ok. */
				2869	crypto_free_hash(csums_tfm);
				2870	/* but free the verify_tfm again, if csums_tfm did not work out */
				2871	crypto_free_hash(verify_tfm);
				2872	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2873	return FALSE;
				2874	}
				2875
				2876	static void drbd_setup_order_type(struct drbd_conf *mdev, int peer)
				2877	{
				2878	/* sorry, we currently have no working implementation
				2879	* of distributed TCQ */
				2880	}
				2881
				2882	/* warn if the arguments differ by more than 12.5% */
				2883	static void warn_if_differ_considerably(struct drbd_conf *mdev,
				2884	const char *s, sector_t a, sector_t b)
				2885	{
				2886	sector_t d;
				2887	if (a == 0 \|\| b == 0)
				2888	return;
				2889	d = (a > b) ? (a - b) : (b - a);
				2890	if (d > (a>>3) \|\| d > (b>>3))
				2891	dev_warn(DEV, "Considerable difference in %s: %llus vs. %llus\n", s,
				2892	(unsigned long long)a, (unsigned long long)b);
				2893	}
				2894
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2895	static int receive_sizes(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2896	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	2897	struct p_sizes *p = &mdev->data.rbuf.sizes;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2898	enum determine_dev_size dd = unchanged;
				2899	unsigned int max_seg_s;
				2900	sector_t p_size, p_usize, my_usize;
				2901	int ldsc = 0; /* local disk size changed */
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	2902	enum dds_flags ddsf;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2903
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2904	p_size = be64_to_cpu(p->d_size);
				2905	p_usize = be64_to_cpu(p->u_size);
				2906
				2907	if (p_size == 0 && mdev->state.disk == D_DISKLESS) {
				2908	dev_err(DEV, "some backing storage is needed\n");
				2909	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2910	return FALSE;
				2911	}
				2912
				2913	/* just store the peer's disk size for now.
				2914	* we still need to figure out whether we accept that. */
				2915	mdev->p_size = p_size;
				2916
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2917	if (get_ldev(mdev)) {
				2918	warn_if_differ_considerably(mdev, "lower level device sizes",
				2919	p_size, drbd_get_max_capacity(mdev->ldev));
				2920	warn_if_differ_considerably(mdev, "user requested size",
				2921	p_usize, mdev->ldev->dc.disk_size);
				2922
				2923	/* if this is the first connect, or an otherwise expected
				2924	* param exchange, choose the minimum */
				2925	if (mdev->state.conn == C_WF_REPORT_PARAMS)
				2926	p_usize = min_not_zero((sector_t)mdev->ldev->dc.disk_size,
				2927	p_usize);
				2928
				2929	my_usize = mdev->ldev->dc.disk_size;
				2930
				2931	if (mdev->ldev->dc.disk_size != p_usize) {
				2932	mdev->ldev->dc.disk_size = p_usize;
				2933	dev_info(DEV, "Peer sets u_size to %lu sectors\n",
				2934	(unsigned long)mdev->ldev->dc.disk_size);
				2935	}
				2936
				2937	/* Never shrink a device with usable data during connect.
				2938	But allow online shrinking if we are connected. */
Philipp Reisner	a393db6	2009-12-22 13:35:52 +0100	[diff] [blame]	2939	if (drbd_new_dev_size(mdev, mdev->ldev, 0) <
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2940	drbd_get_capacity(mdev->this_bdev) &&
				2941	mdev->state.disk >= D_OUTDATED &&
				2942	mdev->state.conn < C_CONNECTED) {
				2943	dev_err(DEV, "The peer's disk size is too small!\n");
				2944	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2945	mdev->ldev->dc.disk_size = my_usize;
				2946	put_ldev(mdev);
				2947	return FALSE;
				2948	}
				2949	put_ldev(mdev);
				2950	}
				2951	#undef min_not_zero
				2952
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	2953	ddsf = be16_to_cpu(p->dds_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2954	if (get_ldev(mdev)) {
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	2955	dd = drbd_determin_dev_size(mdev, ddsf);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2956	put_ldev(mdev);
				2957	if (dd == dev_size_error)
				2958	return FALSE;
				2959	drbd_md_sync(mdev);
				2960	} else {
				2961	/* I am diskless, need to accept the peer's size. */
				2962	drbd_set_my_capacity(mdev, p_size);
				2963	}
				2964
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2965	if (get_ldev(mdev)) {
				2966	if (mdev->ldev->known_size != drbd_get_capacity(mdev->ldev->backing_bdev)) {
				2967	mdev->ldev->known_size = drbd_get_capacity(mdev->ldev->backing_bdev);
				2968	ldsc = 1;
				2969	}
				2970
Lars Ellenberg	a1c88d0	2010-05-14 19:16:41 +0200	[diff] [blame]	2971	if (mdev->agreed_pro_version < 94)
				2972	max_seg_s = be32_to_cpu(p->max_segment_size);
Lars Ellenberg	8979d9c	2010-09-14 15:56:29 +0200	[diff] [blame]	2973	else if (mdev->agreed_pro_version == 94)
				2974	max_seg_s = DRBD_MAX_SIZE_H80_PACKET;
Lars Ellenberg	a1c88d0	2010-05-14 19:16:41 +0200	[diff] [blame]	2975	else /* drbd 8.3.8 onwards */
				2976	max_seg_s = DRBD_MAX_SEGMENT_SIZE;
				2977
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2978	if (max_seg_s != queue_max_segment_size(mdev->rq_queue))
				2979	drbd_setup_queue_param(mdev, max_seg_s);
				2980
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	2981	drbd_setup_order_type(mdev, be16_to_cpu(p->queue_order_type));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2982	put_ldev(mdev);
				2983	}
				2984
				2985	if (mdev->state.conn > C_WF_REPORT_PARAMS) {
				2986	if (be64_to_cpu(p->c_size) !=
				2987	drbd_get_capacity(mdev->this_bdev) \|\| ldsc) {
				2988	/* we have different sizes, probably peer
				2989	* needs to know my new size... */
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	2990	drbd_send_sizes(mdev, 0, ddsf);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2991	}
				2992	if (test_and_clear_bit(RESIZE_PENDING, &mdev->flags) \|\|
				2993	(dd == grew && mdev->state.conn == C_CONNECTED)) {
				2994	if (mdev->state.pdsk >= D_INCONSISTENT &&
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	2995	mdev->state.disk >= D_INCONSISTENT) {
				2996	if (ddsf & DDSF_NO_RESYNC)
				2997	dev_info(DEV, "Resync of new storage suppressed with --assume-clean\n");
				2998	else
				2999	resync_after_online_grow(mdev);
				3000	} else
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3001	set_bit(RESYNC_AFTER_NEG, &mdev->flags);
				3002	}
				3003	}
				3004
				3005	return TRUE;
				3006	}
				3007
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3008	static int receive_uuids(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3009	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3010	struct p_uuids *p = &mdev->data.rbuf.uuids;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3011	u64 *p_uuid;
				3012	int i;
				3013
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3014	p_uuid = kmalloc(sizeof(u64)*UI_EXTENDED_SIZE, GFP_NOIO);
				3015
				3016	for (i = UI_CURRENT; i < UI_EXTENDED_SIZE; i++)
				3017	p_uuid[i] = be64_to_cpu(p->uuid[i]);
				3018
				3019	kfree(mdev->p_uuid);
				3020	mdev->p_uuid = p_uuid;
				3021
				3022	if (mdev->state.conn < C_CONNECTED &&
				3023	mdev->state.disk < D_INCONSISTENT &&
				3024	mdev->state.role == R_PRIMARY &&
				3025	(mdev->ed_uuid & ~((u64)1)) != (p_uuid[UI_CURRENT] & ~((u64)1))) {
				3026	dev_err(DEV, "Can only connect to data with current UUID=%016llX\n",
				3027	(unsigned long long)mdev->ed_uuid);
				3028	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				3029	return FALSE;
				3030	}
				3031
				3032	if (get_ldev(mdev)) {
				3033	int skip_initial_sync =
				3034	mdev->state.conn == C_CONNECTED &&
				3035	mdev->agreed_pro_version >= 90 &&
				3036	mdev->ldev->md.uuid[UI_CURRENT] == UUID_JUST_CREATED &&
				3037	(p_uuid[UI_FLAGS] & 8);
				3038	if (skip_initial_sync) {
				3039	dev_info(DEV, "Accepted new current UUID, preparing to skip initial sync\n");
				3040	drbd_bitmap_io(mdev, &drbd_bmio_clear_n_write,
				3041	"clear_n_write from receive_uuids");
				3042	_drbd_uuid_set(mdev, UI_CURRENT, p_uuid[UI_CURRENT]);
				3043	_drbd_uuid_set(mdev, UI_BITMAP, 0);
				3044	_drbd_set_state(_NS2(mdev, disk, D_UP_TO_DATE, pdsk, D_UP_TO_DATE),
				3045	CS_VERBOSE, NULL);
				3046	drbd_md_sync(mdev);
				3047	}
				3048	put_ldev(mdev);
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	3049	} else if (mdev->state.disk < D_INCONSISTENT &&
				3050	mdev->state.role == R_PRIMARY) {
				3051	/* I am a diskless primary, the peer just created a new current UUID
				3052	for me. */
				3053	drbd_set_ed_uuid(mdev, p_uuid[UI_CURRENT]);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3054	}
				3055
				3056	/* Before we test for the disk state, we should wait until an eventually
				3057	ongoing cluster wide state change is finished. That is important if
				3058	we are primary and are detaching from our disk. We need to see the
				3059	new disk state... */
				3060	wait_event(mdev->misc_wait, !test_bit(CLUSTER_ST_CHANGE, &mdev->flags));
				3061	if (mdev->state.conn >= C_CONNECTED && mdev->state.disk < D_INCONSISTENT)
				3062	drbd_set_ed_uuid(mdev, p_uuid[UI_CURRENT]);
				3063
				3064	return TRUE;
				3065	}
				3066
				3067	/**
				3068	* convert_state() - Converts the peer's view of the cluster state to our point of view
				3069	* @ps: The state as seen by the peer.
				3070	*/
				3071	static union drbd_state convert_state(union drbd_state ps)
				3072	{
				3073	union drbd_state ms;
				3074
				3075	static enum drbd_conns c_tab[] = {
				3076	[C_CONNECTED] = C_CONNECTED,
				3077
				3078	[C_STARTING_SYNC_S] = C_STARTING_SYNC_T,
				3079	[C_STARTING_SYNC_T] = C_STARTING_SYNC_S,
				3080	[C_DISCONNECTING] = C_TEAR_DOWN, /* C_NETWORK_FAILURE, */
				3081	[C_VERIFY_S] = C_VERIFY_T,
				3082	[C_MASK] = C_MASK,
				3083	};
				3084
				3085	ms.i = ps.i;
				3086
				3087	ms.conn = c_tab[ps.conn];
				3088	ms.peer = ps.role;
				3089	ms.role = ps.peer;
				3090	ms.pdsk = ps.disk;
				3091	ms.disk = ps.pdsk;
				3092	ms.peer_isp = (ps.aftr_isp \| ps.user_isp);
				3093
				3094	return ms;
				3095	}
				3096
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3097	static int receive_req_state(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3098	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3099	struct p_req_state *p = &mdev->data.rbuf.req_state;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3100	union drbd_state mask, val;
				3101	int rv;
				3102
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3103	mask.i = be32_to_cpu(p->mask);
				3104	val.i = be32_to_cpu(p->val);
				3105
				3106	if (test_bit(DISCARD_CONCURRENT, &mdev->flags) &&
				3107	test_bit(CLUSTER_ST_CHANGE, &mdev->flags)) {
				3108	drbd_send_sr_reply(mdev, SS_CONCURRENT_ST_CHG);
				3109	return TRUE;
				3110	}
				3111
				3112	mask = convert_state(mask);
				3113	val = convert_state(val);
				3114
				3115	rv = drbd_change_state(mdev, CS_VERBOSE, mask, val);
				3116
				3117	drbd_send_sr_reply(mdev, rv);
				3118	drbd_md_sync(mdev);
				3119
				3120	return TRUE;
				3121	}
				3122
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3123	static int receive_state(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3124	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3125	struct p_state *p = &mdev->data.rbuf.state;
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3126	union drbd_state os, ns, peer_state;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3127	enum drbd_disk_state real_peer_disk;
Philipp Reisner	65d922c	2010-06-16 16:18:09 +0200	[diff] [blame]	3128	enum chg_state_flags cs_flags;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3129	int rv;
				3130
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3131	peer_state.i = be32_to_cpu(p->state);
				3132
				3133	real_peer_disk = peer_state.disk;
				3134	if (peer_state.disk == D_NEGOTIATING) {
				3135	real_peer_disk = mdev->p_uuid[UI_FLAGS] & 4 ? D_INCONSISTENT : D_CONSISTENT;
				3136	dev_info(DEV, "real peer disk state = %s\n", drbd_disk_str(real_peer_disk));
				3137	}
				3138
				3139	spin_lock_irq(&mdev->req_lock);
				3140	retry:
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3141	os = ns = mdev->state;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3142	spin_unlock_irq(&mdev->req_lock);
				3143
Lars Ellenberg	e9ef7bb	2010-10-07 15:55:39 +0200	[diff] [blame]	3144	/* peer says his disk is uptodate, while we think it is inconsistent,
				3145	* and this happens while we think we have a sync going on. */
				3146	if (os.pdsk == D_INCONSISTENT && real_peer_disk == D_UP_TO_DATE &&
				3147	os.conn > C_CONNECTED && os.disk == D_UP_TO_DATE) {
				3148	/* If we are (becoming) SyncSource, but peer is still in sync
				3149	* preparation, ignore its uptodate-ness to avoid flapping, it
				3150	* will change to inconsistent once the peer reaches active
				3151	* syncing states.
				3152	* It may have changed syncer-paused flags, however, so we
				3153	* cannot ignore this completely. */
				3154	if (peer_state.conn > C_CONNECTED &&
				3155	peer_state.conn < C_SYNC_SOURCE)
				3156	real_peer_disk = D_INCONSISTENT;
				3157
				3158	/* if peer_state changes to connected at the same time,
				3159	* it explicitly notifies us that it finished resync.
				3160	* Maybe we should finish it up, too? */
				3161	else if (os.conn >= C_SYNC_SOURCE &&
				3162	peer_state.conn == C_CONNECTED) {
				3163	if (drbd_bm_total_weight(mdev) <= mdev->rs_failed)
				3164	drbd_resync_finished(mdev);
				3165	return TRUE;
				3166	}
				3167	}
				3168
				3169	/* peer says his disk is inconsistent, while we think it is uptodate,
				3170	* and this happens while the peer still thinks we have a sync going on,
				3171	* but we think we are already done with the sync.
				3172	* We ignore this to avoid flapping pdsk.
				3173	* This should not happen, if the peer is a recent version of drbd. */
				3174	if (os.pdsk == D_UP_TO_DATE && real_peer_disk == D_INCONSISTENT &&
				3175	os.conn == C_CONNECTED && peer_state.conn > C_SYNC_SOURCE)
				3176	real_peer_disk = D_UP_TO_DATE;
				3177
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3178	if (ns.conn == C_WF_REPORT_PARAMS)
				3179	ns.conn = C_CONNECTED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3180
				3181	if (mdev->p_uuid && peer_state.disk >= D_NEGOTIATING &&
				3182	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				3183	int cr; /* consider resync */
				3184
				3185	/* if we established a new connection */
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3186	cr = (os.conn < C_CONNECTED);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3187	/* if we had an established connection
				3188	* and one of the nodes newly attaches a disk */
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3189	cr \|= (os.conn == C_CONNECTED &&
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3190	(peer_state.disk == D_NEGOTIATING \|\|
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3191	os.disk == D_NEGOTIATING));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3192	/* if we have both been inconsistent, and the peer has been
				3193	* forced to be UpToDate with --overwrite-data */
				3194	cr \|= test_bit(CONSIDER_RESYNC, &mdev->flags);
				3195	/* if we had been plain connected, and the admin requested to
				3196	* start a sync by "invalidate" or "invalidate-remote" */
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3197	cr \|= (os.conn == C_CONNECTED &&
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3198	(peer_state.conn >= C_STARTING_SYNC_S &&
				3199	peer_state.conn <= C_WF_BITMAP_T));
				3200
				3201	if (cr)
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3202	ns.conn = drbd_sync_handshake(mdev, peer_state.role, real_peer_disk);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3203
				3204	put_ldev(mdev);
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3205	if (ns.conn == C_MASK) {
				3206	ns.conn = C_CONNECTED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3207	if (mdev->state.disk == D_NEGOTIATING) {
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	3208	drbd_force_state(mdev, NS(disk, D_FAILED));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3209	} else if (peer_state.disk == D_NEGOTIATING) {
				3210	dev_err(DEV, "Disk attach process on the peer node was aborted.\n");
				3211	peer_state.disk = D_DISKLESS;
Lars Ellenberg	580b976	2010-02-26 23:15:23 +0100	[diff] [blame]	3212	real_peer_disk = D_DISKLESS;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3213	} else {
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	3214	if (test_and_clear_bit(CONN_DRY_RUN, &mdev->flags))
				3215	return FALSE;
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3216	D_ASSERT(os.conn == C_WF_REPORT_PARAMS);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3217	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				3218	return FALSE;
				3219	}
				3220	}
				3221	}
				3222
				3223	spin_lock_irq(&mdev->req_lock);
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3224	if (mdev->state.i != os.i)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3225	goto retry;
				3226	clear_bit(CONSIDER_RESYNC, &mdev->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3227	ns.peer = peer_state.role;
				3228	ns.pdsk = real_peer_disk;
				3229	ns.peer_isp = (peer_state.aftr_isp \| peer_state.user_isp);
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3230	if ((ns.conn == C_CONNECTED \|\| ns.conn == C_WF_BITMAP_S) && ns.disk == D_NEGOTIATING)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3231	ns.disk = mdev->new_state_tmp.disk;
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3232	cs_flags = CS_VERBOSE + (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED ? 0 : CS_HARD);
				3233	if (ns.pdsk == D_CONSISTENT && is_susp(ns) && ns.conn == C_CONNECTED && os.conn < C_CONNECTED &&
Philipp Reisner	481c6f5	2010-06-22 14:03:27 +0200	[diff] [blame]	3234	test_bit(NEW_CUR_UUID, &mdev->flags)) {
				3235	/* Do not allow tl_restart(resend) for a rebooted peer. We can only allow this
				3236	for temporal network outages! */
				3237	spin_unlock_irq(&mdev->req_lock);
				3238	dev_err(DEV, "Aborting Connect, can not thaw IO with an only Consistent peer\n");
				3239	tl_clear(mdev);
				3240	drbd_uuid_new_current(mdev);
				3241	clear_bit(NEW_CUR_UUID, &mdev->flags);
				3242	drbd_force_state(mdev, NS2(conn, C_PROTOCOL_ERROR, susp, 0));
				3243	return FALSE;
				3244	}
Philipp Reisner	65d922c	2010-06-16 16:18:09 +0200	[diff] [blame]	3245	rv = _drbd_set_state(mdev, ns, cs_flags, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3246	ns = mdev->state;
				3247	spin_unlock_irq(&mdev->req_lock);
				3248
				3249	if (rv < SS_SUCCESS) {
				3250	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				3251	return FALSE;
				3252	}
				3253
Lars Ellenberg	4ac4aad	2010-07-22 17:39:26 +0200	[diff] [blame]	3254	if (os.conn > C_WF_REPORT_PARAMS) {
				3255	if (ns.conn > C_CONNECTED && peer_state.conn <= C_CONNECTED &&
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3256	peer_state.disk != D_NEGOTIATING ) {
				3257	/* we want resync, peer has not yet decided to sync... */
				3258	/* Nowadays only used when forcing a node into primary role and
				3259	setting its disk to UpToDate with that */
				3260	drbd_send_uuids(mdev);
				3261	drbd_send_state(mdev);
				3262	}
				3263	}
				3264
				3265	mdev->net_conf->want_lose = 0;
				3266
				3267	drbd_md_sync(mdev); /* update connected indicator, la_size, ... */
				3268
				3269	return TRUE;
				3270	}
				3271
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3272	static int receive_sync_uuid(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3273	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3274	struct p_rs_uuid *p = &mdev->data.rbuf.rs_uuid;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3275
				3276	wait_event(mdev->misc_wait,
				3277	mdev->state.conn == C_WF_SYNC_UUID \|\|
				3278	mdev->state.conn < C_CONNECTED \|\|
				3279	mdev->state.disk < D_NEGOTIATING);
				3280
				3281	/* D_ASSERT( mdev->state.conn == C_WF_SYNC_UUID ); */
				3282
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3283	/* Here the _drbd_uuid_ functions are right, current should
				3284	_not_ be rotated into the history */
				3285	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				3286	_drbd_uuid_set(mdev, UI_CURRENT, be64_to_cpu(p->uuid));
				3287	_drbd_uuid_set(mdev, UI_BITMAP, 0UL);
				3288
				3289	drbd_start_resync(mdev, C_SYNC_TARGET);
				3290
				3291	put_ldev(mdev);
				3292	} else
				3293	dev_err(DEV, "Ignoring SyncUUID packet!\n");
				3294
				3295	return TRUE;
				3296	}
				3297
				3298	enum receive_bitmap_ret { OK, DONE, FAILED };
				3299
				3300	static enum receive_bitmap_ret
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3301	receive_bitmap_plain(struct drbd_conf *mdev, unsigned int data_size,
				3302	unsigned long buffer, struct bm_xfer_ctx c)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3303	{
				3304	unsigned num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				3305	unsigned want = num_words * sizeof(long);
				3306
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3307	if (want != data_size) {
				3308	dev_err(DEV, "%s:want (%u) != data_size (%u)\n", __func__, want, data_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3309	return FAILED;
				3310	}
				3311	if (want == 0)
				3312	return DONE;
				3313	if (drbd_recv(mdev, buffer, want) != want)
				3314	return FAILED;
				3315
				3316	drbd_bm_merge_lel(mdev, c->word_offset, num_words, buffer);
				3317
				3318	c->word_offset += num_words;
				3319	c->bit_offset = c->word_offset * BITS_PER_LONG;
				3320	if (c->bit_offset > c->bm_bits)
				3321	c->bit_offset = c->bm_bits;
				3322
				3323	return OK;
				3324	}
				3325
				3326	static enum receive_bitmap_ret
				3327	recv_bm_rle_bits(struct drbd_conf *mdev,
				3328	struct p_compressed_bm *p,
				3329	struct bm_xfer_ctx *c)
				3330	{
				3331	struct bitstream bs;
				3332	u64 look_ahead;
				3333	u64 rl;
				3334	u64 tmp;
				3335	unsigned long s = c->bit_offset;
				3336	unsigned long e;
Lars Ellenberg	004352f	2010-10-05 20:13:58 +0200	[diff] [blame]	3337	int len = be16_to_cpu(p->head.length) - (sizeof(*p) - sizeof(p->head));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3338	int toggle = DCBP_get_start(p);
				3339	int have;
				3340	int bits;
				3341
				3342	bitstream_init(&bs, p->code, len, DCBP_get_pad_bits(p));
				3343
				3344	bits = bitstream_get_bits(&bs, &look_ahead, 64);
				3345	if (bits < 0)
				3346	return FAILED;
				3347
				3348	for (have = bits; have > 0; s += rl, toggle = !toggle) {
				3349	bits = vli_decode_bits(&rl, look_ahead);
				3350	if (bits <= 0)
				3351	return FAILED;
				3352
				3353	if (toggle) {
				3354	e = s + rl -1;
				3355	if (e >= c->bm_bits) {
				3356	dev_err(DEV, "bitmap overflow (e:%lu) while decoding bm RLE packet\n", e);
				3357	return FAILED;
				3358	}
				3359	_drbd_bm_set_bits(mdev, s, e);
				3360	}
				3361
				3362	if (have < bits) {
				3363	dev_err(DEV, "bitmap decoding error: h:%d b:%d la:0x%08llx l:%u/%u\n",
				3364	have, bits, look_ahead,
				3365	(unsigned int)(bs.cur.b - p->code),
				3366	(unsigned int)bs.buf_len);
				3367	return FAILED;
				3368	}
				3369	look_ahead >>= bits;
				3370	have -= bits;
				3371
				3372	bits = bitstream_get_bits(&bs, &tmp, 64 - have);
				3373	if (bits < 0)
				3374	return FAILED;
				3375	look_ahead \|= tmp << have;
				3376	have += bits;
				3377	}
				3378
				3379	c->bit_offset = s;
				3380	bm_xfer_ctx_bit_to_word_offset(c);
				3381
				3382	return (s == c->bm_bits) ? DONE : OK;
				3383	}
				3384
				3385	static enum receive_bitmap_ret
				3386	decode_bitmap_c(struct drbd_conf *mdev,
				3387	struct p_compressed_bm *p,
				3388	struct bm_xfer_ctx *c)
				3389	{
				3390	if (DCBP_get_code(p) == RLE_VLI_Bits)
				3391	return recv_bm_rle_bits(mdev, p, c);
				3392
				3393	/* other variants had been implemented for evaluation,
				3394	* but have been dropped as this one turned out to be "best"
				3395	* during all our tests. */
				3396
				3397	dev_err(DEV, "receive_bitmap_c: unknown encoding %u\n", p->encoding);
				3398	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				3399	return FAILED;
				3400	}
				3401
				3402	void INFO_bm_xfer_stats(struct drbd_conf *mdev,
				3403	const char direction, struct bm_xfer_ctx c)
				3404	{
				3405	/* what would it take to transfer it "plaintext" */
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	3406	unsigned plain = sizeof(struct p_header80) *
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3407	((c->bm_words+BM_PACKET_WORDS-1)/BM_PACKET_WORDS+1)
				3408	+ c->bm_words * sizeof(long);
				3409	unsigned total = c->bytes[0] + c->bytes[1];
				3410	unsigned r;
				3411
				3412	/* total can not be zero. but just in case: */
				3413	if (total == 0)
				3414	return;
				3415
				3416	/* don't report if not compressed */
				3417	if (total >= plain)
				3418	return;
				3419
				3420	/* total < plain. check for overflow, still */
				3421	r = (total > UINT_MAX/1000) ? (total / (plain/1000))
				3422	: (1000 * total / plain);
				3423
				3424	if (r > 1000)
				3425	r = 1000;
				3426
				3427	r = 1000 - r;
				3428	dev_info(DEV, "%s bitmap stats [Bytes(packets)]: plain %u(%u), RLE %u(%u), "
				3429	"total %u; compression: %u.%u%%\n",
				3430	direction,
				3431	c->bytes[1], c->packets[1],
				3432	c->bytes[0], c->packets[0],
				3433	total, r/10, r % 10);
				3434	}
				3435
				3436	/* Since we are processing the bitfield from lower addresses to higher,
				3437	it does not matter if the process it in 32 bit chunks or 64 bit
				3438	chunks as long as it is little endian. (Understand it as byte stream,
				3439	beginning with the lowest byte...) If we would use big endian
				3440	we would need to process it from the highest address to the lowest,
				3441	in order to be agnostic to the 32 vs 64 bits issue.
				3442
				3443	returns 0 on failure, 1 if we successfully received it. */
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3444	static int receive_bitmap(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3445	{
				3446	struct bm_xfer_ctx c;
				3447	void *buffer;
				3448	enum receive_bitmap_ret ret;
				3449	int ok = FALSE;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3450	struct p_header80 *h = &mdev->data.rbuf.header.h80;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3451
				3452	wait_event(mdev->misc_wait, !atomic_read(&mdev->ap_bio_cnt));
				3453
				3454	drbd_bm_lock(mdev, "receive bitmap");
				3455
				3456	/* maybe we should use some per thread scratch page,
				3457	* and allocate that during initial device creation? */
				3458	buffer = (unsigned long *) __get_free_page(GFP_NOIO);
				3459	if (!buffer) {
				3460	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				3461	goto out;
				3462	}
				3463
				3464	c = (struct bm_xfer_ctx) {
				3465	.bm_bits = drbd_bm_bits(mdev),
				3466	.bm_words = drbd_bm_words(mdev),
				3467	};
				3468
				3469	do {
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3470	if (cmd == P_BITMAP) {
				3471	ret = receive_bitmap_plain(mdev, data_size, buffer, &c);
				3472	} else if (cmd == P_COMPRESSED_BITMAP) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3473	/* MAYBE: sanity check that we speak proto >= 90,
				3474	* and the feature is enabled! */
				3475	struct p_compressed_bm *p;
				3476
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3477	if (data_size > BM_PACKET_PAYLOAD_BYTES) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3478	dev_err(DEV, "ReportCBitmap packet too large\n");
				3479	goto out;
				3480	}
				3481	/* use the page buff */
				3482	p = buffer;
				3483	memcpy(p, h, sizeof(*h));
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3484	if (drbd_recv(mdev, p->head.payload, data_size) != data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3485	goto out;
Lars Ellenberg	004352f	2010-10-05 20:13:58 +0200	[diff] [blame]	3486	if (data_size <= (sizeof(*p) - sizeof(p->head))) {
				3487	dev_err(DEV, "ReportCBitmap packet too small (l:%u)\n", data_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3488	return FAILED;
				3489	}
				3490	ret = decode_bitmap_c(mdev, p, &c);
				3491	} else {
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3492	dev_warn(DEV, "receive_bitmap: cmd neither ReportBitMap nor ReportCBitMap (is 0x%x)", cmd);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3493	goto out;
				3494	}
				3495
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3496	c.packets[cmd == P_BITMAP]++;
				3497	c.bytes[cmd == P_BITMAP] += sizeof(struct p_header80) + data_size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3498
				3499	if (ret != OK)
				3500	break;
				3501
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3502	if (!drbd_recv_header(mdev, &cmd, &data_size))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3503	goto out;
				3504	} while (ret == OK);
				3505	if (ret == FAILED)
				3506	goto out;
				3507
				3508	INFO_bm_xfer_stats(mdev, "receive", &c);
				3509
				3510	if (mdev->state.conn == C_WF_BITMAP_T) {
				3511	ok = !drbd_send_bitmap(mdev);
				3512	if (!ok)
				3513	goto out;
				3514	/* Omit CS_ORDERED with this state transition to avoid deadlocks. */
				3515	ok = _drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				3516	D_ASSERT(ok == SS_SUCCESS);
				3517	} else if (mdev->state.conn != C_WF_BITMAP_S) {
				3518	/* admin may have requested C_DISCONNECTING,
				3519	* other threads may have noticed network errors */
				3520	dev_info(DEV, "unexpected cstate (%s) in receive_bitmap\n",
				3521	drbd_conn_str(mdev->state.conn));
				3522	}
				3523
				3524	ok = TRUE;
				3525	out:
				3526	drbd_bm_unlock(mdev);
				3527	if (ok && mdev->state.conn == C_WF_BITMAP_S)
				3528	drbd_start_resync(mdev, C_SYNC_SOURCE);
				3529	free_page((unsigned long) buffer);
				3530	return ok;
				3531	}
				3532
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3533	static int receive_skip(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3534	{
				3535	/* TODO zero copy sink :) */
				3536	static char sink[128];
				3537	int size, want, r;
				3538
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3539	dev_warn(DEV, "skipping unknown optional packet type %d, l: %d!\n",
				3540	cmd, data_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3541
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3542	size = data_size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3543	while (size > 0) {
				3544	want = min_t(int, size, sizeof(sink));
				3545	r = drbd_recv(mdev, sink, want);
				3546	ERR_IF(r <= 0) break;
				3547	size -= r;
				3548	}
				3549	return size == 0;
				3550	}
				3551
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3552	static int receive_UnplugRemote(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3553	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3554	/* Make sure we've acked all the TCP data associated
				3555	* with the data requests being unplugged */
				3556	drbd_tcp_quickack(mdev->data.socket);
				3557
				3558	return TRUE;
				3559	}
				3560
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3561	typedef int (drbd_cmd_handler_f)(struct drbd_conf , enum drbd_packets cmd, unsigned int to_receive);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3562
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3563	struct data_cmd {
				3564	int expect_payload;
				3565	size_t pkt_size;
				3566	drbd_cmd_handler_f function;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3567	};
				3568
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3569	static struct data_cmd drbd_cmd_handler[] = {
				3570	[P_DATA] = { 1, sizeof(struct p_data), receive_Data },
				3571	[P_DATA_REPLY] = { 1, sizeof(struct p_data), receive_DataReply },
				3572	[P_RS_DATA_REPLY] = { 1, sizeof(struct p_data), receive_RSDataReply } ,
				3573	[P_BARRIER] = { 0, sizeof(struct p_barrier), receive_Barrier } ,
				3574	[P_BITMAP] = { 1, sizeof(struct p_header80), receive_bitmap } ,
				3575	[P_COMPRESSED_BITMAP] = { 1, sizeof(struct p_header80), receive_bitmap } ,
				3576	[P_UNPLUG_REMOTE] = { 0, sizeof(struct p_header80), receive_UnplugRemote },
				3577	[P_DATA_REQUEST] = { 0, sizeof(struct p_block_req), receive_DataRequest },
				3578	[P_RS_DATA_REQUEST] = { 0, sizeof(struct p_block_req), receive_DataRequest },
				3579	[P_SYNC_PARAM] = { 1, sizeof(struct p_header80), receive_SyncParam },
				3580	[P_SYNC_PARAM89] = { 1, sizeof(struct p_header80), receive_SyncParam },
				3581	[P_PROTOCOL] = { 1, sizeof(struct p_protocol), receive_protocol },
				3582	[P_UUIDS] = { 0, sizeof(struct p_uuids), receive_uuids },
				3583	[P_SIZES] = { 0, sizeof(struct p_sizes), receive_sizes },
				3584	[P_STATE] = { 0, sizeof(struct p_state), receive_state },
				3585	[P_STATE_CHG_REQ] = { 0, sizeof(struct p_req_state), receive_req_state },
				3586	[P_SYNC_UUID] = { 0, sizeof(struct p_rs_uuid), receive_sync_uuid },
				3587	[P_OV_REQUEST] = { 0, sizeof(struct p_block_req), receive_DataRequest },
				3588	[P_OV_REPLY] = { 1, sizeof(struct p_block_req), receive_DataRequest },
				3589	[P_CSUM_RS_REQUEST] = { 1, sizeof(struct p_block_req), receive_DataRequest },
				3590	[P_DELAY_PROBE] = { 0, sizeof(struct p_delay_probe93), receive_skip },
				3591	/* anything missing from this table is in
				3592	* the asender_tbl, see get_asender_cmd */
				3593	[P_MAX_CMD] = { 0, 0, NULL },
				3594	};
				3595
				3596	/* All handler functions that expect a sub-header get that sub-heder in
				3597	mdev->data.rbuf.header.head.payload.
				3598
				3599	Usually in mdev->data.rbuf.header.head the callback can find the usual
				3600	p_header, but they may not rely on that. Since there is also p_header95 !
				3601	*/
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3602
				3603	static void drbdd(struct drbd_conf *mdev)
				3604	{
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3605	union p_header *header = &mdev->data.rbuf.header;
				3606	unsigned int packet_size;
				3607	enum drbd_packets cmd;
				3608	size_t shs; /* sub header size */
				3609	int rv;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3610
				3611	while (get_t_state(&mdev->receiver) == Running) {
				3612	drbd_thread_current_set_cpu(mdev);
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3613	if (!drbd_recv_header(mdev, &cmd, &packet_size))
				3614	goto err_out;
				3615
				3616	if (unlikely(cmd >= P_MAX_CMD \|\| !drbd_cmd_handler[cmd].function)) {
				3617	dev_err(DEV, "unknown packet type %d, l: %d!\n", cmd, packet_size);
				3618	goto err_out;
Lars Ellenberg	0b33a91	2009-11-16 15:58:04 +0100	[diff] [blame]	3619	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3620
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3621	shs = drbd_cmd_handler[cmd].pkt_size - sizeof(union p_header);
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3622	if (packet_size - shs > 0 && !drbd_cmd_handler[cmd].expect_payload) {
				3623	dev_err(DEV, "No payload expected %s l:%d\n", cmdname(cmd), packet_size);
				3624	goto err_out;
				3625	}
				3626
Lars Ellenberg	c13f7e1	2010-10-29 23:32:01 +0200	[diff] [blame]	3627	if (shs) {
				3628	rv = drbd_recv(mdev, &header->h80.payload, shs);
				3629	if (unlikely(rv != shs)) {
				3630	dev_err(DEV, "short read while reading sub header: rv=%d\n", rv);
				3631	goto err_out;
				3632	}
				3633	}
				3634
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3635	rv = drbd_cmd_handler[cmd].function(mdev, cmd, packet_size - shs);
				3636
				3637	if (unlikely(!rv)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3638	dev_err(DEV, "error receiving %s, l: %d!\n",
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3639	cmdname(cmd), packet_size);
				3640	goto err_out;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3641	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3642	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3643
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3644	if (0) {
				3645	err_out:
				3646	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3647	}
Lars Ellenberg	856c50c	2010-10-14 13:37:40 +0200	[diff] [blame]	3648	/* If we leave here, we probably want to update at least the
				3649	* "Connected" indicator on stable storage. Do so explicitly here. */
				3650	drbd_md_sync(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3651	}
				3652
				3653	void drbd_flush_workqueue(struct drbd_conf *mdev)
				3654	{
				3655	struct drbd_wq_barrier barr;
				3656
				3657	barr.w.cb = w_prev_work_done;
				3658	init_completion(&barr.done);
				3659	drbd_queue_work(&mdev->data.work, &barr.w);
				3660	wait_for_completion(&barr.done);
				3661	}
				3662
Philipp Reisner	f70b3511	2010-06-24 14:34:40 +0200	[diff] [blame]	3663	void drbd_free_tl_hash(struct drbd_conf *mdev)
				3664	{
				3665	struct hlist_head *h;
				3666
				3667	spin_lock_irq(&mdev->req_lock);
				3668
				3669	if (!mdev->tl_hash \|\| mdev->state.conn != C_STANDALONE) {
				3670	spin_unlock_irq(&mdev->req_lock);
				3671	return;
				3672	}
				3673	/* paranoia code */
				3674	for (h = mdev->ee_hash; h < mdev->ee_hash + mdev->ee_hash_s; h++)
				3675	if (h->first)
				3676	dev_err(DEV, "ASSERT FAILED ee_hash[%u].first == %p, expected NULL\n",
				3677	(int)(h - mdev->ee_hash), h->first);
				3678	kfree(mdev->ee_hash);
				3679	mdev->ee_hash = NULL;
				3680	mdev->ee_hash_s = 0;
				3681
				3682	/* paranoia code */
				3683	for (h = mdev->tl_hash; h < mdev->tl_hash + mdev->tl_hash_s; h++)
				3684	if (h->first)
				3685	dev_err(DEV, "ASSERT FAILED tl_hash[%u] == %p, expected NULL\n",
				3686	(int)(h - mdev->tl_hash), h->first);
				3687	kfree(mdev->tl_hash);
				3688	mdev->tl_hash = NULL;
				3689	mdev->tl_hash_s = 0;
				3690	spin_unlock_irq(&mdev->req_lock);
				3691	}
				3692
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3693	static void drbd_disconnect(struct drbd_conf *mdev)
				3694	{
				3695	enum drbd_fencing_p fp;
				3696	union drbd_state os, ns;
				3697	int rv = SS_UNKNOWN_ERROR;
				3698	unsigned int i;
				3699
				3700	if (mdev->state.conn == C_STANDALONE)
				3701	return;
				3702	if (mdev->state.conn >= C_WF_CONNECTION)
				3703	dev_err(DEV, "ASSERT FAILED cstate = %s, expected < WFConnection\n",
				3704	drbd_conn_str(mdev->state.conn));
				3705
				3706	/* asender does not clean up anything. it must not interfere, either */
				3707	drbd_thread_stop(&mdev->asender);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3708	drbd_free_sock(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3709
Philipp Reisner	8571957	2010-07-21 10:20:17 +0200	[diff] [blame]	3710	/* wait for current activity to cease. */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3711	spin_lock_irq(&mdev->req_lock);
				3712	_drbd_wait_ee_list_empty(mdev, &mdev->active_ee);
				3713	_drbd_wait_ee_list_empty(mdev, &mdev->sync_ee);
				3714	_drbd_wait_ee_list_empty(mdev, &mdev->read_ee);
				3715	spin_unlock_irq(&mdev->req_lock);
				3716
				3717	/* We do not have data structures that would allow us to
				3718	* get the rs_pending_cnt down to 0 again.
				3719	* * On C_SYNC_TARGET we do not have any data structures describing
				3720	* the pending RSDataRequest's we have sent.
				3721	* * On C_SYNC_SOURCE there is no data structure that tracks
				3722	* the P_RS_DATA_REPLY blocks that we sent to the SyncTarget.
				3723	* And no, it is not the sum of the reference counts in the
				3724	* resync_LRU. The resync_LRU tracks the whole operation including
				3725	* the disk-IO, while the rs_pending_cnt only tracks the blocks
				3726	* on the fly. */
				3727	drbd_rs_cancel_all(mdev);
				3728	mdev->rs_total = 0;
				3729	mdev->rs_failed = 0;
				3730	atomic_set(&mdev->rs_pending_cnt, 0);
				3731	wake_up(&mdev->misc_wait);
				3732
				3733	/* make sure syncer is stopped and w_resume_next_sg queued */
				3734	del_timer_sync(&mdev->resync_timer);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3735	resync_timer_fn((unsigned long)mdev);
				3736
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3737	/* wait for all w_e_end_data_req, w_e_end_rsdata_req, w_send_barrier,
				3738	* w_make_resync_request etc. which may still be on the worker queue
				3739	* to be "canceled" */
				3740	drbd_flush_workqueue(mdev);
				3741
				3742	/* This also does reclaim_net_ee(). If we do this too early, we might
				3743	* miss some resync ee and pages.*/
				3744	drbd_process_done_ee(mdev);
				3745
				3746	kfree(mdev->p_uuid);
				3747	mdev->p_uuid = NULL;
				3748
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	3749	if (!is_susp(mdev->state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3750	tl_clear(mdev);
				3751
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3752	dev_info(DEV, "Connection closed\n");
				3753
				3754	drbd_md_sync(mdev);
				3755
				3756	fp = FP_DONT_CARE;
				3757	if (get_ldev(mdev)) {
				3758	fp = mdev->ldev->dc.fencing;
				3759	put_ldev(mdev);
				3760	}
				3761
Philipp Reisner	87f7be4	2010-06-11 13:56:33 +0200	[diff] [blame]	3762	if (mdev->state.role == R_PRIMARY && fp >= FP_RESOURCE && mdev->state.pdsk >= D_UNKNOWN)
				3763	drbd_try_outdate_peer_async(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3764
				3765	spin_lock_irq(&mdev->req_lock);
				3766	os = mdev->state;
				3767	if (os.conn >= C_UNCONNECTED) {
				3768	/* Do not restart in case we are C_DISCONNECTING */
				3769	ns = os;
				3770	ns.conn = C_UNCONNECTED;
				3771	rv = _drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
				3772	}
				3773	spin_unlock_irq(&mdev->req_lock);
				3774
				3775	if (os.conn == C_DISCONNECTING) {
Philipp Reisner	84dfb9f	2010-06-23 11:20:05 +0200	[diff] [blame]	3776	wait_event(mdev->net_cnt_wait, atomic_read(&mdev->net_cnt) == 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3777
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	3778	if (!is_susp(mdev->state)) {
Philipp Reisner	f70b3511	2010-06-24 14:34:40 +0200	[diff] [blame]	3779	/* we must not free the tl_hash
				3780	* while application io is still on the fly */
				3781	wait_event(mdev->misc_wait, !atomic_read(&mdev->ap_bio_cnt));
				3782	drbd_free_tl_hash(mdev);
				3783	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3784
				3785	crypto_free_hash(mdev->cram_hmac_tfm);
				3786	mdev->cram_hmac_tfm = NULL;
				3787
				3788	kfree(mdev->net_conf);
				3789	mdev->net_conf = NULL;
				3790	drbd_request_state(mdev, NS(conn, C_STANDALONE));
				3791	}
				3792
				3793	/* tcp_close and release of sendpage pages can be deferred. I don't
				3794	* want to use SO_LINGER, because apparently it can be deferred for
				3795	* more than 20 seconds (longest time I checked).
				3796	*
				3797	* Actually we don't care for exactly when the network stack does its
				3798	* put_page(), but release our reference on these pages right here.
				3799	*/
				3800	i = drbd_release_ee(mdev, &mdev->net_ee);
				3801	if (i)
				3802	dev_info(DEV, "net_ee not empty, killed %u entries\n", i);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	3803	i = atomic_read(&mdev->pp_in_use_by_net);
				3804	if (i)
				3805	dev_info(DEV, "pp_in_use_by_net = %d, expected 0\n", i);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3806	i = atomic_read(&mdev->pp_in_use);
				3807	if (i)
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	3808	dev_info(DEV, "pp_in_use = %d, expected 0\n", i);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3809
				3810	D_ASSERT(list_empty(&mdev->read_ee));
				3811	D_ASSERT(list_empty(&mdev->active_ee));
				3812	D_ASSERT(list_empty(&mdev->sync_ee));
				3813	D_ASSERT(list_empty(&mdev->done_ee));
				3814
				3815	/* ok, no more ee's on the fly, it is safe to reset the epoch_size */
				3816	atomic_set(&mdev->current_epoch->epoch_size, 0);
				3817	D_ASSERT(list_empty(&mdev->current_epoch->list));
				3818	}
				3819
				3820	/*
				3821	* We support PRO_VERSION_MIN to PRO_VERSION_MAX. The protocol version
				3822	* we can agree on is stored in agreed_pro_version.
				3823	*
				3824	* feature flags and the reserved array should be enough room for future
				3825	* enhancements of the handshake protocol, and possible plugins...
				3826	*
				3827	* for now, they are expected to be zero, but ignored.
				3828	*/
				3829	static int drbd_send_handshake(struct drbd_conf *mdev)
				3830	{
				3831	/* ASSERT current == mdev->receiver ... */
				3832	struct p_handshake *p = &mdev->data.sbuf.handshake;
				3833	int ok;
				3834
				3835	if (mutex_lock_interruptible(&mdev->data.mutex)) {
				3836	dev_err(DEV, "interrupted during initial handshake\n");
				3837	return 0; /* interrupted. not ok. */
				3838	}
				3839
				3840	if (mdev->data.socket == NULL) {
				3841	mutex_unlock(&mdev->data.mutex);
				3842	return 0;
				3843	}
				3844
				3845	memset(p, 0, sizeof(*p));
				3846	p->protocol_min = cpu_to_be32(PRO_VERSION_MIN);
				3847	p->protocol_max = cpu_to_be32(PRO_VERSION_MAX);
				3848	ok = _drbd_send_cmd( mdev, mdev->data.socket, P_HAND_SHAKE,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	3849	(struct p_header80 )p, sizeof(p), 0 );
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3850	mutex_unlock(&mdev->data.mutex);
				3851	return ok;
				3852	}
				3853
				3854	/*
				3855	* return values:
				3856	* 1 yes, we have a valid connection
				3857	* 0 oops, did not work out, please try again
				3858	* -1 peer talks different language,
				3859	* no point in trying again, please go standalone.
				3860	*/
				3861	static int drbd_do_handshake(struct drbd_conf *mdev)
				3862	{
				3863	/* ASSERT current == mdev->receiver ... */
				3864	struct p_handshake *p = &mdev->data.rbuf.handshake;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3865	const int expect = sizeof(struct p_handshake) - sizeof(struct p_header80);
				3866	unsigned int length;
				3867	enum drbd_packets cmd;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3868	int rv;
				3869
				3870	rv = drbd_send_handshake(mdev);
				3871	if (!rv)
				3872	return 0;
				3873
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3874	rv = drbd_recv_header(mdev, &cmd, &length);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3875	if (!rv)
				3876	return 0;
				3877
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3878	if (cmd != P_HAND_SHAKE) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3879	dev_err(DEV, "expected HandShake packet, received: %s (0x%04x)\n",
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3880	cmdname(cmd), cmd);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3881	return -1;
				3882	}
				3883
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3884	if (length != expect) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3885	dev_err(DEV, "expected HandShake length: %u, received: %u\n",
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3886	expect, length);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3887	return -1;
				3888	}
				3889
				3890	rv = drbd_recv(mdev, &p->head.payload, expect);
				3891
				3892	if (rv != expect) {
				3893	dev_err(DEV, "short read receiving handshake packet: l=%u\n", rv);
				3894	return 0;
				3895	}
				3896
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3897	p->protocol_min = be32_to_cpu(p->protocol_min);
				3898	p->protocol_max = be32_to_cpu(p->protocol_max);
				3899	if (p->protocol_max == 0)
				3900	p->protocol_max = p->protocol_min;
				3901
				3902	if (PRO_VERSION_MAX < p->protocol_min \|\|
				3903	PRO_VERSION_MIN > p->protocol_max)
				3904	goto incompat;
				3905
				3906	mdev->agreed_pro_version = min_t(int, PRO_VERSION_MAX, p->protocol_max);
				3907
				3908	dev_info(DEV, "Handshake successful: "
				3909	"Agreed network protocol version %d\n", mdev->agreed_pro_version);
				3910
				3911	return 1;
				3912
				3913	incompat:
				3914	dev_err(DEV, "incompatible DRBD dialects: "
				3915	"I support %d-%d, peer supports %d-%d\n",
				3916	PRO_VERSION_MIN, PRO_VERSION_MAX,
				3917	p->protocol_min, p->protocol_max);
				3918	return -1;
				3919	}
				3920
				3921	#if !defined(CONFIG_CRYPTO_HMAC) && !defined(CONFIG_CRYPTO_HMAC_MODULE)
				3922	static int drbd_do_auth(struct drbd_conf *mdev)
				3923	{
				3924	dev_err(DEV, "This kernel was build without CONFIG_CRYPTO_HMAC.\n");
				3925	dev_err(DEV, "You need to disable 'cram-hmac-alg' in drbd.conf.\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3926	return -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3927	}
				3928	#else
				3929	#define CHALLENGE_LEN 64
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3930
				3931	/* Return value:
				3932	1 - auth succeeded,
				3933	0 - failed, try again (network error),
				3934	-1 - auth failed, don't try again.
				3935	*/
				3936
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3937	static int drbd_do_auth(struct drbd_conf *mdev)
				3938	{
				3939	char my_challenge[CHALLENGE_LEN]; /* 64 Bytes... */
				3940	struct scatterlist sg;
				3941	char *response = NULL;
				3942	char *right_response = NULL;
				3943	char *peers_ch = NULL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3944	unsigned int key_len = strlen(mdev->net_conf->shared_secret);
				3945	unsigned int resp_size;
				3946	struct hash_desc desc;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3947	enum drbd_packets cmd;
				3948	unsigned int length;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3949	int rv;
				3950
				3951	desc.tfm = mdev->cram_hmac_tfm;
				3952	desc.flags = 0;
				3953
				3954	rv = crypto_hash_setkey(mdev->cram_hmac_tfm,
				3955	(u8 *)mdev->net_conf->shared_secret, key_len);
				3956	if (rv) {
				3957	dev_err(DEV, "crypto_hash_setkey() failed with %d\n", rv);
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3958	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3959	goto fail;
				3960	}
				3961
				3962	get_random_bytes(my_challenge, CHALLENGE_LEN);
				3963
				3964	rv = drbd_send_cmd2(mdev, P_AUTH_CHALLENGE, my_challenge, CHALLENGE_LEN);
				3965	if (!rv)
				3966	goto fail;
				3967
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3968	rv = drbd_recv_header(mdev, &cmd, &length);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3969	if (!rv)
				3970	goto fail;
				3971
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3972	if (cmd != P_AUTH_CHALLENGE) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3973	dev_err(DEV, "expected AuthChallenge packet, received: %s (0x%04x)\n",
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3974	cmdname(cmd), cmd);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3975	rv = 0;
				3976	goto fail;
				3977	}
				3978
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3979	if (length > CHALLENGE_LEN * 2) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3980	dev_err(DEV, "expected AuthChallenge payload too big.\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3981	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3982	goto fail;
				3983	}
				3984
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3985	peers_ch = kmalloc(length, GFP_NOIO);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3986	if (peers_ch == NULL) {
				3987	dev_err(DEV, "kmalloc of peers_ch failed\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3988	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3989	goto fail;
				3990	}
				3991
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3992	rv = drbd_recv(mdev, peers_ch, length);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3993
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	3994	if (rv != length) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3995	dev_err(DEV, "short read AuthChallenge: l=%u\n", rv);
				3996	rv = 0;
				3997	goto fail;
				3998	}
				3999
				4000	resp_size = crypto_hash_digestsize(mdev->cram_hmac_tfm);
				4001	response = kmalloc(resp_size, GFP_NOIO);
				4002	if (response == NULL) {
				4003	dev_err(DEV, "kmalloc of response failed\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	4004	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4005	goto fail;
				4006	}
				4007
				4008	sg_init_table(&sg, 1);
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	4009	sg_set_buf(&sg, peers_ch, length);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4010
				4011	rv = crypto_hash_digest(&desc, &sg, sg.length, response);
				4012	if (rv) {
				4013	dev_err(DEV, "crypto_hash_digest() failed with %d\n", rv);
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	4014	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4015	goto fail;
				4016	}
				4017
				4018	rv = drbd_send_cmd2(mdev, P_AUTH_RESPONSE, response, resp_size);
				4019	if (!rv)
				4020	goto fail;
				4021
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	4022	rv = drbd_recv_header(mdev, &cmd, &length);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4023	if (!rv)
				4024	goto fail;
				4025
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	4026	if (cmd != P_AUTH_RESPONSE) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4027	dev_err(DEV, "expected AuthResponse packet, received: %s (0x%04x)\n",
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	4028	cmdname(cmd), cmd);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4029	rv = 0;
				4030	goto fail;
				4031	}
				4032
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	4033	if (length != resp_size) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4034	dev_err(DEV, "expected AuthResponse payload of wrong size\n");
				4035	rv = 0;
				4036	goto fail;
				4037	}
				4038
				4039	rv = drbd_recv(mdev, response , resp_size);
				4040
				4041	if (rv != resp_size) {
				4042	dev_err(DEV, "short read receiving AuthResponse: l=%u\n", rv);
				4043	rv = 0;
				4044	goto fail;
				4045	}
				4046
				4047	right_response = kmalloc(resp_size, GFP_NOIO);
Julia Lawall	2d1ee87	2009-12-27 22:27:11 +0100	[diff] [blame]	4048	if (right_response == NULL) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4049	dev_err(DEV, "kmalloc of right_response failed\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	4050	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4051	goto fail;
				4052	}
				4053
				4054	sg_set_buf(&sg, my_challenge, CHALLENGE_LEN);
				4055
				4056	rv = crypto_hash_digest(&desc, &sg, sg.length, right_response);
				4057	if (rv) {
				4058	dev_err(DEV, "crypto_hash_digest() failed with %d\n", rv);
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	4059	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4060	goto fail;
				4061	}
				4062
				4063	rv = !memcmp(response, right_response, resp_size);
				4064
				4065	if (rv)
				4066	dev_info(DEV, "Peer authenticated using %d bytes of '%s' HMAC\n",
				4067	resp_size, mdev->net_conf->cram_hmac_alg);
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	4068	else
				4069	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4070
				4071	fail:
				4072	kfree(peers_ch);
				4073	kfree(response);
				4074	kfree(right_response);
				4075
				4076	return rv;
				4077	}
				4078	#endif
				4079
				4080	int drbdd_init(struct drbd_thread *thi)
				4081	{
				4082	struct drbd_conf *mdev = thi->mdev;
				4083	unsigned int minor = mdev_to_minor(mdev);
				4084	int h;
				4085
				4086	sprintf(current->comm, "drbd%d_receiver", minor);
				4087
				4088	dev_info(DEV, "receiver (re)started\n");
				4089
				4090	do {
				4091	h = drbd_connect(mdev);
				4092	if (h == 0) {
				4093	drbd_disconnect(mdev);
				4094	__set_current_state(TASK_INTERRUPTIBLE);
				4095	schedule_timeout(HZ);
				4096	}
				4097	if (h == -1) {
				4098	dev_warn(DEV, "Discarding network configuration.\n");
				4099	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				4100	}
				4101	} while (h == 0);
				4102
				4103	if (h > 0) {
				4104	if (get_net_conf(mdev)) {
				4105	drbdd(mdev);
				4106	put_net_conf(mdev);
				4107	}
				4108	}
				4109
				4110	drbd_disconnect(mdev);
				4111
				4112	dev_info(DEV, "receiver terminated\n");
				4113	return 0;
				4114	}
				4115
				4116	/* ******* acknowledge sender ****** */
				4117
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4118	static int got_RqSReply(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4119	{
				4120	struct p_req_state_reply p = (struct p_req_state_reply )h;
				4121
				4122	int retcode = be32_to_cpu(p->retcode);
				4123
				4124	if (retcode >= SS_SUCCESS) {
				4125	set_bit(CL_ST_CHG_SUCCESS, &mdev->flags);
				4126	} else {
				4127	set_bit(CL_ST_CHG_FAIL, &mdev->flags);
				4128	dev_err(DEV, "Requested state change failed by peer: %s (%d)\n",
				4129	drbd_set_st_err_str(retcode), retcode);
				4130	}
				4131	wake_up(&mdev->state_wait);
				4132
				4133	return TRUE;
				4134	}
				4135
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4136	static int got_Ping(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4137	{
				4138	return drbd_send_ping_ack(mdev);
				4139
				4140	}
				4141
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4142	static int got_PingAck(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4143	{
				4144	/* restore idle timeout */
				4145	mdev->meta.socket->sk->sk_rcvtimeo = mdev->net_conf->ping_int*HZ;
Philipp Reisner	309d160	2010-03-02 15:03:44 +0100	[diff] [blame]	4146	if (!test_and_set_bit(GOT_PING_ACK, &mdev->flags))
				4147	wake_up(&mdev->misc_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4148
				4149	return TRUE;
				4150	}
				4151
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4152	static int got_IsInSync(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4153	{
				4154	struct p_block_ack p = (struct p_block_ack )h;
				4155	sector_t sector = be64_to_cpu(p->sector);
				4156	int blksize = be32_to_cpu(p->blksize);
				4157
				4158	D_ASSERT(mdev->agreed_pro_version >= 89);
				4159
				4160	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4161
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	4162	if (get_ldev(mdev)) {
				4163	drbd_rs_complete_io(mdev, sector);
				4164	drbd_set_in_sync(mdev, sector, blksize);
				4165	/* rs_same_csums is supposed to count in units of BM_BLOCK_SIZE */
				4166	mdev->rs_same_csum += (blksize >> BM_BLOCK_SHIFT);
				4167	put_ldev(mdev);
				4168	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4169	dec_rs_pending(mdev);
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	4170	atomic_add(blksize >> 9, &mdev->rs_sect_in);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4171
				4172	return TRUE;
				4173	}
				4174
				4175	/* when we receive the ACK for a write request,
				4176	* verify that we actually know about it */
				4177	static struct drbd_request _ack_id_to_req(struct drbd_conf mdev,
				4178	u64 id, sector_t sector)
				4179	{
				4180	struct hlist_head *slot = tl_hash_slot(mdev, sector);
				4181	struct hlist_node *n;
				4182	struct drbd_request *req;
				4183
				4184	hlist_for_each_entry(req, n, slot, colision) {
				4185	if ((unsigned long)req == (unsigned long)id) {
				4186	if (req->sector != sector) {
				4187	dev_err(DEV, "_ack_id_to_req: found req %p but it has "
				4188	"wrong sector (%llus versus %llus)\n", req,
				4189	(unsigned long long)req->sector,
				4190	(unsigned long long)sector);
				4191	break;
				4192	}
				4193	return req;
				4194	}
				4195	}
				4196	dev_err(DEV, "_ack_id_to_req: failed to find req %p, sector %llus in list\n",
				4197	(void *)(unsigned long)id, (unsigned long long)sector);
				4198	return NULL;
				4199	}
				4200
				4201	typedef struct drbd_request *(req_validator_fn)
				4202	(struct drbd_conf *mdev, u64 id, sector_t sector);
				4203
				4204	static int validate_req_change_req_state(struct drbd_conf *mdev,
				4205	u64 id, sector_t sector, req_validator_fn validator,
				4206	const char *func, enum drbd_req_event what)
				4207	{
				4208	struct drbd_request *req;
				4209	struct bio_and_error m;
				4210
				4211	spin_lock_irq(&mdev->req_lock);
				4212	req = validator(mdev, id, sector);
				4213	if (unlikely(!req)) {
				4214	spin_unlock_irq(&mdev->req_lock);
				4215	dev_err(DEV, "%s: got a corrupt block_id/sector pair\n", func);
				4216	return FALSE;
				4217	}
				4218	__req_mod(req, what, &m);
				4219	spin_unlock_irq(&mdev->req_lock);
				4220
				4221	if (m.bio)
				4222	complete_master_bio(mdev, &m);
				4223	return TRUE;
				4224	}
				4225
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4226	static int got_BlockAck(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4227	{
				4228	struct p_block_ack p = (struct p_block_ack )h;
				4229	sector_t sector = be64_to_cpu(p->sector);
				4230	int blksize = be32_to_cpu(p->blksize);
				4231	enum drbd_req_event what;
				4232
				4233	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4234
				4235	if (is_syncer_block_id(p->block_id)) {
				4236	drbd_set_in_sync(mdev, sector, blksize);
				4237	dec_rs_pending(mdev);
				4238	return TRUE;
				4239	}
				4240	switch (be16_to_cpu(h->command)) {
				4241	case P_RS_WRITE_ACK:
				4242	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				4243	what = write_acked_by_peer_and_sis;
				4244	break;
				4245	case P_WRITE_ACK:
				4246	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				4247	what = write_acked_by_peer;
				4248	break;
				4249	case P_RECV_ACK:
				4250	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_B);
				4251	what = recv_acked_by_peer;
				4252	break;
				4253	case P_DISCARD_ACK:
				4254	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				4255	what = conflict_discarded_by_peer;
				4256	break;
				4257	default:
				4258	D_ASSERT(0);
				4259	return FALSE;
				4260	}
				4261
				4262	return validate_req_change_req_state(mdev, p->block_id, sector,
				4263	_ack_id_to_req, __func__ , what);
				4264	}
				4265
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4266	static int got_NegAck(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4267	{
				4268	struct p_block_ack p = (struct p_block_ack )h;
				4269	sector_t sector = be64_to_cpu(p->sector);
				4270
				4271	if (__ratelimit(&drbd_ratelimit_state))
				4272	dev_warn(DEV, "Got NegAck packet. Peer is in troubles?\n");
				4273
				4274	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4275
				4276	if (is_syncer_block_id(p->block_id)) {
				4277	int size = be32_to_cpu(p->blksize);
				4278	dec_rs_pending(mdev);
				4279	drbd_rs_failed_io(mdev, sector, size);
				4280	return TRUE;
				4281	}
				4282	return validate_req_change_req_state(mdev, p->block_id, sector,
				4283	_ack_id_to_req, __func__ , neg_acked);
				4284	}
				4285
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4286	static int got_NegDReply(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4287	{
				4288	struct p_block_ack p = (struct p_block_ack )h;
				4289	sector_t sector = be64_to_cpu(p->sector);
				4290
				4291	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4292	dev_err(DEV, "Got NegDReply; Sector %llus, len %u; Fail original request.\n",
				4293	(unsigned long long)sector, be32_to_cpu(p->blksize));
				4294
				4295	return validate_req_change_req_state(mdev, p->block_id, sector,
				4296	_ar_id_to_req, __func__ , neg_acked);
				4297	}
				4298
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4299	static int got_NegRSDReply(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4300	{
				4301	sector_t sector;
				4302	int size;
				4303	struct p_block_ack p = (struct p_block_ack )h;
				4304
				4305	sector = be64_to_cpu(p->sector);
				4306	size = be32_to_cpu(p->blksize);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4307
				4308	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4309
				4310	dec_rs_pending(mdev);
				4311
				4312	if (get_ldev_if_state(mdev, D_FAILED)) {
				4313	drbd_rs_complete_io(mdev, sector);
				4314	drbd_rs_failed_io(mdev, sector, size);
				4315	put_ldev(mdev);
				4316	}
				4317
				4318	return TRUE;
				4319	}
				4320
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4321	static int got_BarrierAck(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4322	{
				4323	struct p_barrier_ack p = (struct p_barrier_ack )h;
				4324
				4325	tl_release(mdev, p->barrier, be32_to_cpu(p->set_size));
				4326
				4327	return TRUE;
				4328	}
				4329
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4330	static int got_OVResult(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4331	{
				4332	struct p_block_ack p = (struct p_block_ack )h;
				4333	struct drbd_work *w;
				4334	sector_t sector;
				4335	int size;
				4336
				4337	sector = be64_to_cpu(p->sector);
				4338	size = be32_to_cpu(p->blksize);
				4339
				4340	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4341
				4342	if (be64_to_cpu(p->block_id) == ID_OUT_OF_SYNC)
				4343	drbd_ov_oos_found(mdev, sector, size);
				4344	else
				4345	ov_oos_print(mdev);
				4346
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	4347	if (!get_ldev(mdev))
				4348	return TRUE;
				4349
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4350	drbd_rs_complete_io(mdev, sector);
				4351	dec_rs_pending(mdev);
				4352
Lars Ellenberg	ea5442a	2010-11-05 09:48:01 +0100	[diff] [blame]	4353	--mdev->ov_left;
				4354
				4355	/* let's advance progress step marks only for every other megabyte */
				4356	if ((mdev->ov_left & 0x200) == 0x200)
				4357	drbd_advance_rs_marks(mdev, mdev->ov_left);
				4358
				4359	if (mdev->ov_left == 0) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4360	w = kmalloc(sizeof(*w), GFP_NOIO);
				4361	if (w) {
				4362	w->cb = w_ov_finished;
				4363	drbd_queue_work_front(&mdev->data.work, w);
				4364	} else {
				4365	dev_err(DEV, "kmalloc(w) failed.");
				4366	ov_oos_print(mdev);
				4367	drbd_resync_finished(mdev);
				4368	}
				4369	}
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	4370	put_ldev(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4371	return TRUE;
				4372	}
				4373
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	4374	static int got_skip(struct drbd_conf mdev, struct p_header80 h)
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	4375	{
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	4376	return TRUE;
				4377	}
				4378
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4379	struct asender_cmd {
				4380	size_t pkt_size;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4381	int (process)(struct drbd_conf mdev, struct p_header80 *h);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4382	};
				4383
				4384	static struct asender_cmd *get_asender_cmd(int cmd)
				4385	{
				4386	static struct asender_cmd asender_tbl[] = {
				4387	/* anything missing from this table is in
				4388	* the drbd_cmd_handler (drbd_default_handler) table,
				4389	* see the beginning of drbdd() */
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4390	[P_PING] = { sizeof(struct p_header80), got_Ping },
				4391	[P_PING_ACK] = { sizeof(struct p_header80), got_PingAck },
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4392	[P_RECV_ACK] = { sizeof(struct p_block_ack), got_BlockAck },
				4393	[P_WRITE_ACK] = { sizeof(struct p_block_ack), got_BlockAck },
				4394	[P_RS_WRITE_ACK] = { sizeof(struct p_block_ack), got_BlockAck },
				4395	[P_DISCARD_ACK] = { sizeof(struct p_block_ack), got_BlockAck },
				4396	[P_NEG_ACK] = { sizeof(struct p_block_ack), got_NegAck },
				4397	[P_NEG_DREPLY] = { sizeof(struct p_block_ack), got_NegDReply },
				4398	[P_NEG_RS_DREPLY] = { sizeof(struct p_block_ack), got_NegRSDReply},
				4399	[P_OV_RESULT] = { sizeof(struct p_block_ack), got_OVResult },
				4400	[P_BARRIER_ACK] = { sizeof(struct p_barrier_ack), got_BarrierAck },
				4401	[P_STATE_CHG_REPLY] = { sizeof(struct p_req_state_reply), got_RqSReply },
				4402	[P_RS_IS_IN_SYNC] = { sizeof(struct p_block_ack), got_IsInSync },
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	4403	[P_DELAY_PROBE] = { sizeof(struct p_delay_probe93), got_skip },
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4404	[P_MAX_CMD] = { 0, NULL },
				4405	};
				4406	if (cmd > P_MAX_CMD \|\| asender_tbl[cmd].process == NULL)
				4407	return NULL;
				4408	return &asender_tbl[cmd];
				4409	}
				4410
				4411	int drbd_asender(struct drbd_thread *thi)
				4412	{
				4413	struct drbd_conf *mdev = thi->mdev;
Philipp Reisner	02918be	2010-08-20 14:35:10 +0200	[diff] [blame]	4414	struct p_header80 *h = &mdev->meta.rbuf.header.h80;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4415	struct asender_cmd *cmd = NULL;
				4416
				4417	int rv, len;
				4418	void *buf = h;
				4419	int received = 0;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4420	int expect = sizeof(struct p_header80);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4421	int empty;
				4422
				4423	sprintf(current->comm, "drbd%d_asender", mdev_to_minor(mdev));
				4424
				4425	current->policy = SCHED_RR; /* Make this a realtime task! */
				4426	current->rt_priority = 2; /* more important than all other tasks */
				4427
				4428	while (get_t_state(thi) == Running) {
				4429	drbd_thread_current_set_cpu(mdev);
				4430	if (test_and_clear_bit(SEND_PING, &mdev->flags)) {
				4431	ERR_IF(!drbd_send_ping(mdev)) goto reconnect;
				4432	mdev->meta.socket->sk->sk_rcvtimeo =
				4433	mdev->net_conf->ping_timeo*HZ/10;
				4434	}
				4435
				4436	/* conditionally cork;
				4437	* it may hurt latency if we cork without much to send */
				4438	if (!mdev->net_conf->no_cork &&
				4439	3 < atomic_read(&mdev->unacked_cnt))
				4440	drbd_tcp_cork(mdev->meta.socket);
				4441	while (1) {
				4442	clear_bit(SIGNAL_ASENDER, &mdev->flags);
				4443	flush_signals(current);
Lars Ellenberg	0f8488e	2010-10-13 18:19:23 +0200	[diff] [blame]	4444	if (!drbd_process_done_ee(mdev))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4445	goto reconnect;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4446	/* to avoid race with newly queued ACKs */
				4447	set_bit(SIGNAL_ASENDER, &mdev->flags);
				4448	spin_lock_irq(&mdev->req_lock);
				4449	empty = list_empty(&mdev->done_ee);
				4450	spin_unlock_irq(&mdev->req_lock);
				4451	/* new ack may have been queued right here,
				4452	* but then there is also a signal pending,
				4453	* and we start over... */
				4454	if (empty)
				4455	break;
				4456	}
				4457	/* but unconditionally uncork unless disabled */
				4458	if (!mdev->net_conf->no_cork)
				4459	drbd_tcp_uncork(mdev->meta.socket);
				4460
				4461	/* short circuit, recv_msg would return EINTR anyways. */
				4462	if (signal_pending(current))
				4463	continue;
				4464
				4465	rv = drbd_recv_short(mdev, mdev->meta.socket,
				4466	buf, expect-received, 0);
				4467	clear_bit(SIGNAL_ASENDER, &mdev->flags);
				4468
				4469	flush_signals(current);
				4470
				4471	/* Note:
				4472	* -EINTR (on meta) we got a signal
				4473	* -EAGAIN (on meta) rcvtimeo expired
				4474	* -ECONNRESET other side closed the connection
				4475	* -ERESTARTSYS (on data) we got a signal
				4476	* rv < 0 other than above: unexpected error!
				4477	* rv == expected: full header or command
				4478	* rv < expected: "woken" by signal during receive
				4479	* rv == 0 : "connection shut down by peer"
				4480	*/
				4481	if (likely(rv > 0)) {
				4482	received += rv;
				4483	buf += rv;
				4484	} else if (rv == 0) {
				4485	dev_err(DEV, "meta connection shut down by peer.\n");
				4486	goto reconnect;
				4487	} else if (rv == -EAGAIN) {
				4488	if (mdev->meta.socket->sk->sk_rcvtimeo ==
				4489	mdev->net_conf->ping_timeo*HZ/10) {
				4490	dev_err(DEV, "PingAck did not arrive in time.\n");
				4491	goto reconnect;
				4492	}
				4493	set_bit(SEND_PING, &mdev->flags);
				4494	continue;
				4495	} else if (rv == -EINTR) {
				4496	continue;
				4497	} else {
				4498	dev_err(DEV, "sock_recvmsg returned %d\n", rv);
				4499	goto reconnect;
				4500	}
				4501
				4502	if (received == expect && cmd == NULL) {
				4503	if (unlikely(h->magic != BE_DRBD_MAGIC)) {
Lars Ellenberg	004352f	2010-10-05 20:13:58 +0200	[diff] [blame]	4504	dev_err(DEV, "magic?? on meta m: 0x%08x c: %d l: %d\n",
				4505	be32_to_cpu(h->magic),
				4506	be16_to_cpu(h->command),
				4507	be16_to_cpu(h->length));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4508	goto reconnect;
				4509	}
				4510	cmd = get_asender_cmd(be16_to_cpu(h->command));
				4511	len = be16_to_cpu(h->length);
				4512	if (unlikely(cmd == NULL)) {
Lars Ellenberg	004352f	2010-10-05 20:13:58 +0200	[diff] [blame]	4513	dev_err(DEV, "unknown command?? on meta m: 0x%08x c: %d l: %d\n",
				4514	be32_to_cpu(h->magic),
				4515	be16_to_cpu(h->command),
				4516	be16_to_cpu(h->length));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4517	goto disconnect;
				4518	}
				4519	expect = cmd->pkt_size;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4520	ERR_IF(len != expect-sizeof(struct p_header80))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4521	goto reconnect;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4522	}
				4523	if (received == expect) {
				4524	D_ASSERT(cmd != NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4525	if (!cmd->process(mdev, h))
				4526	goto reconnect;
				4527
				4528	buf = h;
				4529	received = 0;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	4530	expect = sizeof(struct p_header80);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4531	cmd = NULL;
				4532	}
				4533	}
				4534
				4535	if (0) {
				4536	reconnect:
				4537	drbd_force_state(mdev, NS(conn, C_NETWORK_FAILURE));
Lars Ellenberg	856c50c	2010-10-14 13:37:40 +0200	[diff] [blame]	4538	drbd_md_sync(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4539	}
				4540	if (0) {
				4541	disconnect:
				4542	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
Lars Ellenberg	856c50c	2010-10-14 13:37:40 +0200	[diff] [blame]	4543	drbd_md_sync(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4544	}
				4545	clear_bit(SIGNAL_ASENDER, &mdev->flags);
				4546
				4547	D_ASSERT(mdev->state.conn < C_CONNECTED);
				4548	dev_info(DEV, "asender terminated\n");
				4549
				4550	return 0;
				4551	}