Blame - drivers/block/drbd/drbd_main.c - kernel/msm-4.9

blob: accb37d1215f0948928f8b3d7d9bd6fdd4ffbc64 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	Thanks to Carter Burden, Bart Grantham and Gennadiy Nerubayev
				11	from Logicworks, Inc. for making SDP replication support possible.
				12
				13	drbd is free software; you can redistribute it and/or modify
				14	it under the terms of the GNU General Public License as published by
				15	the Free Software Foundation; either version 2, or (at your option)
				16	any later version.
				17
				18	drbd is distributed in the hope that it will be useful,
				19	but WITHOUT ANY WARRANTY; without even the implied warranty of
				20	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				21	GNU General Public License for more details.
				22
				23	You should have received a copy of the GNU General Public License
				24	along with drbd; see the file COPYING. If not, write to
				25	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				26
				27	*/
				28
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	30	#include <linux/drbd.h>
				31	#include <asm/uaccess.h>
				32	#include <asm/types.h>
				33	#include <net/sock.h>
				34	#include <linux/ctype.h>
				35	#include <linux/smp_lock.h>
				36	#include <linux/fs.h>
				37	#include <linux/file.h>
				38	#include <linux/proc_fs.h>
				39	#include <linux/init.h>
				40	#include <linux/mm.h>
				41	#include <linux/memcontrol.h>
				42	#include <linux/mm_inline.h>
				43	#include <linux/slab.h>
				44	#include <linux/random.h>
				45	#include <linux/reboot.h>
				46	#include <linux/notifier.h>
				47	#include <linux/kthread.h>
				48
				49	#define __KERNEL_SYSCALLS__
				50	#include <linux/unistd.h>
				51	#include <linux/vmalloc.h>
				52
				53	#include <linux/drbd_limits.h>
				54	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	55	#include "drbd_req.h" /* only for _req_mod in tl_release and tl_clear */
				56
				57	#include "drbd_vli.h"
				58
				59	struct after_state_chg_work {
				60	struct drbd_work w;
				61	union drbd_state os;
				62	union drbd_state ns;
				63	enum chg_state_flags flags;
				64	struct completion *done;
				65	};
				66
				67	int drbdd_init(struct drbd_thread *);
				68	int drbd_worker(struct drbd_thread *);
				69	int drbd_asender(struct drbd_thread *);
				70
				71	int drbd_init(void);
				72	static int drbd_open(struct block_device *bdev, fmode_t mode);
				73	static int drbd_release(struct gendisk *gd, fmode_t mode);
				74	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused);
				75	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				76	union drbd_state ns, enum chg_state_flags flags);
				77	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused);
				78	static void md_sync_timer_fn(unsigned long data);
				79	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused);
				80
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	81	MODULE_AUTHOR("Philipp Reisner <phil@linbit.com>, "
				82	"Lars Ellenberg <lars@linbit.com>");
				83	MODULE_DESCRIPTION("drbd - Distributed Replicated Block Device v" REL_VERSION);
				84	MODULE_VERSION(REL_VERSION);
				85	MODULE_LICENSE("GPL");
				86	MODULE_PARM_DESC(minor_count, "Maximum number of drbd devices (1-255)");
				87	MODULE_ALIAS_BLOCKDEV_MAJOR(DRBD_MAJOR);
				88
				89	#include <linux/moduleparam.h>
				90	/* allow_open_on_secondary */
				91	MODULE_PARM_DESC(allow_oos, "DONT USE!");
				92	/* thanks to these macros, if compiled into the kernel (not-module),
				93	* this becomes the boot parameter drbd.minor_count */
				94	module_param(minor_count, uint, 0444);
				95	module_param(disable_sendpage, bool, 0644);
				96	module_param(allow_oos, bool, 0);
				97	module_param(cn_idx, uint, 0444);
				98	module_param(proc_details, int, 0644);
				99
				100	#ifdef CONFIG_DRBD_FAULT_INJECTION
				101	int enable_faults;
				102	int fault_rate;
				103	static int fault_count;
				104	int fault_devs;
				105	/* bitmap of enabled faults */
				106	module_param(enable_faults, int, 0664);
				107	/* fault rate % value - applies to all enabled faults */
				108	module_param(fault_rate, int, 0664);
				109	/* count of faults inserted */
				110	module_param(fault_count, int, 0664);
				111	/* bitmap of devices to insert faults on */
				112	module_param(fault_devs, int, 0644);
				113	#endif
				114
				115	/* module parameter, defined */
				116	unsigned int minor_count = 32;
				117	int disable_sendpage;
				118	int allow_oos;
				119	unsigned int cn_idx = CN_IDX_DRBD;
				120	int proc_details; /* Detail level in proc drbd*/
				121
				122	/* Module parameter for setting the user mode helper program
				123	* to run. Default is /sbin/drbdadm */
				124	char usermode_helper[80] = "/sbin/drbdadm";
				125
				126	module_param_string(usermode_helper, usermode_helper, sizeof(usermode_helper), 0644);
				127
				128	/* in 2.6.x, our device mapping and config info contains our virtual gendisks
				129	* as member "struct gendisk *vdisk;"
				130	*/
				131	struct drbd_conf **minor_table;
				132
				133	struct kmem_cache *drbd_request_cache;
				134	struct kmem_cache drbd_ee_cache; / epoch entries */
				135	struct kmem_cache drbd_bm_ext_cache; / bitmap extents */
				136	struct kmem_cache drbd_al_ext_cache; / activity log extents */
				137	mempool_t *drbd_request_mempool;
				138	mempool_t *drbd_ee_mempool;
				139
				140	/* I do not use a standard mempool, because:
				141	1) I want to hand out the pre-allocated objects first.
				142	2) I want to be able to interrupt sleeping allocation with a signal.
				143	Note: This is a single linked list, the next pointer is the private
				144	member of struct page.
				145	*/
				146	struct page *drbd_pp_pool;
				147	spinlock_t drbd_pp_lock;
				148	int drbd_pp_vacant;
				149	wait_queue_head_t drbd_pp_wait;
				150
				151	DEFINE_RATELIMIT_STATE(drbd_ratelimit_state, 5 * HZ, 5);
				152
Emese Revfy	7d4e9d0	2009-12-14 00:59:30 +0100	[diff] [blame]	153	static const struct block_device_operations drbd_ops = {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	154	.owner = THIS_MODULE,
				155	.open = drbd_open,
				156	.release = drbd_release,
				157	};
				158
				159	#define ARRY_SIZE(A) (sizeof(A)/sizeof(A[0]))
				160
				161	#ifdef __CHECKER__
				162	/* When checking with sparse, and this is an inline function, sparse will
				163	give tons of false positives. When this is a real functions sparse works.
				164	*/
				165	int _get_ldev_if_state(struct drbd_conf *mdev, enum drbd_disk_state mins)
				166	{
				167	int io_allowed;
				168
				169	atomic_inc(&mdev->local_cnt);
				170	io_allowed = (mdev->state.disk >= mins);
				171	if (!io_allowed) {
				172	if (atomic_dec_and_test(&mdev->local_cnt))
				173	wake_up(&mdev->misc_wait);
				174	}
				175	return io_allowed;
				176	}
				177
				178	#endif
				179
				180	/**
				181	* DOC: The transfer log
				182	*
				183	* The transfer log is a single linked list of &struct drbd_tl_epoch objects.
				184	* mdev->newest_tle points to the head, mdev->oldest_tle points to the tail
				185	* of the list. There is always at least one &struct drbd_tl_epoch object.
				186	*
				187	* Each &struct drbd_tl_epoch has a circular double linked list of requests
				188	* attached.
				189	*/
				190	static int tl_init(struct drbd_conf *mdev)
				191	{
				192	struct drbd_tl_epoch *b;
				193
				194	/* during device minor initialization, we may well use GFP_KERNEL */
				195	b = kmalloc(sizeof(struct drbd_tl_epoch), GFP_KERNEL);
				196	if (!b)
				197	return 0;
				198	INIT_LIST_HEAD(&b->requests);
				199	INIT_LIST_HEAD(&b->w.list);
				200	b->next = NULL;
				201	b->br_number = 4711;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	202	b->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	b->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				204
				205	mdev->oldest_tle = b;
				206	mdev->newest_tle = b;
				207	INIT_LIST_HEAD(&mdev->out_of_sequence_requests);
				208
				209	mdev->tl_hash = NULL;
				210	mdev->tl_hash_s = 0;
				211
				212	return 1;
				213	}
				214
				215	static void tl_cleanup(struct drbd_conf *mdev)
				216	{
				217	D_ASSERT(mdev->oldest_tle == mdev->newest_tle);
				218	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				219	kfree(mdev->oldest_tle);
				220	mdev->oldest_tle = NULL;
				221	kfree(mdev->unused_spare_tle);
				222	mdev->unused_spare_tle = NULL;
				223	kfree(mdev->tl_hash);
				224	mdev->tl_hash = NULL;
				225	mdev->tl_hash_s = 0;
				226	}
				227
				228	/**
				229	* _tl_add_barrier() - Adds a barrier to the transfer log
				230	* @mdev: DRBD device.
				231	* @new: Barrier to be added before the current head of the TL.
				232	*
				233	* The caller must hold the req_lock.
				234	*/
				235	void _tl_add_barrier(struct drbd_conf mdev, struct drbd_tl_epoch new)
				236	{
				237	struct drbd_tl_epoch *newest_before;
				238
				239	INIT_LIST_HEAD(&new->requests);
				240	INIT_LIST_HEAD(&new->w.list);
				241	new->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				242	new->next = NULL;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	243	new->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	244
				245	newest_before = mdev->newest_tle;
				246	/* never send a barrier number == 0, because that is special-cased
				247	* when using TCQ for our write ordering code */
				248	new->br_number = (newest_before->br_number+1) ?: 1;
				249	if (mdev->newest_tle != new) {
				250	mdev->newest_tle->next = new;
				251	mdev->newest_tle = new;
				252	}
				253	}
				254
				255	/**
				256	* tl_release() - Free or recycle the oldest &struct drbd_tl_epoch object of the TL
				257	* @mdev: DRBD device.
				258	* @barrier_nr: Expected identifier of the DRBD write barrier packet.
				259	* @set_size: Expected number of requests before that barrier.
				260	*
				261	* In case the passed barrier_nr or set_size does not match the oldest
				262	* &struct drbd_tl_epoch objects this function will cause a termination
				263	* of the connection.
				264	*/
				265	void tl_release(struct drbd_conf *mdev, unsigned int barrier_nr,
				266	unsigned int set_size)
				267	{
				268	struct drbd_tl_epoch b, nob; /* next old barrier */
				269	struct list_head le, tle;
				270	struct drbd_request *r;
				271
				272	spin_lock_irq(&mdev->req_lock);
				273
				274	b = mdev->oldest_tle;
				275
				276	/* first some paranoia code */
				277	if (b == NULL) {
				278	dev_err(DEV, "BAD! BarrierAck #%u received, but no epoch in tl!?\n",
				279	barrier_nr);
				280	goto bail;
				281	}
				282	if (b->br_number != barrier_nr) {
				283	dev_err(DEV, "BAD! BarrierAck #%u received, expected #%u!\n",
				284	barrier_nr, b->br_number);
				285	goto bail;
				286	}
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	287	if (b->n_writes != set_size) {
				288	dev_err(DEV, "BAD! BarrierAck #%u received with n_writes=%u, expected n_writes=%u!\n",
				289	barrier_nr, set_size, b->n_writes);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	290	goto bail;
				291	}
				292
				293	/* Clean up list of requests processed during current epoch */
				294	list_for_each_safe(le, tle, &b->requests) {
				295	r = list_entry(le, struct drbd_request, tl_requests);
				296	_req_mod(r, barrier_acked);
				297	}
				298	/* There could be requests on the list waiting for completion
				299	of the write to the local disk. To avoid corruptions of
				300	slab's data structures we have to remove the lists head.
				301
				302	Also there could have been a barrier ack out of sequence, overtaking
				303	the write acks - which would be a bug and violating write ordering.
				304	To not deadlock in case we lose connection while such requests are
				305	still pending, we need some way to find them for the
				306	_req_mode(connection_lost_while_pending).
				307
				308	These have been list_move'd to the out_of_sequence_requests list in
				309	_req_mod(, barrier_acked) above.
				310	*/
				311	list_del_init(&b->requests);
				312
				313	nob = b->next;
				314	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags)) {
				315	_tl_add_barrier(mdev, b);
				316	if (nob)
				317	mdev->oldest_tle = nob;
				318	/* if nob == NULL b was the only barrier, and becomes the new
				319	barrier. Therefore mdev->oldest_tle points already to b */
				320	} else {
				321	D_ASSERT(nob != NULL);
				322	mdev->oldest_tle = nob;
				323	kfree(b);
				324	}
				325
				326	spin_unlock_irq(&mdev->req_lock);
				327	dec_ap_pending(mdev);
				328
				329	return;
				330
				331	bail:
				332	spin_unlock_irq(&mdev->req_lock);
				333	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				334	}
				335
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	336	/**
				337	* _tl_restart() - Walks the transfer log, and applies an action to all requests
				338	* @mdev: DRBD device.
				339	* @what: The action/event to perform with all request objects
				340	*
				341	* @what might be one of connection_lost_while_pending, resend, fail_frozen_disk_io,
				342	* restart_frozen_disk_io.
				343	*/
				344	static void _tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				345	{
				346	struct drbd_tl_epoch b, tmp, **pn;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	347	struct list_head le, tle, carry_reads;
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	348	struct drbd_request *req;
				349	int rv, n_writes, n_reads;
				350
				351	b = mdev->oldest_tle;
				352	pn = &mdev->oldest_tle;
				353	while (b) {
				354	n_writes = 0;
				355	n_reads = 0;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	356	INIT_LIST_HEAD(&carry_reads);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	357	list_for_each_safe(le, tle, &b->requests) {
				358	req = list_entry(le, struct drbd_request, tl_requests);
				359	rv = _req_mod(req, what);
				360
				361	n_writes += (rv & MR_WRITE) >> MR_WRITE_SHIFT;
				362	n_reads += (rv & MR_READ) >> MR_READ_SHIFT;
				363	}
				364	tmp = b->next;
				365
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	366	if (n_writes) {
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	367	if (what == resend) {
				368	b->n_writes = n_writes;
				369	if (b->w.cb == NULL) {
				370	b->w.cb = w_send_barrier;
				371	inc_ap_pending(mdev);
				372	set_bit(CREATE_BARRIER, &mdev->flags);
				373	}
				374
				375	drbd_queue_work(&mdev->data.work, &b->w);
				376	}
				377	pn = &b->next;
				378	} else {
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	379	if (n_reads)
				380	list_add(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	381	/* there could still be requests on that ring list,
				382	* in case local io is still pending */
				383	list_del(&b->requests);
				384
				385	/* dec_ap_pending corresponding to queue_barrier.
				386	* the newest barrier may not have been queued yet,
				387	* in which case w.cb is still NULL. */
				388	if (b->w.cb != NULL)
				389	dec_ap_pending(mdev);
				390
				391	if (b == mdev->newest_tle) {
				392	/* recycle, but reinit! */
				393	D_ASSERT(tmp == NULL);
				394	INIT_LIST_HEAD(&b->requests);
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	395	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	396	INIT_LIST_HEAD(&b->w.list);
				397	b->w.cb = NULL;
				398	b->br_number = net_random();
				399	b->n_writes = 0;
				400
				401	*pn = b;
				402	break;
				403	}
				404	*pn = tmp;
				405	kfree(b);
				406	}
				407	b = tmp;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	408	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	409	}
				410	}
				411
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	412
				413	/**
				414	* tl_clear() - Clears all requests and &struct drbd_tl_epoch objects out of the TL
				415	* @mdev: DRBD device.
				416	*
				417	* This is called after the connection to the peer was lost. The storage covered
				418	* by the requests on the transfer gets marked as our of sync. Called from the
				419	* receiver thread and the worker thread.
				420	*/
				421	void tl_clear(struct drbd_conf *mdev)
				422	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	423	struct list_head le, tle;
				424	struct drbd_request *r;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	425
				426	spin_lock_irq(&mdev->req_lock);
				427
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	428	_tl_restart(mdev, connection_lost_while_pending);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	429
				430	/* we expect this list to be empty. */
				431	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				432
				433	/* but just in case, clean it up anyways! */
				434	list_for_each_safe(le, tle, &mdev->out_of_sequence_requests) {
				435	r = list_entry(le, struct drbd_request, tl_requests);
				436	/* It would be nice to complete outside of spinlock.
				437	* But this is easier for now. */
				438	_req_mod(r, connection_lost_while_pending);
				439	}
				440
				441	/* ensure bit indicating barrier is required is clear */
				442	clear_bit(CREATE_BARRIER, &mdev->flags);
				443
Philipp Reisner	288f422	2010-05-27 15:07:43 +0200	[diff] [blame]	444	memset(mdev->app_reads_hash, 0, APP_R_HSIZEsizeof(void ));
				445
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	446	spin_unlock_irq(&mdev->req_lock);
				447	}
				448
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	449	void tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				450	{
				451	spin_lock_irq(&mdev->req_lock);
				452	_tl_restart(mdev, what);
				453	spin_unlock_irq(&mdev->req_lock);
				454	}
				455
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	456	/**
				457	* cl_wide_st_chg() - TRUE if the state change is a cluster wide one
				458	* @mdev: DRBD device.
				459	* @os: old (current) state.
				460	* @ns: new (wanted) state.
				461	*/
				462	static int cl_wide_st_chg(struct drbd_conf *mdev,
				463	union drbd_state os, union drbd_state ns)
				464	{
				465	return (os.conn >= C_CONNECTED && ns.conn >= C_CONNECTED &&
				466	((os.role != R_PRIMARY && ns.role == R_PRIMARY) \|\|
				467	(os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				468	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S) \|\|
				469	(os.disk != D_DISKLESS && ns.disk == D_DISKLESS))) \|\|
				470	(os.conn >= C_CONNECTED && ns.conn == C_DISCONNECTING) \|\|
				471	(os.conn == C_CONNECTED && ns.conn == C_VERIFY_S);
				472	}
				473
				474	int drbd_change_state(struct drbd_conf *mdev, enum chg_state_flags f,
				475	union drbd_state mask, union drbd_state val)
				476	{
				477	unsigned long flags;
				478	union drbd_state os, ns;
				479	int rv;
				480
				481	spin_lock_irqsave(&mdev->req_lock, flags);
				482	os = mdev->state;
				483	ns.i = (os.i & ~mask.i) \| val.i;
				484	rv = _drbd_set_state(mdev, ns, f, NULL);
				485	ns = mdev->state;
				486	spin_unlock_irqrestore(&mdev->req_lock, flags);
				487
				488	return rv;
				489	}
				490
				491	/**
				492	* drbd_force_state() - Impose a change which happens outside our control on our state
				493	* @mdev: DRBD device.
				494	* @mask: mask of state bits to change.
				495	* @val: value of new state bits.
				496	*/
				497	void drbd_force_state(struct drbd_conf *mdev,
				498	union drbd_state mask, union drbd_state val)
				499	{
				500	drbd_change_state(mdev, CS_HARD, mask, val);
				501	}
				502
				503	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns);
				504	static int is_valid_state_transition(struct drbd_conf *,
				505	union drbd_state, union drbd_state);
				506	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	507	union drbd_state ns, const char **warn_sync_abort);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	508	int drbd_send_state_req(struct drbd_conf *,
				509	union drbd_state, union drbd_state);
				510
				511	static enum drbd_state_ret_codes _req_st_cond(struct drbd_conf *mdev,
				512	union drbd_state mask, union drbd_state val)
				513	{
				514	union drbd_state os, ns;
				515	unsigned long flags;
				516	int rv;
				517
				518	if (test_and_clear_bit(CL_ST_CHG_SUCCESS, &mdev->flags))
				519	return SS_CW_SUCCESS;
				520
				521	if (test_and_clear_bit(CL_ST_CHG_FAIL, &mdev->flags))
				522	return SS_CW_FAILED_BY_PEER;
				523
				524	rv = 0;
				525	spin_lock_irqsave(&mdev->req_lock, flags);
				526	os = mdev->state;
				527	ns.i = (os.i & ~mask.i) \| val.i;
				528	ns = sanitize_state(mdev, os, ns, NULL);
				529
				530	if (!cl_wide_st_chg(mdev, os, ns))
				531	rv = SS_CW_NO_NEED;
				532	if (!rv) {
				533	rv = is_valid_state(mdev, ns);
				534	if (rv == SS_SUCCESS) {
				535	rv = is_valid_state_transition(mdev, ns, os);
				536	if (rv == SS_SUCCESS)
				537	rv = 0; /* cont waiting, otherwise fail. */
				538	}
				539	}
				540	spin_unlock_irqrestore(&mdev->req_lock, flags);
				541
				542	return rv;
				543	}
				544
				545	/**
				546	* drbd_req_state() - Perform an eventually cluster wide state change
				547	* @mdev: DRBD device.
				548	* @mask: mask of state bits to change.
				549	* @val: value of new state bits.
				550	* @f: flags
				551	*
				552	* Should not be called directly, use drbd_request_state() or
				553	* _drbd_request_state().
				554	*/
				555	static int drbd_req_state(struct drbd_conf *mdev,
				556	union drbd_state mask, union drbd_state val,
				557	enum chg_state_flags f)
				558	{
				559	struct completion done;
				560	unsigned long flags;
				561	union drbd_state os, ns;
				562	int rv;
				563
				564	init_completion(&done);
				565
				566	if (f & CS_SERIALIZE)
				567	mutex_lock(&mdev->state_mutex);
				568
				569	spin_lock_irqsave(&mdev->req_lock, flags);
				570	os = mdev->state;
				571	ns.i = (os.i & ~mask.i) \| val.i;
				572	ns = sanitize_state(mdev, os, ns, NULL);
				573
				574	if (cl_wide_st_chg(mdev, os, ns)) {
				575	rv = is_valid_state(mdev, ns);
				576	if (rv == SS_SUCCESS)
				577	rv = is_valid_state_transition(mdev, ns, os);
				578	spin_unlock_irqrestore(&mdev->req_lock, flags);
				579
				580	if (rv < SS_SUCCESS) {
				581	if (f & CS_VERBOSE)
				582	print_st_err(mdev, os, ns, rv);
				583	goto abort;
				584	}
				585
				586	drbd_state_lock(mdev);
				587	if (!drbd_send_state_req(mdev, mask, val)) {
				588	drbd_state_unlock(mdev);
				589	rv = SS_CW_FAILED_BY_PEER;
				590	if (f & CS_VERBOSE)
				591	print_st_err(mdev, os, ns, rv);
				592	goto abort;
				593	}
				594
				595	wait_event(mdev->state_wait,
				596	(rv = _req_st_cond(mdev, mask, val)));
				597
				598	if (rv < SS_SUCCESS) {
				599	drbd_state_unlock(mdev);
				600	if (f & CS_VERBOSE)
				601	print_st_err(mdev, os, ns, rv);
				602	goto abort;
				603	}
				604	spin_lock_irqsave(&mdev->req_lock, flags);
				605	os = mdev->state;
				606	ns.i = (os.i & ~mask.i) \| val.i;
				607	rv = _drbd_set_state(mdev, ns, f, &done);
				608	drbd_state_unlock(mdev);
				609	} else {
				610	rv = _drbd_set_state(mdev, ns, f, &done);
				611	}
				612
				613	spin_unlock_irqrestore(&mdev->req_lock, flags);
				614
				615	if (f & CS_WAIT_COMPLETE && rv == SS_SUCCESS) {
				616	D_ASSERT(current != mdev->worker.task);
				617	wait_for_completion(&done);
				618	}
				619
				620	abort:
				621	if (f & CS_SERIALIZE)
				622	mutex_unlock(&mdev->state_mutex);
				623
				624	return rv;
				625	}
				626
				627	/**
				628	* _drbd_request_state() - Request a state change (with flags)
				629	* @mdev: DRBD device.
				630	* @mask: mask of state bits to change.
				631	* @val: value of new state bits.
				632	* @f: flags
				633	*
				634	* Cousin of drbd_request_state(), useful with the CS_WAIT_COMPLETE
				635	* flag, or when logging of failed state change requests is not desired.
				636	*/
				637	int _drbd_request_state(struct drbd_conf *mdev, union drbd_state mask,
				638	union drbd_state val, enum chg_state_flags f)
				639	{
				640	int rv;
				641
				642	wait_event(mdev->state_wait,
				643	(rv = drbd_req_state(mdev, mask, val, f)) != SS_IN_TRANSIENT_STATE);
				644
				645	return rv;
				646	}
				647
				648	static void print_st(struct drbd_conf mdev, char name, union drbd_state ns)
				649	{
				650	dev_err(DEV, " %s = { cs:%s ro:%s/%s ds:%s/%s %c%c%c%c }\n",
				651	name,
				652	drbd_conn_str(ns.conn),
				653	drbd_role_str(ns.role),
				654	drbd_role_str(ns.peer),
				655	drbd_disk_str(ns.disk),
				656	drbd_disk_str(ns.pdsk),
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	657	is_susp(ns) ? 's' : 'r',
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	658	ns.aftr_isp ? 'a' : '-',
				659	ns.peer_isp ? 'p' : '-',
				660	ns.user_isp ? 'u' : '-'
				661	);
				662	}
				663
				664	void print_st_err(struct drbd_conf *mdev,
				665	union drbd_state os, union drbd_state ns, int err)
				666	{
				667	if (err == SS_IN_TRANSIENT_STATE)
				668	return;
				669	dev_err(DEV, "State change failed: %s\n", drbd_set_st_err_str(err));
				670	print_st(mdev, " state", os);
				671	print_st(mdev, "wanted", ns);
				672	}
				673
				674
				675	#define drbd_peer_str drbd_role_str
				676	#define drbd_pdsk_str drbd_disk_str
				677
				678	#define drbd_susp_str(A) ((A) ? "1" : "0")
				679	#define drbd_aftr_isp_str(A) ((A) ? "1" : "0")
				680	#define drbd_peer_isp_str(A) ((A) ? "1" : "0")
				681	#define drbd_user_isp_str(A) ((A) ? "1" : "0")
				682
				683	#define PSC(A) \
				684	({ if (ns.A != os.A) { \
				685	pbp += sprintf(pbp, #A "( %s -> %s ) ", \
				686	drbd_##A##_str(os.A), \
				687	drbd_##A##_str(ns.A)); \
				688	} })
				689
				690	/**
				691	* is_valid_state() - Returns an SS_ error code if ns is not valid
				692	* @mdev: DRBD device.
				693	* @ns: State to consider.
				694	*/
				695	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns)
				696	{
				697	/* See drbd_state_sw_errors in drbd_strings.c */
				698
				699	enum drbd_fencing_p fp;
				700	int rv = SS_SUCCESS;
				701
				702	fp = FP_DONT_CARE;
				703	if (get_ldev(mdev)) {
				704	fp = mdev->ldev->dc.fencing;
				705	put_ldev(mdev);
				706	}
				707
				708	if (get_net_conf(mdev)) {
				709	if (!mdev->net_conf->two_primaries &&
				710	ns.role == R_PRIMARY && ns.peer == R_PRIMARY)
				711	rv = SS_TWO_PRIMARIES;
				712	put_net_conf(mdev);
				713	}
				714
				715	if (rv <= 0)
				716	/* already found a reason to abort */;
				717	else if (ns.role == R_SECONDARY && mdev->open_cnt)
				718	rv = SS_DEVICE_IN_USE;
				719
				720	else if (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.disk < D_UP_TO_DATE)
				721	rv = SS_NO_UP_TO_DATE_DISK;
				722
				723	else if (fp >= FP_RESOURCE &&
				724	ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk >= D_UNKNOWN)
				725	rv = SS_PRIMARY_NOP;
				726
				727	else if (ns.role == R_PRIMARY && ns.disk <= D_INCONSISTENT && ns.pdsk <= D_INCONSISTENT)
				728	rv = SS_NO_UP_TO_DATE_DISK;
				729
				730	else if (ns.conn > C_CONNECTED && ns.disk < D_INCONSISTENT)
				731	rv = SS_NO_LOCAL_DISK;
				732
				733	else if (ns.conn > C_CONNECTED && ns.pdsk < D_INCONSISTENT)
				734	rv = SS_NO_REMOTE_DISK;
				735
Lars Ellenberg	8d4ce82	2010-04-01 16:59:32 +0200	[diff] [blame]	736	else if (ns.conn > C_CONNECTED && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE)
				737	rv = SS_NO_UP_TO_DATE_DISK;
				738
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	739	else if ((ns.conn == C_CONNECTED \|\|
				740	ns.conn == C_WF_BITMAP_S \|\|
				741	ns.conn == C_SYNC_SOURCE \|\|
				742	ns.conn == C_PAUSED_SYNC_S) &&
				743	ns.disk == D_OUTDATED)
				744	rv = SS_CONNECTED_OUTDATES;
				745
				746	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				747	(mdev->sync_conf.verify_alg[0] == 0))
				748	rv = SS_NO_VERIFY_ALG;
				749
				750	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				751	mdev->agreed_pro_version < 88)
				752	rv = SS_NOT_SUPPORTED;
				753
				754	return rv;
				755	}
				756
				757	/**
				758	* is_valid_state_transition() - Returns an SS_ error code if the state transition is not possible
				759	* @mdev: DRBD device.
				760	* @ns: new state.
				761	* @os: old state.
				762	*/
				763	static int is_valid_state_transition(struct drbd_conf *mdev,
				764	union drbd_state ns, union drbd_state os)
				765	{
				766	int rv = SS_SUCCESS;
				767
				768	if ((ns.conn == C_STARTING_SYNC_T \|\| ns.conn == C_STARTING_SYNC_S) &&
				769	os.conn > C_CONNECTED)
				770	rv = SS_RESYNC_RUNNING;
				771
				772	if (ns.conn == C_DISCONNECTING && os.conn == C_STANDALONE)
				773	rv = SS_ALREADY_STANDALONE;
				774
				775	if (ns.disk > D_ATTACHING && os.disk == D_DISKLESS)
				776	rv = SS_IS_DISKLESS;
				777
				778	if (ns.conn == C_WF_CONNECTION && os.conn < C_UNCONNECTED)
				779	rv = SS_NO_NET_CONFIG;
				780
				781	if (ns.disk == D_OUTDATED && os.disk < D_OUTDATED && os.disk != D_ATTACHING)
				782	rv = SS_LOWER_THAN_OUTDATED;
				783
				784	if (ns.conn == C_DISCONNECTING && os.conn == C_UNCONNECTED)
				785	rv = SS_IN_TRANSIENT_STATE;
				786
				787	if (ns.conn == os.conn && ns.conn == C_WF_REPORT_PARAMS)
				788	rv = SS_IN_TRANSIENT_STATE;
				789
				790	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) && os.conn < C_CONNECTED)
				791	rv = SS_NEED_CONNECTION;
				792
				793	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				794	ns.conn != os.conn && os.conn > C_CONNECTED)
				795	rv = SS_RESYNC_RUNNING;
				796
				797	if ((ns.conn == C_STARTING_SYNC_S \|\| ns.conn == C_STARTING_SYNC_T) &&
				798	os.conn < C_CONNECTED)
				799	rv = SS_NEED_CONNECTION;
				800
				801	return rv;
				802	}
				803
				804	/**
				805	* sanitize_state() - Resolves implicitly necessary additional changes to a state transition
				806	* @mdev: DRBD device.
				807	* @os: old state.
				808	* @ns: new state.
				809	* @warn_sync_abort:
				810	*
				811	* When we loose connection, we have to set the state of the peers disk (pdsk)
				812	* to D_UNKNOWN. This rule and many more along those lines are in this function.
				813	*/
				814	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	815	union drbd_state ns, const char **warn_sync_abort)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	816	{
				817	enum drbd_fencing_p fp;
				818
				819	fp = FP_DONT_CARE;
				820	if (get_ldev(mdev)) {
				821	fp = mdev->ldev->dc.fencing;
				822	put_ldev(mdev);
				823	}
				824
				825	/* Disallow Network errors to configure a device's network part */
				826	if ((ns.conn >= C_TIMEOUT && ns.conn <= C_TEAR_DOWN) &&
				827	os.conn <= C_DISCONNECTING)
				828	ns.conn = os.conn;
				829
Lars Ellenberg	f2906e1	2010-07-21 17:04:32 +0200	[diff] [blame]	830	/* After a network error (+C_TEAR_DOWN) only C_UNCONNECTED or C_DISCONNECTING can follow.
				831	* If you try to go into some Sync* state, that shall fail (elsewhere). */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	832	if (os.conn >= C_TIMEOUT && os.conn <= C_TEAR_DOWN &&
Lars Ellenberg	f2906e1	2010-07-21 17:04:32 +0200	[diff] [blame]	833	ns.conn != C_UNCONNECTED && ns.conn != C_DISCONNECTING && ns.conn <= C_TEAR_DOWN)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	834	ns.conn = os.conn;
				835
				836	/* After C_DISCONNECTING only C_STANDALONE may follow */
				837	if (os.conn == C_DISCONNECTING && ns.conn != C_STANDALONE)
				838	ns.conn = os.conn;
				839
				840	if (ns.conn < C_CONNECTED) {
				841	ns.peer_isp = 0;
				842	ns.peer = R_UNKNOWN;
				843	if (ns.pdsk > D_UNKNOWN \|\| ns.pdsk < D_INCONSISTENT)
				844	ns.pdsk = D_UNKNOWN;
				845	}
				846
				847	/* Clear the aftr_isp when becoming unconfigured */
				848	if (ns.conn == C_STANDALONE && ns.disk == D_DISKLESS && ns.role == R_SECONDARY)
				849	ns.aftr_isp = 0;
				850
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	851	/* Abort resync if a disk fails/detaches */
				852	if (os.conn > C_CONNECTED && ns.conn > C_CONNECTED &&
				853	(ns.disk <= D_FAILED \|\| ns.pdsk <= D_FAILED)) {
				854	if (warn_sync_abort)
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	855	*warn_sync_abort =
				856	os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T ?
				857	"Online-verify" : "Resync";
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	858	ns.conn = C_CONNECTED;
				859	}
				860
				861	if (ns.conn >= C_CONNECTED &&
				862	((ns.disk == D_CONSISTENT \|\| ns.disk == D_OUTDATED) \|\|
				863	(ns.disk == D_NEGOTIATING && ns.conn == C_WF_BITMAP_T))) {
				864	switch (ns.conn) {
				865	case C_WF_BITMAP_T:
				866	case C_PAUSED_SYNC_T:
				867	ns.disk = D_OUTDATED;
				868	break;
				869	case C_CONNECTED:
				870	case C_WF_BITMAP_S:
				871	case C_SYNC_SOURCE:
				872	case C_PAUSED_SYNC_S:
				873	ns.disk = D_UP_TO_DATE;
				874	break;
				875	case C_SYNC_TARGET:
				876	ns.disk = D_INCONSISTENT;
				877	dev_warn(DEV, "Implicitly set disk state Inconsistent!\n");
				878	break;
				879	}
				880	if (os.disk == D_OUTDATED && ns.disk == D_UP_TO_DATE)
				881	dev_warn(DEV, "Implicitly set disk from Outdated to UpToDate\n");
				882	}
				883
				884	if (ns.conn >= C_CONNECTED &&
				885	(ns.pdsk == D_CONSISTENT \|\| ns.pdsk == D_OUTDATED)) {
				886	switch (ns.conn) {
				887	case C_CONNECTED:
				888	case C_WF_BITMAP_T:
				889	case C_PAUSED_SYNC_T:
				890	case C_SYNC_TARGET:
				891	ns.pdsk = D_UP_TO_DATE;
				892	break;
				893	case C_WF_BITMAP_S:
				894	case C_PAUSED_SYNC_S:
Lars Ellenberg	e0f8301	2010-04-01 15:13:19 +0200	[diff] [blame]	895	/* remap any consistent state to D_OUTDATED,
				896	* but disallow "upgrade" of not even consistent states.
				897	*/
				898	ns.pdsk =
				899	(D_DISKLESS < os.pdsk && os.pdsk < D_OUTDATED)
				900	? os.pdsk : D_OUTDATED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	901	break;
				902	case C_SYNC_SOURCE:
				903	ns.pdsk = D_INCONSISTENT;
				904	dev_warn(DEV, "Implicitly set pdsk Inconsistent!\n");
				905	break;
				906	}
				907	if (os.pdsk == D_OUTDATED && ns.pdsk == D_UP_TO_DATE)
				908	dev_warn(DEV, "Implicitly set pdsk from Outdated to UpToDate\n");
				909	}
				910
				911	/* Connection breaks down before we finished "Negotiating" */
				912	if (ns.conn < C_CONNECTED && ns.disk == D_NEGOTIATING &&
				913	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				914	if (mdev->ed_uuid == mdev->ldev->md.uuid[UI_CURRENT]) {
				915	ns.disk = mdev->new_state_tmp.disk;
				916	ns.pdsk = mdev->new_state_tmp.pdsk;
				917	} else {
				918	dev_alert(DEV, "Connection lost while negotiating, no data!\n");
				919	ns.disk = D_DISKLESS;
				920	ns.pdsk = D_UNKNOWN;
				921	}
				922	put_ldev(mdev);
				923	}
				924
				925	if (fp == FP_STONITH &&
Philipp Reisner	0a49216	2009-10-21 13:08:29 +0200	[diff] [blame]	926	(ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk > D_OUTDATED) &&
				927	!(os.role == R_PRIMARY && os.conn < C_CONNECTED && os.pdsk > D_OUTDATED))
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	928	ns.susp_fen = 1; /* Suspend IO while fence-peer handler runs (peer lost) */
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	929
				930	if (mdev->sync_conf.on_no_data == OND_SUSPEND_IO &&
				931	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE) &&
				932	!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE))
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	933	ns.susp_nod = 1; /* Suspend IO while no data available (no accessible data available) */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	934
				935	if (ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp) {
				936	if (ns.conn == C_SYNC_SOURCE)
				937	ns.conn = C_PAUSED_SYNC_S;
				938	if (ns.conn == C_SYNC_TARGET)
				939	ns.conn = C_PAUSED_SYNC_T;
				940	} else {
				941	if (ns.conn == C_PAUSED_SYNC_S)
				942	ns.conn = C_SYNC_SOURCE;
				943	if (ns.conn == C_PAUSED_SYNC_T)
				944	ns.conn = C_SYNC_TARGET;
				945	}
				946
				947	return ns;
				948	}
				949
				950	/* helper for __drbd_set_state */
				951	static void set_ov_position(struct drbd_conf *mdev, enum drbd_conns cs)
				952	{
				953	if (cs == C_VERIFY_T) {
				954	/* starting online verify from an arbitrary position
				955	* does not fit well into the existing protocol.
				956	* on C_VERIFY_T, we initialize ov_left and friends
				957	* implicitly in receive_DataRequest once the
				958	* first P_OV_REQUEST is received */
				959	mdev->ov_start_sector = ~(sector_t)0;
				960	} else {
				961	unsigned long bit = BM_SECT_TO_BIT(mdev->ov_start_sector);
				962	if (bit >= mdev->rs_total)
				963	mdev->ov_start_sector =
				964	BM_BIT_TO_SECT(mdev->rs_total - 1);
				965	mdev->ov_position = mdev->ov_start_sector;
				966	}
				967	}
				968
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	969	static void drbd_resume_al(struct drbd_conf *mdev)
				970	{
				971	if (test_and_clear_bit(AL_SUSPENDED, &mdev->flags))
				972	dev_info(DEV, "Resumed AL updates\n");
				973	}
				974
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	975	/**
				976	* __drbd_set_state() - Set a new DRBD state
				977	* @mdev: DRBD device.
				978	* @ns: new state.
				979	* @flags: Flags
				980	* @done: Optional completion, that will get completed after the after_state_ch() finished
				981	*
				982	* Caller needs to hold req_lock, and global_state_lock. Do not call directly.
				983	*/
				984	int __drbd_set_state(struct drbd_conf *mdev,
				985	union drbd_state ns, enum chg_state_flags flags,
				986	struct completion *done)
				987	{
				988	union drbd_state os;
				989	int rv = SS_SUCCESS;
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	990	const char *warn_sync_abort = NULL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	991	struct after_state_chg_work *ascw;
				992
				993	os = mdev->state;
				994
				995	ns = sanitize_state(mdev, os, ns, &warn_sync_abort);
				996
				997	if (ns.i == os.i)
				998	return SS_NOTHING_TO_DO;
				999
				1000	if (!(flags & CS_HARD)) {
				1001	/* pre-state-change checks ; only look at ns */
				1002	/* See drbd_state_sw_errors in drbd_strings.c */
				1003
				1004	rv = is_valid_state(mdev, ns);
				1005	if (rv < SS_SUCCESS) {
				1006	/* If the old state was illegal as well, then let
				1007	this happen...*/
				1008
Philipp Reisner	1616a25	2010-06-10 16:55:15 +0200	[diff] [blame]	1009	if (is_valid_state(mdev, os) == rv)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1010	rv = is_valid_state_transition(mdev, ns, os);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1011	} else
				1012	rv = is_valid_state_transition(mdev, ns, os);
				1013	}
				1014
				1015	if (rv < SS_SUCCESS) {
				1016	if (flags & CS_VERBOSE)
				1017	print_st_err(mdev, os, ns, rv);
				1018	return rv;
				1019	}
				1020
				1021	if (warn_sync_abort)
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	1022	dev_warn(DEV, "%s aborted.\n", warn_sync_abort);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1023
				1024	{
				1025	char *pbp, pb[300];
				1026	pbp = pb;
				1027	*pbp = 0;
				1028	PSC(role);
				1029	PSC(peer);
				1030	PSC(conn);
				1031	PSC(disk);
				1032	PSC(pdsk);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1033	if (is_susp(ns) != is_susp(os))
				1034	pbp += sprintf(pbp, "susp( %s -> %s ) ",
				1035	drbd_susp_str(is_susp(os)),
				1036	drbd_susp_str(is_susp(ns)));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1037	PSC(aftr_isp);
				1038	PSC(peer_isp);
				1039	PSC(user_isp);
				1040	dev_info(DEV, "%s\n", pb);
				1041	}
				1042
				1043	/* solve the race between becoming unconfigured,
				1044	* worker doing the cleanup, and
				1045	* admin reconfiguring us:
				1046	* on (re)configure, first set CONFIG_PENDING,
				1047	* then wait for a potentially exiting worker,
				1048	* start the worker, and schedule one no_op.
				1049	* then proceed with configuration.
				1050	*/
				1051	if (ns.disk == D_DISKLESS &&
				1052	ns.conn == C_STANDALONE &&
				1053	ns.role == R_SECONDARY &&
				1054	!test_and_set_bit(CONFIG_PENDING, &mdev->flags))
				1055	set_bit(DEVICE_DYING, &mdev->flags);
				1056
				1057	mdev->state.i = ns.i;
				1058	wake_up(&mdev->misc_wait);
				1059	wake_up(&mdev->state_wait);
				1060
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1061	/* aborted verify run. log the last position */
				1062	if ((os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) &&
				1063	ns.conn < C_CONNECTED) {
				1064	mdev->ov_start_sector =
				1065	BM_BIT_TO_SECT(mdev->rs_total - mdev->ov_left);
				1066	dev_info(DEV, "Online Verify reached sector %llu\n",
				1067	(unsigned long long)mdev->ov_start_sector);
				1068	}
				1069
				1070	if ((os.conn == C_PAUSED_SYNC_T \|\| os.conn == C_PAUSED_SYNC_S) &&
				1071	(ns.conn == C_SYNC_TARGET \|\| ns.conn == C_SYNC_SOURCE)) {
				1072	dev_info(DEV, "Syncer continues.\n");
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1073	mdev->rs_paused += (long)jiffies
				1074	-(long)mdev->rs_mark_time[mdev->rs_last_mark];
Philipp Reisner	63106d3	2010-09-01 15:47:15 +0200	[diff] [blame]	1075	if (ns.conn == C_SYNC_TARGET)
				1076	mod_timer(&mdev->resync_timer, jiffies);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1077	}
				1078
				1079	if ((os.conn == C_SYNC_TARGET \|\| os.conn == C_SYNC_SOURCE) &&
				1080	(ns.conn == C_PAUSED_SYNC_T \|\| ns.conn == C_PAUSED_SYNC_S)) {
				1081	dev_info(DEV, "Resync suspended\n");
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1082	mdev->rs_mark_time[mdev->rs_last_mark] = jiffies;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1083	}
				1084
				1085	if (os.conn == C_CONNECTED &&
				1086	(ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T)) {
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1087	unsigned long now = jiffies;
				1088	int i;
				1089
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1090	mdev->ov_position = 0;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1091	mdev->rs_total = drbd_bm_bits(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1092	if (mdev->agreed_pro_version >= 90)
				1093	set_ov_position(mdev, ns.conn);
				1094	else
				1095	mdev->ov_start_sector = 0;
				1096	mdev->ov_left = mdev->rs_total
				1097	- BM_SECT_TO_BIT(mdev->ov_position);
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1098	mdev->rs_start = now;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1099	mdev->rs_last_events = 0;
				1100	mdev->rs_last_sect_ev = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1101	mdev->ov_last_oos_size = 0;
				1102	mdev->ov_last_oos_start = 0;
				1103
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1104	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				1105	mdev->rs_mark_left[i] = mdev->rs_total;
				1106	mdev->rs_mark_time[i] = now;
				1107	}
				1108
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1109	if (ns.conn == C_VERIFY_S) {
				1110	dev_info(DEV, "Starting Online Verify from sector %llu\n",
				1111	(unsigned long long)mdev->ov_position);
				1112	mod_timer(&mdev->resync_timer, jiffies);
				1113	}
				1114	}
				1115
				1116	if (get_ldev(mdev)) {
				1117	u32 mdf = mdev->ldev->md.flags & ~(MDF_CONSISTENT\|MDF_PRIMARY_IND\|
				1118	MDF_CONNECTED_IND\|MDF_WAS_UP_TO_DATE\|
				1119	MDF_PEER_OUT_DATED\|MDF_CRASHED_PRIMARY);
				1120
				1121	if (test_bit(CRASHED_PRIMARY, &mdev->flags))
				1122	mdf \|= MDF_CRASHED_PRIMARY;
				1123	if (mdev->state.role == R_PRIMARY \|\|
				1124	(mdev->state.pdsk < D_INCONSISTENT && mdev->state.peer == R_PRIMARY))
				1125	mdf \|= MDF_PRIMARY_IND;
				1126	if (mdev->state.conn > C_WF_REPORT_PARAMS)
				1127	mdf \|= MDF_CONNECTED_IND;
				1128	if (mdev->state.disk > D_INCONSISTENT)
				1129	mdf \|= MDF_CONSISTENT;
				1130	if (mdev->state.disk > D_OUTDATED)
				1131	mdf \|= MDF_WAS_UP_TO_DATE;
				1132	if (mdev->state.pdsk <= D_OUTDATED && mdev->state.pdsk >= D_INCONSISTENT)
				1133	mdf \|= MDF_PEER_OUT_DATED;
				1134	if (mdf != mdev->ldev->md.flags) {
				1135	mdev->ldev->md.flags = mdf;
				1136	drbd_md_mark_dirty(mdev);
				1137	}
				1138	if (os.disk < D_CONSISTENT && ns.disk >= D_CONSISTENT)
				1139	drbd_set_ed_uuid(mdev, mdev->ldev->md.uuid[UI_CURRENT]);
				1140	put_ldev(mdev);
				1141	}
				1142
				1143	/* Peer was forced D_UP_TO_DATE & R_PRIMARY, consider to resync */
				1144	if (os.disk == D_INCONSISTENT && os.pdsk == D_INCONSISTENT &&
				1145	os.peer == R_SECONDARY && ns.peer == R_PRIMARY)
				1146	set_bit(CONSIDER_RESYNC, &mdev->flags);
				1147
				1148	/* Receiver should clean up itself */
				1149	if (os.conn != C_DISCONNECTING && ns.conn == C_DISCONNECTING)
				1150	drbd_thread_stop_nowait(&mdev->receiver);
				1151
				1152	/* Now the receiver finished cleaning up itself, it should die */
				1153	if (os.conn != C_STANDALONE && ns.conn == C_STANDALONE)
				1154	drbd_thread_stop_nowait(&mdev->receiver);
				1155
				1156	/* Upon network failure, we need to restart the receiver. */
				1157	if (os.conn > C_TEAR_DOWN &&
				1158	ns.conn <= C_TEAR_DOWN && ns.conn >= C_TIMEOUT)
				1159	drbd_thread_restart_nowait(&mdev->receiver);
				1160
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	1161	/* Resume AL writing if we get a connection */
				1162	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED)
				1163	drbd_resume_al(mdev);
				1164
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1165	ascw = kmalloc(sizeof(*ascw), GFP_ATOMIC);
				1166	if (ascw) {
				1167	ascw->os = os;
				1168	ascw->ns = ns;
				1169	ascw->flags = flags;
				1170	ascw->w.cb = w_after_state_ch;
				1171	ascw->done = done;
				1172	drbd_queue_work(&mdev->data.work, &ascw->w);
				1173	} else {
				1174	dev_warn(DEV, "Could not kmalloc an ascw\n");
				1175	}
				1176
				1177	return rv;
				1178	}
				1179
				1180	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused)
				1181	{
				1182	struct after_state_chg_work *ascw =
				1183	container_of(w, struct after_state_chg_work, w);
				1184	after_state_ch(mdev, ascw->os, ascw->ns, ascw->flags);
				1185	if (ascw->flags & CS_WAIT_COMPLETE) {
				1186	D_ASSERT(ascw->done != NULL);
				1187	complete(ascw->done);
				1188	}
				1189	kfree(ascw);
				1190
				1191	return 1;
				1192	}
				1193
				1194	static void abw_start_sync(struct drbd_conf *mdev, int rv)
				1195	{
				1196	if (rv) {
				1197	dev_err(DEV, "Writing the bitmap failed not starting resync.\n");
				1198	_drbd_request_state(mdev, NS(conn, C_CONNECTED), CS_VERBOSE);
				1199	return;
				1200	}
				1201
				1202	switch (mdev->state.conn) {
				1203	case C_STARTING_SYNC_T:
				1204	_drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				1205	break;
				1206	case C_STARTING_SYNC_S:
				1207	drbd_start_resync(mdev, C_SYNC_SOURCE);
				1208	break;
				1209	}
				1210	}
				1211
				1212	/**
				1213	* after_state_ch() - Perform after state change actions that may sleep
				1214	* @mdev: DRBD device.
				1215	* @os: old state.
				1216	* @ns: new state.
				1217	* @flags: Flags
				1218	*/
				1219	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				1220	union drbd_state ns, enum chg_state_flags flags)
				1221	{
				1222	enum drbd_fencing_p fp;
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1223	enum drbd_req_event what = nothing;
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1224	union drbd_state nsm = (union drbd_state){ .i = -1 };
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1225
				1226	if (os.conn != C_CONNECTED && ns.conn == C_CONNECTED) {
				1227	clear_bit(CRASHED_PRIMARY, &mdev->flags);
				1228	if (mdev->p_uuid)
				1229	mdev->p_uuid[UI_FLAGS] &= ~((u64)2);
				1230	}
				1231
				1232	fp = FP_DONT_CARE;
				1233	if (get_ldev(mdev)) {
				1234	fp = mdev->ldev->dc.fencing;
				1235	put_ldev(mdev);
				1236	}
				1237
				1238	/* Inform userspace about the change... */
				1239	drbd_bcast_state(mdev, ns);
				1240
				1241	if (!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE) &&
				1242	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE))
				1243	drbd_khelper(mdev, "pri-on-incon-degr");
				1244
				1245	/* Here we have the actions that are performed after a
				1246	state change. This function might sleep */
				1247
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1248	nsm.i = -1;
				1249	if (ns.susp_nod) {
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1250	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1251	if (ns.conn == C_CONNECTED)
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1252	what = resend, nsm.susp_nod = 0;
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1253	else /* ns.conn > C_CONNECTED */
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1254	dev_err(DEV, "Unexpected Resynd going on!\n");
				1255	}
				1256
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1257	if (os.disk == D_ATTACHING && ns.disk > D_ATTACHING)
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1258	what = restart_frozen_disk_io, nsm.susp_nod = 0;
				1259
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1260	}
				1261
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1262	if (ns.susp_fen) {
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1263	/* case1: The outdate peer handler is successful: */
				1264	if (os.pdsk > D_OUTDATED && ns.pdsk <= D_OUTDATED) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1265	tl_clear(mdev);
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1266	if (test_bit(NEW_CUR_UUID, &mdev->flags)) {
				1267	drbd_uuid_new_current(mdev);
				1268	clear_bit(NEW_CUR_UUID, &mdev->flags);
				1269	drbd_md_sync(mdev);
				1270	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1271	spin_lock_irq(&mdev->req_lock);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1272	_drbd_set_state(_NS(mdev, susp_fen, 0), CS_VERBOSE, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1273	spin_unlock_irq(&mdev->req_lock);
				1274	}
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1275	/* case2: The connection was established again: */
				1276	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
				1277	clear_bit(NEW_CUR_UUID, &mdev->flags);
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1278	what = resend;
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1279	nsm.susp_fen = 0;
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1280	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1281	}
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1282
				1283	if (what != nothing) {
				1284	spin_lock_irq(&mdev->req_lock);
				1285	_tl_restart(mdev, what);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1286	nsm.i &= mdev->state.i;
				1287	_drbd_set_state(mdev, nsm, CS_VERBOSE, NULL);
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1288	spin_unlock_irq(&mdev->req_lock);
				1289	}
				1290
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1291	/* Do not change the order of the if above and the two below... */
				1292	if (os.pdsk == D_DISKLESS && ns.pdsk > D_DISKLESS) { /* attach on the peer */
				1293	drbd_send_uuids(mdev);
				1294	drbd_send_state(mdev);
				1295	}
				1296	if (os.conn != C_WF_BITMAP_S && ns.conn == C_WF_BITMAP_S)
				1297	drbd_queue_bitmap_io(mdev, &drbd_send_bitmap, NULL, "send_bitmap (WFBitMapS)");
				1298
				1299	/* Lost contact to peer's copy of the data */
				1300	if ((os.pdsk >= D_INCONSISTENT &&
				1301	os.pdsk != D_UNKNOWN &&
				1302	os.pdsk != D_OUTDATED)
				1303	&& (ns.pdsk < D_INCONSISTENT \|\|
				1304	ns.pdsk == D_UNKNOWN \|\|
				1305	ns.pdsk == D_OUTDATED)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1306	if (get_ldev(mdev)) {
				1307	if ((ns.role == R_PRIMARY \|\| ns.peer == R_PRIMARY) &&
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1308	mdev->ldev->md.uuid[UI_BITMAP] == 0 && ns.disk >= D_UP_TO_DATE) {
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1309	if (is_susp(mdev->state)) {
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1310	set_bit(NEW_CUR_UUID, &mdev->flags);
				1311	} else {
				1312	drbd_uuid_new_current(mdev);
				1313	drbd_send_uuids(mdev);
				1314	}
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1315	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1316	put_ldev(mdev);
				1317	}
				1318	}
				1319
				1320	if (ns.pdsk < D_INCONSISTENT && get_ldev(mdev)) {
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	1321	if (ns.peer == R_PRIMARY && mdev->ldev->md.uuid[UI_BITMAP] == 0) {
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1322	drbd_uuid_new_current(mdev);
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	1323	drbd_send_uuids(mdev);
				1324	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1325
				1326	/* D_DISKLESS Peer becomes secondary */
				1327	if (os.peer == R_PRIMARY && ns.peer == R_SECONDARY)
				1328	drbd_al_to_on_disk_bm(mdev);
				1329	put_ldev(mdev);
				1330	}
				1331
				1332	/* Last part of the attaching process ... */
				1333	if (ns.conn >= C_CONNECTED &&
				1334	os.disk == D_ATTACHING && ns.disk == D_NEGOTIATING) {
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1335	drbd_send_sizes(mdev, 0, 0); /* to start sync... */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1336	drbd_send_uuids(mdev);
				1337	drbd_send_state(mdev);
				1338	}
				1339
				1340	/* We want to pause/continue resync, tell peer. */
				1341	if (ns.conn >= C_CONNECTED &&
				1342	((os.aftr_isp != ns.aftr_isp) \|\|
				1343	(os.user_isp != ns.user_isp)))
				1344	drbd_send_state(mdev);
				1345
				1346	/* In case one of the isp bits got set, suspend other devices. */
				1347	if ((!os.aftr_isp && !os.peer_isp && !os.user_isp) &&
				1348	(ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp))
				1349	suspend_other_sg(mdev);
				1350
				1351	/* Make sure the peer gets informed about eventual state
				1352	changes (ISP bits) while we were in WFReportParams. */
				1353	if (os.conn == C_WF_REPORT_PARAMS && ns.conn >= C_CONNECTED)
				1354	drbd_send_state(mdev);
				1355
				1356	/* We are in the progress to start a full sync... */
				1357	if ((os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				1358	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S))
				1359	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, &abw_start_sync, "set_n_write from StartingSync");
				1360
				1361	/* We are invalidating our self... */
				1362	if (os.conn < C_CONNECTED && ns.conn < C_CONNECTED &&
				1363	os.disk > D_INCONSISTENT && ns.disk == D_INCONSISTENT)
				1364	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, NULL, "set_n_write from invalidate");
				1365
				1366	if (os.disk > D_FAILED && ns.disk == D_FAILED) {
				1367	enum drbd_io_error_p eh;
				1368
				1369	eh = EP_PASS_ON;
				1370	if (get_ldev_if_state(mdev, D_FAILED)) {
				1371	eh = mdev->ldev->dc.on_io_error;
				1372	put_ldev(mdev);
				1373	}
				1374
				1375	drbd_rs_cancel_all(mdev);
				1376	/* since get_ldev() only works as long as disk>=D_INCONSISTENT,
				1377	and it is D_DISKLESS here, local_cnt can only go down, it can
				1378	not increase... It will reach zero */
				1379	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
				1380	mdev->rs_total = 0;
				1381	mdev->rs_failed = 0;
				1382	atomic_set(&mdev->rs_pending_cnt, 0);
				1383
				1384	spin_lock_irq(&mdev->req_lock);
				1385	_drbd_set_state(_NS(mdev, disk, D_DISKLESS), CS_HARD, NULL);
				1386	spin_unlock_irq(&mdev->req_lock);
				1387
				1388	if (eh == EP_CALL_HELPER)
				1389	drbd_khelper(mdev, "local-io-error");
				1390	}
				1391
				1392	if (os.disk > D_DISKLESS && ns.disk == D_DISKLESS) {
				1393
				1394	if (os.disk == D_FAILED) /* && ns.disk == D_DISKLESS*/ {
				1395	if (drbd_send_state(mdev))
				1396	dev_warn(DEV, "Notified peer that my disk is broken.\n");
				1397	else
				1398	dev_err(DEV, "Sending state in drbd_io_error() failed\n");
				1399	}
				1400
Philipp Reisner	0a6dbf2	2009-12-28 16:58:38 +0100	[diff] [blame]	1401	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1402	lc_destroy(mdev->resync);
				1403	mdev->resync = NULL;
				1404	lc_destroy(mdev->act_log);
				1405	mdev->act_log = NULL;
				1406	__no_warn(local,
				1407	drbd_free_bc(mdev->ldev);
				1408	mdev->ldev = NULL;);
				1409
Lars Ellenberg	f65363c	2010-09-14 20:14:09 +0200	[diff] [blame]	1410	if (mdev->md_io_tmpp) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1411	__free_page(mdev->md_io_tmpp);
Lars Ellenberg	f65363c	2010-09-14 20:14:09 +0200	[diff] [blame]	1412	mdev->md_io_tmpp = NULL;
				1413	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1414	}
				1415
				1416	/* Disks got bigger while they were detached */
				1417	if (ns.disk > D_NEGOTIATING && ns.pdsk > D_NEGOTIATING &&
				1418	test_and_clear_bit(RESYNC_AFTER_NEG, &mdev->flags)) {
				1419	if (ns.conn == C_CONNECTED)
				1420	resync_after_online_grow(mdev);
				1421	}
				1422
				1423	/* A resync finished or aborted, wake paused devices... */
				1424	if ((os.conn > C_CONNECTED && ns.conn <= C_CONNECTED) \|\|
				1425	(os.peer_isp && !ns.peer_isp) \|\|
				1426	(os.user_isp && !ns.user_isp))
				1427	resume_next_sg(mdev);
				1428
Philipp Reisner	f70b3511	2010-06-24 14:34:40 +0200	[diff] [blame]	1429	/* free tl_hash if we Got thawed and are C_STANDALONE */
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1430	if (ns.conn == C_STANDALONE && !is_susp(ns) && mdev->tl_hash)
Philipp Reisner	f70b3511	2010-06-24 14:34:40 +0200	[diff] [blame]	1431	drbd_free_tl_hash(mdev);
				1432
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1433	/* Upon network connection, we need to start the receiver */
				1434	if (os.conn == C_STANDALONE && ns.conn == C_UNCONNECTED)
				1435	drbd_thread_start(&mdev->receiver);
				1436
				1437	/* Terminate worker thread if we are unconfigured - it will be
				1438	restarted as needed... */
				1439	if (ns.disk == D_DISKLESS &&
				1440	ns.conn == C_STANDALONE &&
				1441	ns.role == R_SECONDARY) {
				1442	if (os.aftr_isp != ns.aftr_isp)
				1443	resume_next_sg(mdev);
				1444	/* set in __drbd_set_state, unless CONFIG_PENDING was set */
				1445	if (test_bit(DEVICE_DYING, &mdev->flags))
				1446	drbd_thread_stop_nowait(&mdev->worker);
				1447	}
				1448
				1449	drbd_md_sync(mdev);
				1450	}
				1451
				1452
				1453	static int drbd_thread_setup(void *arg)
				1454	{
				1455	struct drbd_thread thi = (struct drbd_thread ) arg;
				1456	struct drbd_conf *mdev = thi->mdev;
				1457	unsigned long flags;
				1458	int retval;
				1459
				1460	restart:
				1461	retval = thi->function(thi);
				1462
				1463	spin_lock_irqsave(&thi->t_lock, flags);
				1464
				1465	/* if the receiver has been "Exiting", the last thing it did
				1466	* was set the conn state to "StandAlone",
				1467	* if now a re-connect request comes in, conn state goes C_UNCONNECTED,
				1468	* and receiver thread will be "started".
				1469	* drbd_thread_start needs to set "Restarting" in that case.
				1470	* t_state check and assignment needs to be within the same spinlock,
				1471	* so either thread_start sees Exiting, and can remap to Restarting,
				1472	* or thread_start see None, and can proceed as normal.
				1473	*/
				1474
				1475	if (thi->t_state == Restarting) {
				1476	dev_info(DEV, "Restarting %s\n", current->comm);
				1477	thi->t_state = Running;
				1478	spin_unlock_irqrestore(&thi->t_lock, flags);
				1479	goto restart;
				1480	}
				1481
				1482	thi->task = NULL;
				1483	thi->t_state = None;
				1484	smp_mb();
				1485	complete(&thi->stop);
				1486	spin_unlock_irqrestore(&thi->t_lock, flags);
				1487
				1488	dev_info(DEV, "Terminating %s\n", current->comm);
				1489
				1490	/* Release mod reference taken when thread was started */
				1491	module_put(THIS_MODULE);
				1492	return retval;
				1493	}
				1494
				1495	static void drbd_thread_init(struct drbd_conf mdev, struct drbd_thread thi,
				1496	int (func) (struct drbd_thread ))
				1497	{
				1498	spin_lock_init(&thi->t_lock);
				1499	thi->task = NULL;
				1500	thi->t_state = None;
				1501	thi->function = func;
				1502	thi->mdev = mdev;
				1503	}
				1504
				1505	int drbd_thread_start(struct drbd_thread *thi)
				1506	{
				1507	struct drbd_conf *mdev = thi->mdev;
				1508	struct task_struct *nt;
				1509	unsigned long flags;
				1510
				1511	const char *me =
				1512	thi == &mdev->receiver ? "receiver" :
				1513	thi == &mdev->asender ? "asender" :
				1514	thi == &mdev->worker ? "worker" : "NONSENSE";
				1515
				1516	/* is used from state engine doing drbd_thread_stop_nowait,
				1517	* while holding the req lock irqsave */
				1518	spin_lock_irqsave(&thi->t_lock, flags);
				1519
				1520	switch (thi->t_state) {
				1521	case None:
				1522	dev_info(DEV, "Starting %s thread (from %s [%d])\n",
				1523	me, current->comm, current->pid);
				1524
				1525	/* Get ref on module for thread - this is released when thread exits */
				1526	if (!try_module_get(THIS_MODULE)) {
				1527	dev_err(DEV, "Failed to get module reference in drbd_thread_start\n");
				1528	spin_unlock_irqrestore(&thi->t_lock, flags);
				1529	return FALSE;
				1530	}
				1531
				1532	init_completion(&thi->stop);
				1533	D_ASSERT(thi->task == NULL);
				1534	thi->reset_cpu_mask = 1;
				1535	thi->t_state = Running;
				1536	spin_unlock_irqrestore(&thi->t_lock, flags);
				1537	flush_signals(current); /* otherw. may get -ERESTARTNOINTR */
				1538
				1539	nt = kthread_create(drbd_thread_setup, (void *) thi,
				1540	"drbd%d_%s", mdev_to_minor(mdev), me);
				1541
				1542	if (IS_ERR(nt)) {
				1543	dev_err(DEV, "Couldn't start thread\n");
				1544
				1545	module_put(THIS_MODULE);
				1546	return FALSE;
				1547	}
				1548	spin_lock_irqsave(&thi->t_lock, flags);
				1549	thi->task = nt;
				1550	thi->t_state = Running;
				1551	spin_unlock_irqrestore(&thi->t_lock, flags);
				1552	wake_up_process(nt);
				1553	break;
				1554	case Exiting:
				1555	thi->t_state = Restarting;
				1556	dev_info(DEV, "Restarting %s thread (from %s [%d])\n",
				1557	me, current->comm, current->pid);
				1558	/* fall through */
				1559	case Running:
				1560	case Restarting:
				1561	default:
				1562	spin_unlock_irqrestore(&thi->t_lock, flags);
				1563	break;
				1564	}
				1565
				1566	return TRUE;
				1567	}
				1568
				1569
				1570	void _drbd_thread_stop(struct drbd_thread *thi, int restart, int wait)
				1571	{
				1572	unsigned long flags;
				1573
				1574	enum drbd_thread_state ns = restart ? Restarting : Exiting;
				1575
				1576	/* may be called from state engine, holding the req lock irqsave */
				1577	spin_lock_irqsave(&thi->t_lock, flags);
				1578
				1579	if (thi->t_state == None) {
				1580	spin_unlock_irqrestore(&thi->t_lock, flags);
				1581	if (restart)
				1582	drbd_thread_start(thi);
				1583	return;
				1584	}
				1585
				1586	if (thi->t_state != ns) {
				1587	if (thi->task == NULL) {
				1588	spin_unlock_irqrestore(&thi->t_lock, flags);
				1589	return;
				1590	}
				1591
				1592	thi->t_state = ns;
				1593	smp_mb();
				1594	init_completion(&thi->stop);
				1595	if (thi->task != current)
				1596	force_sig(DRBD_SIGKILL, thi->task);
				1597
				1598	}
				1599
				1600	spin_unlock_irqrestore(&thi->t_lock, flags);
				1601
				1602	if (wait)
				1603	wait_for_completion(&thi->stop);
				1604	}
				1605
				1606	#ifdef CONFIG_SMP
				1607	/**
				1608	* drbd_calc_cpu_mask() - Generate CPU masks, spread over all CPUs
				1609	* @mdev: DRBD device.
				1610	*
				1611	* Forces all threads of a device onto the same CPU. This is beneficial for
				1612	* DRBD's performance. May be overwritten by user's configuration.
				1613	*/
				1614	void drbd_calc_cpu_mask(struct drbd_conf *mdev)
				1615	{
				1616	int ord, cpu;
				1617
				1618	/* user override. */
				1619	if (cpumask_weight(mdev->cpu_mask))
				1620	return;
				1621
				1622	ord = mdev_to_minor(mdev) % cpumask_weight(cpu_online_mask);
				1623	for_each_online_cpu(cpu) {
				1624	if (ord-- == 0) {
				1625	cpumask_set_cpu(cpu, mdev->cpu_mask);
				1626	return;
				1627	}
				1628	}
				1629	/* should not be reached */
				1630	cpumask_setall(mdev->cpu_mask);
				1631	}
				1632
				1633	/**
				1634	* drbd_thread_current_set_cpu() - modifies the cpu mask of the _current_ thread
				1635	* @mdev: DRBD device.
				1636	*
				1637	* call in the "main loop" of _all_ threads, no need for any mutex, current won't die
				1638	* prematurely.
				1639	*/
				1640	void drbd_thread_current_set_cpu(struct drbd_conf *mdev)
				1641	{
				1642	struct task_struct *p = current;
				1643	struct drbd_thread *thi =
				1644	p == mdev->asender.task ? &mdev->asender :
				1645	p == mdev->receiver.task ? &mdev->receiver :
				1646	p == mdev->worker.task ? &mdev->worker :
				1647	NULL;
				1648	ERR_IF(thi == NULL)
				1649	return;
				1650	if (!thi->reset_cpu_mask)
				1651	return;
				1652	thi->reset_cpu_mask = 0;
				1653	set_cpus_allowed_ptr(p, mdev->cpu_mask);
				1654	}
				1655	#endif
				1656
				1657	/* the appropriate socket mutex must be held already */
				1658	int _drbd_send_cmd(struct drbd_conf mdev, struct socket sock,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1659	enum drbd_packets cmd, struct p_header80 *h,
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1660	size_t size, unsigned msg_flags)
				1661	{
				1662	int sent, ok;
				1663
				1664	ERR_IF(!h) return FALSE;
				1665	ERR_IF(!size) return FALSE;
				1666
				1667	h->magic = BE_DRBD_MAGIC;
				1668	h->command = cpu_to_be16(cmd);
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1669	h->length = cpu_to_be16(size-sizeof(struct p_header80));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1670
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1671	sent = drbd_send(mdev, sock, h, size, msg_flags);
				1672
				1673	ok = (sent == size);
				1674	if (!ok)
				1675	dev_err(DEV, "short sent %s size=%d sent=%d\n",
				1676	cmdname(cmd), (int)size, sent);
				1677	return ok;
				1678	}
				1679
				1680	/* don't pass the socket. we may only look at it
				1681	* when we hold the appropriate socket mutex.
				1682	*/
				1683	int drbd_send_cmd(struct drbd_conf *mdev, int use_data_socket,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1684	enum drbd_packets cmd, struct p_header80 *h, size_t size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1685	{
				1686	int ok = 0;
				1687	struct socket *sock;
				1688
				1689	if (use_data_socket) {
				1690	mutex_lock(&mdev->data.mutex);
				1691	sock = mdev->data.socket;
				1692	} else {
				1693	mutex_lock(&mdev->meta.mutex);
				1694	sock = mdev->meta.socket;
				1695	}
				1696
				1697	/* drbd_disconnect() could have called drbd_free_sock()
				1698	* while we were waiting in down()... */
				1699	if (likely(sock != NULL))
				1700	ok = _drbd_send_cmd(mdev, sock, cmd, h, size, 0);
				1701
				1702	if (use_data_socket)
				1703	mutex_unlock(&mdev->data.mutex);
				1704	else
				1705	mutex_unlock(&mdev->meta.mutex);
				1706	return ok;
				1707	}
				1708
				1709	int drbd_send_cmd2(struct drbd_conf mdev, enum drbd_packets cmd, char data,
				1710	size_t size)
				1711	{
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1712	struct p_header80 h;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1713	int ok;
				1714
				1715	h.magic = BE_DRBD_MAGIC;
				1716	h.command = cpu_to_be16(cmd);
				1717	h.length = cpu_to_be16(size);
				1718
				1719	if (!drbd_get_data_sock(mdev))
				1720	return 0;
				1721
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1722	ok = (sizeof(h) ==
				1723	drbd_send(mdev, mdev->data.socket, &h, sizeof(h), 0));
				1724	ok = ok && (size ==
				1725	drbd_send(mdev, mdev->data.socket, data, size, 0));
				1726
				1727	drbd_put_data_sock(mdev);
				1728
				1729	return ok;
				1730	}
				1731
				1732	int drbd_send_sync_param(struct drbd_conf mdev, struct syncer_conf sc)
				1733	{
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1734	struct p_rs_param_95 *p;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1735	struct socket *sock;
				1736	int size, rv;
				1737	const int apv = mdev->agreed_pro_version;
				1738
				1739	size = apv <= 87 ? sizeof(struct p_rs_param)
				1740	: apv == 88 ? sizeof(struct p_rs_param)
				1741	+ strlen(mdev->sync_conf.verify_alg) + 1
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1742	: apv <= 94 ? sizeof(struct p_rs_param_89)
				1743	: /* apv >= 95 */ sizeof(struct p_rs_param_95);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1744
				1745	/* used from admin command context and receiver/worker context.
				1746	* to avoid kmalloc, grab the socket right here,
				1747	* then use the pre-allocated sbuf there */
				1748	mutex_lock(&mdev->data.mutex);
				1749	sock = mdev->data.socket;
				1750
				1751	if (likely(sock != NULL)) {
				1752	enum drbd_packets cmd = apv >= 89 ? P_SYNC_PARAM89 : P_SYNC_PARAM;
				1753
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1754	p = &mdev->data.sbuf.rs_param_95;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1755
				1756	/* initialize verify_alg and csums_alg */
				1757	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				1758
				1759	p->rate = cpu_to_be32(sc->rate);
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1760	p->c_plan_ahead = cpu_to_be32(sc->c_plan_ahead);
				1761	p->c_delay_target = cpu_to_be32(sc->c_delay_target);
				1762	p->c_fill_target = cpu_to_be32(sc->c_fill_target);
				1763	p->c_max_rate = cpu_to_be32(sc->c_max_rate);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1764
				1765	if (apv >= 88)
				1766	strcpy(p->verify_alg, mdev->sync_conf.verify_alg);
				1767	if (apv >= 89)
				1768	strcpy(p->csums_alg, mdev->sync_conf.csums_alg);
				1769
				1770	rv = _drbd_send_cmd(mdev, sock, cmd, &p->head, size, 0);
				1771	} else
				1772	rv = 0; /* not ok */
				1773
				1774	mutex_unlock(&mdev->data.mutex);
				1775
				1776	return rv;
				1777	}
				1778
				1779	int drbd_send_protocol(struct drbd_conf *mdev)
				1780	{
				1781	struct p_protocol *p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1782	int size, cf, rv;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1783
				1784	size = sizeof(struct p_protocol);
				1785
				1786	if (mdev->agreed_pro_version >= 87)
				1787	size += strlen(mdev->net_conf->integrity_alg) + 1;
				1788
				1789	/* we must not recurse into our own queue,
				1790	* as that is blocked during handshake */
				1791	p = kmalloc(size, GFP_NOIO);
				1792	if (p == NULL)
				1793	return 0;
				1794
				1795	p->protocol = cpu_to_be32(mdev->net_conf->wire_protocol);
				1796	p->after_sb_0p = cpu_to_be32(mdev->net_conf->after_sb_0p);
				1797	p->after_sb_1p = cpu_to_be32(mdev->net_conf->after_sb_1p);
				1798	p->after_sb_2p = cpu_to_be32(mdev->net_conf->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1799	p->two_primaries = cpu_to_be32(mdev->net_conf->two_primaries);
				1800
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1801	cf = 0;
				1802	if (mdev->net_conf->want_lose)
				1803	cf \|= CF_WANT_LOSE;
				1804	if (mdev->net_conf->dry_run) {
				1805	if (mdev->agreed_pro_version >= 92)
				1806	cf \|= CF_DRY_RUN;
				1807	else {
				1808	dev_err(DEV, "--dry-run is not supported by peer");
Dan Carpenter	7ac314c	2010-04-22 14:27:23 +0200	[diff] [blame]	1809	kfree(p);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1810	return 0;
				1811	}
				1812	}
				1813	p->conn_flags = cpu_to_be32(cf);
				1814
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1815	if (mdev->agreed_pro_version >= 87)
				1816	strcpy(p->integrity_alg, mdev->net_conf->integrity_alg);
				1817
				1818	rv = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_PROTOCOL,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1819	(struct p_header80 *)p, size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1820	kfree(p);
				1821	return rv;
				1822	}
				1823
				1824	int _drbd_send_uuids(struct drbd_conf *mdev, u64 uuid_flags)
				1825	{
				1826	struct p_uuids p;
				1827	int i;
				1828
				1829	if (!get_ldev_if_state(mdev, D_NEGOTIATING))
				1830	return 1;
				1831
				1832	for (i = UI_CURRENT; i < UI_SIZE; i++)
				1833	p.uuid[i] = mdev->ldev ? cpu_to_be64(mdev->ldev->md.uuid[i]) : 0;
				1834
				1835	mdev->comm_bm_set = drbd_bm_total_weight(mdev);
				1836	p.uuid[UI_SIZE] = cpu_to_be64(mdev->comm_bm_set);
				1837	uuid_flags \|= mdev->net_conf->want_lose ? 1 : 0;
				1838	uuid_flags \|= test_bit(CRASHED_PRIMARY, &mdev->flags) ? 2 : 0;
				1839	uuid_flags \|= mdev->new_state_tmp.disk == D_INCONSISTENT ? 4 : 0;
				1840	p.uuid[UI_FLAGS] = cpu_to_be64(uuid_flags);
				1841
				1842	put_ldev(mdev);
				1843
				1844	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_UUIDS,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1845	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1846	}
				1847
				1848	int drbd_send_uuids(struct drbd_conf *mdev)
				1849	{
				1850	return _drbd_send_uuids(mdev, 0);
				1851	}
				1852
				1853	int drbd_send_uuids_skip_initial_sync(struct drbd_conf *mdev)
				1854	{
				1855	return _drbd_send_uuids(mdev, 8);
				1856	}
				1857
				1858
				1859	int drbd_send_sync_uuid(struct drbd_conf *mdev, u64 val)
				1860	{
				1861	struct p_rs_uuid p;
				1862
				1863	p.uuid = cpu_to_be64(val);
				1864
				1865	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SYNC_UUID,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1866	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1867	}
				1868
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1869	int drbd_send_sizes(struct drbd_conf *mdev, int trigger_reply, enum dds_flags flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1870	{
				1871	struct p_sizes p;
				1872	sector_t d_size, u_size;
				1873	int q_order_type;
				1874	int ok;
				1875
				1876	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1877	D_ASSERT(mdev->ldev->backing_bdev);
				1878	d_size = drbd_get_max_capacity(mdev->ldev);
				1879	u_size = mdev->ldev->dc.disk_size;
				1880	q_order_type = drbd_queue_order_type(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1881	put_ldev(mdev);
				1882	} else {
				1883	d_size = 0;
				1884	u_size = 0;
				1885	q_order_type = QUEUE_ORDERED_NONE;
				1886	}
				1887
				1888	p.d_size = cpu_to_be64(d_size);
				1889	p.u_size = cpu_to_be64(u_size);
				1890	p.c_size = cpu_to_be64(trigger_reply ? 0 : drbd_get_capacity(mdev->this_bdev));
				1891	p.max_segment_size = cpu_to_be32(queue_max_segment_size(mdev->rq_queue));
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1892	p.queue_order_type = cpu_to_be16(q_order_type);
				1893	p.dds_flags = cpu_to_be16(flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1894
				1895	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SIZES,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1896	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1897	return ok;
				1898	}
				1899
				1900	/**
				1901	* drbd_send_state() - Sends the drbd state to the peer
				1902	* @mdev: DRBD device.
				1903	*/
				1904	int drbd_send_state(struct drbd_conf *mdev)
				1905	{
				1906	struct socket *sock;
				1907	struct p_state p;
				1908	int ok = 0;
				1909
				1910	/* Grab state lock so we wont send state if we're in the middle
				1911	* of a cluster wide state change on another thread */
				1912	drbd_state_lock(mdev);
				1913
				1914	mutex_lock(&mdev->data.mutex);
				1915
				1916	p.state = cpu_to_be32(mdev->state.i); /* Within the send mutex */
				1917	sock = mdev->data.socket;
				1918
				1919	if (likely(sock != NULL)) {
				1920	ok = _drbd_send_cmd(mdev, sock, P_STATE,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1921	(struct p_header80 *)&p, sizeof(p), 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1922	}
				1923
				1924	mutex_unlock(&mdev->data.mutex);
				1925
				1926	drbd_state_unlock(mdev);
				1927	return ok;
				1928	}
				1929
				1930	int drbd_send_state_req(struct drbd_conf *mdev,
				1931	union drbd_state mask, union drbd_state val)
				1932	{
				1933	struct p_req_state p;
				1934
				1935	p.mask = cpu_to_be32(mask.i);
				1936	p.val = cpu_to_be32(val.i);
				1937
				1938	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_STATE_CHG_REQ,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1939	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1940	}
				1941
				1942	int drbd_send_sr_reply(struct drbd_conf *mdev, int retcode)
				1943	{
				1944	struct p_req_state_reply p;
				1945
				1946	p.retcode = cpu_to_be32(retcode);
				1947
				1948	return drbd_send_cmd(mdev, USE_META_SOCKET, P_STATE_CHG_REPLY,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1949	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1950	}
				1951
				1952	int fill_bitmap_rle_bits(struct drbd_conf *mdev,
				1953	struct p_compressed_bm *p,
				1954	struct bm_xfer_ctx *c)
				1955	{
				1956	struct bitstream bs;
				1957	unsigned long plain_bits;
				1958	unsigned long tmp;
				1959	unsigned long rl;
				1960	unsigned len;
				1961	unsigned toggle;
				1962	int bits;
				1963
				1964	/* may we use this feature? */
				1965	if ((mdev->sync_conf.use_rle == 0) \|\|
				1966	(mdev->agreed_pro_version < 90))
				1967	return 0;
				1968
				1969	if (c->bit_offset >= c->bm_bits)
				1970	return 0; /* nothing to do. */
				1971
				1972	/* use at most thus many bytes */
				1973	bitstream_init(&bs, p->code, BM_PACKET_VLI_BYTES_MAX, 0);
				1974	memset(p->code, 0, BM_PACKET_VLI_BYTES_MAX);
				1975	/* plain bits covered in this code string */
				1976	plain_bits = 0;
				1977
				1978	/* p->encoding & 0x80 stores whether the first run length is set.
				1979	* bit offset is implicit.
				1980	* start with toggle == 2 to be able to tell the first iteration */
				1981	toggle = 2;
				1982
				1983	/* see how much plain bits we can stuff into one packet
				1984	* using RLE and VLI. */
				1985	do {
				1986	tmp = (toggle == 0) ? _drbd_bm_find_next_zero(mdev, c->bit_offset)
				1987	: _drbd_bm_find_next(mdev, c->bit_offset);
				1988	if (tmp == -1UL)
				1989	tmp = c->bm_bits;
				1990	rl = tmp - c->bit_offset;
				1991
				1992	if (toggle == 2) { /* first iteration */
				1993	if (rl == 0) {
				1994	/* the first checked bit was set,
				1995	* store start value, */
				1996	DCBP_set_start(p, 1);
				1997	/* but skip encoding of zero run length */
				1998	toggle = !toggle;
				1999	continue;
				2000	}
				2001	DCBP_set_start(p, 0);
				2002	}
				2003
				2004	/* paranoia: catch zero runlength.
				2005	* can only happen if bitmap is modified while we scan it. */
				2006	if (rl == 0) {
				2007	dev_err(DEV, "unexpected zero runlength while encoding bitmap "
				2008	"t:%u bo:%lu\n", toggle, c->bit_offset);
				2009	return -1;
				2010	}
				2011
				2012	bits = vli_encode_bits(&bs, rl);
				2013	if (bits == -ENOBUFS) /* buffer full */
				2014	break;
				2015	if (bits <= 0) {
				2016	dev_err(DEV, "error while encoding bitmap: %d\n", bits);
				2017	return 0;
				2018	}
				2019
				2020	toggle = !toggle;
				2021	plain_bits += rl;
				2022	c->bit_offset = tmp;
				2023	} while (c->bit_offset < c->bm_bits);
				2024
				2025	len = bs.cur.b - p->code + !!bs.cur.bit;
				2026
				2027	if (plain_bits < (len << 3)) {
				2028	/* incompressible with this method.
				2029	* we need to rewind both word and bit position. */
				2030	c->bit_offset -= plain_bits;
				2031	bm_xfer_ctx_bit_to_word_offset(c);
				2032	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2033	return 0;
				2034	}
				2035
				2036	/* RLE + VLI was able to compress it just fine.
				2037	* update c->word_offset. */
				2038	bm_xfer_ctx_bit_to_word_offset(c);
				2039
				2040	/* store pad_bits */
				2041	DCBP_set_pad_bits(p, (8 - bs.cur.bit) & 0x7);
				2042
				2043	return len;
				2044	}
				2045
				2046	enum { OK, FAILED, DONE }
				2047	send_bitmap_rle_or_plain(struct drbd_conf *mdev,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2048	struct p_header80 h, struct bm_xfer_ctx c)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2049	{
				2050	struct p_compressed_bm p = (void)h;
				2051	unsigned long num_words;
				2052	int len;
				2053	int ok;
				2054
				2055	len = fill_bitmap_rle_bits(mdev, p, c);
				2056
				2057	if (len < 0)
				2058	return FAILED;
				2059
				2060	if (len) {
				2061	DCBP_set_code(p, RLE_VLI_Bits);
				2062	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_COMPRESSED_BITMAP, h,
				2063	sizeof(*p) + len, 0);
				2064
				2065	c->packets[0]++;
				2066	c->bytes[0] += sizeof(*p) + len;
				2067
				2068	if (c->bit_offset >= c->bm_bits)
				2069	len = 0; /* DONE */
				2070	} else {
				2071	/* was not compressible.
				2072	* send a buffer full of plain text bits instead. */
				2073	num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				2074	len = num_words * sizeof(long);
				2075	if (len)
				2076	drbd_bm_get_lel(mdev, c->word_offset, num_words, (unsigned long*)h->payload);
				2077	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BITMAP,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2078	h, sizeof(struct p_header80) + len, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2079	c->word_offset += num_words;
				2080	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2081
				2082	c->packets[1]++;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2083	c->bytes[1] += sizeof(struct p_header80) + len;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2084
				2085	if (c->bit_offset > c->bm_bits)
				2086	c->bit_offset = c->bm_bits;
				2087	}
				2088	ok = ok ? ((len == 0) ? DONE : OK) : FAILED;
				2089
				2090	if (ok == DONE)
				2091	INFO_bm_xfer_stats(mdev, "send", c);
				2092	return ok;
				2093	}
				2094
				2095	/* See the comment at receive_bitmap() */
				2096	int _drbd_send_bitmap(struct drbd_conf *mdev)
				2097	{
				2098	struct bm_xfer_ctx c;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2099	struct p_header80 *p;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2100	int ret;
				2101
				2102	ERR_IF(!mdev->bitmap) return FALSE;
				2103
				2104	/* maybe we should use some per thread scratch page,
				2105	* and allocate that during initial device creation? */
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2106	p = (struct p_header80 *) __get_free_page(GFP_NOIO);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2107	if (!p) {
				2108	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				2109	return FALSE;
				2110	}
				2111
				2112	if (get_ldev(mdev)) {
				2113	if (drbd_md_test_flag(mdev->ldev, MDF_FULL_SYNC)) {
				2114	dev_info(DEV, "Writing the whole bitmap, MDF_FullSync was set.\n");
				2115	drbd_bm_set_all(mdev);
				2116	if (drbd_bm_write(mdev)) {
				2117	/* write_bm did fail! Leave full sync flag set in Meta P_DATA
				2118	* but otherwise process as per normal - need to tell other
				2119	* side that a full resync is required! */
				2120	dev_err(DEV, "Failed to write bitmap to disk!\n");
				2121	} else {
				2122	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				2123	drbd_md_sync(mdev);
				2124	}
				2125	}
				2126	put_ldev(mdev);
				2127	}
				2128
				2129	c = (struct bm_xfer_ctx) {
				2130	.bm_bits = drbd_bm_bits(mdev),
				2131	.bm_words = drbd_bm_words(mdev),
				2132	};
				2133
				2134	do {
				2135	ret = send_bitmap_rle_or_plain(mdev, p, &c);
				2136	} while (ret == OK);
				2137
				2138	free_page((unsigned long) p);
				2139	return (ret == DONE);
				2140	}
				2141
				2142	int drbd_send_bitmap(struct drbd_conf *mdev)
				2143	{
				2144	int err;
				2145
				2146	if (!drbd_get_data_sock(mdev))
				2147	return -1;
				2148	err = !_drbd_send_bitmap(mdev);
				2149	drbd_put_data_sock(mdev);
				2150	return err;
				2151	}
				2152
				2153	int drbd_send_b_ack(struct drbd_conf *mdev, u32 barrier_nr, u32 set_size)
				2154	{
				2155	int ok;
				2156	struct p_barrier_ack p;
				2157
				2158	p.barrier = barrier_nr;
				2159	p.set_size = cpu_to_be32(set_size);
				2160
				2161	if (mdev->state.conn < C_CONNECTED)
				2162	return FALSE;
				2163	ok = drbd_send_cmd(mdev, USE_META_SOCKET, P_BARRIER_ACK,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2164	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2165	return ok;
				2166	}
				2167
				2168	/**
				2169	* _drbd_send_ack() - Sends an ack packet
				2170	* @mdev: DRBD device.
				2171	* @cmd: Packet command code.
				2172	* @sector: sector, needs to be in big endian byte order
				2173	* @blksize: size in byte, needs to be in big endian byte order
				2174	* @block_id: Id, big endian byte order
				2175	*/
				2176	static int _drbd_send_ack(struct drbd_conf *mdev, enum drbd_packets cmd,
				2177	u64 sector,
				2178	u32 blksize,
				2179	u64 block_id)
				2180	{
				2181	int ok;
				2182	struct p_block_ack p;
				2183
				2184	p.sector = sector;
				2185	p.block_id = block_id;
				2186	p.blksize = blksize;
				2187	p.seq_num = cpu_to_be32(atomic_add_return(1, &mdev->packet_seq));
				2188
				2189	if (!mdev->meta.socket \|\| mdev->state.conn < C_CONNECTED)
				2190	return FALSE;
				2191	ok = drbd_send_cmd(mdev, USE_META_SOCKET, cmd,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2192	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2193	return ok;
				2194	}
				2195
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame^]	2196	/* dp->sector and dp->block_id already/still in network byte order,
				2197	* data_size is payload size according to dp->head,
				2198	* and may need to be corrected for digest size. */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2199	int drbd_send_ack_dp(struct drbd_conf *mdev, enum drbd_packets cmd,
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame^]	2200	struct p_data *dp, int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2201	{
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame^]	2202	data_size -= (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
				2203	crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2204	return _drbd_send_ack(mdev, cmd, dp->sector, cpu_to_be32(data_size),
				2205	dp->block_id);
				2206	}
				2207
				2208	int drbd_send_ack_rp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2209	struct p_block_req *rp)
				2210	{
				2211	return _drbd_send_ack(mdev, cmd, rp->sector, rp->blksize, rp->block_id);
				2212	}
				2213
				2214	/**
				2215	* drbd_send_ack() - Sends an ack packet
				2216	* @mdev: DRBD device.
				2217	* @cmd: Packet command code.
				2218	* @e: Epoch entry.
				2219	*/
				2220	int drbd_send_ack(struct drbd_conf *mdev,
				2221	enum drbd_packets cmd, struct drbd_epoch_entry *e)
				2222	{
				2223	return _drbd_send_ack(mdev, cmd,
				2224	cpu_to_be64(e->sector),
				2225	cpu_to_be32(e->size),
				2226	e->block_id);
				2227	}
				2228
				2229	/* This function misuses the block_id field to signal if the blocks
				2230	* are is sync or not. */
				2231	int drbd_send_ack_ex(struct drbd_conf *mdev, enum drbd_packets cmd,
				2232	sector_t sector, int blksize, u64 block_id)
				2233	{
				2234	return _drbd_send_ack(mdev, cmd,
				2235	cpu_to_be64(sector),
				2236	cpu_to_be32(blksize),
				2237	cpu_to_be64(block_id));
				2238	}
				2239
				2240	int drbd_send_drequest(struct drbd_conf *mdev, int cmd,
				2241	sector_t sector, int size, u64 block_id)
				2242	{
				2243	int ok;
				2244	struct p_block_req p;
				2245
				2246	p.sector = cpu_to_be64(sector);
				2247	p.block_id = block_id;
				2248	p.blksize = cpu_to_be32(size);
				2249
				2250	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, cmd,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2251	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2252	return ok;
				2253	}
				2254
				2255	int drbd_send_drequest_csum(struct drbd_conf *mdev,
				2256	sector_t sector, int size,
				2257	void *digest, int digest_size,
				2258	enum drbd_packets cmd)
				2259	{
				2260	int ok;
				2261	struct p_block_req p;
				2262
				2263	p.sector = cpu_to_be64(sector);
				2264	p.block_id = BE_DRBD_MAGIC + 0xbeef;
				2265	p.blksize = cpu_to_be32(size);
				2266
				2267	p.head.magic = BE_DRBD_MAGIC;
				2268	p.head.command = cpu_to_be16(cmd);
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2269	p.head.length = cpu_to_be16(sizeof(p) - sizeof(struct p_header80) + digest_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2270
				2271	mutex_lock(&mdev->data.mutex);
				2272
				2273	ok = (sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), 0));
				2274	ok = ok && (digest_size == drbd_send(mdev, mdev->data.socket, digest, digest_size, 0));
				2275
				2276	mutex_unlock(&mdev->data.mutex);
				2277
				2278	return ok;
				2279	}
				2280
				2281	int drbd_send_ov_request(struct drbd_conf *mdev, sector_t sector, int size)
				2282	{
				2283	int ok;
				2284	struct p_block_req p;
				2285
				2286	p.sector = cpu_to_be64(sector);
				2287	p.block_id = BE_DRBD_MAGIC + 0xbabe;
				2288	p.blksize = cpu_to_be32(size);
				2289
				2290	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OV_REQUEST,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2291	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2292	return ok;
				2293	}
				2294
				2295	/* called on sndtimeo
				2296	* returns FALSE if we should retry,
				2297	* TRUE if we think connection is dead
				2298	*/
				2299	static int we_should_drop_the_connection(struct drbd_conf mdev, struct socket sock)
				2300	{
				2301	int drop_it;
				2302	/* long elapsed = (long)(jiffies - mdev->last_received); */
				2303
				2304	drop_it = mdev->meta.socket == sock
				2305	\|\| !mdev->asender.task
				2306	\|\| get_t_state(&mdev->asender) != Running
				2307	\|\| mdev->state.conn < C_CONNECTED;
				2308
				2309	if (drop_it)
				2310	return TRUE;
				2311
				2312	drop_it = !--mdev->ko_count;
				2313	if (!drop_it) {
				2314	dev_err(DEV, "[%s/%d] sock_sendmsg time expired, ko = %u\n",
				2315	current->comm, current->pid, mdev->ko_count);
				2316	request_ping(mdev);
				2317	}
				2318
				2319	return drop_it; /* && (mdev->state == R_PRIMARY) */;
				2320	}
				2321
				2322	/* The idea of sendpage seems to be to put some kind of reference
				2323	* to the page into the skb, and to hand it over to the NIC. In
				2324	* this process get_page() gets called.
				2325	*
				2326	* As soon as the page was really sent over the network put_page()
				2327	* gets called by some part of the network layer. [ NIC driver? ]
				2328	*
				2329	* [ get_page() / put_page() increment/decrement the count. If count
				2330	* reaches 0 the page will be freed. ]
				2331	*
				2332	* This works nicely with pages from FSs.
				2333	* But this means that in protocol A we might signal IO completion too early!
				2334	*
				2335	* In order not to corrupt data during a resync we must make sure
				2336	* that we do not reuse our own buffer pages (EEs) to early, therefore
				2337	* we have the net_ee list.
				2338	*
				2339	* XFS seems to have problems, still, it submits pages with page_count == 0!
				2340	* As a workaround, we disable sendpage on pages
				2341	* with page_count == 0 or PageSlab.
				2342	*/
				2343	static int _drbd_no_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2344	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2345	{
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2346	int sent = drbd_send(mdev, mdev->data.socket, kmap(page) + offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2347	kunmap(page);
				2348	if (sent == size)
				2349	mdev->send_cnt += size>>9;
				2350	return sent == size;
				2351	}
				2352
				2353	static int _drbd_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2354	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2355	{
				2356	mm_segment_t oldfs = get_fs();
				2357	int sent, ok;
				2358	int len = size;
				2359
				2360	/* e.g. XFS meta- & log-data is in slab pages, which have a
				2361	* page_count of 0 and/or have PageSlab() set.
				2362	* we cannot use send_page for those, as that does get_page();
				2363	* put_page(); and would cause either a VM_BUG directly, or
				2364	* __page_cache_release a page that would actually still be referenced
				2365	* by someone, leading to some obscure delayed Oops somewhere else. */
				2366	if (disable_sendpage \|\| (page_count(page) < 1) \|\| PageSlab(page))
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2367	return _drbd_no_send_page(mdev, page, offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2368
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2369	msg_flags \|= MSG_NOSIGNAL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2370	drbd_update_congested(mdev);
				2371	set_fs(KERNEL_DS);
				2372	do {
				2373	sent = mdev->data.socket->ops->sendpage(mdev->data.socket, page,
				2374	offset, len,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2375	msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2376	if (sent == -EAGAIN) {
				2377	if (we_should_drop_the_connection(mdev,
				2378	mdev->data.socket))
				2379	break;
				2380	else
				2381	continue;
				2382	}
				2383	if (sent <= 0) {
				2384	dev_warn(DEV, "%s: size=%d len=%d sent=%d\n",
				2385	__func__, (int)size, len, sent);
				2386	break;
				2387	}
				2388	len -= sent;
				2389	offset += sent;
				2390	} while (len > 0 /* THINK && mdev->cstate >= C_CONNECTED*/);
				2391	set_fs(oldfs);
				2392	clear_bit(NET_CONGESTED, &mdev->flags);
				2393
				2394	ok = (len == 0);
				2395	if (likely(ok))
				2396	mdev->send_cnt += size>>9;
				2397	return ok;
				2398	}
				2399
				2400	static int _drbd_send_bio(struct drbd_conf mdev, struct bio bio)
				2401	{
				2402	struct bio_vec *bvec;
				2403	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2404	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2405	__bio_for_each_segment(bvec, bio, i, 0) {
				2406	if (!_drbd_no_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2407	bvec->bv_offset, bvec->bv_len,
				2408	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2409	return 0;
				2410	}
				2411	return 1;
				2412	}
				2413
				2414	static int _drbd_send_zc_bio(struct drbd_conf mdev, struct bio bio)
				2415	{
				2416	struct bio_vec *bvec;
				2417	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2418	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2419	__bio_for_each_segment(bvec, bio, i, 0) {
				2420	if (!_drbd_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2421	bvec->bv_offset, bvec->bv_len,
				2422	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2423	return 0;
				2424	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2425	return 1;
				2426	}
				2427
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2428	static int _drbd_send_zc_ee(struct drbd_conf mdev, struct drbd_epoch_entry e)
				2429	{
				2430	struct page *page = e->pages;
				2431	unsigned len = e->size;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2432	/* hint all but last page with MSG_MORE */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2433	page_chain_for_each(page) {
				2434	unsigned l = min_t(unsigned, len, PAGE_SIZE);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2435	if (!_drbd_send_page(mdev, page, 0, l,
				2436	page_chain_next(page) ? MSG_MORE : 0))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2437	return 0;
				2438	len -= l;
				2439	}
				2440	return 1;
				2441	}
				2442
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	2443	static u32 bio_flags_to_wire(struct drbd_conf *mdev, unsigned long bi_rw)
				2444	{
				2445	if (mdev->agreed_pro_version >= 95)
				2446	return (bi_rw & REQ_SYNC ? DP_RW_SYNC : 0) \|
				2447	(bi_rw & REQ_UNPLUG ? DP_UNPLUG : 0) \|
				2448	(bi_rw & REQ_FUA ? DP_FUA : 0) \|
				2449	(bi_rw & REQ_FLUSH ? DP_FLUSH : 0) \|
				2450	(bi_rw & REQ_DISCARD ? DP_DISCARD : 0);
				2451	else
				2452	return bi_rw & (REQ_SYNC \| REQ_UNPLUG) ? DP_RW_SYNC : 0;
				2453	}
				2454
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2455	/* Used to send write requests
				2456	* R_PRIMARY -> Peer (P_DATA)
				2457	*/
				2458	int drbd_send_dblock(struct drbd_conf mdev, struct drbd_request req)
				2459	{
				2460	int ok = 1;
				2461	struct p_data p;
				2462	unsigned int dp_flags = 0;
				2463	void *dgb;
				2464	int dgs;
				2465
				2466	if (!drbd_get_data_sock(mdev))
				2467	return 0;
				2468
				2469	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2470	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2471
Philipp Reisner	d537338	2010-08-23 15:18:33 +0200	[diff] [blame]	2472	if (req->size <= DRBD_MAX_SIZE_H80_PACKET) {
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2473	p.head.h80.magic = BE_DRBD_MAGIC;
				2474	p.head.h80.command = cpu_to_be16(P_DATA);
				2475	p.head.h80.length =
				2476	cpu_to_be16(sizeof(p) - sizeof(union p_header) + dgs + req->size);
				2477	} else {
				2478	p.head.h95.magic = BE_DRBD_MAGIC_BIG;
				2479	p.head.h95.command = cpu_to_be16(P_DATA);
				2480	p.head.h95.length =
				2481	cpu_to_be32(sizeof(p) - sizeof(union p_header) + dgs + req->size);
				2482	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2483
				2484	p.sector = cpu_to_be64(req->sector);
				2485	p.block_id = (unsigned long)req;
				2486	p.seq_num = cpu_to_be32(req->seq_num =
				2487	atomic_add_return(1, &mdev->packet_seq));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2488
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	2489	dp_flags = bio_flags_to_wire(mdev, req->master_bio->bi_rw);
				2490
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2491	if (mdev->state.conn >= C_SYNC_SOURCE &&
				2492	mdev->state.conn <= C_PAUSED_SYNC_T)
				2493	dp_flags \|= DP_MAY_SET_IN_SYNC;
				2494
				2495	p.dp_flags = cpu_to_be32(dp_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2496	set_bit(UNPLUG_REMOTE, &mdev->flags);
				2497	ok = (sizeof(p) ==
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2498	drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2499	if (ok && dgs) {
				2500	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2501	drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2502	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2503	}
				2504	if (ok) {
				2505	if (mdev->net_conf->wire_protocol == DRBD_PROT_A)
				2506	ok = _drbd_send_bio(mdev, req->master_bio);
				2507	else
				2508	ok = _drbd_send_zc_bio(mdev, req->master_bio);
				2509	}
				2510
				2511	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc	2010-05-04 12:33:58 +0200	[diff] [blame]	2512
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2513	return ok;
				2514	}
				2515
				2516	/* answer packet, used to send data back for read requests:
				2517	* Peer -> (diskless) R_PRIMARY (P_DATA_REPLY)
				2518	* C_SYNC_SOURCE -> C_SYNC_TARGET (P_RS_DATA_REPLY)
				2519	*/
				2520	int drbd_send_block(struct drbd_conf *mdev, enum drbd_packets cmd,
				2521	struct drbd_epoch_entry *e)
				2522	{
				2523	int ok;
				2524	struct p_data p;
				2525	void *dgb;
				2526	int dgs;
				2527
				2528	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2529	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2530
Philipp Reisner	d537338	2010-08-23 15:18:33 +0200	[diff] [blame]	2531	if (e->size <= DRBD_MAX_SIZE_H80_PACKET) {
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2532	p.head.h80.magic = BE_DRBD_MAGIC;
				2533	p.head.h80.command = cpu_to_be16(cmd);
				2534	p.head.h80.length =
				2535	cpu_to_be16(sizeof(p) - sizeof(struct p_header80) + dgs + e->size);
				2536	} else {
				2537	p.head.h95.magic = BE_DRBD_MAGIC_BIG;
				2538	p.head.h95.command = cpu_to_be16(cmd);
				2539	p.head.h95.length =
				2540	cpu_to_be32(sizeof(p) - sizeof(struct p_header80) + dgs + e->size);
				2541	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2542
				2543	p.sector = cpu_to_be64(e->sector);
				2544	p.block_id = e->block_id;
				2545	/* p.seq_num = 0; No sequence numbers here.. */
				2546
				2547	/* Only called by our kernel thread.
				2548	* This one may be interrupted by DRBD_SIG and/or DRBD_SIGKILL
				2549	* in response to admin command or module unload.
				2550	*/
				2551	if (!drbd_get_data_sock(mdev))
				2552	return 0;
				2553
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2554	ok = sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2555	if (ok && dgs) {
				2556	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2557	drbd_csum_ee(mdev, mdev->integrity_w_tfm, e, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2558	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2559	}
				2560	if (ok)
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2561	ok = _drbd_send_zc_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2562
				2563	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc	2010-05-04 12:33:58 +0200	[diff] [blame]	2564
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2565	return ok;
				2566	}
				2567
				2568	/*
				2569	drbd_send distinguishes two cases:
				2570
				2571	Packets sent via the data socket "sock"
				2572	and packets sent via the meta data socket "msock"
				2573
				2574	sock msock
				2575	-----------------+-------------------------+------------------------------
				2576	timeout conf.timeout / 2 conf.timeout / 2
				2577	timeout action send a ping via msock Abort communication
				2578	and close all sockets
				2579	*/
				2580
				2581	/*
				2582	* you must have down()ed the appropriate [m]sock_mutex elsewhere!
				2583	*/
				2584	int drbd_send(struct drbd_conf mdev, struct socket sock,
				2585	void *buf, size_t size, unsigned msg_flags)
				2586	{
				2587	struct kvec iov;
				2588	struct msghdr msg;
				2589	int rv, sent = 0;
				2590
				2591	if (!sock)
				2592	return -1000;
				2593
				2594	/* THINK if (signal_pending) return ... ? */
				2595
				2596	iov.iov_base = buf;
				2597	iov.iov_len = size;
				2598
				2599	msg.msg_name = NULL;
				2600	msg.msg_namelen = 0;
				2601	msg.msg_control = NULL;
				2602	msg.msg_controllen = 0;
				2603	msg.msg_flags = msg_flags \| MSG_NOSIGNAL;
				2604
				2605	if (sock == mdev->data.socket) {
				2606	mdev->ko_count = mdev->net_conf->ko_count;
				2607	drbd_update_congested(mdev);
				2608	}
				2609	do {
				2610	/* STRANGE
				2611	* tcp_sendmsg does _not_ use its size parameter at all ?
				2612	*
				2613	* -EAGAIN on timeout, -EINTR on signal.
				2614	*/
				2615	/* THINK
				2616	* do we need to block DRBD_SIG if sock == &meta.socket ??
				2617	* otherwise wake_asender() might interrupt some send_*Ack !
				2618	*/
				2619	rv = kernel_sendmsg(sock, &msg, &iov, 1, size);
				2620	if (rv == -EAGAIN) {
				2621	if (we_should_drop_the_connection(mdev, sock))
				2622	break;
				2623	else
				2624	continue;
				2625	}
				2626	D_ASSERT(rv != 0);
				2627	if (rv == -EINTR) {
				2628	flush_signals(current);
				2629	rv = 0;
				2630	}
				2631	if (rv < 0)
				2632	break;
				2633	sent += rv;
				2634	iov.iov_base += rv;
				2635	iov.iov_len -= rv;
				2636	} while (sent < size);
				2637
				2638	if (sock == mdev->data.socket)
				2639	clear_bit(NET_CONGESTED, &mdev->flags);
				2640
				2641	if (rv <= 0) {
				2642	if (rv != -EAGAIN) {
				2643	dev_err(DEV, "%s_sendmsg returned %d\n",
				2644	sock == mdev->meta.socket ? "msock" : "sock",
				2645	rv);
				2646	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				2647	} else
				2648	drbd_force_state(mdev, NS(conn, C_TIMEOUT));
				2649	}
				2650
				2651	return sent;
				2652	}
				2653
				2654	static int drbd_open(struct block_device *bdev, fmode_t mode)
				2655	{
				2656	struct drbd_conf *mdev = bdev->bd_disk->private_data;
				2657	unsigned long flags;
				2658	int rv = 0;
				2659
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2660	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2661	spin_lock_irqsave(&mdev->req_lock, flags);
				2662	/* to have a stable mdev->state.role
				2663	* and no race with updating open_cnt */
				2664
				2665	if (mdev->state.role != R_PRIMARY) {
				2666	if (mode & FMODE_WRITE)
				2667	rv = -EROFS;
				2668	else if (!allow_oos)
				2669	rv = -EMEDIUMTYPE;
				2670	}
				2671
				2672	if (!rv)
				2673	mdev->open_cnt++;
				2674	spin_unlock_irqrestore(&mdev->req_lock, flags);
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2675	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2676
				2677	return rv;
				2678	}
				2679
				2680	static int drbd_release(struct gendisk *gd, fmode_t mode)
				2681	{
				2682	struct drbd_conf *mdev = gd->private_data;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2683	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2684	mdev->open_cnt--;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2685	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2686	return 0;
				2687	}
				2688
				2689	static void drbd_unplug_fn(struct request_queue *q)
				2690	{
				2691	struct drbd_conf *mdev = q->queuedata;
				2692
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2693	/* unplug FIRST */
				2694	spin_lock_irq(q->queue_lock);
				2695	blk_remove_plug(q);
				2696	spin_unlock_irq(q->queue_lock);
				2697
				2698	/* only if connected */
				2699	spin_lock_irq(&mdev->req_lock);
				2700	if (mdev->state.pdsk >= D_INCONSISTENT && mdev->state.conn >= C_CONNECTED) {
				2701	D_ASSERT(mdev->state.role == R_PRIMARY);
				2702	if (test_and_clear_bit(UNPLUG_REMOTE, &mdev->flags)) {
				2703	/* add to the data.work queue,
				2704	* unless already queued.
				2705	* XXX this might be a good addition to drbd_queue_work
				2706	* anyways, to detect "double queuing" ... */
				2707	if (list_empty(&mdev->unplug_work.list))
				2708	drbd_queue_work(&mdev->data.work,
				2709	&mdev->unplug_work);
				2710	}
				2711	}
				2712	spin_unlock_irq(&mdev->req_lock);
				2713
				2714	if (mdev->state.disk >= D_INCONSISTENT)
				2715	drbd_kick_lo(mdev);
				2716	}
				2717
				2718	static void drbd_set_defaults(struct drbd_conf *mdev)
				2719	{
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2720	/* This way we get a compile error when sync_conf grows,
				2721	and we forgot to initialize it here */
				2722	mdev->sync_conf = (struct syncer_conf) {
				2723	/* .rate = */ DRBD_RATE_DEF,
				2724	/* .after = */ DRBD_AFTER_DEF,
				2725	/* .al_extents = */ DRBD_AL_EXTENTS_DEF,
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2726	/* .verify_alg = */ {}, 0,
				2727	/* .cpu_mask = */ {}, 0,
				2728	/* .csums_alg = */ {}, 0,
Philipp Reisner	e756414	2010-06-29 17:35:34 +0200	[diff] [blame]	2729	/* .use_rle = */ 0,
Philipp Reisner	9a31d71	2010-07-05 13:42:03 +0200	[diff] [blame]	2730	/* .on_no_data = */ DRBD_ON_NO_DATA_DEF,
				2731	/* .c_plan_ahead = */ DRBD_C_PLAN_AHEAD_DEF,
				2732	/* .c_delay_target = */ DRBD_C_DELAY_TARGET_DEF,
				2733	/* .c_fill_target = */ DRBD_C_FILL_TARGET_DEF,
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2734	/* .c_max_rate = */ DRBD_C_MAX_RATE_DEF,
				2735	/* .c_min_rate = */ DRBD_C_MIN_RATE_DEF
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2736	};
				2737
				2738	/* Have to use that way, because the layout differs between
				2739	big endian and little endian */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2740	mdev->state = (union drbd_state) {
				2741	{ .role = R_SECONDARY,
				2742	.peer = R_UNKNOWN,
				2743	.conn = C_STANDALONE,
				2744	.disk = D_DISKLESS,
				2745	.pdsk = D_UNKNOWN,
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	2746	.susp = 0,
				2747	.susp_nod = 0,
				2748	.susp_fen = 0
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2749	} };
				2750	}
				2751
				2752	void drbd_init_set_defaults(struct drbd_conf *mdev)
				2753	{
				2754	/* the memset(,0,) did most of this.
				2755	* note: only assignments, no allocation in here */
				2756
				2757	drbd_set_defaults(mdev);
				2758
				2759	/* for now, we do NOT yet support it,
				2760	* even though we start some framework
				2761	* to eventually support barriers */
				2762	set_bit(NO_BARRIER_SUPP, &mdev->flags);
				2763
				2764	atomic_set(&mdev->ap_bio_cnt, 0);
				2765	atomic_set(&mdev->ap_pending_cnt, 0);
				2766	atomic_set(&mdev->rs_pending_cnt, 0);
				2767	atomic_set(&mdev->unacked_cnt, 0);
				2768	atomic_set(&mdev->local_cnt, 0);
				2769	atomic_set(&mdev->net_cnt, 0);
				2770	atomic_set(&mdev->packet_seq, 0);
				2771	atomic_set(&mdev->pp_in_use, 0);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	2772	atomic_set(&mdev->pp_in_use_by_net, 0);
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	2773	atomic_set(&mdev->rs_sect_in, 0);
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2774	atomic_set(&mdev->rs_sect_ev, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2775
				2776	mutex_init(&mdev->md_io_mutex);
				2777	mutex_init(&mdev->data.mutex);
				2778	mutex_init(&mdev->meta.mutex);
				2779	sema_init(&mdev->data.work.s, 0);
				2780	sema_init(&mdev->meta.work.s, 0);
				2781	mutex_init(&mdev->state_mutex);
				2782
				2783	spin_lock_init(&mdev->data.work.q_lock);
				2784	spin_lock_init(&mdev->meta.work.q_lock);
				2785
				2786	spin_lock_init(&mdev->al_lock);
				2787	spin_lock_init(&mdev->req_lock);
				2788	spin_lock_init(&mdev->peer_seq_lock);
				2789	spin_lock_init(&mdev->epoch_lock);
				2790
				2791	INIT_LIST_HEAD(&mdev->active_ee);
				2792	INIT_LIST_HEAD(&mdev->sync_ee);
				2793	INIT_LIST_HEAD(&mdev->done_ee);
				2794	INIT_LIST_HEAD(&mdev->read_ee);
				2795	INIT_LIST_HEAD(&mdev->net_ee);
				2796	INIT_LIST_HEAD(&mdev->resync_reads);
				2797	INIT_LIST_HEAD(&mdev->data.work.q);
				2798	INIT_LIST_HEAD(&mdev->meta.work.q);
				2799	INIT_LIST_HEAD(&mdev->resync_work.list);
				2800	INIT_LIST_HEAD(&mdev->unplug_work.list);
				2801	INIT_LIST_HEAD(&mdev->md_sync_work.list);
				2802	INIT_LIST_HEAD(&mdev->bm_io_work.w.list);
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	2803
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2804	mdev->resync_work.cb = w_resync_inactive;
				2805	mdev->unplug_work.cb = w_send_write_hint;
				2806	mdev->md_sync_work.cb = w_md_sync;
				2807	mdev->bm_io_work.w.cb = w_bitmap_io;
				2808	init_timer(&mdev->resync_timer);
				2809	init_timer(&mdev->md_sync_timer);
				2810	mdev->resync_timer.function = resync_timer_fn;
				2811	mdev->resync_timer.data = (unsigned long) mdev;
				2812	mdev->md_sync_timer.function = md_sync_timer_fn;
				2813	mdev->md_sync_timer.data = (unsigned long) mdev;
				2814
				2815	init_waitqueue_head(&mdev->misc_wait);
				2816	init_waitqueue_head(&mdev->state_wait);
Philipp Reisner	84dfb9f	2010-06-23 11:20:05 +0200	[diff] [blame]	2817	init_waitqueue_head(&mdev->net_cnt_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2818	init_waitqueue_head(&mdev->ee_wait);
				2819	init_waitqueue_head(&mdev->al_wait);
				2820	init_waitqueue_head(&mdev->seq_wait);
				2821
				2822	drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
				2823	drbd_thread_init(mdev, &mdev->worker, drbd_worker);
				2824	drbd_thread_init(mdev, &mdev->asender, drbd_asender);
				2825
				2826	mdev->agreed_pro_version = PRO_VERSION_MAX;
				2827	mdev->write_ordering = WO_bio_barrier;
				2828	mdev->resync_wenr = LC_FREE;
				2829	}
				2830
				2831	void drbd_mdev_cleanup(struct drbd_conf *mdev)
				2832	{
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2833	int i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2834	if (mdev->receiver.t_state != None)
				2835	dev_err(DEV, "ASSERT FAILED: receiver t_state == %d expected 0.\n",
				2836	mdev->receiver.t_state);
				2837
				2838	/* no need to lock it, I'm the only thread alive */
				2839	if (atomic_read(&mdev->current_epoch->epoch_size) != 0)
				2840	dev_err(DEV, "epoch_size:%d\n", atomic_read(&mdev->current_epoch->epoch_size));
				2841	mdev->al_writ_cnt =
				2842	mdev->bm_writ_cnt =
				2843	mdev->read_cnt =
				2844	mdev->recv_cnt =
				2845	mdev->send_cnt =
				2846	mdev->writ_cnt =
				2847	mdev->p_size =
				2848	mdev->rs_start =
				2849	mdev->rs_total =
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2850	mdev->rs_failed = 0;
				2851	mdev->rs_last_events = 0;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2852	mdev->rs_last_sect_ev = 0;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2853	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				2854	mdev->rs_mark_left[i] = 0;
				2855	mdev->rs_mark_time[i] = 0;
				2856	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2857	D_ASSERT(mdev->net_conf == NULL);
				2858
				2859	drbd_set_my_capacity(mdev, 0);
				2860	if (mdev->bitmap) {
				2861	/* maybe never allocated. */
Philipp Reisner	02d9a94	2010-03-24 16:23:03 +0100	[diff] [blame]	2862	drbd_bm_resize(mdev, 0, 1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2863	drbd_bm_cleanup(mdev);
				2864	}
				2865
				2866	drbd_free_resources(mdev);
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	2867	clear_bit(AL_SUSPENDED, &mdev->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2868
				2869	/*
				2870	* currently we drbd_init_ee only on module load, so
				2871	* we may do drbd_release_ee only on module unload!
				2872	*/
				2873	D_ASSERT(list_empty(&mdev->active_ee));
				2874	D_ASSERT(list_empty(&mdev->sync_ee));
				2875	D_ASSERT(list_empty(&mdev->done_ee));
				2876	D_ASSERT(list_empty(&mdev->read_ee));
				2877	D_ASSERT(list_empty(&mdev->net_ee));
				2878	D_ASSERT(list_empty(&mdev->resync_reads));
				2879	D_ASSERT(list_empty(&mdev->data.work.q));
				2880	D_ASSERT(list_empty(&mdev->meta.work.q));
				2881	D_ASSERT(list_empty(&mdev->resync_work.list));
				2882	D_ASSERT(list_empty(&mdev->unplug_work.list));
				2883
				2884	}
				2885
				2886
				2887	static void drbd_destroy_mempools(void)
				2888	{
				2889	struct page *page;
				2890
				2891	while (drbd_pp_pool) {
				2892	page = drbd_pp_pool;
				2893	drbd_pp_pool = (struct page *)page_private(page);
				2894	__free_page(page);
				2895	drbd_pp_vacant--;
				2896	}
				2897
				2898	/* D_ASSERT(atomic_read(&drbd_pp_vacant)==0); */
				2899
				2900	if (drbd_ee_mempool)
				2901	mempool_destroy(drbd_ee_mempool);
				2902	if (drbd_request_mempool)
				2903	mempool_destroy(drbd_request_mempool);
				2904	if (drbd_ee_cache)
				2905	kmem_cache_destroy(drbd_ee_cache);
				2906	if (drbd_request_cache)
				2907	kmem_cache_destroy(drbd_request_cache);
				2908	if (drbd_bm_ext_cache)
				2909	kmem_cache_destroy(drbd_bm_ext_cache);
				2910	if (drbd_al_ext_cache)
				2911	kmem_cache_destroy(drbd_al_ext_cache);
				2912
				2913	drbd_ee_mempool = NULL;
				2914	drbd_request_mempool = NULL;
				2915	drbd_ee_cache = NULL;
				2916	drbd_request_cache = NULL;
				2917	drbd_bm_ext_cache = NULL;
				2918	drbd_al_ext_cache = NULL;
				2919
				2920	return;
				2921	}
				2922
				2923	static int drbd_create_mempools(void)
				2924	{
				2925	struct page *page;
				2926	const int number = (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE) * minor_count;
				2927	int i;
				2928
				2929	/* prepare our caches and mempools */
				2930	drbd_request_mempool = NULL;
				2931	drbd_ee_cache = NULL;
				2932	drbd_request_cache = NULL;
				2933	drbd_bm_ext_cache = NULL;
				2934	drbd_al_ext_cache = NULL;
				2935	drbd_pp_pool = NULL;
				2936
				2937	/* caches */
				2938	drbd_request_cache = kmem_cache_create(
				2939	"drbd_req", sizeof(struct drbd_request), 0, 0, NULL);
				2940	if (drbd_request_cache == NULL)
				2941	goto Enomem;
				2942
				2943	drbd_ee_cache = kmem_cache_create(
				2944	"drbd_ee", sizeof(struct drbd_epoch_entry), 0, 0, NULL);
				2945	if (drbd_ee_cache == NULL)
				2946	goto Enomem;
				2947
				2948	drbd_bm_ext_cache = kmem_cache_create(
				2949	"drbd_bm", sizeof(struct bm_extent), 0, 0, NULL);
				2950	if (drbd_bm_ext_cache == NULL)
				2951	goto Enomem;
				2952
				2953	drbd_al_ext_cache = kmem_cache_create(
				2954	"drbd_al", sizeof(struct lc_element), 0, 0, NULL);
				2955	if (drbd_al_ext_cache == NULL)
				2956	goto Enomem;
				2957
				2958	/* mempools */
				2959	drbd_request_mempool = mempool_create(number,
				2960	mempool_alloc_slab, mempool_free_slab, drbd_request_cache);
				2961	if (drbd_request_mempool == NULL)
				2962	goto Enomem;
				2963
				2964	drbd_ee_mempool = mempool_create(number,
				2965	mempool_alloc_slab, mempool_free_slab, drbd_ee_cache);
				2966	if (drbd_request_mempool == NULL)
				2967	goto Enomem;
				2968
				2969	/* drbd's page pool */
				2970	spin_lock_init(&drbd_pp_lock);
				2971
				2972	for (i = 0; i < number; i++) {
				2973	page = alloc_page(GFP_HIGHUSER);
				2974	if (!page)
				2975	goto Enomem;
				2976	set_page_private(page, (unsigned long)drbd_pp_pool);
				2977	drbd_pp_pool = page;
				2978	}
				2979	drbd_pp_vacant = number;
				2980
				2981	return 0;
				2982
				2983	Enomem:
				2984	drbd_destroy_mempools(); /* in case we allocated some */
				2985	return -ENOMEM;
				2986	}
				2987
				2988	static int drbd_notify_sys(struct notifier_block *this, unsigned long code,
				2989	void *unused)
				2990	{
				2991	/* just so we have it. you never know what interesting things we
				2992	* might want to do here some day...
				2993	*/
				2994
				2995	return NOTIFY_DONE;
				2996	}
				2997
				2998	static struct notifier_block drbd_notifier = {
				2999	.notifier_call = drbd_notify_sys,
				3000	};
				3001
				3002	static void drbd_release_ee_lists(struct drbd_conf *mdev)
				3003	{
				3004	int rr;
				3005
				3006	rr = drbd_release_ee(mdev, &mdev->active_ee);
				3007	if (rr)
				3008	dev_err(DEV, "%d EEs in active list found!\n", rr);
				3009
				3010	rr = drbd_release_ee(mdev, &mdev->sync_ee);
				3011	if (rr)
				3012	dev_err(DEV, "%d EEs in sync list found!\n", rr);
				3013
				3014	rr = drbd_release_ee(mdev, &mdev->read_ee);
				3015	if (rr)
				3016	dev_err(DEV, "%d EEs in read list found!\n", rr);
				3017
				3018	rr = drbd_release_ee(mdev, &mdev->done_ee);
				3019	if (rr)
				3020	dev_err(DEV, "%d EEs in done list found!\n", rr);
				3021
				3022	rr = drbd_release_ee(mdev, &mdev->net_ee);
				3023	if (rr)
				3024	dev_err(DEV, "%d EEs in net list found!\n", rr);
				3025	}
				3026
				3027	/* caution. no locking.
				3028	* currently only used from module cleanup code. */
				3029	static void drbd_delete_device(unsigned int minor)
				3030	{
				3031	struct drbd_conf *mdev = minor_to_mdev(minor);
				3032
				3033	if (!mdev)
				3034	return;
				3035
				3036	/* paranoia asserts */
				3037	if (mdev->open_cnt != 0)
				3038	dev_err(DEV, "open_cnt = %d in %s:%u", mdev->open_cnt,
				3039	__FILE__ , __LINE__);
				3040
				3041	ERR_IF (!list_empty(&mdev->data.work.q)) {
				3042	struct list_head *lp;
				3043	list_for_each(lp, &mdev->data.work.q) {
				3044	dev_err(DEV, "lp = %p\n", lp);
				3045	}
				3046	};
				3047	/* end paranoia asserts */
				3048
				3049	del_gendisk(mdev->vdisk);
				3050
				3051	/* cleanup stuff that may have been allocated during
				3052	* device (re-)configuration or state changes */
				3053
				3054	if (mdev->this_bdev)
				3055	bdput(mdev->this_bdev);
				3056
				3057	drbd_free_resources(mdev);
				3058
				3059	drbd_release_ee_lists(mdev);
				3060
				3061	/* should be free'd on disconnect? */
				3062	kfree(mdev->ee_hash);
				3063	/*
				3064	mdev->ee_hash_s = 0;
				3065	mdev->ee_hash = NULL;
				3066	*/
				3067
				3068	lc_destroy(mdev->act_log);
				3069	lc_destroy(mdev->resync);
				3070
				3071	kfree(mdev->p_uuid);
				3072	/* mdev->p_uuid = NULL; */
				3073
				3074	kfree(mdev->int_dig_out);
				3075	kfree(mdev->int_dig_in);
				3076	kfree(mdev->int_dig_vv);
				3077
				3078	/* cleanup the rest that has been
				3079	* allocated from drbd_new_device
				3080	* and actually free the mdev itself */
				3081	drbd_free_mdev(mdev);
				3082	}
				3083
				3084	static void drbd_cleanup(void)
				3085	{
				3086	unsigned int i;
				3087
				3088	unregister_reboot_notifier(&drbd_notifier);
				3089
				3090	drbd_nl_cleanup();
				3091
				3092	if (minor_table) {
				3093	if (drbd_proc)
				3094	remove_proc_entry("drbd", NULL);
				3095	i = minor_count;
				3096	while (i--)
				3097	drbd_delete_device(i);
				3098	drbd_destroy_mempools();
				3099	}
				3100
				3101	kfree(minor_table);
				3102
				3103	unregister_blkdev(DRBD_MAJOR, "drbd");
				3104
				3105	printk(KERN_INFO "drbd: module cleanup done.\n");
				3106	}
				3107
				3108	/**
				3109	* drbd_congested() - Callback for pdflush
				3110	* @congested_data: User data
				3111	* @bdi_bits: Bits pdflush is currently interested in
				3112	*
				3113	* Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
				3114	*/
				3115	static int drbd_congested(void *congested_data, int bdi_bits)
				3116	{
				3117	struct drbd_conf *mdev = congested_data;
				3118	struct request_queue *q;
				3119	char reason = '-';
				3120	int r = 0;
				3121
				3122	if (!__inc_ap_bio_cond(mdev)) {
				3123	/* DRBD has frozen IO */
				3124	r = bdi_bits;
				3125	reason = 'd';
				3126	goto out;
				3127	}
				3128
				3129	if (get_ldev(mdev)) {
				3130	q = bdev_get_queue(mdev->ldev->backing_bdev);
				3131	r = bdi_congested(&q->backing_dev_info, bdi_bits);
				3132	put_ldev(mdev);
				3133	if (r)
				3134	reason = 'b';
				3135	}
				3136
				3137	if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
				3138	r \|= (1 << BDI_async_congested);
				3139	reason = reason == 'b' ? 'a' : 'n';
				3140	}
				3141
				3142	out:
				3143	mdev->congestion_reason = reason;
				3144	return r;
				3145	}
				3146
				3147	struct drbd_conf *drbd_new_device(unsigned int minor)
				3148	{
				3149	struct drbd_conf *mdev;
				3150	struct gendisk *disk;
				3151	struct request_queue *q;
				3152
				3153	/* GFP_KERNEL, we are outside of all write-out paths */
				3154	mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
				3155	if (!mdev)
				3156	return NULL;
				3157	if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
				3158	goto out_no_cpumask;
				3159
				3160	mdev->minor = minor;
				3161
				3162	drbd_init_set_defaults(mdev);
				3163
				3164	q = blk_alloc_queue(GFP_KERNEL);
				3165	if (!q)
				3166	goto out_no_q;
				3167	mdev->rq_queue = q;
				3168	q->queuedata = mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3169
				3170	disk = alloc_disk(1);
				3171	if (!disk)
				3172	goto out_no_disk;
				3173	mdev->vdisk = disk;
				3174
				3175	set_disk_ro(disk, TRUE);
				3176
				3177	disk->queue = q;
				3178	disk->major = DRBD_MAJOR;
				3179	disk->first_minor = minor;
				3180	disk->fops = &drbd_ops;
				3181	sprintf(disk->disk_name, "drbd%d", minor);
				3182	disk->private_data = mdev;
				3183
				3184	mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
				3185	/* we have no partitions. we contain only ourselves. */
				3186	mdev->this_bdev->bd_contains = mdev->this_bdev;
				3187
				3188	q->backing_dev_info.congested_fn = drbd_congested;
				3189	q->backing_dev_info.congested_data = mdev;
				3190
				3191	blk_queue_make_request(q, drbd_make_request_26);
Lars Ellenberg	98ec286	2010-01-21 19:33:14 +0100	[diff] [blame]	3192	blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3193	blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
				3194	blk_queue_merge_bvec(q, drbd_merge_bvec);
				3195	q->queue_lock = &mdev->req_lock; /* needed since we use */
				3196	/* plugging on a queue, that actually has no requests! */
				3197	q->unplug_fn = drbd_unplug_fn;
				3198
				3199	mdev->md_io_page = alloc_page(GFP_KERNEL);
				3200	if (!mdev->md_io_page)
				3201	goto out_no_io_page;
				3202
				3203	if (drbd_bm_init(mdev))
				3204	goto out_no_bitmap;
				3205	/* no need to lock access, we are still initializing this minor device. */
				3206	if (!tl_init(mdev))
				3207	goto out_no_tl;
				3208
				3209	mdev->app_reads_hash = kzalloc(APP_R_HSIZEsizeof(void ), GFP_KERNEL);
				3210	if (!mdev->app_reads_hash)
				3211	goto out_no_app_reads;
				3212
				3213	mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
				3214	if (!mdev->current_epoch)
				3215	goto out_no_epoch;
				3216
				3217	INIT_LIST_HEAD(&mdev->current_epoch->list);
				3218	mdev->epochs = 1;
				3219
				3220	return mdev;
				3221
				3222	/* out_whatever_else:
				3223	kfree(mdev->current_epoch); */
				3224	out_no_epoch:
				3225	kfree(mdev->app_reads_hash);
				3226	out_no_app_reads:
				3227	tl_cleanup(mdev);
				3228	out_no_tl:
				3229	drbd_bm_cleanup(mdev);
				3230	out_no_bitmap:
				3231	__free_page(mdev->md_io_page);
				3232	out_no_io_page:
				3233	put_disk(disk);
				3234	out_no_disk:
				3235	blk_cleanup_queue(q);
				3236	out_no_q:
				3237	free_cpumask_var(mdev->cpu_mask);
				3238	out_no_cpumask:
				3239	kfree(mdev);
				3240	return NULL;
				3241	}
				3242
				3243	/* counterpart of drbd_new_device.
				3244	* last part of drbd_delete_device. */
				3245	void drbd_free_mdev(struct drbd_conf *mdev)
				3246	{
				3247	kfree(mdev->current_epoch);
				3248	kfree(mdev->app_reads_hash);
				3249	tl_cleanup(mdev);
				3250	if (mdev->bitmap) /* should no longer be there. */
				3251	drbd_bm_cleanup(mdev);
				3252	__free_page(mdev->md_io_page);
				3253	put_disk(mdev->vdisk);
				3254	blk_cleanup_queue(mdev->rq_queue);
				3255	free_cpumask_var(mdev->cpu_mask);
				3256	kfree(mdev);
				3257	}
				3258
				3259
				3260	int __init drbd_init(void)
				3261	{
				3262	int err;
				3263
				3264	if (sizeof(struct p_handshake) != 80) {
				3265	printk(KERN_ERR
				3266	"drbd: never change the size or layout "
				3267	"of the HandShake packet.\n");
				3268	return -EINVAL;
				3269	}
				3270
				3271	if (1 > minor_count \|\| minor_count > 255) {
				3272	printk(KERN_ERR
				3273	"drbd: invalid minor_count (%d)\n", minor_count);
				3274	#ifdef MODULE
				3275	return -EINVAL;
				3276	#else
				3277	minor_count = 8;
				3278	#endif
				3279	}
				3280
				3281	err = drbd_nl_init();
				3282	if (err)
				3283	return err;
				3284
				3285	err = register_blkdev(DRBD_MAJOR, "drbd");
				3286	if (err) {
				3287	printk(KERN_ERR
				3288	"drbd: unable to register block device major %d\n",
				3289	DRBD_MAJOR);
				3290	return err;
				3291	}
				3292
				3293	register_reboot_notifier(&drbd_notifier);
				3294
				3295	/*
				3296	* allocate all necessary structs
				3297	*/
				3298	err = -ENOMEM;
				3299
				3300	init_waitqueue_head(&drbd_pp_wait);
				3301
				3302	drbd_proc = NULL; /* play safe for drbd_cleanup */
				3303	minor_table = kzalloc(sizeof(struct drbd_conf )minor_count,
				3304	GFP_KERNEL);
				3305	if (!minor_table)
				3306	goto Enomem;
				3307
				3308	err = drbd_create_mempools();
				3309	if (err)
				3310	goto Enomem;
				3311
Lars Ellenberg	8c484ee	2010-03-11 16:47:58 +0100	[diff] [blame]	3312	drbd_proc = proc_create_data("drbd", S_IFREG \| S_IRUGO , NULL, &drbd_proc_fops, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3313	if (!drbd_proc) {
				3314	printk(KERN_ERR "drbd: unable to register proc file\n");
				3315	goto Enomem;
				3316	}
				3317
				3318	rwlock_init(&global_state_lock);
				3319
				3320	printk(KERN_INFO "drbd: initialized. "
				3321	"Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
				3322	API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
				3323	printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
				3324	printk(KERN_INFO "drbd: registered as block device major %d\n",
				3325	DRBD_MAJOR);
				3326	printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);
				3327
				3328	return 0; /* Success! */
				3329
				3330	Enomem:
				3331	drbd_cleanup();
				3332	if (err == -ENOMEM)
				3333	/* currently always the case */
				3334	printk(KERN_ERR "drbd: ran out of memory\n");
				3335	else
				3336	printk(KERN_ERR "drbd: initialization failure\n");
				3337	return err;
				3338	}
				3339
				3340	void drbd_free_bc(struct drbd_backing_dev *ldev)
				3341	{
				3342	if (ldev == NULL)
				3343	return;
				3344
				3345	bd_release(ldev->backing_bdev);
				3346	bd_release(ldev->md_bdev);
				3347
				3348	fput(ldev->lo_file);
				3349	fput(ldev->md_file);
				3350
				3351	kfree(ldev);
				3352	}
				3353
				3354	void drbd_free_sock(struct drbd_conf *mdev)
				3355	{
				3356	if (mdev->data.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3357	mutex_lock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3358	kernel_sock_shutdown(mdev->data.socket, SHUT_RDWR);
				3359	sock_release(mdev->data.socket);
				3360	mdev->data.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3361	mutex_unlock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3362	}
				3363	if (mdev->meta.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3364	mutex_lock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3365	kernel_sock_shutdown(mdev->meta.socket, SHUT_RDWR);
				3366	sock_release(mdev->meta.socket);
				3367	mdev->meta.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3368	mutex_unlock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3369	}
				3370	}
				3371
				3372
				3373	void drbd_free_resources(struct drbd_conf *mdev)
				3374	{
				3375	crypto_free_hash(mdev->csums_tfm);
				3376	mdev->csums_tfm = NULL;
				3377	crypto_free_hash(mdev->verify_tfm);
				3378	mdev->verify_tfm = NULL;
				3379	crypto_free_hash(mdev->cram_hmac_tfm);
				3380	mdev->cram_hmac_tfm = NULL;
				3381	crypto_free_hash(mdev->integrity_w_tfm);
				3382	mdev->integrity_w_tfm = NULL;
				3383	crypto_free_hash(mdev->integrity_r_tfm);
				3384	mdev->integrity_r_tfm = NULL;
				3385
				3386	drbd_free_sock(mdev);
				3387
				3388	__no_warn(local,
				3389	drbd_free_bc(mdev->ldev);
				3390	mdev->ldev = NULL;);
				3391	}
				3392
				3393	/* meta data management */
				3394
				3395	struct meta_data_on_disk {
				3396	u64 la_size; /* last agreed size. */
				3397	u64 uuid[UI_SIZE]; /* UUIDs. */
				3398	u64 device_uuid;
				3399	u64 reserved_u64_1;
				3400	u32 flags; /* MDF */
				3401	u32 magic;
				3402	u32 md_size_sect;
				3403	u32 al_offset; /* offset to this block */
				3404	u32 al_nr_extents; /* important for restoring the AL */
				3405	/* `-- act_log->nr_elements <-- sync_conf.al_extents */
				3406	u32 bm_offset; /* offset to the bitmap, from here */
				3407	u32 bm_bytes_per_bit; /* BM_BLOCK_SIZE */
				3408	u32 reserved_u32[4];
				3409
				3410	} __packed;
				3411
				3412	/**
				3413	* drbd_md_sync() - Writes the meta data super block if the MD_DIRTY flag bit is set
				3414	* @mdev: DRBD device.
				3415	*/
				3416	void drbd_md_sync(struct drbd_conf *mdev)
				3417	{
				3418	struct meta_data_on_disk *buffer;
				3419	sector_t sector;
				3420	int i;
				3421
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3422	del_timer(&mdev->md_sync_timer);
				3423	/* timer may be rearmed by drbd_md_mark_dirty() now. */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3424	if (!test_and_clear_bit(MD_DIRTY, &mdev->flags))
				3425	return;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3426
				3427	/* We use here D_FAILED and not D_ATTACHING because we try to write
				3428	* metadata even if we detach due to a disk failure! */
				3429	if (!get_ldev_if_state(mdev, D_FAILED))
				3430	return;
				3431
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3432	mutex_lock(&mdev->md_io_mutex);
				3433	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3434	memset(buffer, 0, 512);
				3435
				3436	buffer->la_size = cpu_to_be64(drbd_get_capacity(mdev->this_bdev));
				3437	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3438	buffer->uuid[i] = cpu_to_be64(mdev->ldev->md.uuid[i]);
				3439	buffer->flags = cpu_to_be32(mdev->ldev->md.flags);
				3440	buffer->magic = cpu_to_be32(DRBD_MD_MAGIC);
				3441
				3442	buffer->md_size_sect = cpu_to_be32(mdev->ldev->md.md_size_sect);
				3443	buffer->al_offset = cpu_to_be32(mdev->ldev->md.al_offset);
				3444	buffer->al_nr_extents = cpu_to_be32(mdev->act_log->nr_elements);
				3445	buffer->bm_bytes_per_bit = cpu_to_be32(BM_BLOCK_SIZE);
				3446	buffer->device_uuid = cpu_to_be64(mdev->ldev->md.device_uuid);
				3447
				3448	buffer->bm_offset = cpu_to_be32(mdev->ldev->md.bm_offset);
				3449
				3450	D_ASSERT(drbd_md_ss__(mdev, mdev->ldev) == mdev->ldev->md.md_offset);
				3451	sector = mdev->ldev->md.md_offset;
				3452
Lars Ellenberg	3f3a9b8	2010-09-01 15:12:12 +0200	[diff] [blame]	3453	if (!drbd_md_sync_page_io(mdev, mdev->ldev, sector, WRITE)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3454	/* this was a try anyways ... */
				3455	dev_err(DEV, "meta data update failed!\n");
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3456	drbd_chk_io_error(mdev, 1, TRUE);
				3457	}
				3458
				3459	/* Update mdev->ldev->md.la_size_sect,
				3460	* since we updated it on metadata. */
				3461	mdev->ldev->md.la_size_sect = drbd_get_capacity(mdev->this_bdev);
				3462
				3463	mutex_unlock(&mdev->md_io_mutex);
				3464	put_ldev(mdev);
				3465	}
				3466
				3467	/**
				3468	* drbd_md_read() - Reads in the meta data super block
				3469	* @mdev: DRBD device.
				3470	* @bdev: Device from which the meta data should be read in.
				3471	*
				3472	* Return 0 (NO_ERROR) on success, and an enum drbd_ret_codes in case
				3473	* something goes wrong. Currently only: ERR_IO_MD_DISK, ERR_MD_INVALID.
				3474	*/
				3475	int drbd_md_read(struct drbd_conf mdev, struct drbd_backing_dev bdev)
				3476	{
				3477	struct meta_data_on_disk *buffer;
				3478	int i, rv = NO_ERROR;
				3479
				3480	if (!get_ldev_if_state(mdev, D_ATTACHING))
				3481	return ERR_IO_MD_DISK;
				3482
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3483	mutex_lock(&mdev->md_io_mutex);
				3484	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3485
				3486	if (!drbd_md_sync_page_io(mdev, bdev, bdev->md.md_offset, READ)) {
				3487	/* NOTE: cant do normal error processing here as this is
				3488	called BEFORE disk is attached */
				3489	dev_err(DEV, "Error while reading metadata.\n");
				3490	rv = ERR_IO_MD_DISK;
				3491	goto err;
				3492	}
				3493
				3494	if (be32_to_cpu(buffer->magic) != DRBD_MD_MAGIC) {
				3495	dev_err(DEV, "Error while reading metadata, magic not found.\n");
				3496	rv = ERR_MD_INVALID;
				3497	goto err;
				3498	}
				3499	if (be32_to_cpu(buffer->al_offset) != bdev->md.al_offset) {
				3500	dev_err(DEV, "unexpected al_offset: %d (expected %d)\n",
				3501	be32_to_cpu(buffer->al_offset), bdev->md.al_offset);
				3502	rv = ERR_MD_INVALID;
				3503	goto err;
				3504	}
				3505	if (be32_to_cpu(buffer->bm_offset) != bdev->md.bm_offset) {
				3506	dev_err(DEV, "unexpected bm_offset: %d (expected %d)\n",
				3507	be32_to_cpu(buffer->bm_offset), bdev->md.bm_offset);
				3508	rv = ERR_MD_INVALID;
				3509	goto err;
				3510	}
				3511	if (be32_to_cpu(buffer->md_size_sect) != bdev->md.md_size_sect) {
				3512	dev_err(DEV, "unexpected md_size: %u (expected %u)\n",
				3513	be32_to_cpu(buffer->md_size_sect), bdev->md.md_size_sect);
				3514	rv = ERR_MD_INVALID;
				3515	goto err;
				3516	}
				3517
				3518	if (be32_to_cpu(buffer->bm_bytes_per_bit) != BM_BLOCK_SIZE) {
				3519	dev_err(DEV, "unexpected bm_bytes_per_bit: %u (expected %u)\n",
				3520	be32_to_cpu(buffer->bm_bytes_per_bit), BM_BLOCK_SIZE);
				3521	rv = ERR_MD_INVALID;
				3522	goto err;
				3523	}
				3524
				3525	bdev->md.la_size_sect = be64_to_cpu(buffer->la_size);
				3526	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3527	bdev->md.uuid[i] = be64_to_cpu(buffer->uuid[i]);
				3528	bdev->md.flags = be32_to_cpu(buffer->flags);
				3529	mdev->sync_conf.al_extents = be32_to_cpu(buffer->al_nr_extents);
				3530	bdev->md.device_uuid = be64_to_cpu(buffer->device_uuid);
				3531
				3532	if (mdev->sync_conf.al_extents < 7)
				3533	mdev->sync_conf.al_extents = 127;
				3534
				3535	err:
				3536	mutex_unlock(&mdev->md_io_mutex);
				3537	put_ldev(mdev);
				3538
				3539	return rv;
				3540	}
				3541
				3542	/**
				3543	* drbd_md_mark_dirty() - Mark meta data super block as dirty
				3544	* @mdev: DRBD device.
				3545	*
				3546	* Call this function if you change anything that should be written to
				3547	* the meta-data super block. This function sets MD_DIRTY, and starts a
				3548	* timer that ensures that within five seconds you have to call drbd_md_sync().
				3549	*/
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3550	#ifdef DRBD_DEBUG_MD_SYNC
				3551	void drbd_md_mark_dirty_(struct drbd_conf mdev, unsigned int line, const char func)
				3552	{
				3553	if (!test_and_set_bit(MD_DIRTY, &mdev->flags)) {
				3554	mod_timer(&mdev->md_sync_timer, jiffies + HZ);
				3555	mdev->last_md_mark_dirty.line = line;
				3556	mdev->last_md_mark_dirty.func = func;
				3557	}
				3558	}
				3559	#else
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3560	void drbd_md_mark_dirty(struct drbd_conf *mdev)
				3561	{
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3562	if (!test_and_set_bit(MD_DIRTY, &mdev->flags))
				3563	mod_timer(&mdev->md_sync_timer, jiffies + HZ);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3564	}
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3565	#endif
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3566
				3567	static void drbd_uuid_move_history(struct drbd_conf *mdev) __must_hold(local)
				3568	{
				3569	int i;
				3570
Jens Axboe	6a0afdf	2009-10-01 09:04:14 +0200	[diff] [blame]	3571	for (i = UI_HISTORY_START; i < UI_HISTORY_END; i++)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3572	mdev->ldev->md.uuid[i+1] = mdev->ldev->md.uuid[i];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3573	}
				3574
				3575	void _drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3576	{
				3577	if (idx == UI_CURRENT) {
				3578	if (mdev->state.role == R_PRIMARY)
				3579	val \|= 1;
				3580	else
				3581	val &= ~((u64)1);
				3582
				3583	drbd_set_ed_uuid(mdev, val);
				3584	}
				3585
				3586	mdev->ldev->md.uuid[idx] = val;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3587	drbd_md_mark_dirty(mdev);
				3588	}
				3589
				3590
				3591	void drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3592	{
				3593	if (mdev->ldev->md.uuid[idx]) {
				3594	drbd_uuid_move_history(mdev);
				3595	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[idx];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3596	}
				3597	_drbd_uuid_set(mdev, idx, val);
				3598	}
				3599
				3600	/**
				3601	* drbd_uuid_new_current() - Creates a new current UUID
				3602	* @mdev: DRBD device.
				3603	*
				3604	* Creates a new current UUID, and rotates the old current UUID into
				3605	* the bitmap slot. Causes an incremental resync upon next connect.
				3606	*/
				3607	void drbd_uuid_new_current(struct drbd_conf *mdev) __must_hold(local)
				3608	{
				3609	u64 val;
				3610
				3611	dev_info(DEV, "Creating new current UUID\n");
				3612	D_ASSERT(mdev->ldev->md.uuid[UI_BITMAP] == 0);
				3613	mdev->ldev->md.uuid[UI_BITMAP] = mdev->ldev->md.uuid[UI_CURRENT];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3614
				3615	get_random_bytes(&val, sizeof(u64));
				3616	_drbd_uuid_set(mdev, UI_CURRENT, val);
				3617	}
				3618
				3619	void drbd_uuid_set_bm(struct drbd_conf *mdev, u64 val) __must_hold(local)
				3620	{
				3621	if (mdev->ldev->md.uuid[UI_BITMAP] == 0 && val == 0)
				3622	return;
				3623
				3624	if (val == 0) {
				3625	drbd_uuid_move_history(mdev);
				3626	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[UI_BITMAP];
				3627	mdev->ldev->md.uuid[UI_BITMAP] = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3628	} else {
				3629	if (mdev->ldev->md.uuid[UI_BITMAP])
				3630	dev_warn(DEV, "bm UUID already set");
				3631
				3632	mdev->ldev->md.uuid[UI_BITMAP] = val;
				3633	mdev->ldev->md.uuid[UI_BITMAP] &= ~((u64)1);
				3634
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3635	}
				3636	drbd_md_mark_dirty(mdev);
				3637	}
				3638
				3639	/**
				3640	* drbd_bmio_set_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3641	* @mdev: DRBD device.
				3642	*
				3643	* Sets all bits in the bitmap and writes the whole bitmap to stable storage.
				3644	*/
				3645	int drbd_bmio_set_n_write(struct drbd_conf *mdev)
				3646	{
				3647	int rv = -EIO;
				3648
				3649	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3650	drbd_md_set_flag(mdev, MDF_FULL_SYNC);
				3651	drbd_md_sync(mdev);
				3652	drbd_bm_set_all(mdev);
				3653
				3654	rv = drbd_bm_write(mdev);
				3655
				3656	if (!rv) {
				3657	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				3658	drbd_md_sync(mdev);
				3659	}
				3660
				3661	put_ldev(mdev);
				3662	}
				3663
				3664	return rv;
				3665	}
				3666
				3667	/**
				3668	* drbd_bmio_clear_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3669	* @mdev: DRBD device.
				3670	*
				3671	* Clears all bits in the bitmap and writes the whole bitmap to stable storage.
				3672	*/
				3673	int drbd_bmio_clear_n_write(struct drbd_conf *mdev)
				3674	{
				3675	int rv = -EIO;
				3676
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	3677	drbd_resume_al(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3678	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3679	drbd_bm_clear_all(mdev);
				3680	rv = drbd_bm_write(mdev);
				3681	put_ldev(mdev);
				3682	}
				3683
				3684	return rv;
				3685	}
				3686
				3687	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused)
				3688	{
				3689	struct bm_io_work *work = container_of(w, struct bm_io_work, w);
				3690	int rv;
				3691
				3692	D_ASSERT(atomic_read(&mdev->ap_bio_cnt) == 0);
				3693
				3694	drbd_bm_lock(mdev, work->why);
				3695	rv = work->io_fn(mdev);
				3696	drbd_bm_unlock(mdev);
				3697
				3698	clear_bit(BITMAP_IO, &mdev->flags);
				3699	wake_up(&mdev->misc_wait);
				3700
				3701	if (work->done)
				3702	work->done(mdev, rv);
				3703
				3704	clear_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3705	work->why = NULL;
				3706
				3707	return 1;
				3708	}
				3709
				3710	/**
				3711	* drbd_queue_bitmap_io() - Queues an IO operation on the whole bitmap
				3712	* @mdev: DRBD device.
				3713	* @io_fn: IO callback to be called when bitmap IO is possible
				3714	* @done: callback to be called after the bitmap IO was performed
				3715	* @why: Descriptive text of the reason for doing the IO
				3716	*
				3717	* While IO on the bitmap happens we freeze application IO thus we ensure
				3718	* that drbd_set_out_of_sync() can not be called. This function MAY ONLY be
				3719	* called from worker context. It MUST NOT be used while a previous such
				3720	* work is still pending!
				3721	*/
				3722	void drbd_queue_bitmap_io(struct drbd_conf *mdev,
				3723	int (io_fn)(struct drbd_conf ),
				3724	void (done)(struct drbd_conf , int),
				3725	char *why)
				3726	{
				3727	D_ASSERT(current == mdev->worker.task);
				3728
				3729	D_ASSERT(!test_bit(BITMAP_IO_QUEUED, &mdev->flags));
				3730	D_ASSERT(!test_bit(BITMAP_IO, &mdev->flags));
				3731	D_ASSERT(list_empty(&mdev->bm_io_work.w.list));
				3732	if (mdev->bm_io_work.why)
				3733	dev_err(DEV, "FIXME going to queue '%s' but '%s' still pending?\n",
				3734	why, mdev->bm_io_work.why);
				3735
				3736	mdev->bm_io_work.io_fn = io_fn;
				3737	mdev->bm_io_work.done = done;
				3738	mdev->bm_io_work.why = why;
				3739
				3740	set_bit(BITMAP_IO, &mdev->flags);
				3741	if (atomic_read(&mdev->ap_bio_cnt) == 0) {
				3742	if (list_empty(&mdev->bm_io_work.w.list)) {
				3743	set_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3744	drbd_queue_work(&mdev->data.work, &mdev->bm_io_work.w);
				3745	} else
				3746	dev_err(DEV, "FIXME avoided double queuing bm_io_work\n");
				3747	}
				3748	}
				3749
				3750	/**
				3751	* drbd_bitmap_io() - Does an IO operation on the whole bitmap
				3752	* @mdev: DRBD device.
				3753	* @io_fn: IO callback to be called when bitmap IO is possible
				3754	* @why: Descriptive text of the reason for doing the IO
				3755	*
				3756	* freezes application IO while that the actual IO operations runs. This
				3757	* functions MAY NOT be called from worker context.
				3758	*/
				3759	int drbd_bitmap_io(struct drbd_conf mdev, int (io_fn)(struct drbd_conf ), char why)
				3760	{
				3761	int rv;
				3762
				3763	D_ASSERT(current != mdev->worker.task);
				3764
				3765	drbd_suspend_io(mdev);
				3766
				3767	drbd_bm_lock(mdev, why);
				3768	rv = io_fn(mdev);
				3769	drbd_bm_unlock(mdev);
				3770
				3771	drbd_resume_io(mdev);
				3772
				3773	return rv;
				3774	}
				3775
				3776	void drbd_md_set_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3777	{
				3778	if ((mdev->ldev->md.flags & flag) != flag) {
				3779	drbd_md_mark_dirty(mdev);
				3780	mdev->ldev->md.flags \|= flag;
				3781	}
				3782	}
				3783
				3784	void drbd_md_clear_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3785	{
				3786	if ((mdev->ldev->md.flags & flag) != 0) {
				3787	drbd_md_mark_dirty(mdev);
				3788	mdev->ldev->md.flags &= ~flag;
				3789	}
				3790	}
				3791	int drbd_md_test_flag(struct drbd_backing_dev *bdev, int flag)
				3792	{
				3793	return (bdev->md.flags & flag) != 0;
				3794	}
				3795
				3796	static void md_sync_timer_fn(unsigned long data)
				3797	{
				3798	struct drbd_conf mdev = (struct drbd_conf ) data;
				3799
				3800	drbd_queue_work_front(&mdev->data.work, &mdev->md_sync_work);
				3801	}
				3802
				3803	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused)
				3804	{
				3805	dev_warn(DEV, "md_sync_timer expired! Worker calls drbd_md_sync().\n");
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3806	#ifdef DEBUG
				3807	dev_warn(DEV, "last md_mark_dirty: %s:%u\n",
				3808	mdev->last_md_mark_dirty.func, mdev->last_md_mark_dirty.line);
				3809	#endif
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3810	drbd_md_sync(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3811	return 1;
				3812	}
				3813
				3814	#ifdef CONFIG_DRBD_FAULT_INJECTION
				3815	/* Fault insertion support including random number generator shamelessly
				3816	* stolen from kernel/rcutorture.c */
				3817	struct fault_random_state {
				3818	unsigned long state;
				3819	unsigned long count;
				3820	};
				3821
				3822	#define FAULT_RANDOM_MULT 39916801 /* prime */
				3823	#define FAULT_RANDOM_ADD 479001701 /* prime */
				3824	#define FAULT_RANDOM_REFRESH 10000
				3825
				3826	/*
				3827	* Crude but fast random-number generator. Uses a linear congruential
				3828	* generator, with occasional help from get_random_bytes().
				3829	*/
				3830	static unsigned long
				3831	_drbd_fault_random(struct fault_random_state *rsp)
				3832	{
				3833	long refresh;
				3834
Roel Kluin	49829ea	2009-12-15 22:55:44 +0100	[diff] [blame]	3835	if (!rsp->count--) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3836	get_random_bytes(&refresh, sizeof(refresh));
				3837	rsp->state += refresh;
				3838	rsp->count = FAULT_RANDOM_REFRESH;
				3839	}
				3840	rsp->state = rsp->state * FAULT_RANDOM_MULT + FAULT_RANDOM_ADD;
				3841	return swahw32(rsp->state);
				3842	}
				3843
				3844	static char *
				3845	_drbd_fault_str(unsigned int type) {
				3846	static char *_faults[] = {
				3847	[DRBD_FAULT_MD_WR] = "Meta-data write",
				3848	[DRBD_FAULT_MD_RD] = "Meta-data read",
				3849	[DRBD_FAULT_RS_WR] = "Resync write",
				3850	[DRBD_FAULT_RS_RD] = "Resync read",
				3851	[DRBD_FAULT_DT_WR] = "Data write",
				3852	[DRBD_FAULT_DT_RD] = "Data read",
				3853	[DRBD_FAULT_DT_RA] = "Data read ahead",
				3854	[DRBD_FAULT_BM_ALLOC] = "BM allocation",
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	3855	[DRBD_FAULT_AL_EE] = "EE allocation",
				3856	[DRBD_FAULT_RECEIVE] = "receive data corruption",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3857	};
				3858
				3859	return (type < DRBD_FAULT_MAX) ? _faults[type] : "Unknown";
				3860	}
				3861
				3862	unsigned int
				3863	_drbd_insert_fault(struct drbd_conf *mdev, unsigned int type)
				3864	{
				3865	static struct fault_random_state rrs = {0, 0};
				3866
				3867	unsigned int ret = (
				3868	(fault_devs == 0 \|\|
				3869	((1 << mdev_to_minor(mdev)) & fault_devs) != 0) &&
				3870	(((_drbd_fault_random(&rrs) % 100) + 1) <= fault_rate));
				3871
				3872	if (ret) {
				3873	fault_count++;
				3874
Lars Ellenberg	7383506	2010-05-27 11:51:56 +0200	[diff] [blame]	3875	if (__ratelimit(&drbd_ratelimit_state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3876	dev_warn(DEV, "***Simulating %s failure\n",
				3877	_drbd_fault_str(type));
				3878	}
				3879
				3880	return ret;
				3881	}
				3882	#endif
				3883
				3884	const char *drbd_buildtag(void)
				3885	{
				3886	/* DRBD built from external sources has here a reference to the
				3887	git hash of the source code. */
				3888
				3889	static char buildtag[38] = "\0uilt-in";
				3890
				3891	if (buildtag[0] == 0) {
				3892	#ifdef CONFIG_MODULES
				3893	if (THIS_MODULE != NULL)
				3894	sprintf(buildtag, "srcversion: %-24s", THIS_MODULE->srcversion);
				3895	else
				3896	#endif
				3897	buildtag[0] = 'b';
				3898	}
				3899
				3900	return buildtag;
				3901	}
				3902
				3903	module_init(drbd_init)
				3904	module_exit(drbd_cleanup)
				3905
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3906	EXPORT_SYMBOL(drbd_conn_str);
				3907	EXPORT_SYMBOL(drbd_role_str);
				3908	EXPORT_SYMBOL(drbd_disk_str);
				3909	EXPORT_SYMBOL(drbd_set_st_err_str);