Blame - drivers/block/drbd/drbd_main.c - kernel/msm-5.4

blob: 63f45d730f3fdd2734690eb20a1782f4cbccbd99 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	Thanks to Carter Burden, Bart Grantham and Gennadiy Nerubayev
				11	from Logicworks, Inc. for making SDP replication support possible.
				12
				13	drbd is free software; you can redistribute it and/or modify
				14	it under the terms of the GNU General Public License as published by
				15	the Free Software Foundation; either version 2, or (at your option)
				16	any later version.
				17
				18	drbd is distributed in the hope that it will be useful,
				19	but WITHOUT ANY WARRANTY; without even the implied warranty of
				20	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				21	GNU General Public License for more details.
				22
				23	You should have received a copy of the GNU General Public License
				24	along with drbd; see the file COPYING. If not, write to
				25	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				26
				27	*/
				28
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	30	#include <linux/drbd.h>
				31	#include <asm/uaccess.h>
				32	#include <asm/types.h>
				33	#include <net/sock.h>
				34	#include <linux/ctype.h>
				35	#include <linux/smp_lock.h>
				36	#include <linux/fs.h>
				37	#include <linux/file.h>
				38	#include <linux/proc_fs.h>
				39	#include <linux/init.h>
				40	#include <linux/mm.h>
				41	#include <linux/memcontrol.h>
				42	#include <linux/mm_inline.h>
				43	#include <linux/slab.h>
				44	#include <linux/random.h>
				45	#include <linux/reboot.h>
				46	#include <linux/notifier.h>
				47	#include <linux/kthread.h>
				48
				49	#define __KERNEL_SYSCALLS__
				50	#include <linux/unistd.h>
				51	#include <linux/vmalloc.h>
				52
				53	#include <linux/drbd_limits.h>
				54	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	55	#include "drbd_req.h" /* only for _req_mod in tl_release and tl_clear */
				56
				57	#include "drbd_vli.h"
				58
				59	struct after_state_chg_work {
				60	struct drbd_work w;
				61	union drbd_state os;
				62	union drbd_state ns;
				63	enum chg_state_flags flags;
				64	struct completion *done;
				65	};
				66
				67	int drbdd_init(struct drbd_thread *);
				68	int drbd_worker(struct drbd_thread *);
				69	int drbd_asender(struct drbd_thread *);
				70
				71	int drbd_init(void);
				72	static int drbd_open(struct block_device *bdev, fmode_t mode);
				73	static int drbd_release(struct gendisk *gd, fmode_t mode);
				74	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused);
				75	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				76	union drbd_state ns, enum chg_state_flags flags);
				77	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused);
				78	static void md_sync_timer_fn(unsigned long data);
				79	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused);
				80
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	81	MODULE_AUTHOR("Philipp Reisner <phil@linbit.com>, "
				82	"Lars Ellenberg <lars@linbit.com>");
				83	MODULE_DESCRIPTION("drbd - Distributed Replicated Block Device v" REL_VERSION);
				84	MODULE_VERSION(REL_VERSION);
				85	MODULE_LICENSE("GPL");
				86	MODULE_PARM_DESC(minor_count, "Maximum number of drbd devices (1-255)");
				87	MODULE_ALIAS_BLOCKDEV_MAJOR(DRBD_MAJOR);
				88
				89	#include <linux/moduleparam.h>
				90	/* allow_open_on_secondary */
				91	MODULE_PARM_DESC(allow_oos, "DONT USE!");
				92	/* thanks to these macros, if compiled into the kernel (not-module),
				93	* this becomes the boot parameter drbd.minor_count */
				94	module_param(minor_count, uint, 0444);
				95	module_param(disable_sendpage, bool, 0644);
				96	module_param(allow_oos, bool, 0);
				97	module_param(cn_idx, uint, 0444);
				98	module_param(proc_details, int, 0644);
				99
				100	#ifdef CONFIG_DRBD_FAULT_INJECTION
				101	int enable_faults;
				102	int fault_rate;
				103	static int fault_count;
				104	int fault_devs;
				105	/* bitmap of enabled faults */
				106	module_param(enable_faults, int, 0664);
				107	/* fault rate % value - applies to all enabled faults */
				108	module_param(fault_rate, int, 0664);
				109	/* count of faults inserted */
				110	module_param(fault_count, int, 0664);
				111	/* bitmap of devices to insert faults on */
				112	module_param(fault_devs, int, 0644);
				113	#endif
				114
				115	/* module parameter, defined */
				116	unsigned int minor_count = 32;
				117	int disable_sendpage;
				118	int allow_oos;
				119	unsigned int cn_idx = CN_IDX_DRBD;
				120	int proc_details; /* Detail level in proc drbd*/
				121
				122	/* Module parameter for setting the user mode helper program
				123	* to run. Default is /sbin/drbdadm */
				124	char usermode_helper[80] = "/sbin/drbdadm";
				125
				126	module_param_string(usermode_helper, usermode_helper, sizeof(usermode_helper), 0644);
				127
				128	/* in 2.6.x, our device mapping and config info contains our virtual gendisks
				129	* as member "struct gendisk *vdisk;"
				130	*/
				131	struct drbd_conf **minor_table;
				132
				133	struct kmem_cache *drbd_request_cache;
				134	struct kmem_cache drbd_ee_cache; / epoch entries */
				135	struct kmem_cache drbd_bm_ext_cache; / bitmap extents */
				136	struct kmem_cache drbd_al_ext_cache; / activity log extents */
				137	mempool_t *drbd_request_mempool;
				138	mempool_t *drbd_ee_mempool;
				139
				140	/* I do not use a standard mempool, because:
				141	1) I want to hand out the pre-allocated objects first.
				142	2) I want to be able to interrupt sleeping allocation with a signal.
				143	Note: This is a single linked list, the next pointer is the private
				144	member of struct page.
				145	*/
				146	struct page *drbd_pp_pool;
				147	spinlock_t drbd_pp_lock;
				148	int drbd_pp_vacant;
				149	wait_queue_head_t drbd_pp_wait;
				150
				151	DEFINE_RATELIMIT_STATE(drbd_ratelimit_state, 5 * HZ, 5);
				152
Emese Revfy	7d4e9d0	2009-12-14 00:59:30 +0100	[diff] [blame]	153	static const struct block_device_operations drbd_ops = {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	154	.owner = THIS_MODULE,
				155	.open = drbd_open,
				156	.release = drbd_release,
				157	};
				158
				159	#define ARRY_SIZE(A) (sizeof(A)/sizeof(A[0]))
				160
				161	#ifdef __CHECKER__
				162	/* When checking with sparse, and this is an inline function, sparse will
				163	give tons of false positives. When this is a real functions sparse works.
				164	*/
				165	int _get_ldev_if_state(struct drbd_conf *mdev, enum drbd_disk_state mins)
				166	{
				167	int io_allowed;
				168
				169	atomic_inc(&mdev->local_cnt);
				170	io_allowed = (mdev->state.disk >= mins);
				171	if (!io_allowed) {
				172	if (atomic_dec_and_test(&mdev->local_cnt))
				173	wake_up(&mdev->misc_wait);
				174	}
				175	return io_allowed;
				176	}
				177
				178	#endif
				179
				180	/**
				181	* DOC: The transfer log
				182	*
				183	* The transfer log is a single linked list of &struct drbd_tl_epoch objects.
				184	* mdev->newest_tle points to the head, mdev->oldest_tle points to the tail
				185	* of the list. There is always at least one &struct drbd_tl_epoch object.
				186	*
				187	* Each &struct drbd_tl_epoch has a circular double linked list of requests
				188	* attached.
				189	*/
				190	static int tl_init(struct drbd_conf *mdev)
				191	{
				192	struct drbd_tl_epoch *b;
				193
				194	/* during device minor initialization, we may well use GFP_KERNEL */
				195	b = kmalloc(sizeof(struct drbd_tl_epoch), GFP_KERNEL);
				196	if (!b)
				197	return 0;
				198	INIT_LIST_HEAD(&b->requests);
				199	INIT_LIST_HEAD(&b->w.list);
				200	b->next = NULL;
				201	b->br_number = 4711;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	202	b->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	b->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				204
				205	mdev->oldest_tle = b;
				206	mdev->newest_tle = b;
				207	INIT_LIST_HEAD(&mdev->out_of_sequence_requests);
				208
				209	mdev->tl_hash = NULL;
				210	mdev->tl_hash_s = 0;
				211
				212	return 1;
				213	}
				214
				215	static void tl_cleanup(struct drbd_conf *mdev)
				216	{
				217	D_ASSERT(mdev->oldest_tle == mdev->newest_tle);
				218	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				219	kfree(mdev->oldest_tle);
				220	mdev->oldest_tle = NULL;
				221	kfree(mdev->unused_spare_tle);
				222	mdev->unused_spare_tle = NULL;
				223	kfree(mdev->tl_hash);
				224	mdev->tl_hash = NULL;
				225	mdev->tl_hash_s = 0;
				226	}
				227
				228	/**
				229	* _tl_add_barrier() - Adds a barrier to the transfer log
				230	* @mdev: DRBD device.
				231	* @new: Barrier to be added before the current head of the TL.
				232	*
				233	* The caller must hold the req_lock.
				234	*/
				235	void _tl_add_barrier(struct drbd_conf mdev, struct drbd_tl_epoch new)
				236	{
				237	struct drbd_tl_epoch *newest_before;
				238
				239	INIT_LIST_HEAD(&new->requests);
				240	INIT_LIST_HEAD(&new->w.list);
				241	new->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				242	new->next = NULL;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	243	new->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	244
				245	newest_before = mdev->newest_tle;
				246	/* never send a barrier number == 0, because that is special-cased
				247	* when using TCQ for our write ordering code */
				248	new->br_number = (newest_before->br_number+1) ?: 1;
				249	if (mdev->newest_tle != new) {
				250	mdev->newest_tle->next = new;
				251	mdev->newest_tle = new;
				252	}
				253	}
				254
				255	/**
				256	* tl_release() - Free or recycle the oldest &struct drbd_tl_epoch object of the TL
				257	* @mdev: DRBD device.
				258	* @barrier_nr: Expected identifier of the DRBD write barrier packet.
				259	* @set_size: Expected number of requests before that barrier.
				260	*
				261	* In case the passed barrier_nr or set_size does not match the oldest
				262	* &struct drbd_tl_epoch objects this function will cause a termination
				263	* of the connection.
				264	*/
				265	void tl_release(struct drbd_conf *mdev, unsigned int barrier_nr,
				266	unsigned int set_size)
				267	{
				268	struct drbd_tl_epoch b, nob; /* next old barrier */
				269	struct list_head le, tle;
				270	struct drbd_request *r;
				271
				272	spin_lock_irq(&mdev->req_lock);
				273
				274	b = mdev->oldest_tle;
				275
				276	/* first some paranoia code */
				277	if (b == NULL) {
				278	dev_err(DEV, "BAD! BarrierAck #%u received, but no epoch in tl!?\n",
				279	barrier_nr);
				280	goto bail;
				281	}
				282	if (b->br_number != barrier_nr) {
				283	dev_err(DEV, "BAD! BarrierAck #%u received, expected #%u!\n",
				284	barrier_nr, b->br_number);
				285	goto bail;
				286	}
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	287	if (b->n_writes != set_size) {
				288	dev_err(DEV, "BAD! BarrierAck #%u received with n_writes=%u, expected n_writes=%u!\n",
				289	barrier_nr, set_size, b->n_writes);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	290	goto bail;
				291	}
				292
				293	/* Clean up list of requests processed during current epoch */
				294	list_for_each_safe(le, tle, &b->requests) {
				295	r = list_entry(le, struct drbd_request, tl_requests);
				296	_req_mod(r, barrier_acked);
				297	}
				298	/* There could be requests on the list waiting for completion
				299	of the write to the local disk. To avoid corruptions of
				300	slab's data structures we have to remove the lists head.
				301
				302	Also there could have been a barrier ack out of sequence, overtaking
				303	the write acks - which would be a bug and violating write ordering.
				304	To not deadlock in case we lose connection while such requests are
				305	still pending, we need some way to find them for the
				306	_req_mode(connection_lost_while_pending).
				307
				308	These have been list_move'd to the out_of_sequence_requests list in
				309	_req_mod(, barrier_acked) above.
				310	*/
				311	list_del_init(&b->requests);
				312
				313	nob = b->next;
				314	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags)) {
				315	_tl_add_barrier(mdev, b);
				316	if (nob)
				317	mdev->oldest_tle = nob;
				318	/* if nob == NULL b was the only barrier, and becomes the new
				319	barrier. Therefore mdev->oldest_tle points already to b */
				320	} else {
				321	D_ASSERT(nob != NULL);
				322	mdev->oldest_tle = nob;
				323	kfree(b);
				324	}
				325
				326	spin_unlock_irq(&mdev->req_lock);
				327	dec_ap_pending(mdev);
				328
				329	return;
				330
				331	bail:
				332	spin_unlock_irq(&mdev->req_lock);
				333	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				334	}
				335
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	336	/**
				337	* _tl_restart() - Walks the transfer log, and applies an action to all requests
				338	* @mdev: DRBD device.
				339	* @what: The action/event to perform with all request objects
				340	*
				341	* @what might be one of connection_lost_while_pending, resend, fail_frozen_disk_io,
				342	* restart_frozen_disk_io.
				343	*/
				344	static void _tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				345	{
				346	struct drbd_tl_epoch b, tmp, **pn;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	347	struct list_head le, tle, carry_reads;
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	348	struct drbd_request *req;
				349	int rv, n_writes, n_reads;
				350
				351	b = mdev->oldest_tle;
				352	pn = &mdev->oldest_tle;
				353	while (b) {
				354	n_writes = 0;
				355	n_reads = 0;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	356	INIT_LIST_HEAD(&carry_reads);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	357	list_for_each_safe(le, tle, &b->requests) {
				358	req = list_entry(le, struct drbd_request, tl_requests);
				359	rv = _req_mod(req, what);
				360
				361	n_writes += (rv & MR_WRITE) >> MR_WRITE_SHIFT;
				362	n_reads += (rv & MR_READ) >> MR_READ_SHIFT;
				363	}
				364	tmp = b->next;
				365
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	366	if (n_writes) {
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	367	if (what == resend) {
				368	b->n_writes = n_writes;
				369	if (b->w.cb == NULL) {
				370	b->w.cb = w_send_barrier;
				371	inc_ap_pending(mdev);
				372	set_bit(CREATE_BARRIER, &mdev->flags);
				373	}
				374
				375	drbd_queue_work(&mdev->data.work, &b->w);
				376	}
				377	pn = &b->next;
				378	} else {
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	379	if (n_reads)
				380	list_add(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	381	/* there could still be requests on that ring list,
				382	* in case local io is still pending */
				383	list_del(&b->requests);
				384
				385	/* dec_ap_pending corresponding to queue_barrier.
				386	* the newest barrier may not have been queued yet,
				387	* in which case w.cb is still NULL. */
				388	if (b->w.cb != NULL)
				389	dec_ap_pending(mdev);
				390
				391	if (b == mdev->newest_tle) {
				392	/* recycle, but reinit! */
				393	D_ASSERT(tmp == NULL);
				394	INIT_LIST_HEAD(&b->requests);
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	395	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	396	INIT_LIST_HEAD(&b->w.list);
				397	b->w.cb = NULL;
				398	b->br_number = net_random();
				399	b->n_writes = 0;
				400
				401	*pn = b;
				402	break;
				403	}
				404	*pn = tmp;
				405	kfree(b);
				406	}
				407	b = tmp;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	408	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	409	}
				410	}
				411
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	412
				413	/**
				414	* tl_clear() - Clears all requests and &struct drbd_tl_epoch objects out of the TL
				415	* @mdev: DRBD device.
				416	*
				417	* This is called after the connection to the peer was lost. The storage covered
				418	* by the requests on the transfer gets marked as our of sync. Called from the
				419	* receiver thread and the worker thread.
				420	*/
				421	void tl_clear(struct drbd_conf *mdev)
				422	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	423	struct list_head le, tle;
				424	struct drbd_request *r;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	425
				426	spin_lock_irq(&mdev->req_lock);
				427
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	428	_tl_restart(mdev, connection_lost_while_pending);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	429
				430	/* we expect this list to be empty. */
				431	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				432
				433	/* but just in case, clean it up anyways! */
				434	list_for_each_safe(le, tle, &mdev->out_of_sequence_requests) {
				435	r = list_entry(le, struct drbd_request, tl_requests);
				436	/* It would be nice to complete outside of spinlock.
				437	* But this is easier for now. */
				438	_req_mod(r, connection_lost_while_pending);
				439	}
				440
				441	/* ensure bit indicating barrier is required is clear */
				442	clear_bit(CREATE_BARRIER, &mdev->flags);
				443
Philipp Reisner	288f422	2010-05-27 15:07:43 +0200	[diff] [blame]	444	memset(mdev->app_reads_hash, 0, APP_R_HSIZEsizeof(void ));
				445
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	446	spin_unlock_irq(&mdev->req_lock);
				447	}
				448
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	449	void tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				450	{
				451	spin_lock_irq(&mdev->req_lock);
				452	_tl_restart(mdev, what);
				453	spin_unlock_irq(&mdev->req_lock);
				454	}
				455
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	456	/**
				457	* cl_wide_st_chg() - TRUE if the state change is a cluster wide one
				458	* @mdev: DRBD device.
				459	* @os: old (current) state.
				460	* @ns: new (wanted) state.
				461	*/
				462	static int cl_wide_st_chg(struct drbd_conf *mdev,
				463	union drbd_state os, union drbd_state ns)
				464	{
				465	return (os.conn >= C_CONNECTED && ns.conn >= C_CONNECTED &&
				466	((os.role != R_PRIMARY && ns.role == R_PRIMARY) \|\|
				467	(os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				468	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S) \|\|
				469	(os.disk != D_DISKLESS && ns.disk == D_DISKLESS))) \|\|
				470	(os.conn >= C_CONNECTED && ns.conn == C_DISCONNECTING) \|\|
				471	(os.conn == C_CONNECTED && ns.conn == C_VERIFY_S);
				472	}
				473
				474	int drbd_change_state(struct drbd_conf *mdev, enum chg_state_flags f,
				475	union drbd_state mask, union drbd_state val)
				476	{
				477	unsigned long flags;
				478	union drbd_state os, ns;
				479	int rv;
				480
				481	spin_lock_irqsave(&mdev->req_lock, flags);
				482	os = mdev->state;
				483	ns.i = (os.i & ~mask.i) \| val.i;
				484	rv = _drbd_set_state(mdev, ns, f, NULL);
				485	ns = mdev->state;
				486	spin_unlock_irqrestore(&mdev->req_lock, flags);
				487
				488	return rv;
				489	}
				490
				491	/**
				492	* drbd_force_state() - Impose a change which happens outside our control on our state
				493	* @mdev: DRBD device.
				494	* @mask: mask of state bits to change.
				495	* @val: value of new state bits.
				496	*/
				497	void drbd_force_state(struct drbd_conf *mdev,
				498	union drbd_state mask, union drbd_state val)
				499	{
				500	drbd_change_state(mdev, CS_HARD, mask, val);
				501	}
				502
				503	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns);
				504	static int is_valid_state_transition(struct drbd_conf *,
				505	union drbd_state, union drbd_state);
				506	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	507	union drbd_state ns, const char **warn_sync_abort);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	508	int drbd_send_state_req(struct drbd_conf *,
				509	union drbd_state, union drbd_state);
				510
				511	static enum drbd_state_ret_codes _req_st_cond(struct drbd_conf *mdev,
				512	union drbd_state mask, union drbd_state val)
				513	{
				514	union drbd_state os, ns;
				515	unsigned long flags;
				516	int rv;
				517
				518	if (test_and_clear_bit(CL_ST_CHG_SUCCESS, &mdev->flags))
				519	return SS_CW_SUCCESS;
				520
				521	if (test_and_clear_bit(CL_ST_CHG_FAIL, &mdev->flags))
				522	return SS_CW_FAILED_BY_PEER;
				523
				524	rv = 0;
				525	spin_lock_irqsave(&mdev->req_lock, flags);
				526	os = mdev->state;
				527	ns.i = (os.i & ~mask.i) \| val.i;
				528	ns = sanitize_state(mdev, os, ns, NULL);
				529
				530	if (!cl_wide_st_chg(mdev, os, ns))
				531	rv = SS_CW_NO_NEED;
				532	if (!rv) {
				533	rv = is_valid_state(mdev, ns);
				534	if (rv == SS_SUCCESS) {
				535	rv = is_valid_state_transition(mdev, ns, os);
				536	if (rv == SS_SUCCESS)
				537	rv = 0; /* cont waiting, otherwise fail. */
				538	}
				539	}
				540	spin_unlock_irqrestore(&mdev->req_lock, flags);
				541
				542	return rv;
				543	}
				544
				545	/**
				546	* drbd_req_state() - Perform an eventually cluster wide state change
				547	* @mdev: DRBD device.
				548	* @mask: mask of state bits to change.
				549	* @val: value of new state bits.
				550	* @f: flags
				551	*
				552	* Should not be called directly, use drbd_request_state() or
				553	* _drbd_request_state().
				554	*/
				555	static int drbd_req_state(struct drbd_conf *mdev,
				556	union drbd_state mask, union drbd_state val,
				557	enum chg_state_flags f)
				558	{
				559	struct completion done;
				560	unsigned long flags;
				561	union drbd_state os, ns;
				562	int rv;
				563
				564	init_completion(&done);
				565
				566	if (f & CS_SERIALIZE)
				567	mutex_lock(&mdev->state_mutex);
				568
				569	spin_lock_irqsave(&mdev->req_lock, flags);
				570	os = mdev->state;
				571	ns.i = (os.i & ~mask.i) \| val.i;
				572	ns = sanitize_state(mdev, os, ns, NULL);
				573
				574	if (cl_wide_st_chg(mdev, os, ns)) {
				575	rv = is_valid_state(mdev, ns);
				576	if (rv == SS_SUCCESS)
				577	rv = is_valid_state_transition(mdev, ns, os);
				578	spin_unlock_irqrestore(&mdev->req_lock, flags);
				579
				580	if (rv < SS_SUCCESS) {
				581	if (f & CS_VERBOSE)
				582	print_st_err(mdev, os, ns, rv);
				583	goto abort;
				584	}
				585
				586	drbd_state_lock(mdev);
				587	if (!drbd_send_state_req(mdev, mask, val)) {
				588	drbd_state_unlock(mdev);
				589	rv = SS_CW_FAILED_BY_PEER;
				590	if (f & CS_VERBOSE)
				591	print_st_err(mdev, os, ns, rv);
				592	goto abort;
				593	}
				594
				595	wait_event(mdev->state_wait,
				596	(rv = _req_st_cond(mdev, mask, val)));
				597
				598	if (rv < SS_SUCCESS) {
				599	drbd_state_unlock(mdev);
				600	if (f & CS_VERBOSE)
				601	print_st_err(mdev, os, ns, rv);
				602	goto abort;
				603	}
				604	spin_lock_irqsave(&mdev->req_lock, flags);
				605	os = mdev->state;
				606	ns.i = (os.i & ~mask.i) \| val.i;
				607	rv = _drbd_set_state(mdev, ns, f, &done);
				608	drbd_state_unlock(mdev);
				609	} else {
				610	rv = _drbd_set_state(mdev, ns, f, &done);
				611	}
				612
				613	spin_unlock_irqrestore(&mdev->req_lock, flags);
				614
				615	if (f & CS_WAIT_COMPLETE && rv == SS_SUCCESS) {
				616	D_ASSERT(current != mdev->worker.task);
				617	wait_for_completion(&done);
				618	}
				619
				620	abort:
				621	if (f & CS_SERIALIZE)
				622	mutex_unlock(&mdev->state_mutex);
				623
				624	return rv;
				625	}
				626
				627	/**
				628	* _drbd_request_state() - Request a state change (with flags)
				629	* @mdev: DRBD device.
				630	* @mask: mask of state bits to change.
				631	* @val: value of new state bits.
				632	* @f: flags
				633	*
				634	* Cousin of drbd_request_state(), useful with the CS_WAIT_COMPLETE
				635	* flag, or when logging of failed state change requests is not desired.
				636	*/
				637	int _drbd_request_state(struct drbd_conf *mdev, union drbd_state mask,
				638	union drbd_state val, enum chg_state_flags f)
				639	{
				640	int rv;
				641
				642	wait_event(mdev->state_wait,
				643	(rv = drbd_req_state(mdev, mask, val, f)) != SS_IN_TRANSIENT_STATE);
				644
				645	return rv;
				646	}
				647
				648	static void print_st(struct drbd_conf mdev, char name, union drbd_state ns)
				649	{
				650	dev_err(DEV, " %s = { cs:%s ro:%s/%s ds:%s/%s %c%c%c%c }\n",
				651	name,
				652	drbd_conn_str(ns.conn),
				653	drbd_role_str(ns.role),
				654	drbd_role_str(ns.peer),
				655	drbd_disk_str(ns.disk),
				656	drbd_disk_str(ns.pdsk),
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	657	is_susp(ns) ? 's' : 'r',
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	658	ns.aftr_isp ? 'a' : '-',
				659	ns.peer_isp ? 'p' : '-',
				660	ns.user_isp ? 'u' : '-'
				661	);
				662	}
				663
				664	void print_st_err(struct drbd_conf *mdev,
				665	union drbd_state os, union drbd_state ns, int err)
				666	{
				667	if (err == SS_IN_TRANSIENT_STATE)
				668	return;
				669	dev_err(DEV, "State change failed: %s\n", drbd_set_st_err_str(err));
				670	print_st(mdev, " state", os);
				671	print_st(mdev, "wanted", ns);
				672	}
				673
				674
				675	#define drbd_peer_str drbd_role_str
				676	#define drbd_pdsk_str drbd_disk_str
				677
				678	#define drbd_susp_str(A) ((A) ? "1" : "0")
				679	#define drbd_aftr_isp_str(A) ((A) ? "1" : "0")
				680	#define drbd_peer_isp_str(A) ((A) ? "1" : "0")
				681	#define drbd_user_isp_str(A) ((A) ? "1" : "0")
				682
				683	#define PSC(A) \
				684	({ if (ns.A != os.A) { \
				685	pbp += sprintf(pbp, #A "( %s -> %s ) ", \
				686	drbd_##A##_str(os.A), \
				687	drbd_##A##_str(ns.A)); \
				688	} })
				689
				690	/**
				691	* is_valid_state() - Returns an SS_ error code if ns is not valid
				692	* @mdev: DRBD device.
				693	* @ns: State to consider.
				694	*/
				695	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns)
				696	{
				697	/* See drbd_state_sw_errors in drbd_strings.c */
				698
				699	enum drbd_fencing_p fp;
				700	int rv = SS_SUCCESS;
				701
				702	fp = FP_DONT_CARE;
				703	if (get_ldev(mdev)) {
				704	fp = mdev->ldev->dc.fencing;
				705	put_ldev(mdev);
				706	}
				707
				708	if (get_net_conf(mdev)) {
				709	if (!mdev->net_conf->two_primaries &&
				710	ns.role == R_PRIMARY && ns.peer == R_PRIMARY)
				711	rv = SS_TWO_PRIMARIES;
				712	put_net_conf(mdev);
				713	}
				714
				715	if (rv <= 0)
				716	/* already found a reason to abort */;
				717	else if (ns.role == R_SECONDARY && mdev->open_cnt)
				718	rv = SS_DEVICE_IN_USE;
				719
				720	else if (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.disk < D_UP_TO_DATE)
				721	rv = SS_NO_UP_TO_DATE_DISK;
				722
				723	else if (fp >= FP_RESOURCE &&
				724	ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk >= D_UNKNOWN)
				725	rv = SS_PRIMARY_NOP;
				726
				727	else if (ns.role == R_PRIMARY && ns.disk <= D_INCONSISTENT && ns.pdsk <= D_INCONSISTENT)
				728	rv = SS_NO_UP_TO_DATE_DISK;
				729
				730	else if (ns.conn > C_CONNECTED && ns.disk < D_INCONSISTENT)
				731	rv = SS_NO_LOCAL_DISK;
				732
				733	else if (ns.conn > C_CONNECTED && ns.pdsk < D_INCONSISTENT)
				734	rv = SS_NO_REMOTE_DISK;
				735
Lars Ellenberg	8d4ce82	2010-04-01 16:59:32 +0200	[diff] [blame]	736	else if (ns.conn > C_CONNECTED && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE)
				737	rv = SS_NO_UP_TO_DATE_DISK;
				738
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	739	else if ((ns.conn == C_CONNECTED \|\|
				740	ns.conn == C_WF_BITMAP_S \|\|
				741	ns.conn == C_SYNC_SOURCE \|\|
				742	ns.conn == C_PAUSED_SYNC_S) &&
				743	ns.disk == D_OUTDATED)
				744	rv = SS_CONNECTED_OUTDATES;
				745
				746	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				747	(mdev->sync_conf.verify_alg[0] == 0))
				748	rv = SS_NO_VERIFY_ALG;
				749
				750	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				751	mdev->agreed_pro_version < 88)
				752	rv = SS_NOT_SUPPORTED;
				753
				754	return rv;
				755	}
				756
				757	/**
				758	* is_valid_state_transition() - Returns an SS_ error code if the state transition is not possible
				759	* @mdev: DRBD device.
				760	* @ns: new state.
				761	* @os: old state.
				762	*/
				763	static int is_valid_state_transition(struct drbd_conf *mdev,
				764	union drbd_state ns, union drbd_state os)
				765	{
				766	int rv = SS_SUCCESS;
				767
				768	if ((ns.conn == C_STARTING_SYNC_T \|\| ns.conn == C_STARTING_SYNC_S) &&
				769	os.conn > C_CONNECTED)
				770	rv = SS_RESYNC_RUNNING;
				771
				772	if (ns.conn == C_DISCONNECTING && os.conn == C_STANDALONE)
				773	rv = SS_ALREADY_STANDALONE;
				774
				775	if (ns.disk > D_ATTACHING && os.disk == D_DISKLESS)
				776	rv = SS_IS_DISKLESS;
				777
				778	if (ns.conn == C_WF_CONNECTION && os.conn < C_UNCONNECTED)
				779	rv = SS_NO_NET_CONFIG;
				780
				781	if (ns.disk == D_OUTDATED && os.disk < D_OUTDATED && os.disk != D_ATTACHING)
				782	rv = SS_LOWER_THAN_OUTDATED;
				783
				784	if (ns.conn == C_DISCONNECTING && os.conn == C_UNCONNECTED)
				785	rv = SS_IN_TRANSIENT_STATE;
				786
				787	if (ns.conn == os.conn && ns.conn == C_WF_REPORT_PARAMS)
				788	rv = SS_IN_TRANSIENT_STATE;
				789
				790	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) && os.conn < C_CONNECTED)
				791	rv = SS_NEED_CONNECTION;
				792
				793	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				794	ns.conn != os.conn && os.conn > C_CONNECTED)
				795	rv = SS_RESYNC_RUNNING;
				796
				797	if ((ns.conn == C_STARTING_SYNC_S \|\| ns.conn == C_STARTING_SYNC_T) &&
				798	os.conn < C_CONNECTED)
				799	rv = SS_NEED_CONNECTION;
				800
				801	return rv;
				802	}
				803
				804	/**
				805	* sanitize_state() - Resolves implicitly necessary additional changes to a state transition
				806	* @mdev: DRBD device.
				807	* @os: old state.
				808	* @ns: new state.
				809	* @warn_sync_abort:
				810	*
				811	* When we loose connection, we have to set the state of the peers disk (pdsk)
				812	* to D_UNKNOWN. This rule and many more along those lines are in this function.
				813	*/
				814	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	815	union drbd_state ns, const char **warn_sync_abort)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	816	{
				817	enum drbd_fencing_p fp;
				818
				819	fp = FP_DONT_CARE;
				820	if (get_ldev(mdev)) {
				821	fp = mdev->ldev->dc.fencing;
				822	put_ldev(mdev);
				823	}
				824
				825	/* Disallow Network errors to configure a device's network part */
				826	if ((ns.conn >= C_TIMEOUT && ns.conn <= C_TEAR_DOWN) &&
				827	os.conn <= C_DISCONNECTING)
				828	ns.conn = os.conn;
				829
Lars Ellenberg	f2906e1	2010-07-21 17:04:32 +0200	[diff] [blame]	830	/* After a network error (+C_TEAR_DOWN) only C_UNCONNECTED or C_DISCONNECTING can follow.
				831	* If you try to go into some Sync* state, that shall fail (elsewhere). */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	832	if (os.conn >= C_TIMEOUT && os.conn <= C_TEAR_DOWN &&
Lars Ellenberg	f2906e1	2010-07-21 17:04:32 +0200	[diff] [blame]	833	ns.conn != C_UNCONNECTED && ns.conn != C_DISCONNECTING && ns.conn <= C_TEAR_DOWN)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	834	ns.conn = os.conn;
				835
				836	/* After C_DISCONNECTING only C_STANDALONE may follow */
				837	if (os.conn == C_DISCONNECTING && ns.conn != C_STANDALONE)
				838	ns.conn = os.conn;
				839
				840	if (ns.conn < C_CONNECTED) {
				841	ns.peer_isp = 0;
				842	ns.peer = R_UNKNOWN;
				843	if (ns.pdsk > D_UNKNOWN \|\| ns.pdsk < D_INCONSISTENT)
				844	ns.pdsk = D_UNKNOWN;
				845	}
				846
				847	/* Clear the aftr_isp when becoming unconfigured */
				848	if (ns.conn == C_STANDALONE && ns.disk == D_DISKLESS && ns.role == R_SECONDARY)
				849	ns.aftr_isp = 0;
				850
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	851	/* Abort resync if a disk fails/detaches */
				852	if (os.conn > C_CONNECTED && ns.conn > C_CONNECTED &&
				853	(ns.disk <= D_FAILED \|\| ns.pdsk <= D_FAILED)) {
				854	if (warn_sync_abort)
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	855	*warn_sync_abort =
				856	os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T ?
				857	"Online-verify" : "Resync";
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	858	ns.conn = C_CONNECTED;
				859	}
				860
				861	if (ns.conn >= C_CONNECTED &&
				862	((ns.disk == D_CONSISTENT \|\| ns.disk == D_OUTDATED) \|\|
				863	(ns.disk == D_NEGOTIATING && ns.conn == C_WF_BITMAP_T))) {
				864	switch (ns.conn) {
				865	case C_WF_BITMAP_T:
				866	case C_PAUSED_SYNC_T:
				867	ns.disk = D_OUTDATED;
				868	break;
				869	case C_CONNECTED:
				870	case C_WF_BITMAP_S:
				871	case C_SYNC_SOURCE:
				872	case C_PAUSED_SYNC_S:
				873	ns.disk = D_UP_TO_DATE;
				874	break;
				875	case C_SYNC_TARGET:
				876	ns.disk = D_INCONSISTENT;
				877	dev_warn(DEV, "Implicitly set disk state Inconsistent!\n");
				878	break;
				879	}
				880	if (os.disk == D_OUTDATED && ns.disk == D_UP_TO_DATE)
				881	dev_warn(DEV, "Implicitly set disk from Outdated to UpToDate\n");
				882	}
				883
				884	if (ns.conn >= C_CONNECTED &&
				885	(ns.pdsk == D_CONSISTENT \|\| ns.pdsk == D_OUTDATED)) {
				886	switch (ns.conn) {
				887	case C_CONNECTED:
				888	case C_WF_BITMAP_T:
				889	case C_PAUSED_SYNC_T:
				890	case C_SYNC_TARGET:
				891	ns.pdsk = D_UP_TO_DATE;
				892	break;
				893	case C_WF_BITMAP_S:
				894	case C_PAUSED_SYNC_S:
Lars Ellenberg	e0f8301	2010-04-01 15:13:19 +0200	[diff] [blame]	895	/* remap any consistent state to D_OUTDATED,
				896	* but disallow "upgrade" of not even consistent states.
				897	*/
				898	ns.pdsk =
				899	(D_DISKLESS < os.pdsk && os.pdsk < D_OUTDATED)
				900	? os.pdsk : D_OUTDATED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	901	break;
				902	case C_SYNC_SOURCE:
				903	ns.pdsk = D_INCONSISTENT;
				904	dev_warn(DEV, "Implicitly set pdsk Inconsistent!\n");
				905	break;
				906	}
				907	if (os.pdsk == D_OUTDATED && ns.pdsk == D_UP_TO_DATE)
				908	dev_warn(DEV, "Implicitly set pdsk from Outdated to UpToDate\n");
				909	}
				910
				911	/* Connection breaks down before we finished "Negotiating" */
				912	if (ns.conn < C_CONNECTED && ns.disk == D_NEGOTIATING &&
				913	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				914	if (mdev->ed_uuid == mdev->ldev->md.uuid[UI_CURRENT]) {
				915	ns.disk = mdev->new_state_tmp.disk;
				916	ns.pdsk = mdev->new_state_tmp.pdsk;
				917	} else {
				918	dev_alert(DEV, "Connection lost while negotiating, no data!\n");
				919	ns.disk = D_DISKLESS;
				920	ns.pdsk = D_UNKNOWN;
				921	}
				922	put_ldev(mdev);
				923	}
				924
				925	if (fp == FP_STONITH &&
Philipp Reisner	0a49216	2009-10-21 13:08:29 +0200	[diff] [blame]	926	(ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk > D_OUTDATED) &&
				927	!(os.role == R_PRIMARY && os.conn < C_CONNECTED && os.pdsk > D_OUTDATED))
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	928	ns.susp_fen = 1; /* Suspend IO while fence-peer handler runs (peer lost) */
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	929
				930	if (mdev->sync_conf.on_no_data == OND_SUSPEND_IO &&
				931	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE) &&
				932	!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE))
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	933	ns.susp_nod = 1; /* Suspend IO while no data available (no accessible data available) */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	934
				935	if (ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp) {
				936	if (ns.conn == C_SYNC_SOURCE)
				937	ns.conn = C_PAUSED_SYNC_S;
				938	if (ns.conn == C_SYNC_TARGET)
				939	ns.conn = C_PAUSED_SYNC_T;
				940	} else {
				941	if (ns.conn == C_PAUSED_SYNC_S)
				942	ns.conn = C_SYNC_SOURCE;
				943	if (ns.conn == C_PAUSED_SYNC_T)
				944	ns.conn = C_SYNC_TARGET;
				945	}
				946
				947	return ns;
				948	}
				949
				950	/* helper for __drbd_set_state */
				951	static void set_ov_position(struct drbd_conf *mdev, enum drbd_conns cs)
				952	{
				953	if (cs == C_VERIFY_T) {
				954	/* starting online verify from an arbitrary position
				955	* does not fit well into the existing protocol.
				956	* on C_VERIFY_T, we initialize ov_left and friends
				957	* implicitly in receive_DataRequest once the
				958	* first P_OV_REQUEST is received */
				959	mdev->ov_start_sector = ~(sector_t)0;
				960	} else {
				961	unsigned long bit = BM_SECT_TO_BIT(mdev->ov_start_sector);
				962	if (bit >= mdev->rs_total)
				963	mdev->ov_start_sector =
				964	BM_BIT_TO_SECT(mdev->rs_total - 1);
				965	mdev->ov_position = mdev->ov_start_sector;
				966	}
				967	}
				968
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	969	static void drbd_resume_al(struct drbd_conf *mdev)
				970	{
				971	if (test_and_clear_bit(AL_SUSPENDED, &mdev->flags))
				972	dev_info(DEV, "Resumed AL updates\n");
				973	}
				974
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	975	/**
				976	* __drbd_set_state() - Set a new DRBD state
				977	* @mdev: DRBD device.
				978	* @ns: new state.
				979	* @flags: Flags
				980	* @done: Optional completion, that will get completed after the after_state_ch() finished
				981	*
				982	* Caller needs to hold req_lock, and global_state_lock. Do not call directly.
				983	*/
				984	int __drbd_set_state(struct drbd_conf *mdev,
				985	union drbd_state ns, enum chg_state_flags flags,
				986	struct completion *done)
				987	{
				988	union drbd_state os;
				989	int rv = SS_SUCCESS;
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	990	const char *warn_sync_abort = NULL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	991	struct after_state_chg_work *ascw;
				992
				993	os = mdev->state;
				994
				995	ns = sanitize_state(mdev, os, ns, &warn_sync_abort);
				996
				997	if (ns.i == os.i)
				998	return SS_NOTHING_TO_DO;
				999
				1000	if (!(flags & CS_HARD)) {
				1001	/* pre-state-change checks ; only look at ns */
				1002	/* See drbd_state_sw_errors in drbd_strings.c */
				1003
				1004	rv = is_valid_state(mdev, ns);
				1005	if (rv < SS_SUCCESS) {
				1006	/* If the old state was illegal as well, then let
				1007	this happen...*/
				1008
Philipp Reisner	1616a25	2010-06-10 16:55:15 +0200	[diff] [blame]	1009	if (is_valid_state(mdev, os) == rv)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1010	rv = is_valid_state_transition(mdev, ns, os);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1011	} else
				1012	rv = is_valid_state_transition(mdev, ns, os);
				1013	}
				1014
				1015	if (rv < SS_SUCCESS) {
				1016	if (flags & CS_VERBOSE)
				1017	print_st_err(mdev, os, ns, rv);
				1018	return rv;
				1019	}
				1020
				1021	if (warn_sync_abort)
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	1022	dev_warn(DEV, "%s aborted.\n", warn_sync_abort);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1023
				1024	{
				1025	char *pbp, pb[300];
				1026	pbp = pb;
				1027	*pbp = 0;
				1028	PSC(role);
				1029	PSC(peer);
				1030	PSC(conn);
				1031	PSC(disk);
				1032	PSC(pdsk);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1033	if (is_susp(ns) != is_susp(os))
				1034	pbp += sprintf(pbp, "susp( %s -> %s ) ",
				1035	drbd_susp_str(is_susp(os)),
				1036	drbd_susp_str(is_susp(ns)));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1037	PSC(aftr_isp);
				1038	PSC(peer_isp);
				1039	PSC(user_isp);
				1040	dev_info(DEV, "%s\n", pb);
				1041	}
				1042
				1043	/* solve the race between becoming unconfigured,
				1044	* worker doing the cleanup, and
				1045	* admin reconfiguring us:
				1046	* on (re)configure, first set CONFIG_PENDING,
				1047	* then wait for a potentially exiting worker,
				1048	* start the worker, and schedule one no_op.
				1049	* then proceed with configuration.
				1050	*/
				1051	if (ns.disk == D_DISKLESS &&
				1052	ns.conn == C_STANDALONE &&
				1053	ns.role == R_SECONDARY &&
				1054	!test_and_set_bit(CONFIG_PENDING, &mdev->flags))
				1055	set_bit(DEVICE_DYING, &mdev->flags);
				1056
				1057	mdev->state.i = ns.i;
				1058	wake_up(&mdev->misc_wait);
				1059	wake_up(&mdev->state_wait);
				1060
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1061	/* aborted verify run. log the last position */
				1062	if ((os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) &&
				1063	ns.conn < C_CONNECTED) {
				1064	mdev->ov_start_sector =
				1065	BM_BIT_TO_SECT(mdev->rs_total - mdev->ov_left);
				1066	dev_info(DEV, "Online Verify reached sector %llu\n",
				1067	(unsigned long long)mdev->ov_start_sector);
				1068	}
				1069
				1070	if ((os.conn == C_PAUSED_SYNC_T \|\| os.conn == C_PAUSED_SYNC_S) &&
				1071	(ns.conn == C_SYNC_TARGET \|\| ns.conn == C_SYNC_SOURCE)) {
				1072	dev_info(DEV, "Syncer continues.\n");
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1073	mdev->rs_paused += (long)jiffies
				1074	-(long)mdev->rs_mark_time[mdev->rs_last_mark];
Philipp Reisner	63106d3	2010-09-01 15:47:15 +0200	[diff] [blame]	1075	if (ns.conn == C_SYNC_TARGET)
				1076	mod_timer(&mdev->resync_timer, jiffies);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1077	}
				1078
				1079	if ((os.conn == C_SYNC_TARGET \|\| os.conn == C_SYNC_SOURCE) &&
				1080	(ns.conn == C_PAUSED_SYNC_T \|\| ns.conn == C_PAUSED_SYNC_S)) {
				1081	dev_info(DEV, "Resync suspended\n");
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1082	mdev->rs_mark_time[mdev->rs_last_mark] = jiffies;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1083	}
				1084
				1085	if (os.conn == C_CONNECTED &&
				1086	(ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T)) {
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1087	unsigned long now = jiffies;
				1088	int i;
				1089
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1090	mdev->ov_position = 0;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1091	mdev->rs_total = drbd_bm_bits(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1092	if (mdev->agreed_pro_version >= 90)
				1093	set_ov_position(mdev, ns.conn);
				1094	else
				1095	mdev->ov_start_sector = 0;
				1096	mdev->ov_left = mdev->rs_total
				1097	- BM_SECT_TO_BIT(mdev->ov_position);
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1098	mdev->rs_start = now;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1099	mdev->rs_last_events = 0;
				1100	mdev->rs_last_sect_ev = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1101	mdev->ov_last_oos_size = 0;
				1102	mdev->ov_last_oos_start = 0;
				1103
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1104	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				1105	mdev->rs_mark_left[i] = mdev->rs_total;
				1106	mdev->rs_mark_time[i] = now;
				1107	}
				1108
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1109	if (ns.conn == C_VERIFY_S) {
				1110	dev_info(DEV, "Starting Online Verify from sector %llu\n",
				1111	(unsigned long long)mdev->ov_position);
				1112	mod_timer(&mdev->resync_timer, jiffies);
				1113	}
				1114	}
				1115
				1116	if (get_ldev(mdev)) {
				1117	u32 mdf = mdev->ldev->md.flags & ~(MDF_CONSISTENT\|MDF_PRIMARY_IND\|
				1118	MDF_CONNECTED_IND\|MDF_WAS_UP_TO_DATE\|
				1119	MDF_PEER_OUT_DATED\|MDF_CRASHED_PRIMARY);
				1120
				1121	if (test_bit(CRASHED_PRIMARY, &mdev->flags))
				1122	mdf \|= MDF_CRASHED_PRIMARY;
				1123	if (mdev->state.role == R_PRIMARY \|\|
				1124	(mdev->state.pdsk < D_INCONSISTENT && mdev->state.peer == R_PRIMARY))
				1125	mdf \|= MDF_PRIMARY_IND;
				1126	if (mdev->state.conn > C_WF_REPORT_PARAMS)
				1127	mdf \|= MDF_CONNECTED_IND;
				1128	if (mdev->state.disk > D_INCONSISTENT)
				1129	mdf \|= MDF_CONSISTENT;
				1130	if (mdev->state.disk > D_OUTDATED)
				1131	mdf \|= MDF_WAS_UP_TO_DATE;
				1132	if (mdev->state.pdsk <= D_OUTDATED && mdev->state.pdsk >= D_INCONSISTENT)
				1133	mdf \|= MDF_PEER_OUT_DATED;
				1134	if (mdf != mdev->ldev->md.flags) {
				1135	mdev->ldev->md.flags = mdf;
				1136	drbd_md_mark_dirty(mdev);
				1137	}
				1138	if (os.disk < D_CONSISTENT && ns.disk >= D_CONSISTENT)
				1139	drbd_set_ed_uuid(mdev, mdev->ldev->md.uuid[UI_CURRENT]);
				1140	put_ldev(mdev);
				1141	}
				1142
				1143	/* Peer was forced D_UP_TO_DATE & R_PRIMARY, consider to resync */
				1144	if (os.disk == D_INCONSISTENT && os.pdsk == D_INCONSISTENT &&
				1145	os.peer == R_SECONDARY && ns.peer == R_PRIMARY)
				1146	set_bit(CONSIDER_RESYNC, &mdev->flags);
				1147
				1148	/* Receiver should clean up itself */
				1149	if (os.conn != C_DISCONNECTING && ns.conn == C_DISCONNECTING)
				1150	drbd_thread_stop_nowait(&mdev->receiver);
				1151
				1152	/* Now the receiver finished cleaning up itself, it should die */
				1153	if (os.conn != C_STANDALONE && ns.conn == C_STANDALONE)
				1154	drbd_thread_stop_nowait(&mdev->receiver);
				1155
				1156	/* Upon network failure, we need to restart the receiver. */
				1157	if (os.conn > C_TEAR_DOWN &&
				1158	ns.conn <= C_TEAR_DOWN && ns.conn >= C_TIMEOUT)
				1159	drbd_thread_restart_nowait(&mdev->receiver);
				1160
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	1161	/* Resume AL writing if we get a connection */
				1162	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED)
				1163	drbd_resume_al(mdev);
				1164
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1165	ascw = kmalloc(sizeof(*ascw), GFP_ATOMIC);
				1166	if (ascw) {
				1167	ascw->os = os;
				1168	ascw->ns = ns;
				1169	ascw->flags = flags;
				1170	ascw->w.cb = w_after_state_ch;
				1171	ascw->done = done;
				1172	drbd_queue_work(&mdev->data.work, &ascw->w);
				1173	} else {
				1174	dev_warn(DEV, "Could not kmalloc an ascw\n");
				1175	}
				1176
				1177	return rv;
				1178	}
				1179
				1180	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused)
				1181	{
				1182	struct after_state_chg_work *ascw =
				1183	container_of(w, struct after_state_chg_work, w);
				1184	after_state_ch(mdev, ascw->os, ascw->ns, ascw->flags);
				1185	if (ascw->flags & CS_WAIT_COMPLETE) {
				1186	D_ASSERT(ascw->done != NULL);
				1187	complete(ascw->done);
				1188	}
				1189	kfree(ascw);
				1190
				1191	return 1;
				1192	}
				1193
				1194	static void abw_start_sync(struct drbd_conf *mdev, int rv)
				1195	{
				1196	if (rv) {
				1197	dev_err(DEV, "Writing the bitmap failed not starting resync.\n");
				1198	_drbd_request_state(mdev, NS(conn, C_CONNECTED), CS_VERBOSE);
				1199	return;
				1200	}
				1201
				1202	switch (mdev->state.conn) {
				1203	case C_STARTING_SYNC_T:
				1204	_drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				1205	break;
				1206	case C_STARTING_SYNC_S:
				1207	drbd_start_resync(mdev, C_SYNC_SOURCE);
				1208	break;
				1209	}
				1210	}
				1211
				1212	/**
				1213	* after_state_ch() - Perform after state change actions that may sleep
				1214	* @mdev: DRBD device.
				1215	* @os: old state.
				1216	* @ns: new state.
				1217	* @flags: Flags
				1218	*/
				1219	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				1220	union drbd_state ns, enum chg_state_flags flags)
				1221	{
				1222	enum drbd_fencing_p fp;
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1223	enum drbd_req_event what = nothing;
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1224	union drbd_state nsm = (union drbd_state){ .i = -1 };
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1225
				1226	if (os.conn != C_CONNECTED && ns.conn == C_CONNECTED) {
				1227	clear_bit(CRASHED_PRIMARY, &mdev->flags);
				1228	if (mdev->p_uuid)
				1229	mdev->p_uuid[UI_FLAGS] &= ~((u64)2);
				1230	}
				1231
				1232	fp = FP_DONT_CARE;
				1233	if (get_ldev(mdev)) {
				1234	fp = mdev->ldev->dc.fencing;
				1235	put_ldev(mdev);
				1236	}
				1237
				1238	/* Inform userspace about the change... */
				1239	drbd_bcast_state(mdev, ns);
				1240
				1241	if (!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE) &&
				1242	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE))
				1243	drbd_khelper(mdev, "pri-on-incon-degr");
				1244
				1245	/* Here we have the actions that are performed after a
				1246	state change. This function might sleep */
				1247
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1248	nsm.i = -1;
				1249	if (ns.susp_nod) {
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1250	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1251	if (ns.conn == C_CONNECTED)
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1252	what = resend, nsm.susp_nod = 0;
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1253	else /* ns.conn > C_CONNECTED */
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1254	dev_err(DEV, "Unexpected Resynd going on!\n");
				1255	}
				1256
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1257	if (os.disk == D_ATTACHING && ns.disk > D_ATTACHING)
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1258	what = restart_frozen_disk_io, nsm.susp_nod = 0;
				1259
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1260	}
				1261
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1262	if (ns.susp_fen) {
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1263	/* case1: The outdate peer handler is successful: */
				1264	if (os.pdsk > D_OUTDATED && ns.pdsk <= D_OUTDATED) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1265	tl_clear(mdev);
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1266	if (test_bit(NEW_CUR_UUID, &mdev->flags)) {
				1267	drbd_uuid_new_current(mdev);
				1268	clear_bit(NEW_CUR_UUID, &mdev->flags);
				1269	drbd_md_sync(mdev);
				1270	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1271	spin_lock_irq(&mdev->req_lock);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1272	_drbd_set_state(_NS(mdev, susp_fen, 0), CS_VERBOSE, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1273	spin_unlock_irq(&mdev->req_lock);
				1274	}
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1275	/* case2: The connection was established again: */
				1276	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
				1277	clear_bit(NEW_CUR_UUID, &mdev->flags);
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1278	what = resend;
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1279	nsm.susp_fen = 0;
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1280	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1281	}
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1282
				1283	if (what != nothing) {
				1284	spin_lock_irq(&mdev->req_lock);
				1285	_tl_restart(mdev, what);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1286	nsm.i &= mdev->state.i;
				1287	_drbd_set_state(mdev, nsm, CS_VERBOSE, NULL);
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1288	spin_unlock_irq(&mdev->req_lock);
				1289	}
				1290
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1291	/* Do not change the order of the if above and the two below... */
				1292	if (os.pdsk == D_DISKLESS && ns.pdsk > D_DISKLESS) { /* attach on the peer */
				1293	drbd_send_uuids(mdev);
				1294	drbd_send_state(mdev);
				1295	}
				1296	if (os.conn != C_WF_BITMAP_S && ns.conn == C_WF_BITMAP_S)
				1297	drbd_queue_bitmap_io(mdev, &drbd_send_bitmap, NULL, "send_bitmap (WFBitMapS)");
				1298
				1299	/* Lost contact to peer's copy of the data */
				1300	if ((os.pdsk >= D_INCONSISTENT &&
				1301	os.pdsk != D_UNKNOWN &&
				1302	os.pdsk != D_OUTDATED)
				1303	&& (ns.pdsk < D_INCONSISTENT \|\|
				1304	ns.pdsk == D_UNKNOWN \|\|
				1305	ns.pdsk == D_OUTDATED)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1306	if (get_ldev(mdev)) {
				1307	if ((ns.role == R_PRIMARY \|\| ns.peer == R_PRIMARY) &&
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1308	mdev->ldev->md.uuid[UI_BITMAP] == 0 && ns.disk >= D_UP_TO_DATE) {
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1309	if (is_susp(mdev->state)) {
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1310	set_bit(NEW_CUR_UUID, &mdev->flags);
				1311	} else {
				1312	drbd_uuid_new_current(mdev);
				1313	drbd_send_uuids(mdev);
				1314	}
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1315	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1316	put_ldev(mdev);
				1317	}
				1318	}
				1319
				1320	if (ns.pdsk < D_INCONSISTENT && get_ldev(mdev)) {
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	1321	if (ns.peer == R_PRIMARY && mdev->ldev->md.uuid[UI_BITMAP] == 0) {
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1322	drbd_uuid_new_current(mdev);
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	1323	drbd_send_uuids(mdev);
				1324	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1325
				1326	/* D_DISKLESS Peer becomes secondary */
				1327	if (os.peer == R_PRIMARY && ns.peer == R_SECONDARY)
				1328	drbd_al_to_on_disk_bm(mdev);
				1329	put_ldev(mdev);
				1330	}
				1331
				1332	/* Last part of the attaching process ... */
				1333	if (ns.conn >= C_CONNECTED &&
				1334	os.disk == D_ATTACHING && ns.disk == D_NEGOTIATING) {
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1335	drbd_send_sizes(mdev, 0, 0); /* to start sync... */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1336	drbd_send_uuids(mdev);
				1337	drbd_send_state(mdev);
				1338	}
				1339
				1340	/* We want to pause/continue resync, tell peer. */
				1341	if (ns.conn >= C_CONNECTED &&
				1342	((os.aftr_isp != ns.aftr_isp) \|\|
				1343	(os.user_isp != ns.user_isp)))
				1344	drbd_send_state(mdev);
				1345
				1346	/* In case one of the isp bits got set, suspend other devices. */
				1347	if ((!os.aftr_isp && !os.peer_isp && !os.user_isp) &&
				1348	(ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp))
				1349	suspend_other_sg(mdev);
				1350
				1351	/* Make sure the peer gets informed about eventual state
				1352	changes (ISP bits) while we were in WFReportParams. */
				1353	if (os.conn == C_WF_REPORT_PARAMS && ns.conn >= C_CONNECTED)
				1354	drbd_send_state(mdev);
				1355
				1356	/* We are in the progress to start a full sync... */
				1357	if ((os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				1358	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S))
				1359	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, &abw_start_sync, "set_n_write from StartingSync");
				1360
				1361	/* We are invalidating our self... */
				1362	if (os.conn < C_CONNECTED && ns.conn < C_CONNECTED &&
				1363	os.disk > D_INCONSISTENT && ns.disk == D_INCONSISTENT)
				1364	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, NULL, "set_n_write from invalidate");
				1365
				1366	if (os.disk > D_FAILED && ns.disk == D_FAILED) {
				1367	enum drbd_io_error_p eh;
				1368
				1369	eh = EP_PASS_ON;
				1370	if (get_ldev_if_state(mdev, D_FAILED)) {
				1371	eh = mdev->ldev->dc.on_io_error;
				1372	put_ldev(mdev);
				1373	}
				1374
				1375	drbd_rs_cancel_all(mdev);
				1376	/* since get_ldev() only works as long as disk>=D_INCONSISTENT,
				1377	and it is D_DISKLESS here, local_cnt can only go down, it can
				1378	not increase... It will reach zero */
				1379	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
				1380	mdev->rs_total = 0;
				1381	mdev->rs_failed = 0;
				1382	atomic_set(&mdev->rs_pending_cnt, 0);
				1383
				1384	spin_lock_irq(&mdev->req_lock);
				1385	_drbd_set_state(_NS(mdev, disk, D_DISKLESS), CS_HARD, NULL);
				1386	spin_unlock_irq(&mdev->req_lock);
				1387
				1388	if (eh == EP_CALL_HELPER)
				1389	drbd_khelper(mdev, "local-io-error");
				1390	}
				1391
				1392	if (os.disk > D_DISKLESS && ns.disk == D_DISKLESS) {
				1393
				1394	if (os.disk == D_FAILED) /* && ns.disk == D_DISKLESS*/ {
				1395	if (drbd_send_state(mdev))
				1396	dev_warn(DEV, "Notified peer that my disk is broken.\n");
				1397	else
				1398	dev_err(DEV, "Sending state in drbd_io_error() failed\n");
				1399	}
				1400
Philipp Reisner	0a6dbf2	2009-12-28 16:58:38 +0100	[diff] [blame]	1401	wait_event(mdev->misc_wait, !atomic_read(&mdev->local_cnt));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1402	lc_destroy(mdev->resync);
				1403	mdev->resync = NULL;
				1404	lc_destroy(mdev->act_log);
				1405	mdev->act_log = NULL;
				1406	__no_warn(local,
				1407	drbd_free_bc(mdev->ldev);
				1408	mdev->ldev = NULL;);
				1409
Lars Ellenberg	f65363c	2010-09-14 20:14:09 +0200	[diff] [blame]	1410	if (mdev->md_io_tmpp) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1411	__free_page(mdev->md_io_tmpp);
Lars Ellenberg	f65363c	2010-09-14 20:14:09 +0200	[diff] [blame]	1412	mdev->md_io_tmpp = NULL;
				1413	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1414	}
				1415
				1416	/* Disks got bigger while they were detached */
				1417	if (ns.disk > D_NEGOTIATING && ns.pdsk > D_NEGOTIATING &&
				1418	test_and_clear_bit(RESYNC_AFTER_NEG, &mdev->flags)) {
				1419	if (ns.conn == C_CONNECTED)
				1420	resync_after_online_grow(mdev);
				1421	}
				1422
				1423	/* A resync finished or aborted, wake paused devices... */
				1424	if ((os.conn > C_CONNECTED && ns.conn <= C_CONNECTED) \|\|
				1425	(os.peer_isp && !ns.peer_isp) \|\|
				1426	(os.user_isp && !ns.user_isp))
				1427	resume_next_sg(mdev);
				1428
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame^]	1429	/* sync target done with resync. Explicitly notify peer, even though
				1430	* it should (at least for non-empty resyncs) already know itself. */
				1431	if (os.disk < D_UP_TO_DATE && os.conn >= C_SYNC_SOURCE && ns.conn == C_CONNECTED)
				1432	drbd_send_state(mdev);
				1433
Philipp Reisner	f70b3511	2010-06-24 14:34:40 +0200	[diff] [blame]	1434	/* free tl_hash if we Got thawed and are C_STANDALONE */
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1435	if (ns.conn == C_STANDALONE && !is_susp(ns) && mdev->tl_hash)
Philipp Reisner	f70b3511	2010-06-24 14:34:40 +0200	[diff] [blame]	1436	drbd_free_tl_hash(mdev);
				1437
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1438	/* Upon network connection, we need to start the receiver */
				1439	if (os.conn == C_STANDALONE && ns.conn == C_UNCONNECTED)
				1440	drbd_thread_start(&mdev->receiver);
				1441
				1442	/* Terminate worker thread if we are unconfigured - it will be
				1443	restarted as needed... */
				1444	if (ns.disk == D_DISKLESS &&
				1445	ns.conn == C_STANDALONE &&
				1446	ns.role == R_SECONDARY) {
				1447	if (os.aftr_isp != ns.aftr_isp)
				1448	resume_next_sg(mdev);
				1449	/* set in __drbd_set_state, unless CONFIG_PENDING was set */
				1450	if (test_bit(DEVICE_DYING, &mdev->flags))
				1451	drbd_thread_stop_nowait(&mdev->worker);
				1452	}
				1453
				1454	drbd_md_sync(mdev);
				1455	}
				1456
				1457
				1458	static int drbd_thread_setup(void *arg)
				1459	{
				1460	struct drbd_thread thi = (struct drbd_thread ) arg;
				1461	struct drbd_conf *mdev = thi->mdev;
				1462	unsigned long flags;
				1463	int retval;
				1464
				1465	restart:
				1466	retval = thi->function(thi);
				1467
				1468	spin_lock_irqsave(&thi->t_lock, flags);
				1469
				1470	/* if the receiver has been "Exiting", the last thing it did
				1471	* was set the conn state to "StandAlone",
				1472	* if now a re-connect request comes in, conn state goes C_UNCONNECTED,
				1473	* and receiver thread will be "started".
				1474	* drbd_thread_start needs to set "Restarting" in that case.
				1475	* t_state check and assignment needs to be within the same spinlock,
				1476	* so either thread_start sees Exiting, and can remap to Restarting,
				1477	* or thread_start see None, and can proceed as normal.
				1478	*/
				1479
				1480	if (thi->t_state == Restarting) {
				1481	dev_info(DEV, "Restarting %s\n", current->comm);
				1482	thi->t_state = Running;
				1483	spin_unlock_irqrestore(&thi->t_lock, flags);
				1484	goto restart;
				1485	}
				1486
				1487	thi->task = NULL;
				1488	thi->t_state = None;
				1489	smp_mb();
				1490	complete(&thi->stop);
				1491	spin_unlock_irqrestore(&thi->t_lock, flags);
				1492
				1493	dev_info(DEV, "Terminating %s\n", current->comm);
				1494
				1495	/* Release mod reference taken when thread was started */
				1496	module_put(THIS_MODULE);
				1497	return retval;
				1498	}
				1499
				1500	static void drbd_thread_init(struct drbd_conf mdev, struct drbd_thread thi,
				1501	int (func) (struct drbd_thread ))
				1502	{
				1503	spin_lock_init(&thi->t_lock);
				1504	thi->task = NULL;
				1505	thi->t_state = None;
				1506	thi->function = func;
				1507	thi->mdev = mdev;
				1508	}
				1509
				1510	int drbd_thread_start(struct drbd_thread *thi)
				1511	{
				1512	struct drbd_conf *mdev = thi->mdev;
				1513	struct task_struct *nt;
				1514	unsigned long flags;
				1515
				1516	const char *me =
				1517	thi == &mdev->receiver ? "receiver" :
				1518	thi == &mdev->asender ? "asender" :
				1519	thi == &mdev->worker ? "worker" : "NONSENSE";
				1520
				1521	/* is used from state engine doing drbd_thread_stop_nowait,
				1522	* while holding the req lock irqsave */
				1523	spin_lock_irqsave(&thi->t_lock, flags);
				1524
				1525	switch (thi->t_state) {
				1526	case None:
				1527	dev_info(DEV, "Starting %s thread (from %s [%d])\n",
				1528	me, current->comm, current->pid);
				1529
				1530	/* Get ref on module for thread - this is released when thread exits */
				1531	if (!try_module_get(THIS_MODULE)) {
				1532	dev_err(DEV, "Failed to get module reference in drbd_thread_start\n");
				1533	spin_unlock_irqrestore(&thi->t_lock, flags);
				1534	return FALSE;
				1535	}
				1536
				1537	init_completion(&thi->stop);
				1538	D_ASSERT(thi->task == NULL);
				1539	thi->reset_cpu_mask = 1;
				1540	thi->t_state = Running;
				1541	spin_unlock_irqrestore(&thi->t_lock, flags);
				1542	flush_signals(current); /* otherw. may get -ERESTARTNOINTR */
				1543
				1544	nt = kthread_create(drbd_thread_setup, (void *) thi,
				1545	"drbd%d_%s", mdev_to_minor(mdev), me);
				1546
				1547	if (IS_ERR(nt)) {
				1548	dev_err(DEV, "Couldn't start thread\n");
				1549
				1550	module_put(THIS_MODULE);
				1551	return FALSE;
				1552	}
				1553	spin_lock_irqsave(&thi->t_lock, flags);
				1554	thi->task = nt;
				1555	thi->t_state = Running;
				1556	spin_unlock_irqrestore(&thi->t_lock, flags);
				1557	wake_up_process(nt);
				1558	break;
				1559	case Exiting:
				1560	thi->t_state = Restarting;
				1561	dev_info(DEV, "Restarting %s thread (from %s [%d])\n",
				1562	me, current->comm, current->pid);
				1563	/* fall through */
				1564	case Running:
				1565	case Restarting:
				1566	default:
				1567	spin_unlock_irqrestore(&thi->t_lock, flags);
				1568	break;
				1569	}
				1570
				1571	return TRUE;
				1572	}
				1573
				1574
				1575	void _drbd_thread_stop(struct drbd_thread *thi, int restart, int wait)
				1576	{
				1577	unsigned long flags;
				1578
				1579	enum drbd_thread_state ns = restart ? Restarting : Exiting;
				1580
				1581	/* may be called from state engine, holding the req lock irqsave */
				1582	spin_lock_irqsave(&thi->t_lock, flags);
				1583
				1584	if (thi->t_state == None) {
				1585	spin_unlock_irqrestore(&thi->t_lock, flags);
				1586	if (restart)
				1587	drbd_thread_start(thi);
				1588	return;
				1589	}
				1590
				1591	if (thi->t_state != ns) {
				1592	if (thi->task == NULL) {
				1593	spin_unlock_irqrestore(&thi->t_lock, flags);
				1594	return;
				1595	}
				1596
				1597	thi->t_state = ns;
				1598	smp_mb();
				1599	init_completion(&thi->stop);
				1600	if (thi->task != current)
				1601	force_sig(DRBD_SIGKILL, thi->task);
				1602
				1603	}
				1604
				1605	spin_unlock_irqrestore(&thi->t_lock, flags);
				1606
				1607	if (wait)
				1608	wait_for_completion(&thi->stop);
				1609	}
				1610
				1611	#ifdef CONFIG_SMP
				1612	/**
				1613	* drbd_calc_cpu_mask() - Generate CPU masks, spread over all CPUs
				1614	* @mdev: DRBD device.
				1615	*
				1616	* Forces all threads of a device onto the same CPU. This is beneficial for
				1617	* DRBD's performance. May be overwritten by user's configuration.
				1618	*/
				1619	void drbd_calc_cpu_mask(struct drbd_conf *mdev)
				1620	{
				1621	int ord, cpu;
				1622
				1623	/* user override. */
				1624	if (cpumask_weight(mdev->cpu_mask))
				1625	return;
				1626
				1627	ord = mdev_to_minor(mdev) % cpumask_weight(cpu_online_mask);
				1628	for_each_online_cpu(cpu) {
				1629	if (ord-- == 0) {
				1630	cpumask_set_cpu(cpu, mdev->cpu_mask);
				1631	return;
				1632	}
				1633	}
				1634	/* should not be reached */
				1635	cpumask_setall(mdev->cpu_mask);
				1636	}
				1637
				1638	/**
				1639	* drbd_thread_current_set_cpu() - modifies the cpu mask of the _current_ thread
				1640	* @mdev: DRBD device.
				1641	*
				1642	* call in the "main loop" of _all_ threads, no need for any mutex, current won't die
				1643	* prematurely.
				1644	*/
				1645	void drbd_thread_current_set_cpu(struct drbd_conf *mdev)
				1646	{
				1647	struct task_struct *p = current;
				1648	struct drbd_thread *thi =
				1649	p == mdev->asender.task ? &mdev->asender :
				1650	p == mdev->receiver.task ? &mdev->receiver :
				1651	p == mdev->worker.task ? &mdev->worker :
				1652	NULL;
				1653	ERR_IF(thi == NULL)
				1654	return;
				1655	if (!thi->reset_cpu_mask)
				1656	return;
				1657	thi->reset_cpu_mask = 0;
				1658	set_cpus_allowed_ptr(p, mdev->cpu_mask);
				1659	}
				1660	#endif
				1661
				1662	/* the appropriate socket mutex must be held already */
				1663	int _drbd_send_cmd(struct drbd_conf mdev, struct socket sock,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1664	enum drbd_packets cmd, struct p_header80 *h,
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1665	size_t size, unsigned msg_flags)
				1666	{
				1667	int sent, ok;
				1668
				1669	ERR_IF(!h) return FALSE;
				1670	ERR_IF(!size) return FALSE;
				1671
				1672	h->magic = BE_DRBD_MAGIC;
				1673	h->command = cpu_to_be16(cmd);
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1674	h->length = cpu_to_be16(size-sizeof(struct p_header80));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1675
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1676	sent = drbd_send(mdev, sock, h, size, msg_flags);
				1677
				1678	ok = (sent == size);
				1679	if (!ok)
				1680	dev_err(DEV, "short sent %s size=%d sent=%d\n",
				1681	cmdname(cmd), (int)size, sent);
				1682	return ok;
				1683	}
				1684
				1685	/* don't pass the socket. we may only look at it
				1686	* when we hold the appropriate socket mutex.
				1687	*/
				1688	int drbd_send_cmd(struct drbd_conf *mdev, int use_data_socket,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1689	enum drbd_packets cmd, struct p_header80 *h, size_t size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1690	{
				1691	int ok = 0;
				1692	struct socket *sock;
				1693
				1694	if (use_data_socket) {
				1695	mutex_lock(&mdev->data.mutex);
				1696	sock = mdev->data.socket;
				1697	} else {
				1698	mutex_lock(&mdev->meta.mutex);
				1699	sock = mdev->meta.socket;
				1700	}
				1701
				1702	/* drbd_disconnect() could have called drbd_free_sock()
				1703	* while we were waiting in down()... */
				1704	if (likely(sock != NULL))
				1705	ok = _drbd_send_cmd(mdev, sock, cmd, h, size, 0);
				1706
				1707	if (use_data_socket)
				1708	mutex_unlock(&mdev->data.mutex);
				1709	else
				1710	mutex_unlock(&mdev->meta.mutex);
				1711	return ok;
				1712	}
				1713
				1714	int drbd_send_cmd2(struct drbd_conf mdev, enum drbd_packets cmd, char data,
				1715	size_t size)
				1716	{
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1717	struct p_header80 h;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1718	int ok;
				1719
				1720	h.magic = BE_DRBD_MAGIC;
				1721	h.command = cpu_to_be16(cmd);
				1722	h.length = cpu_to_be16(size);
				1723
				1724	if (!drbd_get_data_sock(mdev))
				1725	return 0;
				1726
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1727	ok = (sizeof(h) ==
				1728	drbd_send(mdev, mdev->data.socket, &h, sizeof(h), 0));
				1729	ok = ok && (size ==
				1730	drbd_send(mdev, mdev->data.socket, data, size, 0));
				1731
				1732	drbd_put_data_sock(mdev);
				1733
				1734	return ok;
				1735	}
				1736
				1737	int drbd_send_sync_param(struct drbd_conf mdev, struct syncer_conf sc)
				1738	{
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1739	struct p_rs_param_95 *p;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1740	struct socket *sock;
				1741	int size, rv;
				1742	const int apv = mdev->agreed_pro_version;
				1743
				1744	size = apv <= 87 ? sizeof(struct p_rs_param)
				1745	: apv == 88 ? sizeof(struct p_rs_param)
				1746	+ strlen(mdev->sync_conf.verify_alg) + 1
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1747	: apv <= 94 ? sizeof(struct p_rs_param_89)
				1748	: /* apv >= 95 */ sizeof(struct p_rs_param_95);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1749
				1750	/* used from admin command context and receiver/worker context.
				1751	* to avoid kmalloc, grab the socket right here,
				1752	* then use the pre-allocated sbuf there */
				1753	mutex_lock(&mdev->data.mutex);
				1754	sock = mdev->data.socket;
				1755
				1756	if (likely(sock != NULL)) {
				1757	enum drbd_packets cmd = apv >= 89 ? P_SYNC_PARAM89 : P_SYNC_PARAM;
				1758
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1759	p = &mdev->data.sbuf.rs_param_95;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1760
				1761	/* initialize verify_alg and csums_alg */
				1762	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				1763
				1764	p->rate = cpu_to_be32(sc->rate);
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1765	p->c_plan_ahead = cpu_to_be32(sc->c_plan_ahead);
				1766	p->c_delay_target = cpu_to_be32(sc->c_delay_target);
				1767	p->c_fill_target = cpu_to_be32(sc->c_fill_target);
				1768	p->c_max_rate = cpu_to_be32(sc->c_max_rate);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1769
				1770	if (apv >= 88)
				1771	strcpy(p->verify_alg, mdev->sync_conf.verify_alg);
				1772	if (apv >= 89)
				1773	strcpy(p->csums_alg, mdev->sync_conf.csums_alg);
				1774
				1775	rv = _drbd_send_cmd(mdev, sock, cmd, &p->head, size, 0);
				1776	} else
				1777	rv = 0; /* not ok */
				1778
				1779	mutex_unlock(&mdev->data.mutex);
				1780
				1781	return rv;
				1782	}
				1783
				1784	int drbd_send_protocol(struct drbd_conf *mdev)
				1785	{
				1786	struct p_protocol *p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1787	int size, cf, rv;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1788
				1789	size = sizeof(struct p_protocol);
				1790
				1791	if (mdev->agreed_pro_version >= 87)
				1792	size += strlen(mdev->net_conf->integrity_alg) + 1;
				1793
				1794	/* we must not recurse into our own queue,
				1795	* as that is blocked during handshake */
				1796	p = kmalloc(size, GFP_NOIO);
				1797	if (p == NULL)
				1798	return 0;
				1799
				1800	p->protocol = cpu_to_be32(mdev->net_conf->wire_protocol);
				1801	p->after_sb_0p = cpu_to_be32(mdev->net_conf->after_sb_0p);
				1802	p->after_sb_1p = cpu_to_be32(mdev->net_conf->after_sb_1p);
				1803	p->after_sb_2p = cpu_to_be32(mdev->net_conf->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1804	p->two_primaries = cpu_to_be32(mdev->net_conf->two_primaries);
				1805
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1806	cf = 0;
				1807	if (mdev->net_conf->want_lose)
				1808	cf \|= CF_WANT_LOSE;
				1809	if (mdev->net_conf->dry_run) {
				1810	if (mdev->agreed_pro_version >= 92)
				1811	cf \|= CF_DRY_RUN;
				1812	else {
				1813	dev_err(DEV, "--dry-run is not supported by peer");
Dan Carpenter	7ac314c	2010-04-22 14:27:23 +0200	[diff] [blame]	1814	kfree(p);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1815	return 0;
				1816	}
				1817	}
				1818	p->conn_flags = cpu_to_be32(cf);
				1819
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1820	if (mdev->agreed_pro_version >= 87)
				1821	strcpy(p->integrity_alg, mdev->net_conf->integrity_alg);
				1822
				1823	rv = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_PROTOCOL,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1824	(struct p_header80 *)p, size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1825	kfree(p);
				1826	return rv;
				1827	}
				1828
				1829	int _drbd_send_uuids(struct drbd_conf *mdev, u64 uuid_flags)
				1830	{
				1831	struct p_uuids p;
				1832	int i;
				1833
				1834	if (!get_ldev_if_state(mdev, D_NEGOTIATING))
				1835	return 1;
				1836
				1837	for (i = UI_CURRENT; i < UI_SIZE; i++)
				1838	p.uuid[i] = mdev->ldev ? cpu_to_be64(mdev->ldev->md.uuid[i]) : 0;
				1839
				1840	mdev->comm_bm_set = drbd_bm_total_weight(mdev);
				1841	p.uuid[UI_SIZE] = cpu_to_be64(mdev->comm_bm_set);
				1842	uuid_flags \|= mdev->net_conf->want_lose ? 1 : 0;
				1843	uuid_flags \|= test_bit(CRASHED_PRIMARY, &mdev->flags) ? 2 : 0;
				1844	uuid_flags \|= mdev->new_state_tmp.disk == D_INCONSISTENT ? 4 : 0;
				1845	p.uuid[UI_FLAGS] = cpu_to_be64(uuid_flags);
				1846
				1847	put_ldev(mdev);
				1848
				1849	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_UUIDS,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1850	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1851	}
				1852
				1853	int drbd_send_uuids(struct drbd_conf *mdev)
				1854	{
				1855	return _drbd_send_uuids(mdev, 0);
				1856	}
				1857
				1858	int drbd_send_uuids_skip_initial_sync(struct drbd_conf *mdev)
				1859	{
				1860	return _drbd_send_uuids(mdev, 8);
				1861	}
				1862
				1863
				1864	int drbd_send_sync_uuid(struct drbd_conf *mdev, u64 val)
				1865	{
				1866	struct p_rs_uuid p;
				1867
				1868	p.uuid = cpu_to_be64(val);
				1869
				1870	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SYNC_UUID,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1871	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1872	}
				1873
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1874	int drbd_send_sizes(struct drbd_conf *mdev, int trigger_reply, enum dds_flags flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1875	{
				1876	struct p_sizes p;
				1877	sector_t d_size, u_size;
				1878	int q_order_type;
				1879	int ok;
				1880
				1881	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1882	D_ASSERT(mdev->ldev->backing_bdev);
				1883	d_size = drbd_get_max_capacity(mdev->ldev);
				1884	u_size = mdev->ldev->dc.disk_size;
				1885	q_order_type = drbd_queue_order_type(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1886	put_ldev(mdev);
				1887	} else {
				1888	d_size = 0;
				1889	u_size = 0;
				1890	q_order_type = QUEUE_ORDERED_NONE;
				1891	}
				1892
				1893	p.d_size = cpu_to_be64(d_size);
				1894	p.u_size = cpu_to_be64(u_size);
				1895	p.c_size = cpu_to_be64(trigger_reply ? 0 : drbd_get_capacity(mdev->this_bdev));
				1896	p.max_segment_size = cpu_to_be32(queue_max_segment_size(mdev->rq_queue));
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1897	p.queue_order_type = cpu_to_be16(q_order_type);
				1898	p.dds_flags = cpu_to_be16(flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1899
				1900	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SIZES,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1901	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1902	return ok;
				1903	}
				1904
				1905	/**
				1906	* drbd_send_state() - Sends the drbd state to the peer
				1907	* @mdev: DRBD device.
				1908	*/
				1909	int drbd_send_state(struct drbd_conf *mdev)
				1910	{
				1911	struct socket *sock;
				1912	struct p_state p;
				1913	int ok = 0;
				1914
				1915	/* Grab state lock so we wont send state if we're in the middle
				1916	* of a cluster wide state change on another thread */
				1917	drbd_state_lock(mdev);
				1918
				1919	mutex_lock(&mdev->data.mutex);
				1920
				1921	p.state = cpu_to_be32(mdev->state.i); /* Within the send mutex */
				1922	sock = mdev->data.socket;
				1923
				1924	if (likely(sock != NULL)) {
				1925	ok = _drbd_send_cmd(mdev, sock, P_STATE,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1926	(struct p_header80 *)&p, sizeof(p), 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1927	}
				1928
				1929	mutex_unlock(&mdev->data.mutex);
				1930
				1931	drbd_state_unlock(mdev);
				1932	return ok;
				1933	}
				1934
				1935	int drbd_send_state_req(struct drbd_conf *mdev,
				1936	union drbd_state mask, union drbd_state val)
				1937	{
				1938	struct p_req_state p;
				1939
				1940	p.mask = cpu_to_be32(mask.i);
				1941	p.val = cpu_to_be32(val.i);
				1942
				1943	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_STATE_CHG_REQ,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1944	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1945	}
				1946
				1947	int drbd_send_sr_reply(struct drbd_conf *mdev, int retcode)
				1948	{
				1949	struct p_req_state_reply p;
				1950
				1951	p.retcode = cpu_to_be32(retcode);
				1952
				1953	return drbd_send_cmd(mdev, USE_META_SOCKET, P_STATE_CHG_REPLY,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1954	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1955	}
				1956
				1957	int fill_bitmap_rle_bits(struct drbd_conf *mdev,
				1958	struct p_compressed_bm *p,
				1959	struct bm_xfer_ctx *c)
				1960	{
				1961	struct bitstream bs;
				1962	unsigned long plain_bits;
				1963	unsigned long tmp;
				1964	unsigned long rl;
				1965	unsigned len;
				1966	unsigned toggle;
				1967	int bits;
				1968
				1969	/* may we use this feature? */
				1970	if ((mdev->sync_conf.use_rle == 0) \|\|
				1971	(mdev->agreed_pro_version < 90))
				1972	return 0;
				1973
				1974	if (c->bit_offset >= c->bm_bits)
				1975	return 0; /* nothing to do. */
				1976
				1977	/* use at most thus many bytes */
				1978	bitstream_init(&bs, p->code, BM_PACKET_VLI_BYTES_MAX, 0);
				1979	memset(p->code, 0, BM_PACKET_VLI_BYTES_MAX);
				1980	/* plain bits covered in this code string */
				1981	plain_bits = 0;
				1982
				1983	/* p->encoding & 0x80 stores whether the first run length is set.
				1984	* bit offset is implicit.
				1985	* start with toggle == 2 to be able to tell the first iteration */
				1986	toggle = 2;
				1987
				1988	/* see how much plain bits we can stuff into one packet
				1989	* using RLE and VLI. */
				1990	do {
				1991	tmp = (toggle == 0) ? _drbd_bm_find_next_zero(mdev, c->bit_offset)
				1992	: _drbd_bm_find_next(mdev, c->bit_offset);
				1993	if (tmp == -1UL)
				1994	tmp = c->bm_bits;
				1995	rl = tmp - c->bit_offset;
				1996
				1997	if (toggle == 2) { /* first iteration */
				1998	if (rl == 0) {
				1999	/* the first checked bit was set,
				2000	* store start value, */
				2001	DCBP_set_start(p, 1);
				2002	/* but skip encoding of zero run length */
				2003	toggle = !toggle;
				2004	continue;
				2005	}
				2006	DCBP_set_start(p, 0);
				2007	}
				2008
				2009	/* paranoia: catch zero runlength.
				2010	* can only happen if bitmap is modified while we scan it. */
				2011	if (rl == 0) {
				2012	dev_err(DEV, "unexpected zero runlength while encoding bitmap "
				2013	"t:%u bo:%lu\n", toggle, c->bit_offset);
				2014	return -1;
				2015	}
				2016
				2017	bits = vli_encode_bits(&bs, rl);
				2018	if (bits == -ENOBUFS) /* buffer full */
				2019	break;
				2020	if (bits <= 0) {
				2021	dev_err(DEV, "error while encoding bitmap: %d\n", bits);
				2022	return 0;
				2023	}
				2024
				2025	toggle = !toggle;
				2026	plain_bits += rl;
				2027	c->bit_offset = tmp;
				2028	} while (c->bit_offset < c->bm_bits);
				2029
				2030	len = bs.cur.b - p->code + !!bs.cur.bit;
				2031
				2032	if (plain_bits < (len << 3)) {
				2033	/* incompressible with this method.
				2034	* we need to rewind both word and bit position. */
				2035	c->bit_offset -= plain_bits;
				2036	bm_xfer_ctx_bit_to_word_offset(c);
				2037	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2038	return 0;
				2039	}
				2040
				2041	/* RLE + VLI was able to compress it just fine.
				2042	* update c->word_offset. */
				2043	bm_xfer_ctx_bit_to_word_offset(c);
				2044
				2045	/* store pad_bits */
				2046	DCBP_set_pad_bits(p, (8 - bs.cur.bit) & 0x7);
				2047
				2048	return len;
				2049	}
				2050
				2051	enum { OK, FAILED, DONE }
				2052	send_bitmap_rle_or_plain(struct drbd_conf *mdev,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2053	struct p_header80 h, struct bm_xfer_ctx c)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2054	{
				2055	struct p_compressed_bm p = (void)h;
				2056	unsigned long num_words;
				2057	int len;
				2058	int ok;
				2059
				2060	len = fill_bitmap_rle_bits(mdev, p, c);
				2061
				2062	if (len < 0)
				2063	return FAILED;
				2064
				2065	if (len) {
				2066	DCBP_set_code(p, RLE_VLI_Bits);
				2067	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_COMPRESSED_BITMAP, h,
				2068	sizeof(*p) + len, 0);
				2069
				2070	c->packets[0]++;
				2071	c->bytes[0] += sizeof(*p) + len;
				2072
				2073	if (c->bit_offset >= c->bm_bits)
				2074	len = 0; /* DONE */
				2075	} else {
				2076	/* was not compressible.
				2077	* send a buffer full of plain text bits instead. */
				2078	num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				2079	len = num_words * sizeof(long);
				2080	if (len)
				2081	drbd_bm_get_lel(mdev, c->word_offset, num_words, (unsigned long*)h->payload);
				2082	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BITMAP,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2083	h, sizeof(struct p_header80) + len, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2084	c->word_offset += num_words;
				2085	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2086
				2087	c->packets[1]++;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2088	c->bytes[1] += sizeof(struct p_header80) + len;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2089
				2090	if (c->bit_offset > c->bm_bits)
				2091	c->bit_offset = c->bm_bits;
				2092	}
				2093	ok = ok ? ((len == 0) ? DONE : OK) : FAILED;
				2094
				2095	if (ok == DONE)
				2096	INFO_bm_xfer_stats(mdev, "send", c);
				2097	return ok;
				2098	}
				2099
				2100	/* See the comment at receive_bitmap() */
				2101	int _drbd_send_bitmap(struct drbd_conf *mdev)
				2102	{
				2103	struct bm_xfer_ctx c;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2104	struct p_header80 *p;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2105	int ret;
				2106
				2107	ERR_IF(!mdev->bitmap) return FALSE;
				2108
				2109	/* maybe we should use some per thread scratch page,
				2110	* and allocate that during initial device creation? */
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2111	p = (struct p_header80 *) __get_free_page(GFP_NOIO);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2112	if (!p) {
				2113	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				2114	return FALSE;
				2115	}
				2116
				2117	if (get_ldev(mdev)) {
				2118	if (drbd_md_test_flag(mdev->ldev, MDF_FULL_SYNC)) {
				2119	dev_info(DEV, "Writing the whole bitmap, MDF_FullSync was set.\n");
				2120	drbd_bm_set_all(mdev);
				2121	if (drbd_bm_write(mdev)) {
				2122	/* write_bm did fail! Leave full sync flag set in Meta P_DATA
				2123	* but otherwise process as per normal - need to tell other
				2124	* side that a full resync is required! */
				2125	dev_err(DEV, "Failed to write bitmap to disk!\n");
				2126	} else {
				2127	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				2128	drbd_md_sync(mdev);
				2129	}
				2130	}
				2131	put_ldev(mdev);
				2132	}
				2133
				2134	c = (struct bm_xfer_ctx) {
				2135	.bm_bits = drbd_bm_bits(mdev),
				2136	.bm_words = drbd_bm_words(mdev),
				2137	};
				2138
				2139	do {
				2140	ret = send_bitmap_rle_or_plain(mdev, p, &c);
				2141	} while (ret == OK);
				2142
				2143	free_page((unsigned long) p);
				2144	return (ret == DONE);
				2145	}
				2146
				2147	int drbd_send_bitmap(struct drbd_conf *mdev)
				2148	{
				2149	int err;
				2150
				2151	if (!drbd_get_data_sock(mdev))
				2152	return -1;
				2153	err = !_drbd_send_bitmap(mdev);
				2154	drbd_put_data_sock(mdev);
				2155	return err;
				2156	}
				2157
				2158	int drbd_send_b_ack(struct drbd_conf *mdev, u32 barrier_nr, u32 set_size)
				2159	{
				2160	int ok;
				2161	struct p_barrier_ack p;
				2162
				2163	p.barrier = barrier_nr;
				2164	p.set_size = cpu_to_be32(set_size);
				2165
				2166	if (mdev->state.conn < C_CONNECTED)
				2167	return FALSE;
				2168	ok = drbd_send_cmd(mdev, USE_META_SOCKET, P_BARRIER_ACK,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2169	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2170	return ok;
				2171	}
				2172
				2173	/**
				2174	* _drbd_send_ack() - Sends an ack packet
				2175	* @mdev: DRBD device.
				2176	* @cmd: Packet command code.
				2177	* @sector: sector, needs to be in big endian byte order
				2178	* @blksize: size in byte, needs to be in big endian byte order
				2179	* @block_id: Id, big endian byte order
				2180	*/
				2181	static int _drbd_send_ack(struct drbd_conf *mdev, enum drbd_packets cmd,
				2182	u64 sector,
				2183	u32 blksize,
				2184	u64 block_id)
				2185	{
				2186	int ok;
				2187	struct p_block_ack p;
				2188
				2189	p.sector = sector;
				2190	p.block_id = block_id;
				2191	p.blksize = blksize;
				2192	p.seq_num = cpu_to_be32(atomic_add_return(1, &mdev->packet_seq));
				2193
				2194	if (!mdev->meta.socket \|\| mdev->state.conn < C_CONNECTED)
				2195	return FALSE;
				2196	ok = drbd_send_cmd(mdev, USE_META_SOCKET, cmd,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2197	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2198	return ok;
				2199	}
				2200
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame]	2201	/* dp->sector and dp->block_id already/still in network byte order,
				2202	* data_size is payload size according to dp->head,
				2203	* and may need to be corrected for digest size. */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2204	int drbd_send_ack_dp(struct drbd_conf *mdev, enum drbd_packets cmd,
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame]	2205	struct p_data *dp, int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2206	{
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame]	2207	data_size -= (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
				2208	crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2209	return _drbd_send_ack(mdev, cmd, dp->sector, cpu_to_be32(data_size),
				2210	dp->block_id);
				2211	}
				2212
				2213	int drbd_send_ack_rp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2214	struct p_block_req *rp)
				2215	{
				2216	return _drbd_send_ack(mdev, cmd, rp->sector, rp->blksize, rp->block_id);
				2217	}
				2218
				2219	/**
				2220	* drbd_send_ack() - Sends an ack packet
				2221	* @mdev: DRBD device.
				2222	* @cmd: Packet command code.
				2223	* @e: Epoch entry.
				2224	*/
				2225	int drbd_send_ack(struct drbd_conf *mdev,
				2226	enum drbd_packets cmd, struct drbd_epoch_entry *e)
				2227	{
				2228	return _drbd_send_ack(mdev, cmd,
				2229	cpu_to_be64(e->sector),
				2230	cpu_to_be32(e->size),
				2231	e->block_id);
				2232	}
				2233
				2234	/* This function misuses the block_id field to signal if the blocks
				2235	* are is sync or not. */
				2236	int drbd_send_ack_ex(struct drbd_conf *mdev, enum drbd_packets cmd,
				2237	sector_t sector, int blksize, u64 block_id)
				2238	{
				2239	return _drbd_send_ack(mdev, cmd,
				2240	cpu_to_be64(sector),
				2241	cpu_to_be32(blksize),
				2242	cpu_to_be64(block_id));
				2243	}
				2244
				2245	int drbd_send_drequest(struct drbd_conf *mdev, int cmd,
				2246	sector_t sector, int size, u64 block_id)
				2247	{
				2248	int ok;
				2249	struct p_block_req p;
				2250
				2251	p.sector = cpu_to_be64(sector);
				2252	p.block_id = block_id;
				2253	p.blksize = cpu_to_be32(size);
				2254
				2255	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, cmd,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2256	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2257	return ok;
				2258	}
				2259
				2260	int drbd_send_drequest_csum(struct drbd_conf *mdev,
				2261	sector_t sector, int size,
				2262	void *digest, int digest_size,
				2263	enum drbd_packets cmd)
				2264	{
				2265	int ok;
				2266	struct p_block_req p;
				2267
				2268	p.sector = cpu_to_be64(sector);
				2269	p.block_id = BE_DRBD_MAGIC + 0xbeef;
				2270	p.blksize = cpu_to_be32(size);
				2271
				2272	p.head.magic = BE_DRBD_MAGIC;
				2273	p.head.command = cpu_to_be16(cmd);
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2274	p.head.length = cpu_to_be16(sizeof(p) - sizeof(struct p_header80) + digest_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2275
				2276	mutex_lock(&mdev->data.mutex);
				2277
				2278	ok = (sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), 0));
				2279	ok = ok && (digest_size == drbd_send(mdev, mdev->data.socket, digest, digest_size, 0));
				2280
				2281	mutex_unlock(&mdev->data.mutex);
				2282
				2283	return ok;
				2284	}
				2285
				2286	int drbd_send_ov_request(struct drbd_conf *mdev, sector_t sector, int size)
				2287	{
				2288	int ok;
				2289	struct p_block_req p;
				2290
				2291	p.sector = cpu_to_be64(sector);
				2292	p.block_id = BE_DRBD_MAGIC + 0xbabe;
				2293	p.blksize = cpu_to_be32(size);
				2294
				2295	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OV_REQUEST,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2296	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2297	return ok;
				2298	}
				2299
				2300	/* called on sndtimeo
				2301	* returns FALSE if we should retry,
				2302	* TRUE if we think connection is dead
				2303	*/
				2304	static int we_should_drop_the_connection(struct drbd_conf mdev, struct socket sock)
				2305	{
				2306	int drop_it;
				2307	/* long elapsed = (long)(jiffies - mdev->last_received); */
				2308
				2309	drop_it = mdev->meta.socket == sock
				2310	\|\| !mdev->asender.task
				2311	\|\| get_t_state(&mdev->asender) != Running
				2312	\|\| mdev->state.conn < C_CONNECTED;
				2313
				2314	if (drop_it)
				2315	return TRUE;
				2316
				2317	drop_it = !--mdev->ko_count;
				2318	if (!drop_it) {
				2319	dev_err(DEV, "[%s/%d] sock_sendmsg time expired, ko = %u\n",
				2320	current->comm, current->pid, mdev->ko_count);
				2321	request_ping(mdev);
				2322	}
				2323
				2324	return drop_it; /* && (mdev->state == R_PRIMARY) */;
				2325	}
				2326
				2327	/* The idea of sendpage seems to be to put some kind of reference
				2328	* to the page into the skb, and to hand it over to the NIC. In
				2329	* this process get_page() gets called.
				2330	*
				2331	* As soon as the page was really sent over the network put_page()
				2332	* gets called by some part of the network layer. [ NIC driver? ]
				2333	*
				2334	* [ get_page() / put_page() increment/decrement the count. If count
				2335	* reaches 0 the page will be freed. ]
				2336	*
				2337	* This works nicely with pages from FSs.
				2338	* But this means that in protocol A we might signal IO completion too early!
				2339	*
				2340	* In order not to corrupt data during a resync we must make sure
				2341	* that we do not reuse our own buffer pages (EEs) to early, therefore
				2342	* we have the net_ee list.
				2343	*
				2344	* XFS seems to have problems, still, it submits pages with page_count == 0!
				2345	* As a workaround, we disable sendpage on pages
				2346	* with page_count == 0 or PageSlab.
				2347	*/
				2348	static int _drbd_no_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2349	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2350	{
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2351	int sent = drbd_send(mdev, mdev->data.socket, kmap(page) + offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2352	kunmap(page);
				2353	if (sent == size)
				2354	mdev->send_cnt += size>>9;
				2355	return sent == size;
				2356	}
				2357
				2358	static int _drbd_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2359	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2360	{
				2361	mm_segment_t oldfs = get_fs();
				2362	int sent, ok;
				2363	int len = size;
				2364
				2365	/* e.g. XFS meta- & log-data is in slab pages, which have a
				2366	* page_count of 0 and/or have PageSlab() set.
				2367	* we cannot use send_page for those, as that does get_page();
				2368	* put_page(); and would cause either a VM_BUG directly, or
				2369	* __page_cache_release a page that would actually still be referenced
				2370	* by someone, leading to some obscure delayed Oops somewhere else. */
				2371	if (disable_sendpage \|\| (page_count(page) < 1) \|\| PageSlab(page))
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2372	return _drbd_no_send_page(mdev, page, offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2373
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2374	msg_flags \|= MSG_NOSIGNAL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2375	drbd_update_congested(mdev);
				2376	set_fs(KERNEL_DS);
				2377	do {
				2378	sent = mdev->data.socket->ops->sendpage(mdev->data.socket, page,
				2379	offset, len,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2380	msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2381	if (sent == -EAGAIN) {
				2382	if (we_should_drop_the_connection(mdev,
				2383	mdev->data.socket))
				2384	break;
				2385	else
				2386	continue;
				2387	}
				2388	if (sent <= 0) {
				2389	dev_warn(DEV, "%s: size=%d len=%d sent=%d\n",
				2390	__func__, (int)size, len, sent);
				2391	break;
				2392	}
				2393	len -= sent;
				2394	offset += sent;
				2395	} while (len > 0 /* THINK && mdev->cstate >= C_CONNECTED*/);
				2396	set_fs(oldfs);
				2397	clear_bit(NET_CONGESTED, &mdev->flags);
				2398
				2399	ok = (len == 0);
				2400	if (likely(ok))
				2401	mdev->send_cnt += size>>9;
				2402	return ok;
				2403	}
				2404
				2405	static int _drbd_send_bio(struct drbd_conf mdev, struct bio bio)
				2406	{
				2407	struct bio_vec *bvec;
				2408	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2409	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2410	__bio_for_each_segment(bvec, bio, i, 0) {
				2411	if (!_drbd_no_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2412	bvec->bv_offset, bvec->bv_len,
				2413	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2414	return 0;
				2415	}
				2416	return 1;
				2417	}
				2418
				2419	static int _drbd_send_zc_bio(struct drbd_conf mdev, struct bio bio)
				2420	{
				2421	struct bio_vec *bvec;
				2422	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2423	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2424	__bio_for_each_segment(bvec, bio, i, 0) {
				2425	if (!_drbd_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2426	bvec->bv_offset, bvec->bv_len,
				2427	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2428	return 0;
				2429	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2430	return 1;
				2431	}
				2432
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2433	static int _drbd_send_zc_ee(struct drbd_conf mdev, struct drbd_epoch_entry e)
				2434	{
				2435	struct page *page = e->pages;
				2436	unsigned len = e->size;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2437	/* hint all but last page with MSG_MORE */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2438	page_chain_for_each(page) {
				2439	unsigned l = min_t(unsigned, len, PAGE_SIZE);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2440	if (!_drbd_send_page(mdev, page, 0, l,
				2441	page_chain_next(page) ? MSG_MORE : 0))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2442	return 0;
				2443	len -= l;
				2444	}
				2445	return 1;
				2446	}
				2447
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	2448	static u32 bio_flags_to_wire(struct drbd_conf *mdev, unsigned long bi_rw)
				2449	{
				2450	if (mdev->agreed_pro_version >= 95)
				2451	return (bi_rw & REQ_SYNC ? DP_RW_SYNC : 0) \|
				2452	(bi_rw & REQ_UNPLUG ? DP_UNPLUG : 0) \|
				2453	(bi_rw & REQ_FUA ? DP_FUA : 0) \|
				2454	(bi_rw & REQ_FLUSH ? DP_FLUSH : 0) \|
				2455	(bi_rw & REQ_DISCARD ? DP_DISCARD : 0);
				2456	else
				2457	return bi_rw & (REQ_SYNC \| REQ_UNPLUG) ? DP_RW_SYNC : 0;
				2458	}
				2459
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2460	/* Used to send write requests
				2461	* R_PRIMARY -> Peer (P_DATA)
				2462	*/
				2463	int drbd_send_dblock(struct drbd_conf mdev, struct drbd_request req)
				2464	{
				2465	int ok = 1;
				2466	struct p_data p;
				2467	unsigned int dp_flags = 0;
				2468	void *dgb;
				2469	int dgs;
				2470
				2471	if (!drbd_get_data_sock(mdev))
				2472	return 0;
				2473
				2474	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2475	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2476
Philipp Reisner	d537338	2010-08-23 15:18:33 +0200	[diff] [blame]	2477	if (req->size <= DRBD_MAX_SIZE_H80_PACKET) {
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2478	p.head.h80.magic = BE_DRBD_MAGIC;
				2479	p.head.h80.command = cpu_to_be16(P_DATA);
				2480	p.head.h80.length =
				2481	cpu_to_be16(sizeof(p) - sizeof(union p_header) + dgs + req->size);
				2482	} else {
				2483	p.head.h95.magic = BE_DRBD_MAGIC_BIG;
				2484	p.head.h95.command = cpu_to_be16(P_DATA);
				2485	p.head.h95.length =
				2486	cpu_to_be32(sizeof(p) - sizeof(union p_header) + dgs + req->size);
				2487	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2488
				2489	p.sector = cpu_to_be64(req->sector);
				2490	p.block_id = (unsigned long)req;
				2491	p.seq_num = cpu_to_be32(req->seq_num =
				2492	atomic_add_return(1, &mdev->packet_seq));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2493
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	2494	dp_flags = bio_flags_to_wire(mdev, req->master_bio->bi_rw);
				2495
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2496	if (mdev->state.conn >= C_SYNC_SOURCE &&
				2497	mdev->state.conn <= C_PAUSED_SYNC_T)
				2498	dp_flags \|= DP_MAY_SET_IN_SYNC;
				2499
				2500	p.dp_flags = cpu_to_be32(dp_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2501	set_bit(UNPLUG_REMOTE, &mdev->flags);
				2502	ok = (sizeof(p) ==
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2503	drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2504	if (ok && dgs) {
				2505	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2506	drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2507	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2508	}
				2509	if (ok) {
				2510	if (mdev->net_conf->wire_protocol == DRBD_PROT_A)
				2511	ok = _drbd_send_bio(mdev, req->master_bio);
				2512	else
				2513	ok = _drbd_send_zc_bio(mdev, req->master_bio);
				2514	}
				2515
				2516	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2517
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2518	return ok;
				2519	}
				2520
				2521	/* answer packet, used to send data back for read requests:
				2522	* Peer -> (diskless) R_PRIMARY (P_DATA_REPLY)
				2523	* C_SYNC_SOURCE -> C_SYNC_TARGET (P_RS_DATA_REPLY)
				2524	*/
				2525	int drbd_send_block(struct drbd_conf *mdev, enum drbd_packets cmd,
				2526	struct drbd_epoch_entry *e)
				2527	{
				2528	int ok;
				2529	struct p_data p;
				2530	void *dgb;
				2531	int dgs;
				2532
				2533	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2534	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2535
Philipp Reisner	d537338	2010-08-23 15:18:33 +0200	[diff] [blame]	2536	if (e->size <= DRBD_MAX_SIZE_H80_PACKET) {
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2537	p.head.h80.magic = BE_DRBD_MAGIC;
				2538	p.head.h80.command = cpu_to_be16(cmd);
				2539	p.head.h80.length =
				2540	cpu_to_be16(sizeof(p) - sizeof(struct p_header80) + dgs + e->size);
				2541	} else {
				2542	p.head.h95.magic = BE_DRBD_MAGIC_BIG;
				2543	p.head.h95.command = cpu_to_be16(cmd);
				2544	p.head.h95.length =
				2545	cpu_to_be32(sizeof(p) - sizeof(struct p_header80) + dgs + e->size);
				2546	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2547
				2548	p.sector = cpu_to_be64(e->sector);
				2549	p.block_id = e->block_id;
				2550	/* p.seq_num = 0; No sequence numbers here.. */
				2551
				2552	/* Only called by our kernel thread.
				2553	* This one may be interrupted by DRBD_SIG and/or DRBD_SIGKILL
				2554	* in response to admin command or module unload.
				2555	*/
				2556	if (!drbd_get_data_sock(mdev))
				2557	return 0;
				2558
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2559	ok = sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2560	if (ok && dgs) {
				2561	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2562	drbd_csum_ee(mdev, mdev->integrity_w_tfm, e, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2563	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2564	}
				2565	if (ok)
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2566	ok = _drbd_send_zc_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2567
				2568	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2569
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2570	return ok;
				2571	}
				2572
				2573	/*
				2574	drbd_send distinguishes two cases:
				2575
				2576	Packets sent via the data socket "sock"
				2577	and packets sent via the meta data socket "msock"
				2578
				2579	sock msock
				2580	-----------------+-------------------------+------------------------------
				2581	timeout conf.timeout / 2 conf.timeout / 2
				2582	timeout action send a ping via msock Abort communication
				2583	and close all sockets
				2584	*/
				2585
				2586	/*
				2587	* you must have down()ed the appropriate [m]sock_mutex elsewhere!
				2588	*/
				2589	int drbd_send(struct drbd_conf mdev, struct socket sock,
				2590	void *buf, size_t size, unsigned msg_flags)
				2591	{
				2592	struct kvec iov;
				2593	struct msghdr msg;
				2594	int rv, sent = 0;
				2595
				2596	if (!sock)
				2597	return -1000;
				2598
				2599	/* THINK if (signal_pending) return ... ? */
				2600
				2601	iov.iov_base = buf;
				2602	iov.iov_len = size;
				2603
				2604	msg.msg_name = NULL;
				2605	msg.msg_namelen = 0;
				2606	msg.msg_control = NULL;
				2607	msg.msg_controllen = 0;
				2608	msg.msg_flags = msg_flags \| MSG_NOSIGNAL;
				2609
				2610	if (sock == mdev->data.socket) {
				2611	mdev->ko_count = mdev->net_conf->ko_count;
				2612	drbd_update_congested(mdev);
				2613	}
				2614	do {
				2615	/* STRANGE
				2616	* tcp_sendmsg does _not_ use its size parameter at all ?
				2617	*
				2618	* -EAGAIN on timeout, -EINTR on signal.
				2619	*/
				2620	/* THINK
				2621	* do we need to block DRBD_SIG if sock == &meta.socket ??
				2622	* otherwise wake_asender() might interrupt some send_*Ack !
				2623	*/
				2624	rv = kernel_sendmsg(sock, &msg, &iov, 1, size);
				2625	if (rv == -EAGAIN) {
				2626	if (we_should_drop_the_connection(mdev, sock))
				2627	break;
				2628	else
				2629	continue;
				2630	}
				2631	D_ASSERT(rv != 0);
				2632	if (rv == -EINTR) {
				2633	flush_signals(current);
				2634	rv = 0;
				2635	}
				2636	if (rv < 0)
				2637	break;
				2638	sent += rv;
				2639	iov.iov_base += rv;
				2640	iov.iov_len -= rv;
				2641	} while (sent < size);
				2642
				2643	if (sock == mdev->data.socket)
				2644	clear_bit(NET_CONGESTED, &mdev->flags);
				2645
				2646	if (rv <= 0) {
				2647	if (rv != -EAGAIN) {
				2648	dev_err(DEV, "%s_sendmsg returned %d\n",
				2649	sock == mdev->meta.socket ? "msock" : "sock",
				2650	rv);
				2651	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				2652	} else
				2653	drbd_force_state(mdev, NS(conn, C_TIMEOUT));
				2654	}
				2655
				2656	return sent;
				2657	}
				2658
				2659	static int drbd_open(struct block_device *bdev, fmode_t mode)
				2660	{
				2661	struct drbd_conf *mdev = bdev->bd_disk->private_data;
				2662	unsigned long flags;
				2663	int rv = 0;
				2664
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2665	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2666	spin_lock_irqsave(&mdev->req_lock, flags);
				2667	/* to have a stable mdev->state.role
				2668	* and no race with updating open_cnt */
				2669
				2670	if (mdev->state.role != R_PRIMARY) {
				2671	if (mode & FMODE_WRITE)
				2672	rv = -EROFS;
				2673	else if (!allow_oos)
				2674	rv = -EMEDIUMTYPE;
				2675	}
				2676
				2677	if (!rv)
				2678	mdev->open_cnt++;
				2679	spin_unlock_irqrestore(&mdev->req_lock, flags);
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2680	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2681
				2682	return rv;
				2683	}
				2684
				2685	static int drbd_release(struct gendisk *gd, fmode_t mode)
				2686	{
				2687	struct drbd_conf *mdev = gd->private_data;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2688	lock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2689	mdev->open_cnt--;
Arnd Bergmann	6e9624b	2010-08-07 18:25:34 +0200	[diff] [blame]	2690	unlock_kernel();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2691	return 0;
				2692	}
				2693
				2694	static void drbd_unplug_fn(struct request_queue *q)
				2695	{
				2696	struct drbd_conf *mdev = q->queuedata;
				2697
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2698	/* unplug FIRST */
				2699	spin_lock_irq(q->queue_lock);
				2700	blk_remove_plug(q);
				2701	spin_unlock_irq(q->queue_lock);
				2702
				2703	/* only if connected */
				2704	spin_lock_irq(&mdev->req_lock);
				2705	if (mdev->state.pdsk >= D_INCONSISTENT && mdev->state.conn >= C_CONNECTED) {
				2706	D_ASSERT(mdev->state.role == R_PRIMARY);
				2707	if (test_and_clear_bit(UNPLUG_REMOTE, &mdev->flags)) {
				2708	/* add to the data.work queue,
				2709	* unless already queued.
				2710	* XXX this might be a good addition to drbd_queue_work
				2711	* anyways, to detect "double queuing" ... */
				2712	if (list_empty(&mdev->unplug_work.list))
				2713	drbd_queue_work(&mdev->data.work,
				2714	&mdev->unplug_work);
				2715	}
				2716	}
				2717	spin_unlock_irq(&mdev->req_lock);
				2718
				2719	if (mdev->state.disk >= D_INCONSISTENT)
				2720	drbd_kick_lo(mdev);
				2721	}
				2722
				2723	static void drbd_set_defaults(struct drbd_conf *mdev)
				2724	{
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2725	/* This way we get a compile error when sync_conf grows,
				2726	and we forgot to initialize it here */
				2727	mdev->sync_conf = (struct syncer_conf) {
				2728	/* .rate = */ DRBD_RATE_DEF,
				2729	/* .after = */ DRBD_AFTER_DEF,
				2730	/* .al_extents = */ DRBD_AL_EXTENTS_DEF,
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2731	/* .verify_alg = */ {}, 0,
				2732	/* .cpu_mask = */ {}, 0,
				2733	/* .csums_alg = */ {}, 0,
Philipp Reisner	e756414	2010-06-29 17:35:34 +0200	[diff] [blame]	2734	/* .use_rle = */ 0,
Philipp Reisner	9a31d71	2010-07-05 13:42:03 +0200	[diff] [blame]	2735	/* .on_no_data = */ DRBD_ON_NO_DATA_DEF,
				2736	/* .c_plan_ahead = */ DRBD_C_PLAN_AHEAD_DEF,
				2737	/* .c_delay_target = */ DRBD_C_DELAY_TARGET_DEF,
				2738	/* .c_fill_target = */ DRBD_C_FILL_TARGET_DEF,
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2739	/* .c_max_rate = */ DRBD_C_MAX_RATE_DEF,
				2740	/* .c_min_rate = */ DRBD_C_MIN_RATE_DEF
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2741	};
				2742
				2743	/* Have to use that way, because the layout differs between
				2744	big endian and little endian */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2745	mdev->state = (union drbd_state) {
				2746	{ .role = R_SECONDARY,
				2747	.peer = R_UNKNOWN,
				2748	.conn = C_STANDALONE,
				2749	.disk = D_DISKLESS,
				2750	.pdsk = D_UNKNOWN,
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	2751	.susp = 0,
				2752	.susp_nod = 0,
				2753	.susp_fen = 0
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2754	} };
				2755	}
				2756
				2757	void drbd_init_set_defaults(struct drbd_conf *mdev)
				2758	{
				2759	/* the memset(,0,) did most of this.
				2760	* note: only assignments, no allocation in here */
				2761
				2762	drbd_set_defaults(mdev);
				2763
				2764	/* for now, we do NOT yet support it,
				2765	* even though we start some framework
				2766	* to eventually support barriers */
				2767	set_bit(NO_BARRIER_SUPP, &mdev->flags);
				2768
				2769	atomic_set(&mdev->ap_bio_cnt, 0);
				2770	atomic_set(&mdev->ap_pending_cnt, 0);
				2771	atomic_set(&mdev->rs_pending_cnt, 0);
				2772	atomic_set(&mdev->unacked_cnt, 0);
				2773	atomic_set(&mdev->local_cnt, 0);
				2774	atomic_set(&mdev->net_cnt, 0);
				2775	atomic_set(&mdev->packet_seq, 0);
				2776	atomic_set(&mdev->pp_in_use, 0);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	2777	atomic_set(&mdev->pp_in_use_by_net, 0);
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	2778	atomic_set(&mdev->rs_sect_in, 0);
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2779	atomic_set(&mdev->rs_sect_ev, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2780
				2781	mutex_init(&mdev->md_io_mutex);
				2782	mutex_init(&mdev->data.mutex);
				2783	mutex_init(&mdev->meta.mutex);
				2784	sema_init(&mdev->data.work.s, 0);
				2785	sema_init(&mdev->meta.work.s, 0);
				2786	mutex_init(&mdev->state_mutex);
				2787
				2788	spin_lock_init(&mdev->data.work.q_lock);
				2789	spin_lock_init(&mdev->meta.work.q_lock);
				2790
				2791	spin_lock_init(&mdev->al_lock);
				2792	spin_lock_init(&mdev->req_lock);
				2793	spin_lock_init(&mdev->peer_seq_lock);
				2794	spin_lock_init(&mdev->epoch_lock);
				2795
				2796	INIT_LIST_HEAD(&mdev->active_ee);
				2797	INIT_LIST_HEAD(&mdev->sync_ee);
				2798	INIT_LIST_HEAD(&mdev->done_ee);
				2799	INIT_LIST_HEAD(&mdev->read_ee);
				2800	INIT_LIST_HEAD(&mdev->net_ee);
				2801	INIT_LIST_HEAD(&mdev->resync_reads);
				2802	INIT_LIST_HEAD(&mdev->data.work.q);
				2803	INIT_LIST_HEAD(&mdev->meta.work.q);
				2804	INIT_LIST_HEAD(&mdev->resync_work.list);
				2805	INIT_LIST_HEAD(&mdev->unplug_work.list);
				2806	INIT_LIST_HEAD(&mdev->md_sync_work.list);
				2807	INIT_LIST_HEAD(&mdev->bm_io_work.w.list);
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	2808
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2809	mdev->resync_work.cb = w_resync_inactive;
				2810	mdev->unplug_work.cb = w_send_write_hint;
				2811	mdev->md_sync_work.cb = w_md_sync;
				2812	mdev->bm_io_work.w.cb = w_bitmap_io;
				2813	init_timer(&mdev->resync_timer);
				2814	init_timer(&mdev->md_sync_timer);
				2815	mdev->resync_timer.function = resync_timer_fn;
				2816	mdev->resync_timer.data = (unsigned long) mdev;
				2817	mdev->md_sync_timer.function = md_sync_timer_fn;
				2818	mdev->md_sync_timer.data = (unsigned long) mdev;
				2819
				2820	init_waitqueue_head(&mdev->misc_wait);
				2821	init_waitqueue_head(&mdev->state_wait);
Philipp Reisner	84dfb9f	2010-06-23 11:20:05 +0200	[diff] [blame]	2822	init_waitqueue_head(&mdev->net_cnt_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2823	init_waitqueue_head(&mdev->ee_wait);
				2824	init_waitqueue_head(&mdev->al_wait);
				2825	init_waitqueue_head(&mdev->seq_wait);
				2826
				2827	drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
				2828	drbd_thread_init(mdev, &mdev->worker, drbd_worker);
				2829	drbd_thread_init(mdev, &mdev->asender, drbd_asender);
				2830
				2831	mdev->agreed_pro_version = PRO_VERSION_MAX;
				2832	mdev->write_ordering = WO_bio_barrier;
				2833	mdev->resync_wenr = LC_FREE;
				2834	}
				2835
				2836	void drbd_mdev_cleanup(struct drbd_conf *mdev)
				2837	{
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2838	int i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2839	if (mdev->receiver.t_state != None)
				2840	dev_err(DEV, "ASSERT FAILED: receiver t_state == %d expected 0.\n",
				2841	mdev->receiver.t_state);
				2842
				2843	/* no need to lock it, I'm the only thread alive */
				2844	if (atomic_read(&mdev->current_epoch->epoch_size) != 0)
				2845	dev_err(DEV, "epoch_size:%d\n", atomic_read(&mdev->current_epoch->epoch_size));
				2846	mdev->al_writ_cnt =
				2847	mdev->bm_writ_cnt =
				2848	mdev->read_cnt =
				2849	mdev->recv_cnt =
				2850	mdev->send_cnt =
				2851	mdev->writ_cnt =
				2852	mdev->p_size =
				2853	mdev->rs_start =
				2854	mdev->rs_total =
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2855	mdev->rs_failed = 0;
				2856	mdev->rs_last_events = 0;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2857	mdev->rs_last_sect_ev = 0;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2858	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				2859	mdev->rs_mark_left[i] = 0;
				2860	mdev->rs_mark_time[i] = 0;
				2861	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2862	D_ASSERT(mdev->net_conf == NULL);
				2863
				2864	drbd_set_my_capacity(mdev, 0);
				2865	if (mdev->bitmap) {
				2866	/* maybe never allocated. */
Philipp Reisner	02d9a94	2010-03-24 16:23:03 +0100	[diff] [blame]	2867	drbd_bm_resize(mdev, 0, 1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2868	drbd_bm_cleanup(mdev);
				2869	}
				2870
				2871	drbd_free_resources(mdev);
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	2872	clear_bit(AL_SUSPENDED, &mdev->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2873
				2874	/*
				2875	* currently we drbd_init_ee only on module load, so
				2876	* we may do drbd_release_ee only on module unload!
				2877	*/
				2878	D_ASSERT(list_empty(&mdev->active_ee));
				2879	D_ASSERT(list_empty(&mdev->sync_ee));
				2880	D_ASSERT(list_empty(&mdev->done_ee));
				2881	D_ASSERT(list_empty(&mdev->read_ee));
				2882	D_ASSERT(list_empty(&mdev->net_ee));
				2883	D_ASSERT(list_empty(&mdev->resync_reads));
				2884	D_ASSERT(list_empty(&mdev->data.work.q));
				2885	D_ASSERT(list_empty(&mdev->meta.work.q));
				2886	D_ASSERT(list_empty(&mdev->resync_work.list));
				2887	D_ASSERT(list_empty(&mdev->unplug_work.list));
				2888
				2889	}
				2890
				2891
				2892	static void drbd_destroy_mempools(void)
				2893	{
				2894	struct page *page;
				2895
				2896	while (drbd_pp_pool) {
				2897	page = drbd_pp_pool;
				2898	drbd_pp_pool = (struct page *)page_private(page);
				2899	__free_page(page);
				2900	drbd_pp_vacant--;
				2901	}
				2902
				2903	/* D_ASSERT(atomic_read(&drbd_pp_vacant)==0); */
				2904
				2905	if (drbd_ee_mempool)
				2906	mempool_destroy(drbd_ee_mempool);
				2907	if (drbd_request_mempool)
				2908	mempool_destroy(drbd_request_mempool);
				2909	if (drbd_ee_cache)
				2910	kmem_cache_destroy(drbd_ee_cache);
				2911	if (drbd_request_cache)
				2912	kmem_cache_destroy(drbd_request_cache);
				2913	if (drbd_bm_ext_cache)
				2914	kmem_cache_destroy(drbd_bm_ext_cache);
				2915	if (drbd_al_ext_cache)
				2916	kmem_cache_destroy(drbd_al_ext_cache);
				2917
				2918	drbd_ee_mempool = NULL;
				2919	drbd_request_mempool = NULL;
				2920	drbd_ee_cache = NULL;
				2921	drbd_request_cache = NULL;
				2922	drbd_bm_ext_cache = NULL;
				2923	drbd_al_ext_cache = NULL;
				2924
				2925	return;
				2926	}
				2927
				2928	static int drbd_create_mempools(void)
				2929	{
				2930	struct page *page;
				2931	const int number = (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE) * minor_count;
				2932	int i;
				2933
				2934	/* prepare our caches and mempools */
				2935	drbd_request_mempool = NULL;
				2936	drbd_ee_cache = NULL;
				2937	drbd_request_cache = NULL;
				2938	drbd_bm_ext_cache = NULL;
				2939	drbd_al_ext_cache = NULL;
				2940	drbd_pp_pool = NULL;
				2941
				2942	/* caches */
				2943	drbd_request_cache = kmem_cache_create(
				2944	"drbd_req", sizeof(struct drbd_request), 0, 0, NULL);
				2945	if (drbd_request_cache == NULL)
				2946	goto Enomem;
				2947
				2948	drbd_ee_cache = kmem_cache_create(
				2949	"drbd_ee", sizeof(struct drbd_epoch_entry), 0, 0, NULL);
				2950	if (drbd_ee_cache == NULL)
				2951	goto Enomem;
				2952
				2953	drbd_bm_ext_cache = kmem_cache_create(
				2954	"drbd_bm", sizeof(struct bm_extent), 0, 0, NULL);
				2955	if (drbd_bm_ext_cache == NULL)
				2956	goto Enomem;
				2957
				2958	drbd_al_ext_cache = kmem_cache_create(
				2959	"drbd_al", sizeof(struct lc_element), 0, 0, NULL);
				2960	if (drbd_al_ext_cache == NULL)
				2961	goto Enomem;
				2962
				2963	/* mempools */
				2964	drbd_request_mempool = mempool_create(number,
				2965	mempool_alloc_slab, mempool_free_slab, drbd_request_cache);
				2966	if (drbd_request_mempool == NULL)
				2967	goto Enomem;
				2968
				2969	drbd_ee_mempool = mempool_create(number,
				2970	mempool_alloc_slab, mempool_free_slab, drbd_ee_cache);
				2971	if (drbd_request_mempool == NULL)
				2972	goto Enomem;
				2973
				2974	/* drbd's page pool */
				2975	spin_lock_init(&drbd_pp_lock);
				2976
				2977	for (i = 0; i < number; i++) {
				2978	page = alloc_page(GFP_HIGHUSER);
				2979	if (!page)
				2980	goto Enomem;
				2981	set_page_private(page, (unsigned long)drbd_pp_pool);
				2982	drbd_pp_pool = page;
				2983	}
				2984	drbd_pp_vacant = number;
				2985
				2986	return 0;
				2987
				2988	Enomem:
				2989	drbd_destroy_mempools(); /* in case we allocated some */
				2990	return -ENOMEM;
				2991	}
				2992
				2993	static int drbd_notify_sys(struct notifier_block *this, unsigned long code,
				2994	void *unused)
				2995	{
				2996	/* just so we have it. you never know what interesting things we
				2997	* might want to do here some day...
				2998	*/
				2999
				3000	return NOTIFY_DONE;
				3001	}
				3002
				3003	static struct notifier_block drbd_notifier = {
				3004	.notifier_call = drbd_notify_sys,
				3005	};
				3006
				3007	static void drbd_release_ee_lists(struct drbd_conf *mdev)
				3008	{
				3009	int rr;
				3010
				3011	rr = drbd_release_ee(mdev, &mdev->active_ee);
				3012	if (rr)
				3013	dev_err(DEV, "%d EEs in active list found!\n", rr);
				3014
				3015	rr = drbd_release_ee(mdev, &mdev->sync_ee);
				3016	if (rr)
				3017	dev_err(DEV, "%d EEs in sync list found!\n", rr);
				3018
				3019	rr = drbd_release_ee(mdev, &mdev->read_ee);
				3020	if (rr)
				3021	dev_err(DEV, "%d EEs in read list found!\n", rr);
				3022
				3023	rr = drbd_release_ee(mdev, &mdev->done_ee);
				3024	if (rr)
				3025	dev_err(DEV, "%d EEs in done list found!\n", rr);
				3026
				3027	rr = drbd_release_ee(mdev, &mdev->net_ee);
				3028	if (rr)
				3029	dev_err(DEV, "%d EEs in net list found!\n", rr);
				3030	}
				3031
				3032	/* caution. no locking.
				3033	* currently only used from module cleanup code. */
				3034	static void drbd_delete_device(unsigned int minor)
				3035	{
				3036	struct drbd_conf *mdev = minor_to_mdev(minor);
				3037
				3038	if (!mdev)
				3039	return;
				3040
				3041	/* paranoia asserts */
				3042	if (mdev->open_cnt != 0)
				3043	dev_err(DEV, "open_cnt = %d in %s:%u", mdev->open_cnt,
				3044	__FILE__ , __LINE__);
				3045
				3046	ERR_IF (!list_empty(&mdev->data.work.q)) {
				3047	struct list_head *lp;
				3048	list_for_each(lp, &mdev->data.work.q) {
				3049	dev_err(DEV, "lp = %p\n", lp);
				3050	}
				3051	};
				3052	/* end paranoia asserts */
				3053
				3054	del_gendisk(mdev->vdisk);
				3055
				3056	/* cleanup stuff that may have been allocated during
				3057	* device (re-)configuration or state changes */
				3058
				3059	if (mdev->this_bdev)
				3060	bdput(mdev->this_bdev);
				3061
				3062	drbd_free_resources(mdev);
				3063
				3064	drbd_release_ee_lists(mdev);
				3065
				3066	/* should be free'd on disconnect? */
				3067	kfree(mdev->ee_hash);
				3068	/*
				3069	mdev->ee_hash_s = 0;
				3070	mdev->ee_hash = NULL;
				3071	*/
				3072
				3073	lc_destroy(mdev->act_log);
				3074	lc_destroy(mdev->resync);
				3075
				3076	kfree(mdev->p_uuid);
				3077	/* mdev->p_uuid = NULL; */
				3078
				3079	kfree(mdev->int_dig_out);
				3080	kfree(mdev->int_dig_in);
				3081	kfree(mdev->int_dig_vv);
				3082
				3083	/* cleanup the rest that has been
				3084	* allocated from drbd_new_device
				3085	* and actually free the mdev itself */
				3086	drbd_free_mdev(mdev);
				3087	}
				3088
				3089	static void drbd_cleanup(void)
				3090	{
				3091	unsigned int i;
				3092
				3093	unregister_reboot_notifier(&drbd_notifier);
				3094
				3095	drbd_nl_cleanup();
				3096
				3097	if (minor_table) {
				3098	if (drbd_proc)
				3099	remove_proc_entry("drbd", NULL);
				3100	i = minor_count;
				3101	while (i--)
				3102	drbd_delete_device(i);
				3103	drbd_destroy_mempools();
				3104	}
				3105
				3106	kfree(minor_table);
				3107
				3108	unregister_blkdev(DRBD_MAJOR, "drbd");
				3109
				3110	printk(KERN_INFO "drbd: module cleanup done.\n");
				3111	}
				3112
				3113	/**
				3114	* drbd_congested() - Callback for pdflush
				3115	* @congested_data: User data
				3116	* @bdi_bits: Bits pdflush is currently interested in
				3117	*
				3118	* Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
				3119	*/
				3120	static int drbd_congested(void *congested_data, int bdi_bits)
				3121	{
				3122	struct drbd_conf *mdev = congested_data;
				3123	struct request_queue *q;
				3124	char reason = '-';
				3125	int r = 0;
				3126
				3127	if (!__inc_ap_bio_cond(mdev)) {
				3128	/* DRBD has frozen IO */
				3129	r = bdi_bits;
				3130	reason = 'd';
				3131	goto out;
				3132	}
				3133
				3134	if (get_ldev(mdev)) {
				3135	q = bdev_get_queue(mdev->ldev->backing_bdev);
				3136	r = bdi_congested(&q->backing_dev_info, bdi_bits);
				3137	put_ldev(mdev);
				3138	if (r)
				3139	reason = 'b';
				3140	}
				3141
				3142	if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
				3143	r \|= (1 << BDI_async_congested);
				3144	reason = reason == 'b' ? 'a' : 'n';
				3145	}
				3146
				3147	out:
				3148	mdev->congestion_reason = reason;
				3149	return r;
				3150	}
				3151
				3152	struct drbd_conf *drbd_new_device(unsigned int minor)
				3153	{
				3154	struct drbd_conf *mdev;
				3155	struct gendisk *disk;
				3156	struct request_queue *q;
				3157
				3158	/* GFP_KERNEL, we are outside of all write-out paths */
				3159	mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
				3160	if (!mdev)
				3161	return NULL;
				3162	if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
				3163	goto out_no_cpumask;
				3164
				3165	mdev->minor = minor;
				3166
				3167	drbd_init_set_defaults(mdev);
				3168
				3169	q = blk_alloc_queue(GFP_KERNEL);
				3170	if (!q)
				3171	goto out_no_q;
				3172	mdev->rq_queue = q;
				3173	q->queuedata = mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3174
				3175	disk = alloc_disk(1);
				3176	if (!disk)
				3177	goto out_no_disk;
				3178	mdev->vdisk = disk;
				3179
				3180	set_disk_ro(disk, TRUE);
				3181
				3182	disk->queue = q;
				3183	disk->major = DRBD_MAJOR;
				3184	disk->first_minor = minor;
				3185	disk->fops = &drbd_ops;
				3186	sprintf(disk->disk_name, "drbd%d", minor);
				3187	disk->private_data = mdev;
				3188
				3189	mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
				3190	/* we have no partitions. we contain only ourselves. */
				3191	mdev->this_bdev->bd_contains = mdev->this_bdev;
				3192
				3193	q->backing_dev_info.congested_fn = drbd_congested;
				3194	q->backing_dev_info.congested_data = mdev;
				3195
				3196	blk_queue_make_request(q, drbd_make_request_26);
Lars Ellenberg	98ec286	2010-01-21 19:33:14 +0100	[diff] [blame]	3197	blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3198	blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
				3199	blk_queue_merge_bvec(q, drbd_merge_bvec);
				3200	q->queue_lock = &mdev->req_lock; /* needed since we use */
				3201	/* plugging on a queue, that actually has no requests! */
				3202	q->unplug_fn = drbd_unplug_fn;
				3203
				3204	mdev->md_io_page = alloc_page(GFP_KERNEL);
				3205	if (!mdev->md_io_page)
				3206	goto out_no_io_page;
				3207
				3208	if (drbd_bm_init(mdev))
				3209	goto out_no_bitmap;
				3210	/* no need to lock access, we are still initializing this minor device. */
				3211	if (!tl_init(mdev))
				3212	goto out_no_tl;
				3213
				3214	mdev->app_reads_hash = kzalloc(APP_R_HSIZEsizeof(void ), GFP_KERNEL);
				3215	if (!mdev->app_reads_hash)
				3216	goto out_no_app_reads;
				3217
				3218	mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
				3219	if (!mdev->current_epoch)
				3220	goto out_no_epoch;
				3221
				3222	INIT_LIST_HEAD(&mdev->current_epoch->list);
				3223	mdev->epochs = 1;
				3224
				3225	return mdev;
				3226
				3227	/* out_whatever_else:
				3228	kfree(mdev->current_epoch); */
				3229	out_no_epoch:
				3230	kfree(mdev->app_reads_hash);
				3231	out_no_app_reads:
				3232	tl_cleanup(mdev);
				3233	out_no_tl:
				3234	drbd_bm_cleanup(mdev);
				3235	out_no_bitmap:
				3236	__free_page(mdev->md_io_page);
				3237	out_no_io_page:
				3238	put_disk(disk);
				3239	out_no_disk:
				3240	blk_cleanup_queue(q);
				3241	out_no_q:
				3242	free_cpumask_var(mdev->cpu_mask);
				3243	out_no_cpumask:
				3244	kfree(mdev);
				3245	return NULL;
				3246	}
				3247
				3248	/* counterpart of drbd_new_device.
				3249	* last part of drbd_delete_device. */
				3250	void drbd_free_mdev(struct drbd_conf *mdev)
				3251	{
				3252	kfree(mdev->current_epoch);
				3253	kfree(mdev->app_reads_hash);
				3254	tl_cleanup(mdev);
				3255	if (mdev->bitmap) /* should no longer be there. */
				3256	drbd_bm_cleanup(mdev);
				3257	__free_page(mdev->md_io_page);
				3258	put_disk(mdev->vdisk);
				3259	blk_cleanup_queue(mdev->rq_queue);
				3260	free_cpumask_var(mdev->cpu_mask);
				3261	kfree(mdev);
				3262	}
				3263
				3264
				3265	int __init drbd_init(void)
				3266	{
				3267	int err;
				3268
				3269	if (sizeof(struct p_handshake) != 80) {
				3270	printk(KERN_ERR
				3271	"drbd: never change the size or layout "
				3272	"of the HandShake packet.\n");
				3273	return -EINVAL;
				3274	}
				3275
				3276	if (1 > minor_count \|\| minor_count > 255) {
				3277	printk(KERN_ERR
				3278	"drbd: invalid minor_count (%d)\n", minor_count);
				3279	#ifdef MODULE
				3280	return -EINVAL;
				3281	#else
				3282	minor_count = 8;
				3283	#endif
				3284	}
				3285
				3286	err = drbd_nl_init();
				3287	if (err)
				3288	return err;
				3289
				3290	err = register_blkdev(DRBD_MAJOR, "drbd");
				3291	if (err) {
				3292	printk(KERN_ERR
				3293	"drbd: unable to register block device major %d\n",
				3294	DRBD_MAJOR);
				3295	return err;
				3296	}
				3297
				3298	register_reboot_notifier(&drbd_notifier);
				3299
				3300	/*
				3301	* allocate all necessary structs
				3302	*/
				3303	err = -ENOMEM;
				3304
				3305	init_waitqueue_head(&drbd_pp_wait);
				3306
				3307	drbd_proc = NULL; /* play safe for drbd_cleanup */
				3308	minor_table = kzalloc(sizeof(struct drbd_conf )minor_count,
				3309	GFP_KERNEL);
				3310	if (!minor_table)
				3311	goto Enomem;
				3312
				3313	err = drbd_create_mempools();
				3314	if (err)
				3315	goto Enomem;
				3316
Lars Ellenberg	8c484ee	2010-03-11 16:47:58 +0100	[diff] [blame]	3317	drbd_proc = proc_create_data("drbd", S_IFREG \| S_IRUGO , NULL, &drbd_proc_fops, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3318	if (!drbd_proc) {
				3319	printk(KERN_ERR "drbd: unable to register proc file\n");
				3320	goto Enomem;
				3321	}
				3322
				3323	rwlock_init(&global_state_lock);
				3324
				3325	printk(KERN_INFO "drbd: initialized. "
				3326	"Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
				3327	API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
				3328	printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
				3329	printk(KERN_INFO "drbd: registered as block device major %d\n",
				3330	DRBD_MAJOR);
				3331	printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);
				3332
				3333	return 0; /* Success! */
				3334
				3335	Enomem:
				3336	drbd_cleanup();
				3337	if (err == -ENOMEM)
				3338	/* currently always the case */
				3339	printk(KERN_ERR "drbd: ran out of memory\n");
				3340	else
				3341	printk(KERN_ERR "drbd: initialization failure\n");
				3342	return err;
				3343	}
				3344
				3345	void drbd_free_bc(struct drbd_backing_dev *ldev)
				3346	{
				3347	if (ldev == NULL)
				3348	return;
				3349
				3350	bd_release(ldev->backing_bdev);
				3351	bd_release(ldev->md_bdev);
				3352
				3353	fput(ldev->lo_file);
				3354	fput(ldev->md_file);
				3355
				3356	kfree(ldev);
				3357	}
				3358
				3359	void drbd_free_sock(struct drbd_conf *mdev)
				3360	{
				3361	if (mdev->data.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3362	mutex_lock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3363	kernel_sock_shutdown(mdev->data.socket, SHUT_RDWR);
				3364	sock_release(mdev->data.socket);
				3365	mdev->data.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3366	mutex_unlock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3367	}
				3368	if (mdev->meta.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3369	mutex_lock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3370	kernel_sock_shutdown(mdev->meta.socket, SHUT_RDWR);
				3371	sock_release(mdev->meta.socket);
				3372	mdev->meta.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3373	mutex_unlock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3374	}
				3375	}
				3376
				3377
				3378	void drbd_free_resources(struct drbd_conf *mdev)
				3379	{
				3380	crypto_free_hash(mdev->csums_tfm);
				3381	mdev->csums_tfm = NULL;
				3382	crypto_free_hash(mdev->verify_tfm);
				3383	mdev->verify_tfm = NULL;
				3384	crypto_free_hash(mdev->cram_hmac_tfm);
				3385	mdev->cram_hmac_tfm = NULL;
				3386	crypto_free_hash(mdev->integrity_w_tfm);
				3387	mdev->integrity_w_tfm = NULL;
				3388	crypto_free_hash(mdev->integrity_r_tfm);
				3389	mdev->integrity_r_tfm = NULL;
				3390
				3391	drbd_free_sock(mdev);
				3392
				3393	__no_warn(local,
				3394	drbd_free_bc(mdev->ldev);
				3395	mdev->ldev = NULL;);
				3396	}
				3397
				3398	/* meta data management */
				3399
				3400	struct meta_data_on_disk {
				3401	u64 la_size; /* last agreed size. */
				3402	u64 uuid[UI_SIZE]; /* UUIDs. */
				3403	u64 device_uuid;
				3404	u64 reserved_u64_1;
				3405	u32 flags; /* MDF */
				3406	u32 magic;
				3407	u32 md_size_sect;
				3408	u32 al_offset; /* offset to this block */
				3409	u32 al_nr_extents; /* important for restoring the AL */
				3410	/* `-- act_log->nr_elements <-- sync_conf.al_extents */
				3411	u32 bm_offset; /* offset to the bitmap, from here */
				3412	u32 bm_bytes_per_bit; /* BM_BLOCK_SIZE */
				3413	u32 reserved_u32[4];
				3414
				3415	} __packed;
				3416
				3417	/**
				3418	* drbd_md_sync() - Writes the meta data super block if the MD_DIRTY flag bit is set
				3419	* @mdev: DRBD device.
				3420	*/
				3421	void drbd_md_sync(struct drbd_conf *mdev)
				3422	{
				3423	struct meta_data_on_disk *buffer;
				3424	sector_t sector;
				3425	int i;
				3426
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3427	del_timer(&mdev->md_sync_timer);
				3428	/* timer may be rearmed by drbd_md_mark_dirty() now. */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3429	if (!test_and_clear_bit(MD_DIRTY, &mdev->flags))
				3430	return;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3431
				3432	/* We use here D_FAILED and not D_ATTACHING because we try to write
				3433	* metadata even if we detach due to a disk failure! */
				3434	if (!get_ldev_if_state(mdev, D_FAILED))
				3435	return;
				3436
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3437	mutex_lock(&mdev->md_io_mutex);
				3438	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3439	memset(buffer, 0, 512);
				3440
				3441	buffer->la_size = cpu_to_be64(drbd_get_capacity(mdev->this_bdev));
				3442	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3443	buffer->uuid[i] = cpu_to_be64(mdev->ldev->md.uuid[i]);
				3444	buffer->flags = cpu_to_be32(mdev->ldev->md.flags);
				3445	buffer->magic = cpu_to_be32(DRBD_MD_MAGIC);
				3446
				3447	buffer->md_size_sect = cpu_to_be32(mdev->ldev->md.md_size_sect);
				3448	buffer->al_offset = cpu_to_be32(mdev->ldev->md.al_offset);
				3449	buffer->al_nr_extents = cpu_to_be32(mdev->act_log->nr_elements);
				3450	buffer->bm_bytes_per_bit = cpu_to_be32(BM_BLOCK_SIZE);
				3451	buffer->device_uuid = cpu_to_be64(mdev->ldev->md.device_uuid);
				3452
				3453	buffer->bm_offset = cpu_to_be32(mdev->ldev->md.bm_offset);
				3454
				3455	D_ASSERT(drbd_md_ss__(mdev, mdev->ldev) == mdev->ldev->md.md_offset);
				3456	sector = mdev->ldev->md.md_offset;
				3457
Lars Ellenberg	3f3a9b8	2010-09-01 15:12:12 +0200	[diff] [blame]	3458	if (!drbd_md_sync_page_io(mdev, mdev->ldev, sector, WRITE)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3459	/* this was a try anyways ... */
				3460	dev_err(DEV, "meta data update failed!\n");
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3461	drbd_chk_io_error(mdev, 1, TRUE);
				3462	}
				3463
				3464	/* Update mdev->ldev->md.la_size_sect,
				3465	* since we updated it on metadata. */
				3466	mdev->ldev->md.la_size_sect = drbd_get_capacity(mdev->this_bdev);
				3467
				3468	mutex_unlock(&mdev->md_io_mutex);
				3469	put_ldev(mdev);
				3470	}
				3471
				3472	/**
				3473	* drbd_md_read() - Reads in the meta data super block
				3474	* @mdev: DRBD device.
				3475	* @bdev: Device from which the meta data should be read in.
				3476	*
				3477	* Return 0 (NO_ERROR) on success, and an enum drbd_ret_codes in case
				3478	* something goes wrong. Currently only: ERR_IO_MD_DISK, ERR_MD_INVALID.
				3479	*/
				3480	int drbd_md_read(struct drbd_conf mdev, struct drbd_backing_dev bdev)
				3481	{
				3482	struct meta_data_on_disk *buffer;
				3483	int i, rv = NO_ERROR;
				3484
				3485	if (!get_ldev_if_state(mdev, D_ATTACHING))
				3486	return ERR_IO_MD_DISK;
				3487
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3488	mutex_lock(&mdev->md_io_mutex);
				3489	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3490
				3491	if (!drbd_md_sync_page_io(mdev, bdev, bdev->md.md_offset, READ)) {
				3492	/* NOTE: cant do normal error processing here as this is
				3493	called BEFORE disk is attached */
				3494	dev_err(DEV, "Error while reading metadata.\n");
				3495	rv = ERR_IO_MD_DISK;
				3496	goto err;
				3497	}
				3498
				3499	if (be32_to_cpu(buffer->magic) != DRBD_MD_MAGIC) {
				3500	dev_err(DEV, "Error while reading metadata, magic not found.\n");
				3501	rv = ERR_MD_INVALID;
				3502	goto err;
				3503	}
				3504	if (be32_to_cpu(buffer->al_offset) != bdev->md.al_offset) {
				3505	dev_err(DEV, "unexpected al_offset: %d (expected %d)\n",
				3506	be32_to_cpu(buffer->al_offset), bdev->md.al_offset);
				3507	rv = ERR_MD_INVALID;
				3508	goto err;
				3509	}
				3510	if (be32_to_cpu(buffer->bm_offset) != bdev->md.bm_offset) {
				3511	dev_err(DEV, "unexpected bm_offset: %d (expected %d)\n",
				3512	be32_to_cpu(buffer->bm_offset), bdev->md.bm_offset);
				3513	rv = ERR_MD_INVALID;
				3514	goto err;
				3515	}
				3516	if (be32_to_cpu(buffer->md_size_sect) != bdev->md.md_size_sect) {
				3517	dev_err(DEV, "unexpected md_size: %u (expected %u)\n",
				3518	be32_to_cpu(buffer->md_size_sect), bdev->md.md_size_sect);
				3519	rv = ERR_MD_INVALID;
				3520	goto err;
				3521	}
				3522
				3523	if (be32_to_cpu(buffer->bm_bytes_per_bit) != BM_BLOCK_SIZE) {
				3524	dev_err(DEV, "unexpected bm_bytes_per_bit: %u (expected %u)\n",
				3525	be32_to_cpu(buffer->bm_bytes_per_bit), BM_BLOCK_SIZE);
				3526	rv = ERR_MD_INVALID;
				3527	goto err;
				3528	}
				3529
				3530	bdev->md.la_size_sect = be64_to_cpu(buffer->la_size);
				3531	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3532	bdev->md.uuid[i] = be64_to_cpu(buffer->uuid[i]);
				3533	bdev->md.flags = be32_to_cpu(buffer->flags);
				3534	mdev->sync_conf.al_extents = be32_to_cpu(buffer->al_nr_extents);
				3535	bdev->md.device_uuid = be64_to_cpu(buffer->device_uuid);
				3536
				3537	if (mdev->sync_conf.al_extents < 7)
				3538	mdev->sync_conf.al_extents = 127;
				3539
				3540	err:
				3541	mutex_unlock(&mdev->md_io_mutex);
				3542	put_ldev(mdev);
				3543
				3544	return rv;
				3545	}
				3546
				3547	/**
				3548	* drbd_md_mark_dirty() - Mark meta data super block as dirty
				3549	* @mdev: DRBD device.
				3550	*
				3551	* Call this function if you change anything that should be written to
				3552	* the meta-data super block. This function sets MD_DIRTY, and starts a
				3553	* timer that ensures that within five seconds you have to call drbd_md_sync().
				3554	*/
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3555	#ifdef DRBD_DEBUG_MD_SYNC
				3556	void drbd_md_mark_dirty_(struct drbd_conf mdev, unsigned int line, const char func)
				3557	{
				3558	if (!test_and_set_bit(MD_DIRTY, &mdev->flags)) {
				3559	mod_timer(&mdev->md_sync_timer, jiffies + HZ);
				3560	mdev->last_md_mark_dirty.line = line;
				3561	mdev->last_md_mark_dirty.func = func;
				3562	}
				3563	}
				3564	#else
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3565	void drbd_md_mark_dirty(struct drbd_conf *mdev)
				3566	{
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3567	if (!test_and_set_bit(MD_DIRTY, &mdev->flags))
				3568	mod_timer(&mdev->md_sync_timer, jiffies + HZ);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3569	}
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3570	#endif
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3571
				3572	static void drbd_uuid_move_history(struct drbd_conf *mdev) __must_hold(local)
				3573	{
				3574	int i;
				3575
Jens Axboe	6a0afdf	2009-10-01 09:04:14 +0200	[diff] [blame]	3576	for (i = UI_HISTORY_START; i < UI_HISTORY_END; i++)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3577	mdev->ldev->md.uuid[i+1] = mdev->ldev->md.uuid[i];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3578	}
				3579
				3580	void _drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3581	{
				3582	if (idx == UI_CURRENT) {
				3583	if (mdev->state.role == R_PRIMARY)
				3584	val \|= 1;
				3585	else
				3586	val &= ~((u64)1);
				3587
				3588	drbd_set_ed_uuid(mdev, val);
				3589	}
				3590
				3591	mdev->ldev->md.uuid[idx] = val;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3592	drbd_md_mark_dirty(mdev);
				3593	}
				3594
				3595
				3596	void drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3597	{
				3598	if (mdev->ldev->md.uuid[idx]) {
				3599	drbd_uuid_move_history(mdev);
				3600	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[idx];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3601	}
				3602	_drbd_uuid_set(mdev, idx, val);
				3603	}
				3604
				3605	/**
				3606	* drbd_uuid_new_current() - Creates a new current UUID
				3607	* @mdev: DRBD device.
				3608	*
				3609	* Creates a new current UUID, and rotates the old current UUID into
				3610	* the bitmap slot. Causes an incremental resync upon next connect.
				3611	*/
				3612	void drbd_uuid_new_current(struct drbd_conf *mdev) __must_hold(local)
				3613	{
				3614	u64 val;
				3615
				3616	dev_info(DEV, "Creating new current UUID\n");
				3617	D_ASSERT(mdev->ldev->md.uuid[UI_BITMAP] == 0);
				3618	mdev->ldev->md.uuid[UI_BITMAP] = mdev->ldev->md.uuid[UI_CURRENT];
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3619
				3620	get_random_bytes(&val, sizeof(u64));
				3621	_drbd_uuid_set(mdev, UI_CURRENT, val);
				3622	}
				3623
				3624	void drbd_uuid_set_bm(struct drbd_conf *mdev, u64 val) __must_hold(local)
				3625	{
				3626	if (mdev->ldev->md.uuid[UI_BITMAP] == 0 && val == 0)
				3627	return;
				3628
				3629	if (val == 0) {
				3630	drbd_uuid_move_history(mdev);
				3631	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[UI_BITMAP];
				3632	mdev->ldev->md.uuid[UI_BITMAP] = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3633	} else {
				3634	if (mdev->ldev->md.uuid[UI_BITMAP])
				3635	dev_warn(DEV, "bm UUID already set");
				3636
				3637	mdev->ldev->md.uuid[UI_BITMAP] = val;
				3638	mdev->ldev->md.uuid[UI_BITMAP] &= ~((u64)1);
				3639
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3640	}
				3641	drbd_md_mark_dirty(mdev);
				3642	}
				3643
				3644	/**
				3645	* drbd_bmio_set_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3646	* @mdev: DRBD device.
				3647	*
				3648	* Sets all bits in the bitmap and writes the whole bitmap to stable storage.
				3649	*/
				3650	int drbd_bmio_set_n_write(struct drbd_conf *mdev)
				3651	{
				3652	int rv = -EIO;
				3653
				3654	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3655	drbd_md_set_flag(mdev, MDF_FULL_SYNC);
				3656	drbd_md_sync(mdev);
				3657	drbd_bm_set_all(mdev);
				3658
				3659	rv = drbd_bm_write(mdev);
				3660
				3661	if (!rv) {
				3662	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				3663	drbd_md_sync(mdev);
				3664	}
				3665
				3666	put_ldev(mdev);
				3667	}
				3668
				3669	return rv;
				3670	}
				3671
				3672	/**
				3673	* drbd_bmio_clear_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3674	* @mdev: DRBD device.
				3675	*
				3676	* Clears all bits in the bitmap and writes the whole bitmap to stable storage.
				3677	*/
				3678	int drbd_bmio_clear_n_write(struct drbd_conf *mdev)
				3679	{
				3680	int rv = -EIO;
				3681
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	3682	drbd_resume_al(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3683	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3684	drbd_bm_clear_all(mdev);
				3685	rv = drbd_bm_write(mdev);
				3686	put_ldev(mdev);
				3687	}
				3688
				3689	return rv;
				3690	}
				3691
				3692	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused)
				3693	{
				3694	struct bm_io_work *work = container_of(w, struct bm_io_work, w);
				3695	int rv;
				3696
				3697	D_ASSERT(atomic_read(&mdev->ap_bio_cnt) == 0);
				3698
				3699	drbd_bm_lock(mdev, work->why);
				3700	rv = work->io_fn(mdev);
				3701	drbd_bm_unlock(mdev);
				3702
				3703	clear_bit(BITMAP_IO, &mdev->flags);
				3704	wake_up(&mdev->misc_wait);
				3705
				3706	if (work->done)
				3707	work->done(mdev, rv);
				3708
				3709	clear_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3710	work->why = NULL;
				3711
				3712	return 1;
				3713	}
				3714
				3715	/**
				3716	* drbd_queue_bitmap_io() - Queues an IO operation on the whole bitmap
				3717	* @mdev: DRBD device.
				3718	* @io_fn: IO callback to be called when bitmap IO is possible
				3719	* @done: callback to be called after the bitmap IO was performed
				3720	* @why: Descriptive text of the reason for doing the IO
				3721	*
				3722	* While IO on the bitmap happens we freeze application IO thus we ensure
				3723	* that drbd_set_out_of_sync() can not be called. This function MAY ONLY be
				3724	* called from worker context. It MUST NOT be used while a previous such
				3725	* work is still pending!
				3726	*/
				3727	void drbd_queue_bitmap_io(struct drbd_conf *mdev,
				3728	int (io_fn)(struct drbd_conf ),
				3729	void (done)(struct drbd_conf , int),
				3730	char *why)
				3731	{
				3732	D_ASSERT(current == mdev->worker.task);
				3733
				3734	D_ASSERT(!test_bit(BITMAP_IO_QUEUED, &mdev->flags));
				3735	D_ASSERT(!test_bit(BITMAP_IO, &mdev->flags));
				3736	D_ASSERT(list_empty(&mdev->bm_io_work.w.list));
				3737	if (mdev->bm_io_work.why)
				3738	dev_err(DEV, "FIXME going to queue '%s' but '%s' still pending?\n",
				3739	why, mdev->bm_io_work.why);
				3740
				3741	mdev->bm_io_work.io_fn = io_fn;
				3742	mdev->bm_io_work.done = done;
				3743	mdev->bm_io_work.why = why;
				3744
				3745	set_bit(BITMAP_IO, &mdev->flags);
				3746	if (atomic_read(&mdev->ap_bio_cnt) == 0) {
				3747	if (list_empty(&mdev->bm_io_work.w.list)) {
				3748	set_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3749	drbd_queue_work(&mdev->data.work, &mdev->bm_io_work.w);
				3750	} else
				3751	dev_err(DEV, "FIXME avoided double queuing bm_io_work\n");
				3752	}
				3753	}
				3754
				3755	/**
				3756	* drbd_bitmap_io() - Does an IO operation on the whole bitmap
				3757	* @mdev: DRBD device.
				3758	* @io_fn: IO callback to be called when bitmap IO is possible
				3759	* @why: Descriptive text of the reason for doing the IO
				3760	*
				3761	* freezes application IO while that the actual IO operations runs. This
				3762	* functions MAY NOT be called from worker context.
				3763	*/
				3764	int drbd_bitmap_io(struct drbd_conf mdev, int (io_fn)(struct drbd_conf ), char why)
				3765	{
				3766	int rv;
				3767
				3768	D_ASSERT(current != mdev->worker.task);
				3769
				3770	drbd_suspend_io(mdev);
				3771
				3772	drbd_bm_lock(mdev, why);
				3773	rv = io_fn(mdev);
				3774	drbd_bm_unlock(mdev);
				3775
				3776	drbd_resume_io(mdev);
				3777
				3778	return rv;
				3779	}
				3780
				3781	void drbd_md_set_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3782	{
				3783	if ((mdev->ldev->md.flags & flag) != flag) {
				3784	drbd_md_mark_dirty(mdev);
				3785	mdev->ldev->md.flags \|= flag;
				3786	}
				3787	}
				3788
				3789	void drbd_md_clear_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3790	{
				3791	if ((mdev->ldev->md.flags & flag) != 0) {
				3792	drbd_md_mark_dirty(mdev);
				3793	mdev->ldev->md.flags &= ~flag;
				3794	}
				3795	}
				3796	int drbd_md_test_flag(struct drbd_backing_dev *bdev, int flag)
				3797	{
				3798	return (bdev->md.flags & flag) != 0;
				3799	}
				3800
				3801	static void md_sync_timer_fn(unsigned long data)
				3802	{
				3803	struct drbd_conf mdev = (struct drbd_conf ) data;
				3804
				3805	drbd_queue_work_front(&mdev->data.work, &mdev->md_sync_work);
				3806	}
				3807
				3808	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused)
				3809	{
				3810	dev_warn(DEV, "md_sync_timer expired! Worker calls drbd_md_sync().\n");
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3811	#ifdef DEBUG
				3812	dev_warn(DEV, "last md_mark_dirty: %s:%u\n",
				3813	mdev->last_md_mark_dirty.func, mdev->last_md_mark_dirty.line);
				3814	#endif
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3815	drbd_md_sync(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3816	return 1;
				3817	}
				3818
				3819	#ifdef CONFIG_DRBD_FAULT_INJECTION
				3820	/* Fault insertion support including random number generator shamelessly
				3821	* stolen from kernel/rcutorture.c */
				3822	struct fault_random_state {
				3823	unsigned long state;
				3824	unsigned long count;
				3825	};
				3826
				3827	#define FAULT_RANDOM_MULT 39916801 /* prime */
				3828	#define FAULT_RANDOM_ADD 479001701 /* prime */
				3829	#define FAULT_RANDOM_REFRESH 10000
				3830
				3831	/*
				3832	* Crude but fast random-number generator. Uses a linear congruential
				3833	* generator, with occasional help from get_random_bytes().
				3834	*/
				3835	static unsigned long
				3836	_drbd_fault_random(struct fault_random_state *rsp)
				3837	{
				3838	long refresh;
				3839
Roel Kluin	49829ea	2009-12-15 22:55:44 +0100	[diff] [blame]	3840	if (!rsp->count--) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3841	get_random_bytes(&refresh, sizeof(refresh));
				3842	rsp->state += refresh;
				3843	rsp->count = FAULT_RANDOM_REFRESH;
				3844	}
				3845	rsp->state = rsp->state * FAULT_RANDOM_MULT + FAULT_RANDOM_ADD;
				3846	return swahw32(rsp->state);
				3847	}
				3848
				3849	static char *
				3850	_drbd_fault_str(unsigned int type) {
				3851	static char *_faults[] = {
				3852	[DRBD_FAULT_MD_WR] = "Meta-data write",
				3853	[DRBD_FAULT_MD_RD] = "Meta-data read",
				3854	[DRBD_FAULT_RS_WR] = "Resync write",
				3855	[DRBD_FAULT_RS_RD] = "Resync read",
				3856	[DRBD_FAULT_DT_WR] = "Data write",
				3857	[DRBD_FAULT_DT_RD] = "Data read",
				3858	[DRBD_FAULT_DT_RA] = "Data read ahead",
				3859	[DRBD_FAULT_BM_ALLOC] = "BM allocation",
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	3860	[DRBD_FAULT_AL_EE] = "EE allocation",
				3861	[DRBD_FAULT_RECEIVE] = "receive data corruption",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3862	};
				3863
				3864	return (type < DRBD_FAULT_MAX) ? _faults[type] : "Unknown";
				3865	}
				3866
				3867	unsigned int
				3868	_drbd_insert_fault(struct drbd_conf *mdev, unsigned int type)
				3869	{
				3870	static struct fault_random_state rrs = {0, 0};
				3871
				3872	unsigned int ret = (
				3873	(fault_devs == 0 \|\|
				3874	((1 << mdev_to_minor(mdev)) & fault_devs) != 0) &&
				3875	(((_drbd_fault_random(&rrs) % 100) + 1) <= fault_rate));
				3876
				3877	if (ret) {
				3878	fault_count++;
				3879
Lars Ellenberg	7383506	2010-05-27 11:51:56 +0200	[diff] [blame]	3880	if (__ratelimit(&drbd_ratelimit_state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3881	dev_warn(DEV, "***Simulating %s failure\n",
				3882	_drbd_fault_str(type));
				3883	}
				3884
				3885	return ret;
				3886	}
				3887	#endif
				3888
				3889	const char *drbd_buildtag(void)
				3890	{
				3891	/* DRBD built from external sources has here a reference to the
				3892	git hash of the source code. */
				3893
				3894	static char buildtag[38] = "\0uilt-in";
				3895
				3896	if (buildtag[0] == 0) {
				3897	#ifdef CONFIG_MODULES
				3898	if (THIS_MODULE != NULL)
				3899	sprintf(buildtag, "srcversion: %-24s", THIS_MODULE->srcversion);
				3900	else
				3901	#endif
				3902	buildtag[0] = 'b';
				3903	}
				3904
				3905	return buildtag;
				3906	}
				3907
				3908	module_init(drbd_init)
				3909	module_exit(drbd_cleanup)
				3910
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3911	EXPORT_SYMBOL(drbd_conn_str);
				3912	EXPORT_SYMBOL(drbd_role_str);
				3913	EXPORT_SYMBOL(drbd_disk_str);
				3914	EXPORT_SYMBOL(drbd_set_st_err_str);