Blame - drivers/block/drbd/drbd_main.c - kernel/msm-5.4

blob: 9d9c2ed31e9afcb6af2b1136dd84c0e626936a8b [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	Thanks to Carter Burden, Bart Grantham and Gennadiy Nerubayev
				11	from Logicworks, Inc. for making SDP replication support possible.
				12
				13	drbd is free software; you can redistribute it and/or modify
				14	it under the terms of the GNU General Public License as published by
				15	the Free Software Foundation; either version 2, or (at your option)
				16	any later version.
				17
				18	drbd is distributed in the hope that it will be useful,
				19	but WITHOUT ANY WARRANTY; without even the implied warranty of
				20	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				21	GNU General Public License for more details.
				22
				23	You should have received a copy of the GNU General Public License
				24	along with drbd; see the file COPYING. If not, write to
				25	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				26
				27	*/
				28
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	30	#include <linux/drbd.h>
				31	#include <asm/uaccess.h>
				32	#include <asm/types.h>
				33	#include <net/sock.h>
				34	#include <linux/ctype.h>
Arnd Bergmann	2a48fc0	2010-06-02 14:28:52 +0200	[diff] [blame]	35	#include <linux/mutex.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	36	#include <linux/fs.h>
				37	#include <linux/file.h>
				38	#include <linux/proc_fs.h>
				39	#include <linux/init.h>
				40	#include <linux/mm.h>
				41	#include <linux/memcontrol.h>
				42	#include <linux/mm_inline.h>
				43	#include <linux/slab.h>
				44	#include <linux/random.h>
				45	#include <linux/reboot.h>
				46	#include <linux/notifier.h>
				47	#include <linux/kthread.h>
				48
				49	#define __KERNEL_SYSCALLS__
				50	#include <linux/unistd.h>
				51	#include <linux/vmalloc.h>
				52
				53	#include <linux/drbd_limits.h>
				54	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	55	#include "drbd_req.h" /* only for _req_mod in tl_release and tl_clear */
				56
				57	#include "drbd_vli.h"
				58
				59	struct after_state_chg_work {
				60	struct drbd_work w;
				61	union drbd_state os;
				62	union drbd_state ns;
				63	enum chg_state_flags flags;
				64	struct completion *done;
				65	};
				66
Arnd Bergmann	2a48fc0	2010-06-02 14:28:52 +0200	[diff] [blame]	67	static DEFINE_MUTEX(drbd_main_mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	68	int drbdd_init(struct drbd_thread *);
				69	int drbd_worker(struct drbd_thread *);
				70	int drbd_asender(struct drbd_thread *);
				71
				72	int drbd_init(void);
				73	static int drbd_open(struct block_device *bdev, fmode_t mode);
				74	static int drbd_release(struct gendisk *gd, fmode_t mode);
				75	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused);
				76	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				77	union drbd_state ns, enum chg_state_flags flags);
				78	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused);
				79	static void md_sync_timer_fn(unsigned long data);
				80	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused);
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	81	static int w_go_diskless(struct drbd_conf mdev, struct drbd_work w, int unused);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	82
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	83	MODULE_AUTHOR("Philipp Reisner <phil@linbit.com>, "
				84	"Lars Ellenberg <lars@linbit.com>");
				85	MODULE_DESCRIPTION("drbd - Distributed Replicated Block Device v" REL_VERSION);
				86	MODULE_VERSION(REL_VERSION);
				87	MODULE_LICENSE("GPL");
				88	MODULE_PARM_DESC(minor_count, "Maximum number of drbd devices (1-255)");
				89	MODULE_ALIAS_BLOCKDEV_MAJOR(DRBD_MAJOR);
				90
				91	#include <linux/moduleparam.h>
				92	/* allow_open_on_secondary */
				93	MODULE_PARM_DESC(allow_oos, "DONT USE!");
				94	/* thanks to these macros, if compiled into the kernel (not-module),
				95	* this becomes the boot parameter drbd.minor_count */
				96	module_param(minor_count, uint, 0444);
				97	module_param(disable_sendpage, bool, 0644);
				98	module_param(allow_oos, bool, 0);
				99	module_param(cn_idx, uint, 0444);
				100	module_param(proc_details, int, 0644);
				101
				102	#ifdef CONFIG_DRBD_FAULT_INJECTION
				103	int enable_faults;
				104	int fault_rate;
				105	static int fault_count;
				106	int fault_devs;
				107	/* bitmap of enabled faults */
				108	module_param(enable_faults, int, 0664);
				109	/* fault rate % value - applies to all enabled faults */
				110	module_param(fault_rate, int, 0664);
				111	/* count of faults inserted */
				112	module_param(fault_count, int, 0664);
				113	/* bitmap of devices to insert faults on */
				114	module_param(fault_devs, int, 0644);
				115	#endif
				116
				117	/* module parameter, defined */
				118	unsigned int minor_count = 32;
				119	int disable_sendpage;
				120	int allow_oos;
				121	unsigned int cn_idx = CN_IDX_DRBD;
				122	int proc_details; /* Detail level in proc drbd*/
				123
				124	/* Module parameter for setting the user mode helper program
				125	* to run. Default is /sbin/drbdadm */
				126	char usermode_helper[80] = "/sbin/drbdadm";
				127
				128	module_param_string(usermode_helper, usermode_helper, sizeof(usermode_helper), 0644);
				129
				130	/* in 2.6.x, our device mapping and config info contains our virtual gendisks
				131	* as member "struct gendisk *vdisk;"
				132	*/
				133	struct drbd_conf **minor_table;
				134
				135	struct kmem_cache *drbd_request_cache;
				136	struct kmem_cache drbd_ee_cache; / epoch entries */
				137	struct kmem_cache drbd_bm_ext_cache; / bitmap extents */
				138	struct kmem_cache drbd_al_ext_cache; / activity log extents */
				139	mempool_t *drbd_request_mempool;
				140	mempool_t *drbd_ee_mempool;
				141
				142	/* I do not use a standard mempool, because:
				143	1) I want to hand out the pre-allocated objects first.
				144	2) I want to be able to interrupt sleeping allocation with a signal.
				145	Note: This is a single linked list, the next pointer is the private
				146	member of struct page.
				147	*/
				148	struct page *drbd_pp_pool;
				149	spinlock_t drbd_pp_lock;
				150	int drbd_pp_vacant;
				151	wait_queue_head_t drbd_pp_wait;
				152
				153	DEFINE_RATELIMIT_STATE(drbd_ratelimit_state, 5 * HZ, 5);
				154
Emese Revfy	7d4e9d0	2009-12-14 00:59:30 +0100	[diff] [blame]	155	static const struct block_device_operations drbd_ops = {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	156	.owner = THIS_MODULE,
				157	.open = drbd_open,
				158	.release = drbd_release,
				159	};
				160
				161	#define ARRY_SIZE(A) (sizeof(A)/sizeof(A[0]))
				162
				163	#ifdef __CHECKER__
				164	/* When checking with sparse, and this is an inline function, sparse will
				165	give tons of false positives. When this is a real functions sparse works.
				166	*/
				167	int _get_ldev_if_state(struct drbd_conf *mdev, enum drbd_disk_state mins)
				168	{
				169	int io_allowed;
				170
				171	atomic_inc(&mdev->local_cnt);
				172	io_allowed = (mdev->state.disk >= mins);
				173	if (!io_allowed) {
				174	if (atomic_dec_and_test(&mdev->local_cnt))
				175	wake_up(&mdev->misc_wait);
				176	}
				177	return io_allowed;
				178	}
				179
				180	#endif
				181
				182	/**
				183	* DOC: The transfer log
				184	*
				185	* The transfer log is a single linked list of &struct drbd_tl_epoch objects.
				186	* mdev->newest_tle points to the head, mdev->oldest_tle points to the tail
				187	* of the list. There is always at least one &struct drbd_tl_epoch object.
				188	*
				189	* Each &struct drbd_tl_epoch has a circular double linked list of requests
				190	* attached.
				191	*/
				192	static int tl_init(struct drbd_conf *mdev)
				193	{
				194	struct drbd_tl_epoch *b;
				195
				196	/* during device minor initialization, we may well use GFP_KERNEL */
				197	b = kmalloc(sizeof(struct drbd_tl_epoch), GFP_KERNEL);
				198	if (!b)
				199	return 0;
				200	INIT_LIST_HEAD(&b->requests);
				201	INIT_LIST_HEAD(&b->w.list);
				202	b->next = NULL;
				203	b->br_number = 4711;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	204	b->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	205	b->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				206
				207	mdev->oldest_tle = b;
				208	mdev->newest_tle = b;
				209	INIT_LIST_HEAD(&mdev->out_of_sequence_requests);
				210
				211	mdev->tl_hash = NULL;
				212	mdev->tl_hash_s = 0;
				213
				214	return 1;
				215	}
				216
				217	static void tl_cleanup(struct drbd_conf *mdev)
				218	{
				219	D_ASSERT(mdev->oldest_tle == mdev->newest_tle);
				220	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				221	kfree(mdev->oldest_tle);
				222	mdev->oldest_tle = NULL;
				223	kfree(mdev->unused_spare_tle);
				224	mdev->unused_spare_tle = NULL;
				225	kfree(mdev->tl_hash);
				226	mdev->tl_hash = NULL;
				227	mdev->tl_hash_s = 0;
				228	}
				229
				230	/**
				231	* _tl_add_barrier() - Adds a barrier to the transfer log
				232	* @mdev: DRBD device.
				233	* @new: Barrier to be added before the current head of the TL.
				234	*
				235	* The caller must hold the req_lock.
				236	*/
				237	void _tl_add_barrier(struct drbd_conf mdev, struct drbd_tl_epoch new)
				238	{
				239	struct drbd_tl_epoch *newest_before;
				240
				241	INIT_LIST_HEAD(&new->requests);
				242	INIT_LIST_HEAD(&new->w.list);
				243	new->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
				244	new->next = NULL;
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	245	new->n_writes = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	246
				247	newest_before = mdev->newest_tle;
				248	/* never send a barrier number == 0, because that is special-cased
				249	* when using TCQ for our write ordering code */
				250	new->br_number = (newest_before->br_number+1) ?: 1;
				251	if (mdev->newest_tle != new) {
				252	mdev->newest_tle->next = new;
				253	mdev->newest_tle = new;
				254	}
				255	}
				256
				257	/**
				258	* tl_release() - Free or recycle the oldest &struct drbd_tl_epoch object of the TL
				259	* @mdev: DRBD device.
				260	* @barrier_nr: Expected identifier of the DRBD write barrier packet.
				261	* @set_size: Expected number of requests before that barrier.
				262	*
				263	* In case the passed barrier_nr or set_size does not match the oldest
				264	* &struct drbd_tl_epoch objects this function will cause a termination
				265	* of the connection.
				266	*/
				267	void tl_release(struct drbd_conf *mdev, unsigned int barrier_nr,
				268	unsigned int set_size)
				269	{
				270	struct drbd_tl_epoch b, nob; /* next old barrier */
				271	struct list_head le, tle;
				272	struct drbd_request *r;
				273
				274	spin_lock_irq(&mdev->req_lock);
				275
				276	b = mdev->oldest_tle;
				277
				278	/* first some paranoia code */
				279	if (b == NULL) {
				280	dev_err(DEV, "BAD! BarrierAck #%u received, but no epoch in tl!?\n",
				281	barrier_nr);
				282	goto bail;
				283	}
				284	if (b->br_number != barrier_nr) {
				285	dev_err(DEV, "BAD! BarrierAck #%u received, expected #%u!\n",
				286	barrier_nr, b->br_number);
				287	goto bail;
				288	}
Philipp Reisner	7e602c0	2010-05-27 14:49:27 +0200	[diff] [blame]	289	if (b->n_writes != set_size) {
				290	dev_err(DEV, "BAD! BarrierAck #%u received with n_writes=%u, expected n_writes=%u!\n",
				291	barrier_nr, set_size, b->n_writes);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	292	goto bail;
				293	}
				294
				295	/* Clean up list of requests processed during current epoch */
				296	list_for_each_safe(le, tle, &b->requests) {
				297	r = list_entry(le, struct drbd_request, tl_requests);
				298	_req_mod(r, barrier_acked);
				299	}
				300	/* There could be requests on the list waiting for completion
				301	of the write to the local disk. To avoid corruptions of
				302	slab's data structures we have to remove the lists head.
				303
				304	Also there could have been a barrier ack out of sequence, overtaking
				305	the write acks - which would be a bug and violating write ordering.
				306	To not deadlock in case we lose connection while such requests are
				307	still pending, we need some way to find them for the
				308	_req_mode(connection_lost_while_pending).
				309
				310	These have been list_move'd to the out_of_sequence_requests list in
				311	_req_mod(, barrier_acked) above.
				312	*/
				313	list_del_init(&b->requests);
				314
				315	nob = b->next;
				316	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags)) {
				317	_tl_add_barrier(mdev, b);
				318	if (nob)
				319	mdev->oldest_tle = nob;
				320	/* if nob == NULL b was the only barrier, and becomes the new
				321	barrier. Therefore mdev->oldest_tle points already to b */
				322	} else {
				323	D_ASSERT(nob != NULL);
				324	mdev->oldest_tle = nob;
				325	kfree(b);
				326	}
				327
				328	spin_unlock_irq(&mdev->req_lock);
				329	dec_ap_pending(mdev);
				330
				331	return;
				332
				333	bail:
				334	spin_unlock_irq(&mdev->req_lock);
				335	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				336	}
				337
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	338	/**
				339	* _tl_restart() - Walks the transfer log, and applies an action to all requests
				340	* @mdev: DRBD device.
				341	* @what: The action/event to perform with all request objects
				342	*
				343	* @what might be one of connection_lost_while_pending, resend, fail_frozen_disk_io,
				344	* restart_frozen_disk_io.
				345	*/
				346	static void _tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				347	{
				348	struct drbd_tl_epoch b, tmp, **pn;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	349	struct list_head le, tle, carry_reads;
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	350	struct drbd_request *req;
				351	int rv, n_writes, n_reads;
				352
				353	b = mdev->oldest_tle;
				354	pn = &mdev->oldest_tle;
				355	while (b) {
				356	n_writes = 0;
				357	n_reads = 0;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	358	INIT_LIST_HEAD(&carry_reads);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	359	list_for_each_safe(le, tle, &b->requests) {
				360	req = list_entry(le, struct drbd_request, tl_requests);
				361	rv = _req_mod(req, what);
				362
				363	n_writes += (rv & MR_WRITE) >> MR_WRITE_SHIFT;
				364	n_reads += (rv & MR_READ) >> MR_READ_SHIFT;
				365	}
				366	tmp = b->next;
				367
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	368	if (n_writes) {
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	369	if (what == resend) {
				370	b->n_writes = n_writes;
				371	if (b->w.cb == NULL) {
				372	b->w.cb = w_send_barrier;
				373	inc_ap_pending(mdev);
				374	set_bit(CREATE_BARRIER, &mdev->flags);
				375	}
				376
				377	drbd_queue_work(&mdev->data.work, &b->w);
				378	}
				379	pn = &b->next;
				380	} else {
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	381	if (n_reads)
				382	list_add(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	383	/* there could still be requests on that ring list,
				384	* in case local io is still pending */
				385	list_del(&b->requests);
				386
				387	/* dec_ap_pending corresponding to queue_barrier.
				388	* the newest barrier may not have been queued yet,
				389	* in which case w.cb is still NULL. */
				390	if (b->w.cb != NULL)
				391	dec_ap_pending(mdev);
				392
				393	if (b == mdev->newest_tle) {
				394	/* recycle, but reinit! */
				395	D_ASSERT(tmp == NULL);
				396	INIT_LIST_HEAD(&b->requests);
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	397	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	398	INIT_LIST_HEAD(&b->w.list);
				399	b->w.cb = NULL;
				400	b->br_number = net_random();
				401	b->n_writes = 0;
				402
				403	*pn = b;
				404	break;
				405	}
				406	*pn = tmp;
				407	kfree(b);
				408	}
				409	b = tmp;
Philipp Reisner	b9b9871	2010-06-22 11:26:48 +0200	[diff] [blame]	410	list_splice(&carry_reads, &b->requests);
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	411	}
				412	}
				413
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	414
				415	/**
				416	* tl_clear() - Clears all requests and &struct drbd_tl_epoch objects out of the TL
				417	* @mdev: DRBD device.
				418	*
				419	* This is called after the connection to the peer was lost. The storage covered
				420	* by the requests on the transfer gets marked as our of sync. Called from the
				421	* receiver thread and the worker thread.
				422	*/
				423	void tl_clear(struct drbd_conf *mdev)
				424	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	425	struct list_head le, tle;
				426	struct drbd_request *r;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	427
				428	spin_lock_irq(&mdev->req_lock);
				429
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	430	_tl_restart(mdev, connection_lost_while_pending);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	431
				432	/* we expect this list to be empty. */
				433	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
				434
				435	/* but just in case, clean it up anyways! */
				436	list_for_each_safe(le, tle, &mdev->out_of_sequence_requests) {
				437	r = list_entry(le, struct drbd_request, tl_requests);
				438	/* It would be nice to complete outside of spinlock.
				439	* But this is easier for now. */
				440	_req_mod(r, connection_lost_while_pending);
				441	}
				442
				443	/* ensure bit indicating barrier is required is clear */
				444	clear_bit(CREATE_BARRIER, &mdev->flags);
				445
Philipp Reisner	288f422	2010-05-27 15:07:43 +0200	[diff] [blame]	446	memset(mdev->app_reads_hash, 0, APP_R_HSIZEsizeof(void ));
				447
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	448	spin_unlock_irq(&mdev->req_lock);
				449	}
				450
Philipp Reisner	11b58e7	2010-05-12 17:08:26 +0200	[diff] [blame]	451	void tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
				452	{
				453	spin_lock_irq(&mdev->req_lock);
				454	_tl_restart(mdev, what);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	455	spin_unlock_irq(&mdev->req_lock);
				456	}
				457
				458	/**
				459	* cl_wide_st_chg() - TRUE if the state change is a cluster wide one
				460	* @mdev: DRBD device.
				461	* @os: old (current) state.
				462	* @ns: new (wanted) state.
				463	*/
				464	static int cl_wide_st_chg(struct drbd_conf *mdev,
				465	union drbd_state os, union drbd_state ns)
				466	{
				467	return (os.conn >= C_CONNECTED && ns.conn >= C_CONNECTED &&
				468	((os.role != R_PRIMARY && ns.role == R_PRIMARY) \|\|
				469	(os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				470	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S) \|\|
				471	(os.disk != D_DISKLESS && ns.disk == D_DISKLESS))) \|\|
				472	(os.conn >= C_CONNECTED && ns.conn == C_DISCONNECTING) \|\|
				473	(os.conn == C_CONNECTED && ns.conn == C_VERIFY_S);
				474	}
				475
				476	int drbd_change_state(struct drbd_conf *mdev, enum chg_state_flags f,
				477	union drbd_state mask, union drbd_state val)
				478	{
				479	unsigned long flags;
				480	union drbd_state os, ns;
				481	int rv;
				482
				483	spin_lock_irqsave(&mdev->req_lock, flags);
				484	os = mdev->state;
				485	ns.i = (os.i & ~mask.i) \| val.i;
				486	rv = _drbd_set_state(mdev, ns, f, NULL);
				487	ns = mdev->state;
				488	spin_unlock_irqrestore(&mdev->req_lock, flags);
				489
				490	return rv;
				491	}
				492
				493	/**
				494	* drbd_force_state() - Impose a change which happens outside our control on our state
				495	* @mdev: DRBD device.
				496	* @mask: mask of state bits to change.
				497	* @val: value of new state bits.
				498	*/
				499	void drbd_force_state(struct drbd_conf *mdev,
				500	union drbd_state mask, union drbd_state val)
				501	{
				502	drbd_change_state(mdev, CS_HARD, mask, val);
				503	}
				504
				505	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns);
				506	static int is_valid_state_transition(struct drbd_conf *,
				507	union drbd_state, union drbd_state);
				508	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	509	union drbd_state ns, const char **warn_sync_abort);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	510	int drbd_send_state_req(struct drbd_conf *,
				511	union drbd_state, union drbd_state);
				512
				513	static enum drbd_state_ret_codes _req_st_cond(struct drbd_conf *mdev,
				514	union drbd_state mask, union drbd_state val)
				515	{
				516	union drbd_state os, ns;
				517	unsigned long flags;
				518	int rv;
				519
				520	if (test_and_clear_bit(CL_ST_CHG_SUCCESS, &mdev->flags))
				521	return SS_CW_SUCCESS;
				522
				523	if (test_and_clear_bit(CL_ST_CHG_FAIL, &mdev->flags))
				524	return SS_CW_FAILED_BY_PEER;
				525
				526	rv = 0;
				527	spin_lock_irqsave(&mdev->req_lock, flags);
				528	os = mdev->state;
				529	ns.i = (os.i & ~mask.i) \| val.i;
				530	ns = sanitize_state(mdev, os, ns, NULL);
				531
				532	if (!cl_wide_st_chg(mdev, os, ns))
				533	rv = SS_CW_NO_NEED;
				534	if (!rv) {
				535	rv = is_valid_state(mdev, ns);
				536	if (rv == SS_SUCCESS) {
				537	rv = is_valid_state_transition(mdev, ns, os);
				538	if (rv == SS_SUCCESS)
				539	rv = 0; /* cont waiting, otherwise fail. */
				540	}
				541	}
				542	spin_unlock_irqrestore(&mdev->req_lock, flags);
				543
				544	return rv;
				545	}
				546
				547	/**
				548	* drbd_req_state() - Perform an eventually cluster wide state change
				549	* @mdev: DRBD device.
				550	* @mask: mask of state bits to change.
				551	* @val: value of new state bits.
				552	* @f: flags
				553	*
				554	* Should not be called directly, use drbd_request_state() or
				555	* _drbd_request_state().
				556	*/
				557	static int drbd_req_state(struct drbd_conf *mdev,
				558	union drbd_state mask, union drbd_state val,
				559	enum chg_state_flags f)
				560	{
				561	struct completion done;
				562	unsigned long flags;
				563	union drbd_state os, ns;
				564	int rv;
				565
				566	init_completion(&done);
				567
				568	if (f & CS_SERIALIZE)
				569	mutex_lock(&mdev->state_mutex);
				570
				571	spin_lock_irqsave(&mdev->req_lock, flags);
				572	os = mdev->state;
				573	ns.i = (os.i & ~mask.i) \| val.i;
				574	ns = sanitize_state(mdev, os, ns, NULL);
				575
				576	if (cl_wide_st_chg(mdev, os, ns)) {
				577	rv = is_valid_state(mdev, ns);
				578	if (rv == SS_SUCCESS)
				579	rv = is_valid_state_transition(mdev, ns, os);
				580	spin_unlock_irqrestore(&mdev->req_lock, flags);
				581
				582	if (rv < SS_SUCCESS) {
				583	if (f & CS_VERBOSE)
				584	print_st_err(mdev, os, ns, rv);
				585	goto abort;
				586	}
				587
				588	drbd_state_lock(mdev);
				589	if (!drbd_send_state_req(mdev, mask, val)) {
				590	drbd_state_unlock(mdev);
				591	rv = SS_CW_FAILED_BY_PEER;
				592	if (f & CS_VERBOSE)
				593	print_st_err(mdev, os, ns, rv);
				594	goto abort;
				595	}
				596
				597	wait_event(mdev->state_wait,
				598	(rv = _req_st_cond(mdev, mask, val)));
				599
				600	if (rv < SS_SUCCESS) {
				601	drbd_state_unlock(mdev);
				602	if (f & CS_VERBOSE)
				603	print_st_err(mdev, os, ns, rv);
				604	goto abort;
				605	}
				606	spin_lock_irqsave(&mdev->req_lock, flags);
				607	os = mdev->state;
				608	ns.i = (os.i & ~mask.i) \| val.i;
				609	rv = _drbd_set_state(mdev, ns, f, &done);
				610	drbd_state_unlock(mdev);
				611	} else {
				612	rv = _drbd_set_state(mdev, ns, f, &done);
				613	}
				614
				615	spin_unlock_irqrestore(&mdev->req_lock, flags);
				616
				617	if (f & CS_WAIT_COMPLETE && rv == SS_SUCCESS) {
				618	D_ASSERT(current != mdev->worker.task);
				619	wait_for_completion(&done);
				620	}
				621
				622	abort:
				623	if (f & CS_SERIALIZE)
				624	mutex_unlock(&mdev->state_mutex);
				625
				626	return rv;
				627	}
				628
				629	/**
				630	* _drbd_request_state() - Request a state change (with flags)
				631	* @mdev: DRBD device.
				632	* @mask: mask of state bits to change.
				633	* @val: value of new state bits.
				634	* @f: flags
				635	*
				636	* Cousin of drbd_request_state(), useful with the CS_WAIT_COMPLETE
				637	* flag, or when logging of failed state change requests is not desired.
				638	*/
				639	int _drbd_request_state(struct drbd_conf *mdev, union drbd_state mask,
				640	union drbd_state val, enum chg_state_flags f)
				641	{
				642	int rv;
				643
				644	wait_event(mdev->state_wait,
				645	(rv = drbd_req_state(mdev, mask, val, f)) != SS_IN_TRANSIENT_STATE);
				646
				647	return rv;
				648	}
				649
				650	static void print_st(struct drbd_conf mdev, char name, union drbd_state ns)
				651	{
				652	dev_err(DEV, " %s = { cs:%s ro:%s/%s ds:%s/%s %c%c%c%c }\n",
				653	name,
				654	drbd_conn_str(ns.conn),
				655	drbd_role_str(ns.role),
				656	drbd_role_str(ns.peer),
				657	drbd_disk_str(ns.disk),
				658	drbd_disk_str(ns.pdsk),
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	659	is_susp(ns) ? 's' : 'r',
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	660	ns.aftr_isp ? 'a' : '-',
				661	ns.peer_isp ? 'p' : '-',
				662	ns.user_isp ? 'u' : '-'
				663	);
				664	}
				665
				666	void print_st_err(struct drbd_conf *mdev,
				667	union drbd_state os, union drbd_state ns, int err)
				668	{
				669	if (err == SS_IN_TRANSIENT_STATE)
				670	return;
				671	dev_err(DEV, "State change failed: %s\n", drbd_set_st_err_str(err));
				672	print_st(mdev, " state", os);
				673	print_st(mdev, "wanted", ns);
				674	}
				675
				676
				677	#define drbd_peer_str drbd_role_str
				678	#define drbd_pdsk_str drbd_disk_str
				679
				680	#define drbd_susp_str(A) ((A) ? "1" : "0")
				681	#define drbd_aftr_isp_str(A) ((A) ? "1" : "0")
				682	#define drbd_peer_isp_str(A) ((A) ? "1" : "0")
				683	#define drbd_user_isp_str(A) ((A) ? "1" : "0")
				684
				685	#define PSC(A) \
				686	({ if (ns.A != os.A) { \
				687	pbp += sprintf(pbp, #A "( %s -> %s ) ", \
				688	drbd_##A##_str(os.A), \
				689	drbd_##A##_str(ns.A)); \
				690	} })
				691
				692	/**
				693	* is_valid_state() - Returns an SS_ error code if ns is not valid
				694	* @mdev: DRBD device.
				695	* @ns: State to consider.
				696	*/
				697	static int is_valid_state(struct drbd_conf *mdev, union drbd_state ns)
				698	{
				699	/* See drbd_state_sw_errors in drbd_strings.c */
				700
				701	enum drbd_fencing_p fp;
				702	int rv = SS_SUCCESS;
				703
				704	fp = FP_DONT_CARE;
				705	if (get_ldev(mdev)) {
				706	fp = mdev->ldev->dc.fencing;
				707	put_ldev(mdev);
				708	}
				709
				710	if (get_net_conf(mdev)) {
				711	if (!mdev->net_conf->two_primaries &&
				712	ns.role == R_PRIMARY && ns.peer == R_PRIMARY)
				713	rv = SS_TWO_PRIMARIES;
				714	put_net_conf(mdev);
				715	}
				716
				717	if (rv <= 0)
				718	/* already found a reason to abort */;
				719	else if (ns.role == R_SECONDARY && mdev->open_cnt)
				720	rv = SS_DEVICE_IN_USE;
				721
				722	else if (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.disk < D_UP_TO_DATE)
				723	rv = SS_NO_UP_TO_DATE_DISK;
				724
				725	else if (fp >= FP_RESOURCE &&
				726	ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk >= D_UNKNOWN)
				727	rv = SS_PRIMARY_NOP;
				728
				729	else if (ns.role == R_PRIMARY && ns.disk <= D_INCONSISTENT && ns.pdsk <= D_INCONSISTENT)
				730	rv = SS_NO_UP_TO_DATE_DISK;
				731
				732	else if (ns.conn > C_CONNECTED && ns.disk < D_INCONSISTENT)
				733	rv = SS_NO_LOCAL_DISK;
				734
				735	else if (ns.conn > C_CONNECTED && ns.pdsk < D_INCONSISTENT)
				736	rv = SS_NO_REMOTE_DISK;
				737
Lars Ellenberg	8d4ce82	2010-04-01 16:59:32 +0200	[diff] [blame]	738	else if (ns.conn > C_CONNECTED && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE)
				739	rv = SS_NO_UP_TO_DATE_DISK;
				740
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	741	else if ((ns.conn == C_CONNECTED \|\|
				742	ns.conn == C_WF_BITMAP_S \|\|
				743	ns.conn == C_SYNC_SOURCE \|\|
				744	ns.conn == C_PAUSED_SYNC_S) &&
				745	ns.disk == D_OUTDATED)
				746	rv = SS_CONNECTED_OUTDATES;
				747
				748	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				749	(mdev->sync_conf.verify_alg[0] == 0))
				750	rv = SS_NO_VERIFY_ALG;
				751
				752	else if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				753	mdev->agreed_pro_version < 88)
				754	rv = SS_NOT_SUPPORTED;
				755
				756	return rv;
				757	}
				758
				759	/**
				760	* is_valid_state_transition() - Returns an SS_ error code if the state transition is not possible
				761	* @mdev: DRBD device.
				762	* @ns: new state.
				763	* @os: old state.
				764	*/
				765	static int is_valid_state_transition(struct drbd_conf *mdev,
				766	union drbd_state ns, union drbd_state os)
				767	{
				768	int rv = SS_SUCCESS;
				769
				770	if ((ns.conn == C_STARTING_SYNC_T \|\| ns.conn == C_STARTING_SYNC_S) &&
				771	os.conn > C_CONNECTED)
				772	rv = SS_RESYNC_RUNNING;
				773
				774	if (ns.conn == C_DISCONNECTING && os.conn == C_STANDALONE)
				775	rv = SS_ALREADY_STANDALONE;
				776
				777	if (ns.disk > D_ATTACHING && os.disk == D_DISKLESS)
				778	rv = SS_IS_DISKLESS;
				779
				780	if (ns.conn == C_WF_CONNECTION && os.conn < C_UNCONNECTED)
				781	rv = SS_NO_NET_CONFIG;
				782
				783	if (ns.disk == D_OUTDATED && os.disk < D_OUTDATED && os.disk != D_ATTACHING)
				784	rv = SS_LOWER_THAN_OUTDATED;
				785
				786	if (ns.conn == C_DISCONNECTING && os.conn == C_UNCONNECTED)
				787	rv = SS_IN_TRANSIENT_STATE;
				788
				789	if (ns.conn == os.conn && ns.conn == C_WF_REPORT_PARAMS)
				790	rv = SS_IN_TRANSIENT_STATE;
				791
				792	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) && os.conn < C_CONNECTED)
				793	rv = SS_NEED_CONNECTION;
				794
				795	if ((ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T) &&
				796	ns.conn != os.conn && os.conn > C_CONNECTED)
				797	rv = SS_RESYNC_RUNNING;
				798
				799	if ((ns.conn == C_STARTING_SYNC_S \|\| ns.conn == C_STARTING_SYNC_T) &&
				800	os.conn < C_CONNECTED)
				801	rv = SS_NEED_CONNECTION;
				802
				803	return rv;
				804	}
				805
				806	/**
				807	* sanitize_state() - Resolves implicitly necessary additional changes to a state transition
				808	* @mdev: DRBD device.
				809	* @os: old state.
				810	* @ns: new state.
				811	* @warn_sync_abort:
				812	*
				813	* When we loose connection, we have to set the state of the peers disk (pdsk)
				814	* to D_UNKNOWN. This rule and many more along those lines are in this function.
				815	*/
				816	static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	817	union drbd_state ns, const char **warn_sync_abort)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	818	{
				819	enum drbd_fencing_p fp;
				820
				821	fp = FP_DONT_CARE;
				822	if (get_ldev(mdev)) {
				823	fp = mdev->ldev->dc.fencing;
				824	put_ldev(mdev);
				825	}
				826
				827	/* Disallow Network errors to configure a device's network part */
				828	if ((ns.conn >= C_TIMEOUT && ns.conn <= C_TEAR_DOWN) &&
				829	os.conn <= C_DISCONNECTING)
				830	ns.conn = os.conn;
				831
Lars Ellenberg	f2906e1	2010-07-21 17:04:32 +0200	[diff] [blame]	832	/* After a network error (+C_TEAR_DOWN) only C_UNCONNECTED or C_DISCONNECTING can follow.
				833	* If you try to go into some Sync* state, that shall fail (elsewhere). */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	834	if (os.conn >= C_TIMEOUT && os.conn <= C_TEAR_DOWN &&
Lars Ellenberg	f2906e1	2010-07-21 17:04:32 +0200	[diff] [blame]	835	ns.conn != C_UNCONNECTED && ns.conn != C_DISCONNECTING && ns.conn <= C_TEAR_DOWN)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	836	ns.conn = os.conn;
				837
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	838	/* we cannot fail (again) if we already detached */
				839	if (ns.disk == D_FAILED && os.disk == D_DISKLESS)
				840	ns.disk = D_DISKLESS;
				841
				842	/* if we are only D_ATTACHING yet,
				843	* we can (and should) go directly to D_DISKLESS. */
				844	if (ns.disk == D_FAILED && os.disk == D_ATTACHING)
				845	ns.disk = D_DISKLESS;
				846
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	847	/* After C_DISCONNECTING only C_STANDALONE may follow */
				848	if (os.conn == C_DISCONNECTING && ns.conn != C_STANDALONE)
				849	ns.conn = os.conn;
				850
				851	if (ns.conn < C_CONNECTED) {
				852	ns.peer_isp = 0;
				853	ns.peer = R_UNKNOWN;
				854	if (ns.pdsk > D_UNKNOWN \|\| ns.pdsk < D_INCONSISTENT)
				855	ns.pdsk = D_UNKNOWN;
				856	}
				857
				858	/* Clear the aftr_isp when becoming unconfigured */
				859	if (ns.conn == C_STANDALONE && ns.disk == D_DISKLESS && ns.role == R_SECONDARY)
				860	ns.aftr_isp = 0;
				861
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	862	/* Abort resync if a disk fails/detaches */
				863	if (os.conn > C_CONNECTED && ns.conn > C_CONNECTED &&
				864	(ns.disk <= D_FAILED \|\| ns.pdsk <= D_FAILED)) {
				865	if (warn_sync_abort)
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	866	*warn_sync_abort =
				867	os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T ?
				868	"Online-verify" : "Resync";
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	869	ns.conn = C_CONNECTED;
				870	}
				871
				872	if (ns.conn >= C_CONNECTED &&
				873	((ns.disk == D_CONSISTENT \|\| ns.disk == D_OUTDATED) \|\|
				874	(ns.disk == D_NEGOTIATING && ns.conn == C_WF_BITMAP_T))) {
				875	switch (ns.conn) {
				876	case C_WF_BITMAP_T:
				877	case C_PAUSED_SYNC_T:
				878	ns.disk = D_OUTDATED;
				879	break;
				880	case C_CONNECTED:
				881	case C_WF_BITMAP_S:
				882	case C_SYNC_SOURCE:
				883	case C_PAUSED_SYNC_S:
				884	ns.disk = D_UP_TO_DATE;
				885	break;
				886	case C_SYNC_TARGET:
				887	ns.disk = D_INCONSISTENT;
				888	dev_warn(DEV, "Implicitly set disk state Inconsistent!\n");
				889	break;
				890	}
				891	if (os.disk == D_OUTDATED && ns.disk == D_UP_TO_DATE)
				892	dev_warn(DEV, "Implicitly set disk from Outdated to UpToDate\n");
				893	}
				894
				895	if (ns.conn >= C_CONNECTED &&
				896	(ns.pdsk == D_CONSISTENT \|\| ns.pdsk == D_OUTDATED)) {
				897	switch (ns.conn) {
				898	case C_CONNECTED:
				899	case C_WF_BITMAP_T:
				900	case C_PAUSED_SYNC_T:
				901	case C_SYNC_TARGET:
				902	ns.pdsk = D_UP_TO_DATE;
				903	break;
				904	case C_WF_BITMAP_S:
				905	case C_PAUSED_SYNC_S:
Lars Ellenberg	e0f8301	2010-04-01 15:13:19 +0200	[diff] [blame]	906	/* remap any consistent state to D_OUTDATED,
				907	* but disallow "upgrade" of not even consistent states.
				908	*/
				909	ns.pdsk =
				910	(D_DISKLESS < os.pdsk && os.pdsk < D_OUTDATED)
				911	? os.pdsk : D_OUTDATED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	912	break;
				913	case C_SYNC_SOURCE:
				914	ns.pdsk = D_INCONSISTENT;
				915	dev_warn(DEV, "Implicitly set pdsk Inconsistent!\n");
				916	break;
				917	}
				918	if (os.pdsk == D_OUTDATED && ns.pdsk == D_UP_TO_DATE)
				919	dev_warn(DEV, "Implicitly set pdsk from Outdated to UpToDate\n");
				920	}
				921
				922	/* Connection breaks down before we finished "Negotiating" */
				923	if (ns.conn < C_CONNECTED && ns.disk == D_NEGOTIATING &&
				924	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				925	if (mdev->ed_uuid == mdev->ldev->md.uuid[UI_CURRENT]) {
				926	ns.disk = mdev->new_state_tmp.disk;
				927	ns.pdsk = mdev->new_state_tmp.pdsk;
				928	} else {
				929	dev_alert(DEV, "Connection lost while negotiating, no data!\n");
				930	ns.disk = D_DISKLESS;
				931	ns.pdsk = D_UNKNOWN;
				932	}
				933	put_ldev(mdev);
				934	}
				935
				936	if (fp == FP_STONITH &&
Philipp Reisner	0a49216	2009-10-21 13:08:29 +0200	[diff] [blame]	937	(ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk > D_OUTDATED) &&
				938	!(os.role == R_PRIMARY && os.conn < C_CONNECTED && os.pdsk > D_OUTDATED))
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	939	ns.susp_fen = 1; /* Suspend IO while fence-peer handler runs (peer lost) */
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	940
				941	if (mdev->sync_conf.on_no_data == OND_SUSPEND_IO &&
				942	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE) &&
				943	!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE))
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	944	ns.susp_nod = 1; /* Suspend IO while no data available (no accessible data available) */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	945
				946	if (ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp) {
				947	if (ns.conn == C_SYNC_SOURCE)
				948	ns.conn = C_PAUSED_SYNC_S;
				949	if (ns.conn == C_SYNC_TARGET)
				950	ns.conn = C_PAUSED_SYNC_T;
				951	} else {
				952	if (ns.conn == C_PAUSED_SYNC_S)
				953	ns.conn = C_SYNC_SOURCE;
				954	if (ns.conn == C_PAUSED_SYNC_T)
				955	ns.conn = C_SYNC_TARGET;
				956	}
				957
				958	return ns;
				959	}
				960
				961	/* helper for __drbd_set_state */
				962	static void set_ov_position(struct drbd_conf *mdev, enum drbd_conns cs)
				963	{
Lars Ellenberg	30b743a	2010-11-05 09:39:06 +0100	[diff] [blame]	964	if (mdev->agreed_pro_version < 90)
				965	mdev->ov_start_sector = 0;
				966	mdev->rs_total = drbd_bm_bits(mdev);
				967	mdev->ov_position = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	968	if (cs == C_VERIFY_T) {
				969	/* starting online verify from an arbitrary position
				970	* does not fit well into the existing protocol.
				971	* on C_VERIFY_T, we initialize ov_left and friends
				972	* implicitly in receive_DataRequest once the
				973	* first P_OV_REQUEST is received */
				974	mdev->ov_start_sector = ~(sector_t)0;
				975	} else {
				976	unsigned long bit = BM_SECT_TO_BIT(mdev->ov_start_sector);
Lars Ellenberg	30b743a	2010-11-05 09:39:06 +0100	[diff] [blame]	977	if (bit >= mdev->rs_total) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	978	mdev->ov_start_sector =
				979	BM_BIT_TO_SECT(mdev->rs_total - 1);
Lars Ellenberg	30b743a	2010-11-05 09:39:06 +0100	[diff] [blame]	980	mdev->rs_total = 1;
				981	} else
				982	mdev->rs_total -= bit;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	983	mdev->ov_position = mdev->ov_start_sector;
				984	}
Lars Ellenberg	30b743a	2010-11-05 09:39:06 +0100	[diff] [blame]	985	mdev->ov_left = mdev->rs_total;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	986	}
				987
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	988	static void drbd_resume_al(struct drbd_conf *mdev)
				989	{
				990	if (test_and_clear_bit(AL_SUSPENDED, &mdev->flags))
				991	dev_info(DEV, "Resumed AL updates\n");
				992	}
				993
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	994	/**
				995	* __drbd_set_state() - Set a new DRBD state
				996	* @mdev: DRBD device.
				997	* @ns: new state.
				998	* @flags: Flags
				999	* @done: Optional completion, that will get completed after the after_state_ch() finished
				1000	*
				1001	* Caller needs to hold req_lock, and global_state_lock. Do not call directly.
				1002	*/
				1003	int __drbd_set_state(struct drbd_conf *mdev,
				1004	union drbd_state ns, enum chg_state_flags flags,
				1005	struct completion *done)
				1006	{
				1007	union drbd_state os;
				1008	int rv = SS_SUCCESS;
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	1009	const char *warn_sync_abort = NULL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1010	struct after_state_chg_work *ascw;
				1011
				1012	os = mdev->state;
				1013
				1014	ns = sanitize_state(mdev, os, ns, &warn_sync_abort);
				1015
				1016	if (ns.i == os.i)
				1017	return SS_NOTHING_TO_DO;
				1018
				1019	if (!(flags & CS_HARD)) {
				1020	/* pre-state-change checks ; only look at ns */
				1021	/* See drbd_state_sw_errors in drbd_strings.c */
				1022
				1023	rv = is_valid_state(mdev, ns);
				1024	if (rv < SS_SUCCESS) {
				1025	/* If the old state was illegal as well, then let
				1026	this happen...*/
				1027
Philipp Reisner	1616a25	2010-06-10 16:55:15 +0200	[diff] [blame]	1028	if (is_valid_state(mdev, os) == rv)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1029	rv = is_valid_state_transition(mdev, ns, os);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1030	} else
				1031	rv = is_valid_state_transition(mdev, ns, os);
				1032	}
				1033
				1034	if (rv < SS_SUCCESS) {
				1035	if (flags & CS_VERBOSE)
				1036	print_st_err(mdev, os, ns, rv);
				1037	return rv;
				1038	}
				1039
				1040	if (warn_sync_abort)
Lars Ellenberg	02bc717	2010-09-06 12:13:20 +0200	[diff] [blame]	1041	dev_warn(DEV, "%s aborted.\n", warn_sync_abort);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1042
				1043	{
				1044	char *pbp, pb[300];
				1045	pbp = pb;
				1046	*pbp = 0;
				1047	PSC(role);
				1048	PSC(peer);
				1049	PSC(conn);
				1050	PSC(disk);
				1051	PSC(pdsk);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1052	if (is_susp(ns) != is_susp(os))
				1053	pbp += sprintf(pbp, "susp( %s -> %s ) ",
				1054	drbd_susp_str(is_susp(os)),
				1055	drbd_susp_str(is_susp(ns)));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1056	PSC(aftr_isp);
				1057	PSC(peer_isp);
				1058	PSC(user_isp);
				1059	dev_info(DEV, "%s\n", pb);
				1060	}
				1061
				1062	/* solve the race between becoming unconfigured,
				1063	* worker doing the cleanup, and
				1064	* admin reconfiguring us:
				1065	* on (re)configure, first set CONFIG_PENDING,
				1066	* then wait for a potentially exiting worker,
				1067	* start the worker, and schedule one no_op.
				1068	* then proceed with configuration.
				1069	*/
				1070	if (ns.disk == D_DISKLESS &&
				1071	ns.conn == C_STANDALONE &&
				1072	ns.role == R_SECONDARY &&
				1073	!test_and_set_bit(CONFIG_PENDING, &mdev->flags))
				1074	set_bit(DEVICE_DYING, &mdev->flags);
				1075
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1076	/* if we are going -> D_FAILED or D_DISKLESS, grab one extra reference
				1077	* on the ldev here, to be sure the transition -> D_DISKLESS resp.
				1078	* drbd_ldev_destroy() won't happen before our corresponding
				1079	* after_state_ch works run, where we put_ldev again. */
				1080	if ((os.disk != D_FAILED && ns.disk == D_FAILED) \|\|
				1081	(os.disk != D_DISKLESS && ns.disk == D_DISKLESS))
				1082	atomic_inc(&mdev->local_cnt);
				1083
				1084	mdev->state = ns;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1085	wake_up(&mdev->misc_wait);
				1086	wake_up(&mdev->state_wait);
				1087
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1088	/* aborted verify run. log the last position */
				1089	if ((os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) &&
				1090	ns.conn < C_CONNECTED) {
				1091	mdev->ov_start_sector =
Lars Ellenberg	30b743a	2010-11-05 09:39:06 +0100	[diff] [blame]	1092	BM_BIT_TO_SECT(drbd_bm_bits(mdev) - mdev->ov_left);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1093	dev_info(DEV, "Online Verify reached sector %llu\n",
				1094	(unsigned long long)mdev->ov_start_sector);
				1095	}
				1096
				1097	if ((os.conn == C_PAUSED_SYNC_T \|\| os.conn == C_PAUSED_SYNC_S) &&
				1098	(ns.conn == C_SYNC_TARGET \|\| ns.conn == C_SYNC_SOURCE)) {
				1099	dev_info(DEV, "Syncer continues.\n");
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1100	mdev->rs_paused += (long)jiffies
				1101	-(long)mdev->rs_mark_time[mdev->rs_last_mark];
Philipp Reisner	63106d3	2010-09-01 15:47:15 +0200	[diff] [blame]	1102	if (ns.conn == C_SYNC_TARGET)
				1103	mod_timer(&mdev->resync_timer, jiffies);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1104	}
				1105
				1106	if ((os.conn == C_SYNC_TARGET \|\| os.conn == C_SYNC_SOURCE) &&
				1107	(ns.conn == C_PAUSED_SYNC_T \|\| ns.conn == C_PAUSED_SYNC_S)) {
				1108	dev_info(DEV, "Resync suspended\n");
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1109	mdev->rs_mark_time[mdev->rs_last_mark] = jiffies;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1110	}
				1111
				1112	if (os.conn == C_CONNECTED &&
				1113	(ns.conn == C_VERIFY_S \|\| ns.conn == C_VERIFY_T)) {
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1114	unsigned long now = jiffies;
				1115	int i;
				1116
Lars Ellenberg	30b743a	2010-11-05 09:39:06 +0100	[diff] [blame]	1117	set_ov_position(mdev, ns.conn);
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1118	mdev->rs_start = now;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1119	mdev->rs_last_events = 0;
				1120	mdev->rs_last_sect_ev = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1121	mdev->ov_last_oos_size = 0;
				1122	mdev->ov_last_oos_start = 0;
				1123
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1124	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
Lars Ellenberg	30b743a	2010-11-05 09:39:06 +0100	[diff] [blame]	1125	mdev->rs_mark_left[i] = mdev->ov_left;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1126	mdev->rs_mark_time[i] = now;
				1127	}
				1128
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	1129	drbd_rs_controller_reset(mdev);
				1130
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1131	if (ns.conn == C_VERIFY_S) {
				1132	dev_info(DEV, "Starting Online Verify from sector %llu\n",
				1133	(unsigned long long)mdev->ov_position);
				1134	mod_timer(&mdev->resync_timer, jiffies);
				1135	}
				1136	}
				1137
				1138	if (get_ldev(mdev)) {
				1139	u32 mdf = mdev->ldev->md.flags & ~(MDF_CONSISTENT\|MDF_PRIMARY_IND\|
				1140	MDF_CONNECTED_IND\|MDF_WAS_UP_TO_DATE\|
				1141	MDF_PEER_OUT_DATED\|MDF_CRASHED_PRIMARY);
				1142
				1143	if (test_bit(CRASHED_PRIMARY, &mdev->flags))
				1144	mdf \|= MDF_CRASHED_PRIMARY;
				1145	if (mdev->state.role == R_PRIMARY \|\|
				1146	(mdev->state.pdsk < D_INCONSISTENT && mdev->state.peer == R_PRIMARY))
				1147	mdf \|= MDF_PRIMARY_IND;
				1148	if (mdev->state.conn > C_WF_REPORT_PARAMS)
				1149	mdf \|= MDF_CONNECTED_IND;
				1150	if (mdev->state.disk > D_INCONSISTENT)
				1151	mdf \|= MDF_CONSISTENT;
				1152	if (mdev->state.disk > D_OUTDATED)
				1153	mdf \|= MDF_WAS_UP_TO_DATE;
				1154	if (mdev->state.pdsk <= D_OUTDATED && mdev->state.pdsk >= D_INCONSISTENT)
				1155	mdf \|= MDF_PEER_OUT_DATED;
				1156	if (mdf != mdev->ldev->md.flags) {
				1157	mdev->ldev->md.flags = mdf;
				1158	drbd_md_mark_dirty(mdev);
				1159	}
				1160	if (os.disk < D_CONSISTENT && ns.disk >= D_CONSISTENT)
				1161	drbd_set_ed_uuid(mdev, mdev->ldev->md.uuid[UI_CURRENT]);
				1162	put_ldev(mdev);
				1163	}
				1164
				1165	/* Peer was forced D_UP_TO_DATE & R_PRIMARY, consider to resync */
				1166	if (os.disk == D_INCONSISTENT && os.pdsk == D_INCONSISTENT &&
				1167	os.peer == R_SECONDARY && ns.peer == R_PRIMARY)
				1168	set_bit(CONSIDER_RESYNC, &mdev->flags);
				1169
				1170	/* Receiver should clean up itself */
				1171	if (os.conn != C_DISCONNECTING && ns.conn == C_DISCONNECTING)
				1172	drbd_thread_stop_nowait(&mdev->receiver);
				1173
				1174	/* Now the receiver finished cleaning up itself, it should die */
				1175	if (os.conn != C_STANDALONE && ns.conn == C_STANDALONE)
				1176	drbd_thread_stop_nowait(&mdev->receiver);
				1177
				1178	/* Upon network failure, we need to restart the receiver. */
				1179	if (os.conn > C_TEAR_DOWN &&
				1180	ns.conn <= C_TEAR_DOWN && ns.conn >= C_TIMEOUT)
				1181	drbd_thread_restart_nowait(&mdev->receiver);
				1182
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	1183	/* Resume AL writing if we get a connection */
				1184	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED)
				1185	drbd_resume_al(mdev);
				1186
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1187	ascw = kmalloc(sizeof(*ascw), GFP_ATOMIC);
				1188	if (ascw) {
				1189	ascw->os = os;
				1190	ascw->ns = ns;
				1191	ascw->flags = flags;
				1192	ascw->w.cb = w_after_state_ch;
				1193	ascw->done = done;
				1194	drbd_queue_work(&mdev->data.work, &ascw->w);
				1195	} else {
				1196	dev_warn(DEV, "Could not kmalloc an ascw\n");
				1197	}
				1198
				1199	return rv;
				1200	}
				1201
				1202	static int w_after_state_ch(struct drbd_conf mdev, struct drbd_work w, int unused)
				1203	{
				1204	struct after_state_chg_work *ascw =
				1205	container_of(w, struct after_state_chg_work, w);
				1206	after_state_ch(mdev, ascw->os, ascw->ns, ascw->flags);
				1207	if (ascw->flags & CS_WAIT_COMPLETE) {
				1208	D_ASSERT(ascw->done != NULL);
				1209	complete(ascw->done);
				1210	}
				1211	kfree(ascw);
				1212
				1213	return 1;
				1214	}
				1215
				1216	static void abw_start_sync(struct drbd_conf *mdev, int rv)
				1217	{
				1218	if (rv) {
				1219	dev_err(DEV, "Writing the bitmap failed not starting resync.\n");
				1220	_drbd_request_state(mdev, NS(conn, C_CONNECTED), CS_VERBOSE);
				1221	return;
				1222	}
				1223
				1224	switch (mdev->state.conn) {
				1225	case C_STARTING_SYNC_T:
				1226	_drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				1227	break;
				1228	case C_STARTING_SYNC_S:
				1229	drbd_start_resync(mdev, C_SYNC_SOURCE);
				1230	break;
				1231	}
				1232	}
				1233
				1234	/**
				1235	* after_state_ch() - Perform after state change actions that may sleep
				1236	* @mdev: DRBD device.
				1237	* @os: old state.
				1238	* @ns: new state.
				1239	* @flags: Flags
				1240	*/
				1241	static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
				1242	union drbd_state ns, enum chg_state_flags flags)
				1243	{
				1244	enum drbd_fencing_p fp;
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1245	enum drbd_req_event what = nothing;
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1246	union drbd_state nsm = (union drbd_state){ .i = -1 };
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1247
				1248	if (os.conn != C_CONNECTED && ns.conn == C_CONNECTED) {
				1249	clear_bit(CRASHED_PRIMARY, &mdev->flags);
				1250	if (mdev->p_uuid)
				1251	mdev->p_uuid[UI_FLAGS] &= ~((u64)2);
				1252	}
				1253
				1254	fp = FP_DONT_CARE;
				1255	if (get_ldev(mdev)) {
				1256	fp = mdev->ldev->dc.fencing;
				1257	put_ldev(mdev);
				1258	}
				1259
				1260	/* Inform userspace about the change... */
				1261	drbd_bcast_state(mdev, ns);
				1262
				1263	if (!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE) &&
				1264	(ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE))
				1265	drbd_khelper(mdev, "pri-on-incon-degr");
				1266
				1267	/* Here we have the actions that are performed after a
				1268	state change. This function might sleep */
				1269
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1270	nsm.i = -1;
				1271	if (ns.susp_nod) {
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1272	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1273	if (ns.conn == C_CONNECTED)
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1274	what = resend, nsm.susp_nod = 0;
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1275	else /* ns.conn > C_CONNECTED */
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1276	dev_err(DEV, "Unexpected Resynd going on!\n");
				1277	}
				1278
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1279	if (os.disk == D_ATTACHING && ns.disk > D_ATTACHING)
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1280	what = restart_frozen_disk_io, nsm.susp_nod = 0;
				1281
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1282	}
				1283
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1284	if (ns.susp_fen) {
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1285	/* case1: The outdate peer handler is successful: */
				1286	if (os.pdsk > D_OUTDATED && ns.pdsk <= D_OUTDATED) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1287	tl_clear(mdev);
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1288	if (test_bit(NEW_CUR_UUID, &mdev->flags)) {
				1289	drbd_uuid_new_current(mdev);
				1290	clear_bit(NEW_CUR_UUID, &mdev->flags);
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1291	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1292	spin_lock_irq(&mdev->req_lock);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1293	_drbd_set_state(_NS(mdev, susp_fen, 0), CS_VERBOSE, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1294	spin_unlock_irq(&mdev->req_lock);
				1295	}
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1296	/* case2: The connection was established again: */
				1297	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
				1298	clear_bit(NEW_CUR_UUID, &mdev->flags);
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1299	what = resend;
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1300	nsm.susp_fen = 0;
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1301	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1302	}
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1303
				1304	if (what != nothing) {
				1305	spin_lock_irq(&mdev->req_lock);
				1306	_tl_restart(mdev, what);
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1307	nsm.i &= mdev->state.i;
				1308	_drbd_set_state(mdev, nsm, CS_VERBOSE, NULL);
Philipp Reisner	6709893	2010-06-24 16:24:25 +0200	[diff] [blame]	1309	spin_unlock_irq(&mdev->req_lock);
				1310	}
				1311
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1312	/* Do not change the order of the if above and the two below... */
				1313	if (os.pdsk == D_DISKLESS && ns.pdsk > D_DISKLESS) { /* attach on the peer */
				1314	drbd_send_uuids(mdev);
				1315	drbd_send_state(mdev);
				1316	}
				1317	if (os.conn != C_WF_BITMAP_S && ns.conn == C_WF_BITMAP_S)
				1318	drbd_queue_bitmap_io(mdev, &drbd_send_bitmap, NULL, "send_bitmap (WFBitMapS)");
				1319
				1320	/* Lost contact to peer's copy of the data */
				1321	if ((os.pdsk >= D_INCONSISTENT &&
				1322	os.pdsk != D_UNKNOWN &&
				1323	os.pdsk != D_OUTDATED)
				1324	&& (ns.pdsk < D_INCONSISTENT \|\|
				1325	ns.pdsk == D_UNKNOWN \|\|
				1326	ns.pdsk == D_OUTDATED)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1327	if (get_ldev(mdev)) {
				1328	if ((ns.role == R_PRIMARY \|\| ns.peer == R_PRIMARY) &&
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1329	mdev->ldev->md.uuid[UI_BITMAP] == 0 && ns.disk >= D_UP_TO_DATE) {
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1330	if (is_susp(mdev->state)) {
Philipp Reisner	43a5182	2010-06-11 11:26:34 +0200	[diff] [blame]	1331	set_bit(NEW_CUR_UUID, &mdev->flags);
				1332	} else {
				1333	drbd_uuid_new_current(mdev);
				1334	drbd_send_uuids(mdev);
				1335	}
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1336	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1337	put_ldev(mdev);
				1338	}
				1339	}
				1340
				1341	if (ns.pdsk < D_INCONSISTENT && get_ldev(mdev)) {
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	1342	if (ns.peer == R_PRIMARY && mdev->ldev->md.uuid[UI_BITMAP] == 0) {
Philipp Reisner	2c8d196	2010-05-25 14:32:03 +0200	[diff] [blame]	1343	drbd_uuid_new_current(mdev);
Philipp Reisner	18a50fa	2010-06-21 14:14:15 +0200	[diff] [blame]	1344	drbd_send_uuids(mdev);
				1345	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1346
				1347	/* D_DISKLESS Peer becomes secondary */
				1348	if (os.peer == R_PRIMARY && ns.peer == R_SECONDARY)
				1349	drbd_al_to_on_disk_bm(mdev);
				1350	put_ldev(mdev);
				1351	}
				1352
				1353	/* Last part of the attaching process ... */
				1354	if (ns.conn >= C_CONNECTED &&
				1355	os.disk == D_ATTACHING && ns.disk == D_NEGOTIATING) {
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1356	drbd_send_sizes(mdev, 0, 0); /* to start sync... */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1357	drbd_send_uuids(mdev);
				1358	drbd_send_state(mdev);
				1359	}
				1360
				1361	/* We want to pause/continue resync, tell peer. */
				1362	if (ns.conn >= C_CONNECTED &&
				1363	((os.aftr_isp != ns.aftr_isp) \|\|
				1364	(os.user_isp != ns.user_isp)))
				1365	drbd_send_state(mdev);
				1366
				1367	/* In case one of the isp bits got set, suspend other devices. */
				1368	if ((!os.aftr_isp && !os.peer_isp && !os.user_isp) &&
				1369	(ns.aftr_isp \|\| ns.peer_isp \|\| ns.user_isp))
				1370	suspend_other_sg(mdev);
				1371
				1372	/* Make sure the peer gets informed about eventual state
				1373	changes (ISP bits) while we were in WFReportParams. */
				1374	if (os.conn == C_WF_REPORT_PARAMS && ns.conn >= C_CONNECTED)
				1375	drbd_send_state(mdev);
				1376
				1377	/* We are in the progress to start a full sync... */
				1378	if ((os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) \|\|
				1379	(os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S))
				1380	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, &abw_start_sync, "set_n_write from StartingSync");
				1381
				1382	/* We are invalidating our self... */
				1383	if (os.conn < C_CONNECTED && ns.conn < C_CONNECTED &&
				1384	os.disk > D_INCONSISTENT && ns.disk == D_INCONSISTENT)
				1385	drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, NULL, "set_n_write from invalidate");
				1386
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1387	/* first half of local IO error, failure to attach,
				1388	* or administrative detach */
				1389	if (os.disk != D_FAILED && ns.disk == D_FAILED) {
				1390	enum drbd_io_error_p eh;
				1391	int was_io_error;
				1392	/* corresponding get_ldev was in __drbd_set_state, to serialize
				1393	* our cleanup here with the transition to D_DISKLESS,
				1394	* so it is safe to dreference ldev here. */
				1395	eh = mdev->ldev->dc.on_io_error;
				1396	was_io_error = test_and_clear_bit(WAS_IO_ERROR, &mdev->flags);
				1397
				1398	/* current state still has to be D_FAILED,
				1399	* there is only one way out: to D_DISKLESS,
				1400	* and that may only happen after our put_ldev below. */
				1401	if (mdev->state.disk != D_FAILED)
				1402	dev_err(DEV,
				1403	"ASSERT FAILED: disk is %s during detach\n",
				1404	drbd_disk_str(mdev->state.disk));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1405
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	1406	if (drbd_send_state(mdev))
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1407	dev_warn(DEV, "Notified peer that I am detaching my disk\n");
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	1408	else
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1409	dev_err(DEV, "Sending state for detaching disk failed\n");
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	1410
				1411	drbd_rs_cancel_all(mdev);
				1412
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1413	/* In case we want to get something to stable storage still,
				1414	* this may be the last chance.
				1415	* Following put_ldev may transition to D_DISKLESS. */
				1416	drbd_md_sync(mdev);
				1417	put_ldev(mdev);
				1418
				1419	if (was_io_error && eh == EP_CALL_HELPER)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1420	drbd_khelper(mdev, "local-io-error");
				1421	}
				1422
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1423	/* second half of local IO error, failure to attach,
				1424	* or administrative detach,
				1425	* after local_cnt references have reached zero again */
				1426	if (os.disk != D_DISKLESS && ns.disk == D_DISKLESS) {
				1427	/* We must still be diskless,
				1428	* re-attach has to be serialized with this! */
				1429	if (mdev->state.disk != D_DISKLESS)
				1430	dev_err(DEV,
				1431	"ASSERT FAILED: disk is %s while going diskless\n",
				1432	drbd_disk_str(mdev->state.disk));
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	1433
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1434	mdev->rs_total = 0;
				1435	mdev->rs_failed = 0;
				1436	atomic_set(&mdev->rs_pending_cnt, 0);
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	1437
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	1438	if (drbd_send_state(mdev))
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1439	dev_warn(DEV, "Notified peer that I'm now diskless.\n");
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	1440	else
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	1441	dev_err(DEV, "Sending state for being diskless failed\n");
				1442	/* corresponding get_ldev in __drbd_set_state
				1443	* this may finaly trigger drbd_ldev_destroy. */
				1444	put_ldev(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1445	}
				1446
				1447	/* Disks got bigger while they were detached */
				1448	if (ns.disk > D_NEGOTIATING && ns.pdsk > D_NEGOTIATING &&
				1449	test_and_clear_bit(RESYNC_AFTER_NEG, &mdev->flags)) {
				1450	if (ns.conn == C_CONNECTED)
				1451	resync_after_online_grow(mdev);
				1452	}
				1453
				1454	/* A resync finished or aborted, wake paused devices... */
				1455	if ((os.conn > C_CONNECTED && ns.conn <= C_CONNECTED) \|\|
				1456	(os.peer_isp && !ns.peer_isp) \|\|
				1457	(os.user_isp && !ns.user_isp))
				1458	resume_next_sg(mdev);
				1459
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	1460	/* sync target done with resync. Explicitly notify peer, even though
				1461	* it should (at least for non-empty resyncs) already know itself. */
				1462	if (os.disk < D_UP_TO_DATE && os.conn >= C_SYNC_SOURCE && ns.conn == C_CONNECTED)
				1463	drbd_send_state(mdev);
				1464
Philipp Reisner	f70b3511	2010-06-24 14:34:40 +0200	[diff] [blame]	1465	/* free tl_hash if we Got thawed and are C_STANDALONE */
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	1466	if (ns.conn == C_STANDALONE && !is_susp(ns) && mdev->tl_hash)
Philipp Reisner	f70b3511	2010-06-24 14:34:40 +0200	[diff] [blame]	1467	drbd_free_tl_hash(mdev);
				1468
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1469	/* Upon network connection, we need to start the receiver */
				1470	if (os.conn == C_STANDALONE && ns.conn == C_UNCONNECTED)
				1471	drbd_thread_start(&mdev->receiver);
				1472
				1473	/* Terminate worker thread if we are unconfigured - it will be
				1474	restarted as needed... */
				1475	if (ns.disk == D_DISKLESS &&
				1476	ns.conn == C_STANDALONE &&
				1477	ns.role == R_SECONDARY) {
				1478	if (os.aftr_isp != ns.aftr_isp)
				1479	resume_next_sg(mdev);
				1480	/* set in __drbd_set_state, unless CONFIG_PENDING was set */
				1481	if (test_bit(DEVICE_DYING, &mdev->flags))
				1482	drbd_thread_stop_nowait(&mdev->worker);
				1483	}
				1484
				1485	drbd_md_sync(mdev);
				1486	}
				1487
				1488
				1489	static int drbd_thread_setup(void *arg)
				1490	{
				1491	struct drbd_thread thi = (struct drbd_thread ) arg;
				1492	struct drbd_conf *mdev = thi->mdev;
				1493	unsigned long flags;
				1494	int retval;
				1495
				1496	restart:
				1497	retval = thi->function(thi);
				1498
				1499	spin_lock_irqsave(&thi->t_lock, flags);
				1500
				1501	/* if the receiver has been "Exiting", the last thing it did
				1502	* was set the conn state to "StandAlone",
				1503	* if now a re-connect request comes in, conn state goes C_UNCONNECTED,
				1504	* and receiver thread will be "started".
				1505	* drbd_thread_start needs to set "Restarting" in that case.
				1506	* t_state check and assignment needs to be within the same spinlock,
				1507	* so either thread_start sees Exiting, and can remap to Restarting,
				1508	* or thread_start see None, and can proceed as normal.
				1509	*/
				1510
				1511	if (thi->t_state == Restarting) {
				1512	dev_info(DEV, "Restarting %s\n", current->comm);
				1513	thi->t_state = Running;
				1514	spin_unlock_irqrestore(&thi->t_lock, flags);
				1515	goto restart;
				1516	}
				1517
				1518	thi->task = NULL;
				1519	thi->t_state = None;
				1520	smp_mb();
				1521	complete(&thi->stop);
				1522	spin_unlock_irqrestore(&thi->t_lock, flags);
				1523
				1524	dev_info(DEV, "Terminating %s\n", current->comm);
				1525
				1526	/* Release mod reference taken when thread was started */
				1527	module_put(THIS_MODULE);
				1528	return retval;
				1529	}
				1530
				1531	static void drbd_thread_init(struct drbd_conf mdev, struct drbd_thread thi,
				1532	int (func) (struct drbd_thread ))
				1533	{
				1534	spin_lock_init(&thi->t_lock);
				1535	thi->task = NULL;
				1536	thi->t_state = None;
				1537	thi->function = func;
				1538	thi->mdev = mdev;
				1539	}
				1540
				1541	int drbd_thread_start(struct drbd_thread *thi)
				1542	{
				1543	struct drbd_conf *mdev = thi->mdev;
				1544	struct task_struct *nt;
				1545	unsigned long flags;
				1546
				1547	const char *me =
				1548	thi == &mdev->receiver ? "receiver" :
				1549	thi == &mdev->asender ? "asender" :
				1550	thi == &mdev->worker ? "worker" : "NONSENSE";
				1551
				1552	/* is used from state engine doing drbd_thread_stop_nowait,
				1553	* while holding the req lock irqsave */
				1554	spin_lock_irqsave(&thi->t_lock, flags);
				1555
				1556	switch (thi->t_state) {
				1557	case None:
				1558	dev_info(DEV, "Starting %s thread (from %s [%d])\n",
				1559	me, current->comm, current->pid);
				1560
				1561	/* Get ref on module for thread - this is released when thread exits */
				1562	if (!try_module_get(THIS_MODULE)) {
				1563	dev_err(DEV, "Failed to get module reference in drbd_thread_start\n");
				1564	spin_unlock_irqrestore(&thi->t_lock, flags);
				1565	return FALSE;
				1566	}
				1567
				1568	init_completion(&thi->stop);
				1569	D_ASSERT(thi->task == NULL);
				1570	thi->reset_cpu_mask = 1;
				1571	thi->t_state = Running;
				1572	spin_unlock_irqrestore(&thi->t_lock, flags);
				1573	flush_signals(current); /* otherw. may get -ERESTARTNOINTR */
				1574
				1575	nt = kthread_create(drbd_thread_setup, (void *) thi,
				1576	"drbd%d_%s", mdev_to_minor(mdev), me);
				1577
				1578	if (IS_ERR(nt)) {
				1579	dev_err(DEV, "Couldn't start thread\n");
				1580
				1581	module_put(THIS_MODULE);
				1582	return FALSE;
				1583	}
				1584	spin_lock_irqsave(&thi->t_lock, flags);
				1585	thi->task = nt;
				1586	thi->t_state = Running;
				1587	spin_unlock_irqrestore(&thi->t_lock, flags);
				1588	wake_up_process(nt);
				1589	break;
				1590	case Exiting:
				1591	thi->t_state = Restarting;
				1592	dev_info(DEV, "Restarting %s thread (from %s [%d])\n",
				1593	me, current->comm, current->pid);
				1594	/* fall through */
				1595	case Running:
				1596	case Restarting:
				1597	default:
				1598	spin_unlock_irqrestore(&thi->t_lock, flags);
				1599	break;
				1600	}
				1601
				1602	return TRUE;
				1603	}
				1604
				1605
				1606	void _drbd_thread_stop(struct drbd_thread *thi, int restart, int wait)
				1607	{
				1608	unsigned long flags;
				1609
				1610	enum drbd_thread_state ns = restart ? Restarting : Exiting;
				1611
				1612	/* may be called from state engine, holding the req lock irqsave */
				1613	spin_lock_irqsave(&thi->t_lock, flags);
				1614
				1615	if (thi->t_state == None) {
				1616	spin_unlock_irqrestore(&thi->t_lock, flags);
				1617	if (restart)
				1618	drbd_thread_start(thi);
				1619	return;
				1620	}
				1621
				1622	if (thi->t_state != ns) {
				1623	if (thi->task == NULL) {
				1624	spin_unlock_irqrestore(&thi->t_lock, flags);
				1625	return;
				1626	}
				1627
				1628	thi->t_state = ns;
				1629	smp_mb();
				1630	init_completion(&thi->stop);
				1631	if (thi->task != current)
				1632	force_sig(DRBD_SIGKILL, thi->task);
				1633
				1634	}
				1635
				1636	spin_unlock_irqrestore(&thi->t_lock, flags);
				1637
				1638	if (wait)
				1639	wait_for_completion(&thi->stop);
				1640	}
				1641
				1642	#ifdef CONFIG_SMP
				1643	/**
				1644	* drbd_calc_cpu_mask() - Generate CPU masks, spread over all CPUs
				1645	* @mdev: DRBD device.
				1646	*
				1647	* Forces all threads of a device onto the same CPU. This is beneficial for
				1648	* DRBD's performance. May be overwritten by user's configuration.
				1649	*/
				1650	void drbd_calc_cpu_mask(struct drbd_conf *mdev)
				1651	{
				1652	int ord, cpu;
				1653
				1654	/* user override. */
				1655	if (cpumask_weight(mdev->cpu_mask))
				1656	return;
				1657
				1658	ord = mdev_to_minor(mdev) % cpumask_weight(cpu_online_mask);
				1659	for_each_online_cpu(cpu) {
				1660	if (ord-- == 0) {
				1661	cpumask_set_cpu(cpu, mdev->cpu_mask);
				1662	return;
				1663	}
				1664	}
				1665	/* should not be reached */
				1666	cpumask_setall(mdev->cpu_mask);
				1667	}
				1668
				1669	/**
				1670	* drbd_thread_current_set_cpu() - modifies the cpu mask of the _current_ thread
				1671	* @mdev: DRBD device.
				1672	*
				1673	* call in the "main loop" of _all_ threads, no need for any mutex, current won't die
				1674	* prematurely.
				1675	*/
				1676	void drbd_thread_current_set_cpu(struct drbd_conf *mdev)
				1677	{
				1678	struct task_struct *p = current;
				1679	struct drbd_thread *thi =
				1680	p == mdev->asender.task ? &mdev->asender :
				1681	p == mdev->receiver.task ? &mdev->receiver :
				1682	p == mdev->worker.task ? &mdev->worker :
				1683	NULL;
				1684	ERR_IF(thi == NULL)
				1685	return;
				1686	if (!thi->reset_cpu_mask)
				1687	return;
				1688	thi->reset_cpu_mask = 0;
				1689	set_cpus_allowed_ptr(p, mdev->cpu_mask);
				1690	}
				1691	#endif
				1692
				1693	/* the appropriate socket mutex must be held already */
				1694	int _drbd_send_cmd(struct drbd_conf mdev, struct socket sock,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1695	enum drbd_packets cmd, struct p_header80 *h,
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1696	size_t size, unsigned msg_flags)
				1697	{
				1698	int sent, ok;
				1699
				1700	ERR_IF(!h) return FALSE;
				1701	ERR_IF(!size) return FALSE;
				1702
				1703	h->magic = BE_DRBD_MAGIC;
				1704	h->command = cpu_to_be16(cmd);
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1705	h->length = cpu_to_be16(size-sizeof(struct p_header80));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1706
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1707	sent = drbd_send(mdev, sock, h, size, msg_flags);
				1708
				1709	ok = (sent == size);
				1710	if (!ok)
				1711	dev_err(DEV, "short sent %s size=%d sent=%d\n",
				1712	cmdname(cmd), (int)size, sent);
				1713	return ok;
				1714	}
				1715
				1716	/* don't pass the socket. we may only look at it
				1717	* when we hold the appropriate socket mutex.
				1718	*/
				1719	int drbd_send_cmd(struct drbd_conf *mdev, int use_data_socket,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1720	enum drbd_packets cmd, struct p_header80 *h, size_t size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1721	{
				1722	int ok = 0;
				1723	struct socket *sock;
				1724
				1725	if (use_data_socket) {
				1726	mutex_lock(&mdev->data.mutex);
				1727	sock = mdev->data.socket;
				1728	} else {
				1729	mutex_lock(&mdev->meta.mutex);
				1730	sock = mdev->meta.socket;
				1731	}
				1732
				1733	/* drbd_disconnect() could have called drbd_free_sock()
				1734	* while we were waiting in down()... */
				1735	if (likely(sock != NULL))
				1736	ok = _drbd_send_cmd(mdev, sock, cmd, h, size, 0);
				1737
				1738	if (use_data_socket)
				1739	mutex_unlock(&mdev->data.mutex);
				1740	else
				1741	mutex_unlock(&mdev->meta.mutex);
				1742	return ok;
				1743	}
				1744
				1745	int drbd_send_cmd2(struct drbd_conf mdev, enum drbd_packets cmd, char data,
				1746	size_t size)
				1747	{
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1748	struct p_header80 h;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1749	int ok;
				1750
				1751	h.magic = BE_DRBD_MAGIC;
				1752	h.command = cpu_to_be16(cmd);
				1753	h.length = cpu_to_be16(size);
				1754
				1755	if (!drbd_get_data_sock(mdev))
				1756	return 0;
				1757
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1758	ok = (sizeof(h) ==
				1759	drbd_send(mdev, mdev->data.socket, &h, sizeof(h), 0));
				1760	ok = ok && (size ==
				1761	drbd_send(mdev, mdev->data.socket, data, size, 0));
				1762
				1763	drbd_put_data_sock(mdev);
				1764
				1765	return ok;
				1766	}
				1767
				1768	int drbd_send_sync_param(struct drbd_conf mdev, struct syncer_conf sc)
				1769	{
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1770	struct p_rs_param_95 *p;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1771	struct socket *sock;
				1772	int size, rv;
				1773	const int apv = mdev->agreed_pro_version;
				1774
				1775	size = apv <= 87 ? sizeof(struct p_rs_param)
				1776	: apv == 88 ? sizeof(struct p_rs_param)
				1777	+ strlen(mdev->sync_conf.verify_alg) + 1
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1778	: apv <= 94 ? sizeof(struct p_rs_param_89)
				1779	: /* apv >= 95 */ sizeof(struct p_rs_param_95);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1780
				1781	/* used from admin command context and receiver/worker context.
				1782	* to avoid kmalloc, grab the socket right here,
				1783	* then use the pre-allocated sbuf there */
				1784	mutex_lock(&mdev->data.mutex);
				1785	sock = mdev->data.socket;
				1786
				1787	if (likely(sock != NULL)) {
				1788	enum drbd_packets cmd = apv >= 89 ? P_SYNC_PARAM89 : P_SYNC_PARAM;
				1789
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1790	p = &mdev->data.sbuf.rs_param_95;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1791
				1792	/* initialize verify_alg and csums_alg */
				1793	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				1794
				1795	p->rate = cpu_to_be32(sc->rate);
Philipp Reisner	8e26f9c	2010-07-06 17:25:54 +0200	[diff] [blame]	1796	p->c_plan_ahead = cpu_to_be32(sc->c_plan_ahead);
				1797	p->c_delay_target = cpu_to_be32(sc->c_delay_target);
				1798	p->c_fill_target = cpu_to_be32(sc->c_fill_target);
				1799	p->c_max_rate = cpu_to_be32(sc->c_max_rate);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1800
				1801	if (apv >= 88)
				1802	strcpy(p->verify_alg, mdev->sync_conf.verify_alg);
				1803	if (apv >= 89)
				1804	strcpy(p->csums_alg, mdev->sync_conf.csums_alg);
				1805
				1806	rv = _drbd_send_cmd(mdev, sock, cmd, &p->head, size, 0);
				1807	} else
				1808	rv = 0; /* not ok */
				1809
				1810	mutex_unlock(&mdev->data.mutex);
				1811
				1812	return rv;
				1813	}
				1814
				1815	int drbd_send_protocol(struct drbd_conf *mdev)
				1816	{
				1817	struct p_protocol *p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1818	int size, cf, rv;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1819
				1820	size = sizeof(struct p_protocol);
				1821
				1822	if (mdev->agreed_pro_version >= 87)
				1823	size += strlen(mdev->net_conf->integrity_alg) + 1;
				1824
				1825	/* we must not recurse into our own queue,
				1826	* as that is blocked during handshake */
				1827	p = kmalloc(size, GFP_NOIO);
				1828	if (p == NULL)
				1829	return 0;
				1830
				1831	p->protocol = cpu_to_be32(mdev->net_conf->wire_protocol);
				1832	p->after_sb_0p = cpu_to_be32(mdev->net_conf->after_sb_0p);
				1833	p->after_sb_1p = cpu_to_be32(mdev->net_conf->after_sb_1p);
				1834	p->after_sb_2p = cpu_to_be32(mdev->net_conf->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1835	p->two_primaries = cpu_to_be32(mdev->net_conf->two_primaries);
				1836
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1837	cf = 0;
				1838	if (mdev->net_conf->want_lose)
				1839	cf \|= CF_WANT_LOSE;
				1840	if (mdev->net_conf->dry_run) {
				1841	if (mdev->agreed_pro_version >= 92)
				1842	cf \|= CF_DRY_RUN;
				1843	else {
				1844	dev_err(DEV, "--dry-run is not supported by peer");
Dan Carpenter	7ac314c	2010-04-22 14:27:23 +0200	[diff] [blame]	1845	kfree(p);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	1846	return 0;
				1847	}
				1848	}
				1849	p->conn_flags = cpu_to_be32(cf);
				1850
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1851	if (mdev->agreed_pro_version >= 87)
				1852	strcpy(p->integrity_alg, mdev->net_conf->integrity_alg);
				1853
				1854	rv = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_PROTOCOL,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1855	(struct p_header80 *)p, size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1856	kfree(p);
				1857	return rv;
				1858	}
				1859
				1860	int _drbd_send_uuids(struct drbd_conf *mdev, u64 uuid_flags)
				1861	{
				1862	struct p_uuids p;
				1863	int i;
				1864
				1865	if (!get_ldev_if_state(mdev, D_NEGOTIATING))
				1866	return 1;
				1867
				1868	for (i = UI_CURRENT; i < UI_SIZE; i++)
				1869	p.uuid[i] = mdev->ldev ? cpu_to_be64(mdev->ldev->md.uuid[i]) : 0;
				1870
				1871	mdev->comm_bm_set = drbd_bm_total_weight(mdev);
				1872	p.uuid[UI_SIZE] = cpu_to_be64(mdev->comm_bm_set);
				1873	uuid_flags \|= mdev->net_conf->want_lose ? 1 : 0;
				1874	uuid_flags \|= test_bit(CRASHED_PRIMARY, &mdev->flags) ? 2 : 0;
				1875	uuid_flags \|= mdev->new_state_tmp.disk == D_INCONSISTENT ? 4 : 0;
				1876	p.uuid[UI_FLAGS] = cpu_to_be64(uuid_flags);
				1877
				1878	put_ldev(mdev);
				1879
				1880	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_UUIDS,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1881	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1882	}
				1883
				1884	int drbd_send_uuids(struct drbd_conf *mdev)
				1885	{
				1886	return _drbd_send_uuids(mdev, 0);
				1887	}
				1888
				1889	int drbd_send_uuids_skip_initial_sync(struct drbd_conf *mdev)
				1890	{
				1891	return _drbd_send_uuids(mdev, 8);
				1892	}
				1893
				1894
				1895	int drbd_send_sync_uuid(struct drbd_conf *mdev, u64 val)
				1896	{
				1897	struct p_rs_uuid p;
				1898
				1899	p.uuid = cpu_to_be64(val);
				1900
				1901	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SYNC_UUID,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1902	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1903	}
				1904
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1905	int drbd_send_sizes(struct drbd_conf *mdev, int trigger_reply, enum dds_flags flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1906	{
				1907	struct p_sizes p;
				1908	sector_t d_size, u_size;
				1909	int q_order_type;
				1910	int ok;
				1911
				1912	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1913	D_ASSERT(mdev->ldev->backing_bdev);
				1914	d_size = drbd_get_max_capacity(mdev->ldev);
				1915	u_size = mdev->ldev->dc.disk_size;
				1916	q_order_type = drbd_queue_order_type(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1917	put_ldev(mdev);
				1918	} else {
				1919	d_size = 0;
				1920	u_size = 0;
				1921	q_order_type = QUEUE_ORDERED_NONE;
				1922	}
				1923
				1924	p.d_size = cpu_to_be64(d_size);
				1925	p.u_size = cpu_to_be64(u_size);
				1926	p.c_size = cpu_to_be64(trigger_reply ? 0 : drbd_get_capacity(mdev->this_bdev));
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame^]	1927	p.max_bio_size = cpu_to_be32(queue_max_hw_sectors(mdev->rq_queue) << 9);
Philipp Reisner	e89b591	2010-03-24 17:11:33 +0100	[diff] [blame]	1928	p.queue_order_type = cpu_to_be16(q_order_type);
				1929	p.dds_flags = cpu_to_be16(flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1930
				1931	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SIZES,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1932	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1933	return ok;
				1934	}
				1935
				1936	/**
				1937	* drbd_send_state() - Sends the drbd state to the peer
				1938	* @mdev: DRBD device.
				1939	*/
				1940	int drbd_send_state(struct drbd_conf *mdev)
				1941	{
				1942	struct socket *sock;
				1943	struct p_state p;
				1944	int ok = 0;
				1945
				1946	/* Grab state lock so we wont send state if we're in the middle
				1947	* of a cluster wide state change on another thread */
				1948	drbd_state_lock(mdev);
				1949
				1950	mutex_lock(&mdev->data.mutex);
				1951
				1952	p.state = cpu_to_be32(mdev->state.i); /* Within the send mutex */
				1953	sock = mdev->data.socket;
				1954
				1955	if (likely(sock != NULL)) {
				1956	ok = _drbd_send_cmd(mdev, sock, P_STATE,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1957	(struct p_header80 *)&p, sizeof(p), 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1958	}
				1959
				1960	mutex_unlock(&mdev->data.mutex);
				1961
				1962	drbd_state_unlock(mdev);
				1963	return ok;
				1964	}
				1965
				1966	int drbd_send_state_req(struct drbd_conf *mdev,
				1967	union drbd_state mask, union drbd_state val)
				1968	{
				1969	struct p_req_state p;
				1970
				1971	p.mask = cpu_to_be32(mask.i);
				1972	p.val = cpu_to_be32(val.i);
				1973
				1974	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_STATE_CHG_REQ,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1975	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1976	}
				1977
				1978	int drbd_send_sr_reply(struct drbd_conf *mdev, int retcode)
				1979	{
				1980	struct p_req_state_reply p;
				1981
				1982	p.retcode = cpu_to_be32(retcode);
				1983
				1984	return drbd_send_cmd(mdev, USE_META_SOCKET, P_STATE_CHG_REPLY,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1985	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1986	}
				1987
				1988	int fill_bitmap_rle_bits(struct drbd_conf *mdev,
				1989	struct p_compressed_bm *p,
				1990	struct bm_xfer_ctx *c)
				1991	{
				1992	struct bitstream bs;
				1993	unsigned long plain_bits;
				1994	unsigned long tmp;
				1995	unsigned long rl;
				1996	unsigned len;
				1997	unsigned toggle;
				1998	int bits;
				1999
				2000	/* may we use this feature? */
				2001	if ((mdev->sync_conf.use_rle == 0) \|\|
				2002	(mdev->agreed_pro_version < 90))
				2003	return 0;
				2004
				2005	if (c->bit_offset >= c->bm_bits)
				2006	return 0; /* nothing to do. */
				2007
				2008	/* use at most thus many bytes */
				2009	bitstream_init(&bs, p->code, BM_PACKET_VLI_BYTES_MAX, 0);
				2010	memset(p->code, 0, BM_PACKET_VLI_BYTES_MAX);
				2011	/* plain bits covered in this code string */
				2012	plain_bits = 0;
				2013
				2014	/* p->encoding & 0x80 stores whether the first run length is set.
				2015	* bit offset is implicit.
				2016	* start with toggle == 2 to be able to tell the first iteration */
				2017	toggle = 2;
				2018
				2019	/* see how much plain bits we can stuff into one packet
				2020	* using RLE and VLI. */
				2021	do {
				2022	tmp = (toggle == 0) ? _drbd_bm_find_next_zero(mdev, c->bit_offset)
				2023	: _drbd_bm_find_next(mdev, c->bit_offset);
				2024	if (tmp == -1UL)
				2025	tmp = c->bm_bits;
				2026	rl = tmp - c->bit_offset;
				2027
				2028	if (toggle == 2) { /* first iteration */
				2029	if (rl == 0) {
				2030	/* the first checked bit was set,
				2031	* store start value, */
				2032	DCBP_set_start(p, 1);
				2033	/* but skip encoding of zero run length */
				2034	toggle = !toggle;
				2035	continue;
				2036	}
				2037	DCBP_set_start(p, 0);
				2038	}
				2039
				2040	/* paranoia: catch zero runlength.
				2041	* can only happen if bitmap is modified while we scan it. */
				2042	if (rl == 0) {
				2043	dev_err(DEV, "unexpected zero runlength while encoding bitmap "
				2044	"t:%u bo:%lu\n", toggle, c->bit_offset);
				2045	return -1;
				2046	}
				2047
				2048	bits = vli_encode_bits(&bs, rl);
				2049	if (bits == -ENOBUFS) /* buffer full */
				2050	break;
				2051	if (bits <= 0) {
				2052	dev_err(DEV, "error while encoding bitmap: %d\n", bits);
				2053	return 0;
				2054	}
				2055
				2056	toggle = !toggle;
				2057	plain_bits += rl;
				2058	c->bit_offset = tmp;
				2059	} while (c->bit_offset < c->bm_bits);
				2060
				2061	len = bs.cur.b - p->code + !!bs.cur.bit;
				2062
				2063	if (plain_bits < (len << 3)) {
				2064	/* incompressible with this method.
				2065	* we need to rewind both word and bit position. */
				2066	c->bit_offset -= plain_bits;
				2067	bm_xfer_ctx_bit_to_word_offset(c);
				2068	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2069	return 0;
				2070	}
				2071
				2072	/* RLE + VLI was able to compress it just fine.
				2073	* update c->word_offset. */
				2074	bm_xfer_ctx_bit_to_word_offset(c);
				2075
				2076	/* store pad_bits */
				2077	DCBP_set_pad_bits(p, (8 - bs.cur.bit) & 0x7);
				2078
				2079	return len;
				2080	}
				2081
				2082	enum { OK, FAILED, DONE }
				2083	send_bitmap_rle_or_plain(struct drbd_conf *mdev,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2084	struct p_header80 h, struct bm_xfer_ctx c)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2085	{
				2086	struct p_compressed_bm p = (void)h;
				2087	unsigned long num_words;
				2088	int len;
				2089	int ok;
				2090
				2091	len = fill_bitmap_rle_bits(mdev, p, c);
				2092
				2093	if (len < 0)
				2094	return FAILED;
				2095
				2096	if (len) {
				2097	DCBP_set_code(p, RLE_VLI_Bits);
				2098	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_COMPRESSED_BITMAP, h,
				2099	sizeof(*p) + len, 0);
				2100
				2101	c->packets[0]++;
				2102	c->bytes[0] += sizeof(*p) + len;
				2103
				2104	if (c->bit_offset >= c->bm_bits)
				2105	len = 0; /* DONE */
				2106	} else {
				2107	/* was not compressible.
				2108	* send a buffer full of plain text bits instead. */
				2109	num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				2110	len = num_words * sizeof(long);
				2111	if (len)
				2112	drbd_bm_get_lel(mdev, c->word_offset, num_words, (unsigned long*)h->payload);
				2113	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BITMAP,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2114	h, sizeof(struct p_header80) + len, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2115	c->word_offset += num_words;
				2116	c->bit_offset = c->word_offset * BITS_PER_LONG;
				2117
				2118	c->packets[1]++;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2119	c->bytes[1] += sizeof(struct p_header80) + len;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2120
				2121	if (c->bit_offset > c->bm_bits)
				2122	c->bit_offset = c->bm_bits;
				2123	}
				2124	ok = ok ? ((len == 0) ? DONE : OK) : FAILED;
				2125
				2126	if (ok == DONE)
				2127	INFO_bm_xfer_stats(mdev, "send", c);
				2128	return ok;
				2129	}
				2130
				2131	/* See the comment at receive_bitmap() */
				2132	int _drbd_send_bitmap(struct drbd_conf *mdev)
				2133	{
				2134	struct bm_xfer_ctx c;
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2135	struct p_header80 *p;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2136	int ret;
				2137
				2138	ERR_IF(!mdev->bitmap) return FALSE;
				2139
				2140	/* maybe we should use some per thread scratch page,
				2141	* and allocate that during initial device creation? */
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2142	p = (struct p_header80 *) __get_free_page(GFP_NOIO);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2143	if (!p) {
				2144	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				2145	return FALSE;
				2146	}
				2147
				2148	if (get_ldev(mdev)) {
				2149	if (drbd_md_test_flag(mdev->ldev, MDF_FULL_SYNC)) {
				2150	dev_info(DEV, "Writing the whole bitmap, MDF_FullSync was set.\n");
				2151	drbd_bm_set_all(mdev);
				2152	if (drbd_bm_write(mdev)) {
				2153	/* write_bm did fail! Leave full sync flag set in Meta P_DATA
				2154	* but otherwise process as per normal - need to tell other
				2155	* side that a full resync is required! */
				2156	dev_err(DEV, "Failed to write bitmap to disk!\n");
				2157	} else {
				2158	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				2159	drbd_md_sync(mdev);
				2160	}
				2161	}
				2162	put_ldev(mdev);
				2163	}
				2164
				2165	c = (struct bm_xfer_ctx) {
				2166	.bm_bits = drbd_bm_bits(mdev),
				2167	.bm_words = drbd_bm_words(mdev),
				2168	};
				2169
				2170	do {
				2171	ret = send_bitmap_rle_or_plain(mdev, p, &c);
				2172	} while (ret == OK);
				2173
				2174	free_page((unsigned long) p);
				2175	return (ret == DONE);
				2176	}
				2177
				2178	int drbd_send_bitmap(struct drbd_conf *mdev)
				2179	{
				2180	int err;
				2181
				2182	if (!drbd_get_data_sock(mdev))
				2183	return -1;
				2184	err = !_drbd_send_bitmap(mdev);
				2185	drbd_put_data_sock(mdev);
				2186	return err;
				2187	}
				2188
				2189	int drbd_send_b_ack(struct drbd_conf *mdev, u32 barrier_nr, u32 set_size)
				2190	{
				2191	int ok;
				2192	struct p_barrier_ack p;
				2193
				2194	p.barrier = barrier_nr;
				2195	p.set_size = cpu_to_be32(set_size);
				2196
				2197	if (mdev->state.conn < C_CONNECTED)
				2198	return FALSE;
				2199	ok = drbd_send_cmd(mdev, USE_META_SOCKET, P_BARRIER_ACK,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2200	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2201	return ok;
				2202	}
				2203
				2204	/**
				2205	* _drbd_send_ack() - Sends an ack packet
				2206	* @mdev: DRBD device.
				2207	* @cmd: Packet command code.
				2208	* @sector: sector, needs to be in big endian byte order
				2209	* @blksize: size in byte, needs to be in big endian byte order
				2210	* @block_id: Id, big endian byte order
				2211	*/
				2212	static int _drbd_send_ack(struct drbd_conf *mdev, enum drbd_packets cmd,
				2213	u64 sector,
				2214	u32 blksize,
				2215	u64 block_id)
				2216	{
				2217	int ok;
				2218	struct p_block_ack p;
				2219
				2220	p.sector = sector;
				2221	p.block_id = block_id;
				2222	p.blksize = blksize;
				2223	p.seq_num = cpu_to_be32(atomic_add_return(1, &mdev->packet_seq));
				2224
				2225	if (!mdev->meta.socket \|\| mdev->state.conn < C_CONNECTED)
				2226	return FALSE;
				2227	ok = drbd_send_cmd(mdev, USE_META_SOCKET, cmd,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2228	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2229	return ok;
				2230	}
				2231
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame]	2232	/* dp->sector and dp->block_id already/still in network byte order,
				2233	* data_size is payload size according to dp->head,
				2234	* and may need to be corrected for digest size. */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2235	int drbd_send_ack_dp(struct drbd_conf *mdev, enum drbd_packets cmd,
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame]	2236	struct p_data *dp, int data_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2237	{
Lars Ellenberg	2b2bf21	2010-10-06 11:46:55 +0200	[diff] [blame]	2238	data_size -= (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
				2239	crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2240	return _drbd_send_ack(mdev, cmd, dp->sector, cpu_to_be32(data_size),
				2241	dp->block_id);
				2242	}
				2243
				2244	int drbd_send_ack_rp(struct drbd_conf *mdev, enum drbd_packets cmd,
				2245	struct p_block_req *rp)
				2246	{
				2247	return _drbd_send_ack(mdev, cmd, rp->sector, rp->blksize, rp->block_id);
				2248	}
				2249
				2250	/**
				2251	* drbd_send_ack() - Sends an ack packet
				2252	* @mdev: DRBD device.
				2253	* @cmd: Packet command code.
				2254	* @e: Epoch entry.
				2255	*/
				2256	int drbd_send_ack(struct drbd_conf *mdev,
				2257	enum drbd_packets cmd, struct drbd_epoch_entry *e)
				2258	{
				2259	return _drbd_send_ack(mdev, cmd,
				2260	cpu_to_be64(e->sector),
				2261	cpu_to_be32(e->size),
				2262	e->block_id);
				2263	}
				2264
				2265	/* This function misuses the block_id field to signal if the blocks
				2266	* are is sync or not. */
				2267	int drbd_send_ack_ex(struct drbd_conf *mdev, enum drbd_packets cmd,
				2268	sector_t sector, int blksize, u64 block_id)
				2269	{
				2270	return _drbd_send_ack(mdev, cmd,
				2271	cpu_to_be64(sector),
				2272	cpu_to_be32(blksize),
				2273	cpu_to_be64(block_id));
				2274	}
				2275
				2276	int drbd_send_drequest(struct drbd_conf *mdev, int cmd,
				2277	sector_t sector, int size, u64 block_id)
				2278	{
				2279	int ok;
				2280	struct p_block_req p;
				2281
				2282	p.sector = cpu_to_be64(sector);
				2283	p.block_id = block_id;
				2284	p.blksize = cpu_to_be32(size);
				2285
				2286	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, cmd,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2287	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2288	return ok;
				2289	}
				2290
				2291	int drbd_send_drequest_csum(struct drbd_conf *mdev,
				2292	sector_t sector, int size,
				2293	void *digest, int digest_size,
				2294	enum drbd_packets cmd)
				2295	{
				2296	int ok;
				2297	struct p_block_req p;
				2298
				2299	p.sector = cpu_to_be64(sector);
				2300	p.block_id = BE_DRBD_MAGIC + 0xbeef;
				2301	p.blksize = cpu_to_be32(size);
				2302
				2303	p.head.magic = BE_DRBD_MAGIC;
				2304	p.head.command = cpu_to_be16(cmd);
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2305	p.head.length = cpu_to_be16(sizeof(p) - sizeof(struct p_header80) + digest_size);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2306
				2307	mutex_lock(&mdev->data.mutex);
				2308
				2309	ok = (sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), 0));
				2310	ok = ok && (digest_size == drbd_send(mdev, mdev->data.socket, digest, digest_size, 0));
				2311
				2312	mutex_unlock(&mdev->data.mutex);
				2313
				2314	return ok;
				2315	}
				2316
				2317	int drbd_send_ov_request(struct drbd_conf *mdev, sector_t sector, int size)
				2318	{
				2319	int ok;
				2320	struct p_block_req p;
				2321
				2322	p.sector = cpu_to_be64(sector);
				2323	p.block_id = BE_DRBD_MAGIC + 0xbabe;
				2324	p.blksize = cpu_to_be32(size);
				2325
				2326	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OV_REQUEST,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2327	(struct p_header80 *)&p, sizeof(p));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2328	return ok;
				2329	}
				2330
				2331	/* called on sndtimeo
				2332	* returns FALSE if we should retry,
				2333	* TRUE if we think connection is dead
				2334	*/
				2335	static int we_should_drop_the_connection(struct drbd_conf mdev, struct socket sock)
				2336	{
				2337	int drop_it;
				2338	/* long elapsed = (long)(jiffies - mdev->last_received); */
				2339
				2340	drop_it = mdev->meta.socket == sock
				2341	\|\| !mdev->asender.task
				2342	\|\| get_t_state(&mdev->asender) != Running
				2343	\|\| mdev->state.conn < C_CONNECTED;
				2344
				2345	if (drop_it)
				2346	return TRUE;
				2347
				2348	drop_it = !--mdev->ko_count;
				2349	if (!drop_it) {
				2350	dev_err(DEV, "[%s/%d] sock_sendmsg time expired, ko = %u\n",
				2351	current->comm, current->pid, mdev->ko_count);
				2352	request_ping(mdev);
				2353	}
				2354
				2355	return drop_it; /* && (mdev->state == R_PRIMARY) */;
				2356	}
				2357
				2358	/* The idea of sendpage seems to be to put some kind of reference
				2359	* to the page into the skb, and to hand it over to the NIC. In
				2360	* this process get_page() gets called.
				2361	*
				2362	* As soon as the page was really sent over the network put_page()
				2363	* gets called by some part of the network layer. [ NIC driver? ]
				2364	*
				2365	* [ get_page() / put_page() increment/decrement the count. If count
				2366	* reaches 0 the page will be freed. ]
				2367	*
				2368	* This works nicely with pages from FSs.
				2369	* But this means that in protocol A we might signal IO completion too early!
				2370	*
				2371	* In order not to corrupt data during a resync we must make sure
				2372	* that we do not reuse our own buffer pages (EEs) to early, therefore
				2373	* we have the net_ee list.
				2374	*
				2375	* XFS seems to have problems, still, it submits pages with page_count == 0!
				2376	* As a workaround, we disable sendpage on pages
				2377	* with page_count == 0 or PageSlab.
				2378	*/
				2379	static int _drbd_no_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2380	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2381	{
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2382	int sent = drbd_send(mdev, mdev->data.socket, kmap(page) + offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2383	kunmap(page);
				2384	if (sent == size)
				2385	mdev->send_cnt += size>>9;
				2386	return sent == size;
				2387	}
				2388
				2389	static int _drbd_send_page(struct drbd_conf mdev, struct page page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2390	int offset, size_t size, unsigned msg_flags)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2391	{
				2392	mm_segment_t oldfs = get_fs();
				2393	int sent, ok;
				2394	int len = size;
				2395
				2396	/* e.g. XFS meta- & log-data is in slab pages, which have a
				2397	* page_count of 0 and/or have PageSlab() set.
				2398	* we cannot use send_page for those, as that does get_page();
				2399	* put_page(); and would cause either a VM_BUG directly, or
				2400	* __page_cache_release a page that would actually still be referenced
				2401	* by someone, leading to some obscure delayed Oops somewhere else. */
				2402	if (disable_sendpage \|\| (page_count(page) < 1) \|\| PageSlab(page))
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2403	return _drbd_no_send_page(mdev, page, offset, size, msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2404
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2405	msg_flags \|= MSG_NOSIGNAL;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2406	drbd_update_congested(mdev);
				2407	set_fs(KERNEL_DS);
				2408	do {
				2409	sent = mdev->data.socket->ops->sendpage(mdev->data.socket, page,
				2410	offset, len,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2411	msg_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2412	if (sent == -EAGAIN) {
				2413	if (we_should_drop_the_connection(mdev,
				2414	mdev->data.socket))
				2415	break;
				2416	else
				2417	continue;
				2418	}
				2419	if (sent <= 0) {
				2420	dev_warn(DEV, "%s: size=%d len=%d sent=%d\n",
				2421	__func__, (int)size, len, sent);
				2422	break;
				2423	}
				2424	len -= sent;
				2425	offset += sent;
				2426	} while (len > 0 /* THINK && mdev->cstate >= C_CONNECTED*/);
				2427	set_fs(oldfs);
				2428	clear_bit(NET_CONGESTED, &mdev->flags);
				2429
				2430	ok = (len == 0);
				2431	if (likely(ok))
				2432	mdev->send_cnt += size>>9;
				2433	return ok;
				2434	}
				2435
				2436	static int _drbd_send_bio(struct drbd_conf mdev, struct bio bio)
				2437	{
				2438	struct bio_vec *bvec;
				2439	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2440	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2441	__bio_for_each_segment(bvec, bio, i, 0) {
				2442	if (!_drbd_no_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2443	bvec->bv_offset, bvec->bv_len,
				2444	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2445	return 0;
				2446	}
				2447	return 1;
				2448	}
				2449
				2450	static int _drbd_send_zc_bio(struct drbd_conf mdev, struct bio bio)
				2451	{
				2452	struct bio_vec *bvec;
				2453	int i;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2454	/* hint all but last page with MSG_MORE */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2455	__bio_for_each_segment(bvec, bio, i, 0) {
				2456	if (!_drbd_send_page(mdev, bvec->bv_page,
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2457	bvec->bv_offset, bvec->bv_len,
				2458	i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2459	return 0;
				2460	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2461	return 1;
				2462	}
				2463
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2464	static int _drbd_send_zc_ee(struct drbd_conf mdev, struct drbd_epoch_entry e)
				2465	{
				2466	struct page *page = e->pages;
				2467	unsigned len = e->size;
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2468	/* hint all but last page with MSG_MORE */
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2469	page_chain_for_each(page) {
				2470	unsigned l = min_t(unsigned, len, PAGE_SIZE);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2471	if (!_drbd_send_page(mdev, page, 0, l,
				2472	page_chain_next(page) ? MSG_MORE : 0))
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2473	return 0;
				2474	len -= l;
				2475	}
				2476	return 1;
				2477	}
				2478
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	2479	static u32 bio_flags_to_wire(struct drbd_conf *mdev, unsigned long bi_rw)
				2480	{
				2481	if (mdev->agreed_pro_version >= 95)
				2482	return (bi_rw & REQ_SYNC ? DP_RW_SYNC : 0) \|
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	2483	(bi_rw & REQ_FUA ? DP_FUA : 0) \|
				2484	(bi_rw & REQ_FLUSH ? DP_FLUSH : 0) \|
				2485	(bi_rw & REQ_DISCARD ? DP_DISCARD : 0);
				2486	else
Jens Axboe	721a960	2011-03-09 11:56:30 +0100	[diff] [blame]	2487	return bi_rw & REQ_SYNC ? DP_RW_SYNC : 0;
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	2488	}
				2489
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2490	/* Used to send write requests
				2491	* R_PRIMARY -> Peer (P_DATA)
				2492	*/
				2493	int drbd_send_dblock(struct drbd_conf mdev, struct drbd_request req)
				2494	{
				2495	int ok = 1;
				2496	struct p_data p;
				2497	unsigned int dp_flags = 0;
				2498	void *dgb;
				2499	int dgs;
				2500
				2501	if (!drbd_get_data_sock(mdev))
				2502	return 0;
				2503
				2504	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2505	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2506
Philipp Reisner	d537338	2010-08-23 15:18:33 +0200	[diff] [blame]	2507	if (req->size <= DRBD_MAX_SIZE_H80_PACKET) {
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2508	p.head.h80.magic = BE_DRBD_MAGIC;
				2509	p.head.h80.command = cpu_to_be16(P_DATA);
				2510	p.head.h80.length =
				2511	cpu_to_be16(sizeof(p) - sizeof(union p_header) + dgs + req->size);
				2512	} else {
				2513	p.head.h95.magic = BE_DRBD_MAGIC_BIG;
				2514	p.head.h95.command = cpu_to_be16(P_DATA);
				2515	p.head.h95.length =
				2516	cpu_to_be32(sizeof(p) - sizeof(union p_header) + dgs + req->size);
				2517	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2518
				2519	p.sector = cpu_to_be64(req->sector);
				2520	p.block_id = (unsigned long)req;
				2521	p.seq_num = cpu_to_be32(req->seq_num =
				2522	atomic_add_return(1, &mdev->packet_seq));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2523
Philipp Reisner	76d2e7e	2010-08-25 11:58:05 +0200	[diff] [blame]	2524	dp_flags = bio_flags_to_wire(mdev, req->master_bio->bi_rw);
				2525
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2526	if (mdev->state.conn >= C_SYNC_SOURCE &&
				2527	mdev->state.conn <= C_PAUSED_SYNC_T)
				2528	dp_flags \|= DP_MAY_SET_IN_SYNC;
				2529
				2530	p.dp_flags = cpu_to_be32(dp_flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2531	set_bit(UNPLUG_REMOTE, &mdev->flags);
				2532	ok = (sizeof(p) ==
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2533	drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2534	if (ok && dgs) {
				2535	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2536	drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2537	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2538	}
				2539	if (ok) {
Lars Ellenberg	470be44	2010-11-10 10:36:52 +0100	[diff] [blame]	2540	/* For protocol A, we have to memcpy the payload into
				2541	* socket buffers, as we may complete right away
				2542	* as soon as we handed it over to tcp, at which point the data
				2543	* pages may become invalid.
				2544	*
				2545	* For data-integrity enabled, we copy it as well, so we can be
				2546	* sure that even if the bio pages may still be modified, it
				2547	* won't change the data on the wire, thus if the digest checks
				2548	* out ok after sending on this side, but does not fit on the
				2549	* receiving side, we sure have detected corruption elsewhere.
				2550	*/
				2551	if (mdev->net_conf->wire_protocol == DRBD_PROT_A \|\| dgs)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2552	ok = _drbd_send_bio(mdev, req->master_bio);
				2553	else
				2554	ok = _drbd_send_zc_bio(mdev, req->master_bio);
Lars Ellenberg	470be44	2010-11-10 10:36:52 +0100	[diff] [blame]	2555
				2556	/* double check digest, sometimes buffers have been modified in flight. */
				2557	if (dgs > 0 && dgs <= 64) {
				2558	/* 64 byte, 512 bit, is the larges digest size
				2559	* currently supported in kernel crypto. */
				2560	unsigned char digest[64];
				2561	drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, digest);
				2562	if (memcmp(mdev->int_dig_out, digest, dgs)) {
				2563	dev_warn(DEV,
				2564	"Digest mismatch, buffer modified by upper layers during write: %llus +%u\n",
				2565	(unsigned long long)req->sector, req->size);
				2566	}
				2567	} /* else if (dgs > 64) {
				2568	... Be noisy about digest too large ...
				2569	} */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2570	}
				2571
				2572	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2573
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2574	return ok;
				2575	}
				2576
				2577	/* answer packet, used to send data back for read requests:
				2578	* Peer -> (diskless) R_PRIMARY (P_DATA_REPLY)
				2579	* C_SYNC_SOURCE -> C_SYNC_TARGET (P_RS_DATA_REPLY)
				2580	*/
				2581	int drbd_send_block(struct drbd_conf *mdev, enum drbd_packets cmd,
				2582	struct drbd_epoch_entry *e)
				2583	{
				2584	int ok;
				2585	struct p_data p;
				2586	void *dgb;
				2587	int dgs;
				2588
				2589	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
				2590	crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
				2591
Philipp Reisner	d537338	2010-08-23 15:18:33 +0200	[diff] [blame]	2592	if (e->size <= DRBD_MAX_SIZE_H80_PACKET) {
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2593	p.head.h80.magic = BE_DRBD_MAGIC;
				2594	p.head.h80.command = cpu_to_be16(cmd);
				2595	p.head.h80.length =
				2596	cpu_to_be16(sizeof(p) - sizeof(struct p_header80) + dgs + e->size);
				2597	} else {
				2598	p.head.h95.magic = BE_DRBD_MAGIC_BIG;
				2599	p.head.h95.command = cpu_to_be16(cmd);
				2600	p.head.h95.length =
				2601	cpu_to_be32(sizeof(p) - sizeof(struct p_header80) + dgs + e->size);
				2602	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2603
				2604	p.sector = cpu_to_be64(e->sector);
				2605	p.block_id = e->block_id;
				2606	/* p.seq_num = 0; No sequence numbers here.. */
				2607
				2608	/* Only called by our kernel thread.
				2609	* This one may be interrupted by DRBD_SIG and/or DRBD_SIGKILL
				2610	* in response to admin command or module unload.
				2611	*/
				2612	if (!drbd_get_data_sock(mdev))
				2613	return 0;
				2614
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	2615	ok = sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2616	if (ok && dgs) {
				2617	dgb = mdev->int_dig_out;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2618	drbd_csum_ee(mdev, mdev->integrity_w_tfm, e, dgb);
Lars Ellenberg	ba11ad9	2010-05-25 16:26:16 +0200	[diff] [blame]	2619	ok = drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2620	}
				2621	if (ok)
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	2622	ok = _drbd_send_zc_ee(mdev, e);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2623
				2624	drbd_put_data_sock(mdev);
Philipp Reisner	bd26bfc5	2010-05-04 12:33:58 +0200	[diff] [blame]	2625
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2626	return ok;
				2627	}
				2628
				2629	/*
				2630	drbd_send distinguishes two cases:
				2631
				2632	Packets sent via the data socket "sock"
				2633	and packets sent via the meta data socket "msock"
				2634
				2635	sock msock
				2636	-----------------+-------------------------+------------------------------
				2637	timeout conf.timeout / 2 conf.timeout / 2
				2638	timeout action send a ping via msock Abort communication
				2639	and close all sockets
				2640	*/
				2641
				2642	/*
				2643	* you must have down()ed the appropriate [m]sock_mutex elsewhere!
				2644	*/
				2645	int drbd_send(struct drbd_conf mdev, struct socket sock,
				2646	void *buf, size_t size, unsigned msg_flags)
				2647	{
				2648	struct kvec iov;
				2649	struct msghdr msg;
				2650	int rv, sent = 0;
				2651
				2652	if (!sock)
				2653	return -1000;
				2654
				2655	/* THINK if (signal_pending) return ... ? */
				2656
				2657	iov.iov_base = buf;
				2658	iov.iov_len = size;
				2659
				2660	msg.msg_name = NULL;
				2661	msg.msg_namelen = 0;
				2662	msg.msg_control = NULL;
				2663	msg.msg_controllen = 0;
				2664	msg.msg_flags = msg_flags \| MSG_NOSIGNAL;
				2665
				2666	if (sock == mdev->data.socket) {
				2667	mdev->ko_count = mdev->net_conf->ko_count;
				2668	drbd_update_congested(mdev);
				2669	}
				2670	do {
				2671	/* STRANGE
				2672	* tcp_sendmsg does _not_ use its size parameter at all ?
				2673	*
				2674	* -EAGAIN on timeout, -EINTR on signal.
				2675	*/
				2676	/* THINK
				2677	* do we need to block DRBD_SIG if sock == &meta.socket ??
				2678	* otherwise wake_asender() might interrupt some send_*Ack !
				2679	*/
				2680	rv = kernel_sendmsg(sock, &msg, &iov, 1, size);
				2681	if (rv == -EAGAIN) {
				2682	if (we_should_drop_the_connection(mdev, sock))
				2683	break;
				2684	else
				2685	continue;
				2686	}
				2687	D_ASSERT(rv != 0);
				2688	if (rv == -EINTR) {
				2689	flush_signals(current);
				2690	rv = 0;
				2691	}
				2692	if (rv < 0)
				2693	break;
				2694	sent += rv;
				2695	iov.iov_base += rv;
				2696	iov.iov_len -= rv;
				2697	} while (sent < size);
				2698
				2699	if (sock == mdev->data.socket)
				2700	clear_bit(NET_CONGESTED, &mdev->flags);
				2701
				2702	if (rv <= 0) {
				2703	if (rv != -EAGAIN) {
				2704	dev_err(DEV, "%s_sendmsg returned %d\n",
				2705	sock == mdev->meta.socket ? "msock" : "sock",
				2706	rv);
				2707	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				2708	} else
				2709	drbd_force_state(mdev, NS(conn, C_TIMEOUT));
				2710	}
				2711
				2712	return sent;
				2713	}
				2714
				2715	static int drbd_open(struct block_device *bdev, fmode_t mode)
				2716	{
				2717	struct drbd_conf *mdev = bdev->bd_disk->private_data;
				2718	unsigned long flags;
				2719	int rv = 0;
				2720
Arnd Bergmann	2a48fc0	2010-06-02 14:28:52 +0200	[diff] [blame]	2721	mutex_lock(&drbd_main_mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2722	spin_lock_irqsave(&mdev->req_lock, flags);
				2723	/* to have a stable mdev->state.role
				2724	* and no race with updating open_cnt */
				2725
				2726	if (mdev->state.role != R_PRIMARY) {
				2727	if (mode & FMODE_WRITE)
				2728	rv = -EROFS;
				2729	else if (!allow_oos)
				2730	rv = -EMEDIUMTYPE;
				2731	}
				2732
				2733	if (!rv)
				2734	mdev->open_cnt++;
				2735	spin_unlock_irqrestore(&mdev->req_lock, flags);
Arnd Bergmann	2a48fc0	2010-06-02 14:28:52 +0200	[diff] [blame]	2736	mutex_unlock(&drbd_main_mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2737
				2738	return rv;
				2739	}
				2740
				2741	static int drbd_release(struct gendisk *gd, fmode_t mode)
				2742	{
				2743	struct drbd_conf *mdev = gd->private_data;
Arnd Bergmann	2a48fc0	2010-06-02 14:28:52 +0200	[diff] [blame]	2744	mutex_lock(&drbd_main_mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2745	mdev->open_cnt--;
Arnd Bergmann	2a48fc0	2010-06-02 14:28:52 +0200	[diff] [blame]	2746	mutex_unlock(&drbd_main_mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2747	return 0;
				2748	}
				2749
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2750	static void drbd_set_defaults(struct drbd_conf *mdev)
				2751	{
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2752	/* This way we get a compile error when sync_conf grows,
				2753	and we forgot to initialize it here */
				2754	mdev->sync_conf = (struct syncer_conf) {
				2755	/* .rate = */ DRBD_RATE_DEF,
				2756	/* .after = */ DRBD_AFTER_DEF,
				2757	/* .al_extents = */ DRBD_AL_EXTENTS_DEF,
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2758	/* .verify_alg = */ {}, 0,
				2759	/* .cpu_mask = */ {}, 0,
				2760	/* .csums_alg = */ {}, 0,
Philipp Reisner	e756414	2010-06-29 17:35:34 +0200	[diff] [blame]	2761	/* .use_rle = */ 0,
Philipp Reisner	9a31d71	2010-07-05 13:42:03 +0200	[diff] [blame]	2762	/* .on_no_data = */ DRBD_ON_NO_DATA_DEF,
				2763	/* .c_plan_ahead = */ DRBD_C_PLAN_AHEAD_DEF,
				2764	/* .c_delay_target = */ DRBD_C_DELAY_TARGET_DEF,
				2765	/* .c_fill_target = */ DRBD_C_FILL_TARGET_DEF,
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2766	/* .c_max_rate = */ DRBD_C_MAX_RATE_DEF,
				2767	/* .c_min_rate = */ DRBD_C_MIN_RATE_DEF
Philipp Reisner	85f4cc1	2010-06-29 17:35:34 +0200	[diff] [blame]	2768	};
				2769
				2770	/* Have to use that way, because the layout differs between
				2771	big endian and little endian */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2772	mdev->state = (union drbd_state) {
				2773	{ .role = R_SECONDARY,
				2774	.peer = R_UNKNOWN,
				2775	.conn = C_STANDALONE,
				2776	.disk = D_DISKLESS,
				2777	.pdsk = D_UNKNOWN,
Philipp Reisner	fb22c40	2010-09-08 23:20:21 +0200	[diff] [blame]	2778	.susp = 0,
				2779	.susp_nod = 0,
				2780	.susp_fen = 0
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2781	} };
				2782	}
				2783
				2784	void drbd_init_set_defaults(struct drbd_conf *mdev)
				2785	{
				2786	/* the memset(,0,) did most of this.
				2787	* note: only assignments, no allocation in here */
				2788
				2789	drbd_set_defaults(mdev);
				2790
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2791	atomic_set(&mdev->ap_bio_cnt, 0);
				2792	atomic_set(&mdev->ap_pending_cnt, 0);
				2793	atomic_set(&mdev->rs_pending_cnt, 0);
				2794	atomic_set(&mdev->unacked_cnt, 0);
				2795	atomic_set(&mdev->local_cnt, 0);
				2796	atomic_set(&mdev->net_cnt, 0);
				2797	atomic_set(&mdev->packet_seq, 0);
				2798	atomic_set(&mdev->pp_in_use, 0);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	2799	atomic_set(&mdev->pp_in_use_by_net, 0);
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	2800	atomic_set(&mdev->rs_sect_in, 0);
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2801	atomic_set(&mdev->rs_sect_ev, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2802
				2803	mutex_init(&mdev->md_io_mutex);
				2804	mutex_init(&mdev->data.mutex);
				2805	mutex_init(&mdev->meta.mutex);
				2806	sema_init(&mdev->data.work.s, 0);
				2807	sema_init(&mdev->meta.work.s, 0);
				2808	mutex_init(&mdev->state_mutex);
				2809
				2810	spin_lock_init(&mdev->data.work.q_lock);
				2811	spin_lock_init(&mdev->meta.work.q_lock);
				2812
				2813	spin_lock_init(&mdev->al_lock);
				2814	spin_lock_init(&mdev->req_lock);
				2815	spin_lock_init(&mdev->peer_seq_lock);
				2816	spin_lock_init(&mdev->epoch_lock);
				2817
				2818	INIT_LIST_HEAD(&mdev->active_ee);
				2819	INIT_LIST_HEAD(&mdev->sync_ee);
				2820	INIT_LIST_HEAD(&mdev->done_ee);
				2821	INIT_LIST_HEAD(&mdev->read_ee);
				2822	INIT_LIST_HEAD(&mdev->net_ee);
				2823	INIT_LIST_HEAD(&mdev->resync_reads);
				2824	INIT_LIST_HEAD(&mdev->data.work.q);
				2825	INIT_LIST_HEAD(&mdev->meta.work.q);
				2826	INIT_LIST_HEAD(&mdev->resync_work.list);
				2827	INIT_LIST_HEAD(&mdev->unplug_work.list);
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	2828	INIT_LIST_HEAD(&mdev->go_diskless.list);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2829	INIT_LIST_HEAD(&mdev->md_sync_work.list);
				2830	INIT_LIST_HEAD(&mdev->bm_io_work.w.list);
Philipp Reisner	0ced55a	2010-04-30 15:26:20 +0200	[diff] [blame]	2831
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2832	mdev->resync_work.cb = w_resync_inactive;
				2833	mdev->unplug_work.cb = w_send_write_hint;
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	2834	mdev->go_diskless.cb = w_go_diskless;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2835	mdev->md_sync_work.cb = w_md_sync;
				2836	mdev->bm_io_work.w.cb = w_bitmap_io;
				2837	init_timer(&mdev->resync_timer);
				2838	init_timer(&mdev->md_sync_timer);
				2839	mdev->resync_timer.function = resync_timer_fn;
				2840	mdev->resync_timer.data = (unsigned long) mdev;
				2841	mdev->md_sync_timer.function = md_sync_timer_fn;
				2842	mdev->md_sync_timer.data = (unsigned long) mdev;
				2843
				2844	init_waitqueue_head(&mdev->misc_wait);
				2845	init_waitqueue_head(&mdev->state_wait);
Philipp Reisner	84dfb9f	2010-06-23 11:20:05 +0200	[diff] [blame]	2846	init_waitqueue_head(&mdev->net_cnt_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2847	init_waitqueue_head(&mdev->ee_wait);
				2848	init_waitqueue_head(&mdev->al_wait);
				2849	init_waitqueue_head(&mdev->seq_wait);
				2850
				2851	drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
				2852	drbd_thread_init(mdev, &mdev->worker, drbd_worker);
				2853	drbd_thread_init(mdev, &mdev->asender, drbd_asender);
				2854
				2855	mdev->agreed_pro_version = PRO_VERSION_MAX;
Philipp Reisner	2451fc3	2010-08-24 13:43:11 +0200	[diff] [blame]	2856	mdev->write_ordering = WO_bdev_flush;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2857	mdev->resync_wenr = LC_FREE;
				2858	}
				2859
				2860	void drbd_mdev_cleanup(struct drbd_conf *mdev)
				2861	{
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2862	int i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2863	if (mdev->receiver.t_state != None)
				2864	dev_err(DEV, "ASSERT FAILED: receiver t_state == %d expected 0.\n",
				2865	mdev->receiver.t_state);
				2866
				2867	/* no need to lock it, I'm the only thread alive */
				2868	if (atomic_read(&mdev->current_epoch->epoch_size) != 0)
				2869	dev_err(DEV, "epoch_size:%d\n", atomic_read(&mdev->current_epoch->epoch_size));
				2870	mdev->al_writ_cnt =
				2871	mdev->bm_writ_cnt =
				2872	mdev->read_cnt =
				2873	mdev->recv_cnt =
				2874	mdev->send_cnt =
				2875	mdev->writ_cnt =
				2876	mdev->p_size =
				2877	mdev->rs_start =
				2878	mdev->rs_total =
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2879	mdev->rs_failed = 0;
				2880	mdev->rs_last_events = 0;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	2881	mdev->rs_last_sect_ev = 0;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	2882	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				2883	mdev->rs_mark_left[i] = 0;
				2884	mdev->rs_mark_time[i] = 0;
				2885	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2886	D_ASSERT(mdev->net_conf == NULL);
				2887
				2888	drbd_set_my_capacity(mdev, 0);
				2889	if (mdev->bitmap) {
				2890	/* maybe never allocated. */
Philipp Reisner	02d9a94	2010-03-24 16:23:03 +0100	[diff] [blame]	2891	drbd_bm_resize(mdev, 0, 1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2892	drbd_bm_cleanup(mdev);
				2893	}
				2894
				2895	drbd_free_resources(mdev);
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	2896	clear_bit(AL_SUSPENDED, &mdev->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2897
				2898	/*
				2899	* currently we drbd_init_ee only on module load, so
				2900	* we may do drbd_release_ee only on module unload!
				2901	*/
				2902	D_ASSERT(list_empty(&mdev->active_ee));
				2903	D_ASSERT(list_empty(&mdev->sync_ee));
				2904	D_ASSERT(list_empty(&mdev->done_ee));
				2905	D_ASSERT(list_empty(&mdev->read_ee));
				2906	D_ASSERT(list_empty(&mdev->net_ee));
				2907	D_ASSERT(list_empty(&mdev->resync_reads));
				2908	D_ASSERT(list_empty(&mdev->data.work.q));
				2909	D_ASSERT(list_empty(&mdev->meta.work.q));
				2910	D_ASSERT(list_empty(&mdev->resync_work.list));
				2911	D_ASSERT(list_empty(&mdev->unplug_work.list));
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	2912	D_ASSERT(list_empty(&mdev->go_diskless.list));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2913	}
				2914
				2915
				2916	static void drbd_destroy_mempools(void)
				2917	{
				2918	struct page *page;
				2919
				2920	while (drbd_pp_pool) {
				2921	page = drbd_pp_pool;
				2922	drbd_pp_pool = (struct page *)page_private(page);
				2923	__free_page(page);
				2924	drbd_pp_vacant--;
				2925	}
				2926
				2927	/* D_ASSERT(atomic_read(&drbd_pp_vacant)==0); */
				2928
				2929	if (drbd_ee_mempool)
				2930	mempool_destroy(drbd_ee_mempool);
				2931	if (drbd_request_mempool)
				2932	mempool_destroy(drbd_request_mempool);
				2933	if (drbd_ee_cache)
				2934	kmem_cache_destroy(drbd_ee_cache);
				2935	if (drbd_request_cache)
				2936	kmem_cache_destroy(drbd_request_cache);
				2937	if (drbd_bm_ext_cache)
				2938	kmem_cache_destroy(drbd_bm_ext_cache);
				2939	if (drbd_al_ext_cache)
				2940	kmem_cache_destroy(drbd_al_ext_cache);
				2941
				2942	drbd_ee_mempool = NULL;
				2943	drbd_request_mempool = NULL;
				2944	drbd_ee_cache = NULL;
				2945	drbd_request_cache = NULL;
				2946	drbd_bm_ext_cache = NULL;
				2947	drbd_al_ext_cache = NULL;
				2948
				2949	return;
				2950	}
				2951
				2952	static int drbd_create_mempools(void)
				2953	{
				2954	struct page *page;
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame^]	2955	const int number = (DRBD_MAX_BIO_SIZE/PAGE_SIZE) * minor_count;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2956	int i;
				2957
				2958	/* prepare our caches and mempools */
				2959	drbd_request_mempool = NULL;
				2960	drbd_ee_cache = NULL;
				2961	drbd_request_cache = NULL;
				2962	drbd_bm_ext_cache = NULL;
				2963	drbd_al_ext_cache = NULL;
				2964	drbd_pp_pool = NULL;
				2965
				2966	/* caches */
				2967	drbd_request_cache = kmem_cache_create(
				2968	"drbd_req", sizeof(struct drbd_request), 0, 0, NULL);
				2969	if (drbd_request_cache == NULL)
				2970	goto Enomem;
				2971
				2972	drbd_ee_cache = kmem_cache_create(
				2973	"drbd_ee", sizeof(struct drbd_epoch_entry), 0, 0, NULL);
				2974	if (drbd_ee_cache == NULL)
				2975	goto Enomem;
				2976
				2977	drbd_bm_ext_cache = kmem_cache_create(
				2978	"drbd_bm", sizeof(struct bm_extent), 0, 0, NULL);
				2979	if (drbd_bm_ext_cache == NULL)
				2980	goto Enomem;
				2981
				2982	drbd_al_ext_cache = kmem_cache_create(
				2983	"drbd_al", sizeof(struct lc_element), 0, 0, NULL);
				2984	if (drbd_al_ext_cache == NULL)
				2985	goto Enomem;
				2986
				2987	/* mempools */
				2988	drbd_request_mempool = mempool_create(number,
				2989	mempool_alloc_slab, mempool_free_slab, drbd_request_cache);
				2990	if (drbd_request_mempool == NULL)
				2991	goto Enomem;
				2992
				2993	drbd_ee_mempool = mempool_create(number,
				2994	mempool_alloc_slab, mempool_free_slab, drbd_ee_cache);
Nicolas Kaiser	2027ae1	2010-10-28 06:15:26 -0600	[diff] [blame]	2995	if (drbd_ee_mempool == NULL)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2996	goto Enomem;
				2997
				2998	/* drbd's page pool */
				2999	spin_lock_init(&drbd_pp_lock);
				3000
				3001	for (i = 0; i < number; i++) {
				3002	page = alloc_page(GFP_HIGHUSER);
				3003	if (!page)
				3004	goto Enomem;
				3005	set_page_private(page, (unsigned long)drbd_pp_pool);
				3006	drbd_pp_pool = page;
				3007	}
				3008	drbd_pp_vacant = number;
				3009
				3010	return 0;
				3011
				3012	Enomem:
				3013	drbd_destroy_mempools(); /* in case we allocated some */
				3014	return -ENOMEM;
				3015	}
				3016
				3017	static int drbd_notify_sys(struct notifier_block *this, unsigned long code,
				3018	void *unused)
				3019	{
				3020	/* just so we have it. you never know what interesting things we
				3021	* might want to do here some day...
				3022	*/
				3023
				3024	return NOTIFY_DONE;
				3025	}
				3026
				3027	static struct notifier_block drbd_notifier = {
				3028	.notifier_call = drbd_notify_sys,
				3029	};
				3030
				3031	static void drbd_release_ee_lists(struct drbd_conf *mdev)
				3032	{
				3033	int rr;
				3034
				3035	rr = drbd_release_ee(mdev, &mdev->active_ee);
				3036	if (rr)
				3037	dev_err(DEV, "%d EEs in active list found!\n", rr);
				3038
				3039	rr = drbd_release_ee(mdev, &mdev->sync_ee);
				3040	if (rr)
				3041	dev_err(DEV, "%d EEs in sync list found!\n", rr);
				3042
				3043	rr = drbd_release_ee(mdev, &mdev->read_ee);
				3044	if (rr)
				3045	dev_err(DEV, "%d EEs in read list found!\n", rr);
				3046
				3047	rr = drbd_release_ee(mdev, &mdev->done_ee);
				3048	if (rr)
				3049	dev_err(DEV, "%d EEs in done list found!\n", rr);
				3050
				3051	rr = drbd_release_ee(mdev, &mdev->net_ee);
				3052	if (rr)
				3053	dev_err(DEV, "%d EEs in net list found!\n", rr);
				3054	}
				3055
				3056	/* caution. no locking.
				3057	* currently only used from module cleanup code. */
				3058	static void drbd_delete_device(unsigned int minor)
				3059	{
				3060	struct drbd_conf *mdev = minor_to_mdev(minor);
				3061
				3062	if (!mdev)
				3063	return;
				3064
				3065	/* paranoia asserts */
				3066	if (mdev->open_cnt != 0)
				3067	dev_err(DEV, "open_cnt = %d in %s:%u", mdev->open_cnt,
				3068	__FILE__ , __LINE__);
				3069
				3070	ERR_IF (!list_empty(&mdev->data.work.q)) {
				3071	struct list_head *lp;
				3072	list_for_each(lp, &mdev->data.work.q) {
				3073	dev_err(DEV, "lp = %p\n", lp);
				3074	}
				3075	};
				3076	/* end paranoia asserts */
				3077
				3078	del_gendisk(mdev->vdisk);
				3079
				3080	/* cleanup stuff that may have been allocated during
				3081	* device (re-)configuration or state changes */
				3082
				3083	if (mdev->this_bdev)
				3084	bdput(mdev->this_bdev);
				3085
				3086	drbd_free_resources(mdev);
				3087
				3088	drbd_release_ee_lists(mdev);
				3089
				3090	/* should be free'd on disconnect? */
				3091	kfree(mdev->ee_hash);
				3092	/*
				3093	mdev->ee_hash_s = 0;
				3094	mdev->ee_hash = NULL;
				3095	*/
				3096
				3097	lc_destroy(mdev->act_log);
				3098	lc_destroy(mdev->resync);
				3099
				3100	kfree(mdev->p_uuid);
				3101	/* mdev->p_uuid = NULL; */
				3102
				3103	kfree(mdev->int_dig_out);
				3104	kfree(mdev->int_dig_in);
				3105	kfree(mdev->int_dig_vv);
				3106
				3107	/* cleanup the rest that has been
				3108	* allocated from drbd_new_device
				3109	* and actually free the mdev itself */
				3110	drbd_free_mdev(mdev);
				3111	}
				3112
				3113	static void drbd_cleanup(void)
				3114	{
				3115	unsigned int i;
				3116
				3117	unregister_reboot_notifier(&drbd_notifier);
				3118
				3119	drbd_nl_cleanup();
				3120
				3121	if (minor_table) {
				3122	if (drbd_proc)
				3123	remove_proc_entry("drbd", NULL);
				3124	i = minor_count;
				3125	while (i--)
				3126	drbd_delete_device(i);
				3127	drbd_destroy_mempools();
				3128	}
				3129
				3130	kfree(minor_table);
				3131
				3132	unregister_blkdev(DRBD_MAJOR, "drbd");
				3133
				3134	printk(KERN_INFO "drbd: module cleanup done.\n");
				3135	}
				3136
				3137	/**
				3138	* drbd_congested() - Callback for pdflush
				3139	* @congested_data: User data
				3140	* @bdi_bits: Bits pdflush is currently interested in
				3141	*
				3142	* Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
				3143	*/
				3144	static int drbd_congested(void *congested_data, int bdi_bits)
				3145	{
				3146	struct drbd_conf *mdev = congested_data;
				3147	struct request_queue *q;
				3148	char reason = '-';
				3149	int r = 0;
				3150
				3151	if (!__inc_ap_bio_cond(mdev)) {
				3152	/* DRBD has frozen IO */
				3153	r = bdi_bits;
				3154	reason = 'd';
				3155	goto out;
				3156	}
				3157
				3158	if (get_ldev(mdev)) {
				3159	q = bdev_get_queue(mdev->ldev->backing_bdev);
				3160	r = bdi_congested(&q->backing_dev_info, bdi_bits);
				3161	put_ldev(mdev);
				3162	if (r)
				3163	reason = 'b';
				3164	}
				3165
				3166	if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
				3167	r \|= (1 << BDI_async_congested);
				3168	reason = reason == 'b' ? 'a' : 'n';
				3169	}
				3170
				3171	out:
				3172	mdev->congestion_reason = reason;
				3173	return r;
				3174	}
				3175
				3176	struct drbd_conf *drbd_new_device(unsigned int minor)
				3177	{
				3178	struct drbd_conf *mdev;
				3179	struct gendisk *disk;
				3180	struct request_queue *q;
				3181
				3182	/* GFP_KERNEL, we are outside of all write-out paths */
				3183	mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
				3184	if (!mdev)
				3185	return NULL;
				3186	if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
				3187	goto out_no_cpumask;
				3188
				3189	mdev->minor = minor;
				3190
				3191	drbd_init_set_defaults(mdev);
				3192
				3193	q = blk_alloc_queue(GFP_KERNEL);
				3194	if (!q)
				3195	goto out_no_q;
				3196	mdev->rq_queue = q;
				3197	q->queuedata = mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3198
				3199	disk = alloc_disk(1);
				3200	if (!disk)
				3201	goto out_no_disk;
				3202	mdev->vdisk = disk;
				3203
				3204	set_disk_ro(disk, TRUE);
				3205
				3206	disk->queue = q;
				3207	disk->major = DRBD_MAJOR;
				3208	disk->first_minor = minor;
				3209	disk->fops = &drbd_ops;
				3210	sprintf(disk->disk_name, "drbd%d", minor);
				3211	disk->private_data = mdev;
				3212
				3213	mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
				3214	/* we have no partitions. we contain only ourselves. */
				3215	mdev->this_bdev->bd_contains = mdev->this_bdev;
				3216
				3217	q->backing_dev_info.congested_fn = drbd_congested;
				3218	q->backing_dev_info.congested_data = mdev;
				3219
				3220	blk_queue_make_request(q, drbd_make_request_26);
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame^]	3221	blk_queue_max_hw_sectors(q, DRBD_MAX_BIO_SIZE >> 9);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3222	blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
				3223	blk_queue_merge_bvec(q, drbd_merge_bvec);
Jens Axboe	7eaceac	2011-03-10 08:52:07 +0100	[diff] [blame]	3224	q->queue_lock = &mdev->req_lock;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3225
				3226	mdev->md_io_page = alloc_page(GFP_KERNEL);
				3227	if (!mdev->md_io_page)
				3228	goto out_no_io_page;
				3229
				3230	if (drbd_bm_init(mdev))
				3231	goto out_no_bitmap;
				3232	/* no need to lock access, we are still initializing this minor device. */
				3233	if (!tl_init(mdev))
				3234	goto out_no_tl;
				3235
				3236	mdev->app_reads_hash = kzalloc(APP_R_HSIZEsizeof(void ), GFP_KERNEL);
				3237	if (!mdev->app_reads_hash)
				3238	goto out_no_app_reads;
				3239
				3240	mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
				3241	if (!mdev->current_epoch)
				3242	goto out_no_epoch;
				3243
				3244	INIT_LIST_HEAD(&mdev->current_epoch->list);
				3245	mdev->epochs = 1;
				3246
				3247	return mdev;
				3248
				3249	/* out_whatever_else:
				3250	kfree(mdev->current_epoch); */
				3251	out_no_epoch:
				3252	kfree(mdev->app_reads_hash);
				3253	out_no_app_reads:
				3254	tl_cleanup(mdev);
				3255	out_no_tl:
				3256	drbd_bm_cleanup(mdev);
				3257	out_no_bitmap:
				3258	__free_page(mdev->md_io_page);
				3259	out_no_io_page:
				3260	put_disk(disk);
				3261	out_no_disk:
				3262	blk_cleanup_queue(q);
				3263	out_no_q:
				3264	free_cpumask_var(mdev->cpu_mask);
				3265	out_no_cpumask:
				3266	kfree(mdev);
				3267	return NULL;
				3268	}
				3269
				3270	/* counterpart of drbd_new_device.
				3271	* last part of drbd_delete_device. */
				3272	void drbd_free_mdev(struct drbd_conf *mdev)
				3273	{
				3274	kfree(mdev->current_epoch);
				3275	kfree(mdev->app_reads_hash);
				3276	tl_cleanup(mdev);
				3277	if (mdev->bitmap) /* should no longer be there. */
				3278	drbd_bm_cleanup(mdev);
				3279	__free_page(mdev->md_io_page);
				3280	put_disk(mdev->vdisk);
				3281	blk_cleanup_queue(mdev->rq_queue);
				3282	free_cpumask_var(mdev->cpu_mask);
				3283	kfree(mdev);
				3284	}
				3285
				3286
				3287	int __init drbd_init(void)
				3288	{
				3289	int err;
				3290
				3291	if (sizeof(struct p_handshake) != 80) {
				3292	printk(KERN_ERR
				3293	"drbd: never change the size or layout "
				3294	"of the HandShake packet.\n");
				3295	return -EINVAL;
				3296	}
				3297
				3298	if (1 > minor_count \|\| minor_count > 255) {
				3299	printk(KERN_ERR
				3300	"drbd: invalid minor_count (%d)\n", minor_count);
				3301	#ifdef MODULE
				3302	return -EINVAL;
				3303	#else
				3304	minor_count = 8;
				3305	#endif
				3306	}
				3307
				3308	err = drbd_nl_init();
				3309	if (err)
				3310	return err;
				3311
				3312	err = register_blkdev(DRBD_MAJOR, "drbd");
				3313	if (err) {
				3314	printk(KERN_ERR
				3315	"drbd: unable to register block device major %d\n",
				3316	DRBD_MAJOR);
				3317	return err;
				3318	}
				3319
				3320	register_reboot_notifier(&drbd_notifier);
				3321
				3322	/*
				3323	* allocate all necessary structs
				3324	*/
				3325	err = -ENOMEM;
				3326
				3327	init_waitqueue_head(&drbd_pp_wait);
				3328
				3329	drbd_proc = NULL; /* play safe for drbd_cleanup */
				3330	minor_table = kzalloc(sizeof(struct drbd_conf )minor_count,
				3331	GFP_KERNEL);
				3332	if (!minor_table)
				3333	goto Enomem;
				3334
				3335	err = drbd_create_mempools();
				3336	if (err)
				3337	goto Enomem;
				3338
Lars Ellenberg	8c484ee	2010-03-11 16:47:58 +0100	[diff] [blame]	3339	drbd_proc = proc_create_data("drbd", S_IFREG \| S_IRUGO , NULL, &drbd_proc_fops, NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3340	if (!drbd_proc) {
				3341	printk(KERN_ERR "drbd: unable to register proc file\n");
				3342	goto Enomem;
				3343	}
				3344
				3345	rwlock_init(&global_state_lock);
				3346
				3347	printk(KERN_INFO "drbd: initialized. "
				3348	"Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
				3349	API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
				3350	printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
				3351	printk(KERN_INFO "drbd: registered as block device major %d\n",
				3352	DRBD_MAJOR);
				3353	printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);
				3354
				3355	return 0; /* Success! */
				3356
				3357	Enomem:
				3358	drbd_cleanup();
				3359	if (err == -ENOMEM)
				3360	/* currently always the case */
				3361	printk(KERN_ERR "drbd: ran out of memory\n");
				3362	else
				3363	printk(KERN_ERR "drbd: initialization failure\n");
				3364	return err;
				3365	}
				3366
				3367	void drbd_free_bc(struct drbd_backing_dev *ldev)
				3368	{
				3369	if (ldev == NULL)
				3370	return;
				3371
Tejun Heo	e525fd8	2010-11-13 11:55:17 +0100	[diff] [blame]	3372	blkdev_put(ldev->backing_bdev, FMODE_READ \| FMODE_WRITE \| FMODE_EXCL);
				3373	blkdev_put(ldev->md_bdev, FMODE_READ \| FMODE_WRITE \| FMODE_EXCL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3374
				3375	kfree(ldev);
				3376	}
				3377
				3378	void drbd_free_sock(struct drbd_conf *mdev)
				3379	{
				3380	if (mdev->data.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3381	mutex_lock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3382	kernel_sock_shutdown(mdev->data.socket, SHUT_RDWR);
				3383	sock_release(mdev->data.socket);
				3384	mdev->data.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3385	mutex_unlock(&mdev->data.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3386	}
				3387	if (mdev->meta.socket) {
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3388	mutex_lock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3389	kernel_sock_shutdown(mdev->meta.socket, SHUT_RDWR);
				3390	sock_release(mdev->meta.socket);
				3391	mdev->meta.socket = NULL;
Lars Ellenberg	4589d7f	2010-03-03 02:25:33 +0100	[diff] [blame]	3392	mutex_unlock(&mdev->meta.mutex);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3393	}
				3394	}
				3395
				3396
				3397	void drbd_free_resources(struct drbd_conf *mdev)
				3398	{
				3399	crypto_free_hash(mdev->csums_tfm);
				3400	mdev->csums_tfm = NULL;
				3401	crypto_free_hash(mdev->verify_tfm);
				3402	mdev->verify_tfm = NULL;
				3403	crypto_free_hash(mdev->cram_hmac_tfm);
				3404	mdev->cram_hmac_tfm = NULL;
				3405	crypto_free_hash(mdev->integrity_w_tfm);
				3406	mdev->integrity_w_tfm = NULL;
				3407	crypto_free_hash(mdev->integrity_r_tfm);
				3408	mdev->integrity_r_tfm = NULL;
				3409
				3410	drbd_free_sock(mdev);
				3411
				3412	__no_warn(local,
				3413	drbd_free_bc(mdev->ldev);
				3414	mdev->ldev = NULL;);
				3415	}
				3416
				3417	/* meta data management */
				3418
				3419	struct meta_data_on_disk {
				3420	u64 la_size; /* last agreed size. */
				3421	u64 uuid[UI_SIZE]; /* UUIDs. */
				3422	u64 device_uuid;
				3423	u64 reserved_u64_1;
				3424	u32 flags; /* MDF */
				3425	u32 magic;
				3426	u32 md_size_sect;
				3427	u32 al_offset; /* offset to this block */
				3428	u32 al_nr_extents; /* important for restoring the AL */
				3429	/* `-- act_log->nr_elements <-- sync_conf.al_extents */
				3430	u32 bm_offset; /* offset to the bitmap, from here */
				3431	u32 bm_bytes_per_bit; /* BM_BLOCK_SIZE */
				3432	u32 reserved_u32[4];
				3433
				3434	} __packed;
				3435
				3436	/**
				3437	* drbd_md_sync() - Writes the meta data super block if the MD_DIRTY flag bit is set
				3438	* @mdev: DRBD device.
				3439	*/
				3440	void drbd_md_sync(struct drbd_conf *mdev)
				3441	{
				3442	struct meta_data_on_disk *buffer;
				3443	sector_t sector;
				3444	int i;
				3445
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3446	del_timer(&mdev->md_sync_timer);
				3447	/* timer may be rearmed by drbd_md_mark_dirty() now. */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3448	if (!test_and_clear_bit(MD_DIRTY, &mdev->flags))
				3449	return;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3450
				3451	/* We use here D_FAILED and not D_ATTACHING because we try to write
				3452	* metadata even if we detach due to a disk failure! */
				3453	if (!get_ldev_if_state(mdev, D_FAILED))
				3454	return;
				3455
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3456	mutex_lock(&mdev->md_io_mutex);
				3457	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3458	memset(buffer, 0, 512);
				3459
				3460	buffer->la_size = cpu_to_be64(drbd_get_capacity(mdev->this_bdev));
				3461	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3462	buffer->uuid[i] = cpu_to_be64(mdev->ldev->md.uuid[i]);
				3463	buffer->flags = cpu_to_be32(mdev->ldev->md.flags);
				3464	buffer->magic = cpu_to_be32(DRBD_MD_MAGIC);
				3465
				3466	buffer->md_size_sect = cpu_to_be32(mdev->ldev->md.md_size_sect);
				3467	buffer->al_offset = cpu_to_be32(mdev->ldev->md.al_offset);
				3468	buffer->al_nr_extents = cpu_to_be32(mdev->act_log->nr_elements);
				3469	buffer->bm_bytes_per_bit = cpu_to_be32(BM_BLOCK_SIZE);
				3470	buffer->device_uuid = cpu_to_be64(mdev->ldev->md.device_uuid);
				3471
				3472	buffer->bm_offset = cpu_to_be32(mdev->ldev->md.bm_offset);
				3473
				3474	D_ASSERT(drbd_md_ss__(mdev, mdev->ldev) == mdev->ldev->md.md_offset);
				3475	sector = mdev->ldev->md.md_offset;
				3476
Lars Ellenberg	3f3a9b8	2010-09-01 15:12:12 +0200	[diff] [blame]	3477	if (!drbd_md_sync_page_io(mdev, mdev->ldev, sector, WRITE)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3478	/* this was a try anyways ... */
				3479	dev_err(DEV, "meta data update failed!\n");
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3480	drbd_chk_io_error(mdev, 1, TRUE);
				3481	}
				3482
				3483	/* Update mdev->ldev->md.la_size_sect,
				3484	* since we updated it on metadata. */
				3485	mdev->ldev->md.la_size_sect = drbd_get_capacity(mdev->this_bdev);
				3486
				3487	mutex_unlock(&mdev->md_io_mutex);
				3488	put_ldev(mdev);
				3489	}
				3490
				3491	/**
				3492	* drbd_md_read() - Reads in the meta data super block
				3493	* @mdev: DRBD device.
				3494	* @bdev: Device from which the meta data should be read in.
				3495	*
				3496	* Return 0 (NO_ERROR) on success, and an enum drbd_ret_codes in case
				3497	* something goes wrong. Currently only: ERR_IO_MD_DISK, ERR_MD_INVALID.
				3498	*/
				3499	int drbd_md_read(struct drbd_conf mdev, struct drbd_backing_dev bdev)
				3500	{
				3501	struct meta_data_on_disk *buffer;
				3502	int i, rv = NO_ERROR;
				3503
				3504	if (!get_ldev_if_state(mdev, D_ATTACHING))
				3505	return ERR_IO_MD_DISK;
				3506
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3507	mutex_lock(&mdev->md_io_mutex);
				3508	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
				3509
				3510	if (!drbd_md_sync_page_io(mdev, bdev, bdev->md.md_offset, READ)) {
				3511	/* NOTE: cant do normal error processing here as this is
				3512	called BEFORE disk is attached */
				3513	dev_err(DEV, "Error while reading metadata.\n");
				3514	rv = ERR_IO_MD_DISK;
				3515	goto err;
				3516	}
				3517
				3518	if (be32_to_cpu(buffer->magic) != DRBD_MD_MAGIC) {
				3519	dev_err(DEV, "Error while reading metadata, magic not found.\n");
				3520	rv = ERR_MD_INVALID;
				3521	goto err;
				3522	}
				3523	if (be32_to_cpu(buffer->al_offset) != bdev->md.al_offset) {
				3524	dev_err(DEV, "unexpected al_offset: %d (expected %d)\n",
				3525	be32_to_cpu(buffer->al_offset), bdev->md.al_offset);
				3526	rv = ERR_MD_INVALID;
				3527	goto err;
				3528	}
				3529	if (be32_to_cpu(buffer->bm_offset) != bdev->md.bm_offset) {
				3530	dev_err(DEV, "unexpected bm_offset: %d (expected %d)\n",
				3531	be32_to_cpu(buffer->bm_offset), bdev->md.bm_offset);
				3532	rv = ERR_MD_INVALID;
				3533	goto err;
				3534	}
				3535	if (be32_to_cpu(buffer->md_size_sect) != bdev->md.md_size_sect) {
				3536	dev_err(DEV, "unexpected md_size: %u (expected %u)\n",
				3537	be32_to_cpu(buffer->md_size_sect), bdev->md.md_size_sect);
				3538	rv = ERR_MD_INVALID;
				3539	goto err;
				3540	}
				3541
				3542	if (be32_to_cpu(buffer->bm_bytes_per_bit) != BM_BLOCK_SIZE) {
				3543	dev_err(DEV, "unexpected bm_bytes_per_bit: %u (expected %u)\n",
				3544	be32_to_cpu(buffer->bm_bytes_per_bit), BM_BLOCK_SIZE);
				3545	rv = ERR_MD_INVALID;
				3546	goto err;
				3547	}
				3548
				3549	bdev->md.la_size_sect = be64_to_cpu(buffer->la_size);
				3550	for (i = UI_CURRENT; i < UI_SIZE; i++)
				3551	bdev->md.uuid[i] = be64_to_cpu(buffer->uuid[i]);
				3552	bdev->md.flags = be32_to_cpu(buffer->flags);
				3553	mdev->sync_conf.al_extents = be32_to_cpu(buffer->al_nr_extents);
				3554	bdev->md.device_uuid = be64_to_cpu(buffer->device_uuid);
				3555
				3556	if (mdev->sync_conf.al_extents < 7)
				3557	mdev->sync_conf.al_extents = 127;
				3558
				3559	err:
				3560	mutex_unlock(&mdev->md_io_mutex);
				3561	put_ldev(mdev);
				3562
				3563	return rv;
				3564	}
				3565
Lars Ellenberg	ac72412	2010-10-07 15:18:08 +0200	[diff] [blame]	3566	static void debug_drbd_uuid(struct drbd_conf *mdev, enum drbd_uuid_index index)
				3567	{
				3568	static char *uuid_str[UI_EXTENDED_SIZE] = {
				3569	[UI_CURRENT] = "CURRENT",
				3570	[UI_BITMAP] = "BITMAP",
				3571	[UI_HISTORY_START] = "HISTORY_START",
				3572	[UI_HISTORY_END] = "HISTORY_END",
				3573	[UI_SIZE] = "SIZE",
				3574	[UI_FLAGS] = "FLAGS",
				3575	};
				3576
				3577	if (index >= UI_EXTENDED_SIZE) {
				3578	dev_warn(DEV, " uuid_index >= EXTENDED_SIZE\n");
				3579	return;
				3580	}
				3581
				3582	dynamic_dev_dbg(DEV, " uuid[%s] now %016llX\n",
				3583	uuid_str[index],
				3584	(unsigned long long)mdev->ldev->md.uuid[index]);
				3585	}
				3586
				3587
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3588	/**
				3589	* drbd_md_mark_dirty() - Mark meta data super block as dirty
				3590	* @mdev: DRBD device.
				3591	*
				3592	* Call this function if you change anything that should be written to
				3593	* the meta-data super block. This function sets MD_DIRTY, and starts a
				3594	* timer that ensures that within five seconds you have to call drbd_md_sync().
				3595	*/
Lars Ellenberg	ca0e609	2010-10-14 15:01:21 +0200	[diff] [blame]	3596	#ifdef DEBUG
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3597	void drbd_md_mark_dirty_(struct drbd_conf mdev, unsigned int line, const char func)
				3598	{
				3599	if (!test_and_set_bit(MD_DIRTY, &mdev->flags)) {
				3600	mod_timer(&mdev->md_sync_timer, jiffies + HZ);
				3601	mdev->last_md_mark_dirty.line = line;
				3602	mdev->last_md_mark_dirty.func = func;
				3603	}
				3604	}
				3605	#else
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3606	void drbd_md_mark_dirty(struct drbd_conf *mdev)
				3607	{
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3608	if (!test_and_set_bit(MD_DIRTY, &mdev->flags))
Lars Ellenberg	ca0e609	2010-10-14 15:01:21 +0200	[diff] [blame]	3609	mod_timer(&mdev->md_sync_timer, jiffies + 5*HZ);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3610	}
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3611	#endif
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3612
				3613	static void drbd_uuid_move_history(struct drbd_conf *mdev) __must_hold(local)
				3614	{
				3615	int i;
				3616
Lars Ellenberg	ac72412	2010-10-07 15:18:08 +0200	[diff] [blame]	3617	for (i = UI_HISTORY_START; i < UI_HISTORY_END; i++) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3618	mdev->ldev->md.uuid[i+1] = mdev->ldev->md.uuid[i];
Lars Ellenberg	ac72412	2010-10-07 15:18:08 +0200	[diff] [blame]	3619	debug_drbd_uuid(mdev, i+1);
				3620	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3621	}
				3622
				3623	void _drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3624	{
				3625	if (idx == UI_CURRENT) {
				3626	if (mdev->state.role == R_PRIMARY)
				3627	val \|= 1;
				3628	else
				3629	val &= ~((u64)1);
				3630
				3631	drbd_set_ed_uuid(mdev, val);
				3632	}
				3633
				3634	mdev->ldev->md.uuid[idx] = val;
Lars Ellenberg	ac72412	2010-10-07 15:18:08 +0200	[diff] [blame]	3635	debug_drbd_uuid(mdev, idx);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3636	drbd_md_mark_dirty(mdev);
				3637	}
				3638
				3639
				3640	void drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
				3641	{
				3642	if (mdev->ldev->md.uuid[idx]) {
				3643	drbd_uuid_move_history(mdev);
				3644	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[idx];
Lars Ellenberg	ac72412	2010-10-07 15:18:08 +0200	[diff] [blame]	3645	debug_drbd_uuid(mdev, UI_HISTORY_START);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3646	}
				3647	_drbd_uuid_set(mdev, idx, val);
				3648	}
				3649
				3650	/**
				3651	* drbd_uuid_new_current() - Creates a new current UUID
				3652	* @mdev: DRBD device.
				3653	*
				3654	* Creates a new current UUID, and rotates the old current UUID into
				3655	* the bitmap slot. Causes an incremental resync upon next connect.
				3656	*/
				3657	void drbd_uuid_new_current(struct drbd_conf *mdev) __must_hold(local)
				3658	{
				3659	u64 val;
				3660
				3661	dev_info(DEV, "Creating new current UUID\n");
				3662	D_ASSERT(mdev->ldev->md.uuid[UI_BITMAP] == 0);
				3663	mdev->ldev->md.uuid[UI_BITMAP] = mdev->ldev->md.uuid[UI_CURRENT];
Lars Ellenberg	ac72412	2010-10-07 15:18:08 +0200	[diff] [blame]	3664	debug_drbd_uuid(mdev, UI_BITMAP);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3665
				3666	get_random_bytes(&val, sizeof(u64));
				3667	_drbd_uuid_set(mdev, UI_CURRENT, val);
Lars Ellenberg	aaa8e2b	2010-10-15 13:16:53 +0200	[diff] [blame]	3668	/* get it to stable storage _now_ */
				3669	drbd_md_sync(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3670	}
				3671
				3672	void drbd_uuid_set_bm(struct drbd_conf *mdev, u64 val) __must_hold(local)
				3673	{
				3674	if (mdev->ldev->md.uuid[UI_BITMAP] == 0 && val == 0)
				3675	return;
				3676
				3677	if (val == 0) {
				3678	drbd_uuid_move_history(mdev);
				3679	mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[UI_BITMAP];
				3680	mdev->ldev->md.uuid[UI_BITMAP] = 0;
Lars Ellenberg	ac72412	2010-10-07 15:18:08 +0200	[diff] [blame]	3681	debug_drbd_uuid(mdev, UI_HISTORY_START);
				3682	debug_drbd_uuid(mdev, UI_BITMAP);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3683	} else {
				3684	if (mdev->ldev->md.uuid[UI_BITMAP])
				3685	dev_warn(DEV, "bm UUID already set");
				3686
				3687	mdev->ldev->md.uuid[UI_BITMAP] = val;
				3688	mdev->ldev->md.uuid[UI_BITMAP] &= ~((u64)1);
				3689
Lars Ellenberg	ac72412	2010-10-07 15:18:08 +0200	[diff] [blame]	3690	debug_drbd_uuid(mdev, UI_BITMAP);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3691	}
				3692	drbd_md_mark_dirty(mdev);
				3693	}
				3694
				3695	/**
				3696	* drbd_bmio_set_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3697	* @mdev: DRBD device.
				3698	*
				3699	* Sets all bits in the bitmap and writes the whole bitmap to stable storage.
				3700	*/
				3701	int drbd_bmio_set_n_write(struct drbd_conf *mdev)
				3702	{
				3703	int rv = -EIO;
				3704
				3705	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3706	drbd_md_set_flag(mdev, MDF_FULL_SYNC);
				3707	drbd_md_sync(mdev);
				3708	drbd_bm_set_all(mdev);
				3709
				3710	rv = drbd_bm_write(mdev);
				3711
				3712	if (!rv) {
				3713	drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
				3714	drbd_md_sync(mdev);
				3715	}
				3716
				3717	put_ldev(mdev);
				3718	}
				3719
				3720	return rv;
				3721	}
				3722
				3723	/**
				3724	* drbd_bmio_clear_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
				3725	* @mdev: DRBD device.
				3726	*
				3727	* Clears all bits in the bitmap and writes the whole bitmap to stable storage.
				3728	*/
				3729	int drbd_bmio_clear_n_write(struct drbd_conf *mdev)
				3730	{
				3731	int rv = -EIO;
				3732
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	3733	drbd_resume_al(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3734	if (get_ldev_if_state(mdev, D_ATTACHING)) {
				3735	drbd_bm_clear_all(mdev);
				3736	rv = drbd_bm_write(mdev);
				3737	put_ldev(mdev);
				3738	}
				3739
				3740	return rv;
				3741	}
				3742
				3743	static int w_bitmap_io(struct drbd_conf mdev, struct drbd_work w, int unused)
				3744	{
				3745	struct bm_io_work *work = container_of(w, struct bm_io_work, w);
				3746	int rv;
				3747
				3748	D_ASSERT(atomic_read(&mdev->ap_bio_cnt) == 0);
				3749
				3750	drbd_bm_lock(mdev, work->why);
				3751	rv = work->io_fn(mdev);
				3752	drbd_bm_unlock(mdev);
				3753
				3754	clear_bit(BITMAP_IO, &mdev->flags);
				3755	wake_up(&mdev->misc_wait);
				3756
				3757	if (work->done)
				3758	work->done(mdev, rv);
				3759
				3760	clear_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3761	work->why = NULL;
				3762
				3763	return 1;
				3764	}
				3765
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	3766	void drbd_ldev_destroy(struct drbd_conf *mdev)
				3767	{
				3768	lc_destroy(mdev->resync);
				3769	mdev->resync = NULL;
				3770	lc_destroy(mdev->act_log);
				3771	mdev->act_log = NULL;
				3772	__no_warn(local,
				3773	drbd_free_bc(mdev->ldev);
				3774	mdev->ldev = NULL;);
				3775
				3776	if (mdev->md_io_tmpp) {
				3777	__free_page(mdev->md_io_tmpp);
				3778	mdev->md_io_tmpp = NULL;
				3779	}
				3780	clear_bit(GO_DISKLESS, &mdev->flags);
				3781	}
				3782
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	3783	static int w_go_diskless(struct drbd_conf mdev, struct drbd_work w, int unused)
				3784	{
				3785	D_ASSERT(mdev->state.disk == D_FAILED);
Lars Ellenberg	9d28287	2010-10-14 13:57:07 +0200	[diff] [blame]	3786	/* we cannot assert local_cnt == 0 here, as get_ldev_if_state will
				3787	* inc/dec it frequently. Once we are D_DISKLESS, no one will touch
Lars Ellenberg	82f59cc	2010-10-16 12:13:47 +0200	[diff] [blame]	3788	* the protected members anymore, though, so once put_ldev reaches zero
				3789	* again, it will be safe to free them. */
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	3790	drbd_force_state(mdev, NS(disk, D_DISKLESS));
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	3791	return 1;
				3792	}
				3793
				3794	void drbd_go_diskless(struct drbd_conf *mdev)
				3795	{
				3796	D_ASSERT(mdev->state.disk == D_FAILED);
				3797	if (!test_and_set_bit(GO_DISKLESS, &mdev->flags))
Lars Ellenberg	9d28287	2010-10-14 13:57:07 +0200	[diff] [blame]	3798	drbd_queue_work(&mdev->data.work, &mdev->go_diskless);
Lars Ellenberg	e9e6f3e	2010-09-14 20:26:27 +0200	[diff] [blame]	3799	}
				3800
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3801	/**
				3802	* drbd_queue_bitmap_io() - Queues an IO operation on the whole bitmap
				3803	* @mdev: DRBD device.
				3804	* @io_fn: IO callback to be called when bitmap IO is possible
				3805	* @done: callback to be called after the bitmap IO was performed
				3806	* @why: Descriptive text of the reason for doing the IO
				3807	*
				3808	* While IO on the bitmap happens we freeze application IO thus we ensure
				3809	* that drbd_set_out_of_sync() can not be called. This function MAY ONLY be
				3810	* called from worker context. It MUST NOT be used while a previous such
				3811	* work is still pending!
				3812	*/
				3813	void drbd_queue_bitmap_io(struct drbd_conf *mdev,
				3814	int (io_fn)(struct drbd_conf ),
				3815	void (done)(struct drbd_conf , int),
				3816	char *why)
				3817	{
				3818	D_ASSERT(current == mdev->worker.task);
				3819
				3820	D_ASSERT(!test_bit(BITMAP_IO_QUEUED, &mdev->flags));
				3821	D_ASSERT(!test_bit(BITMAP_IO, &mdev->flags));
				3822	D_ASSERT(list_empty(&mdev->bm_io_work.w.list));
				3823	if (mdev->bm_io_work.why)
				3824	dev_err(DEV, "FIXME going to queue '%s' but '%s' still pending?\n",
				3825	why, mdev->bm_io_work.why);
				3826
				3827	mdev->bm_io_work.io_fn = io_fn;
				3828	mdev->bm_io_work.done = done;
				3829	mdev->bm_io_work.why = why;
				3830
				3831	set_bit(BITMAP_IO, &mdev->flags);
				3832	if (atomic_read(&mdev->ap_bio_cnt) == 0) {
				3833	if (list_empty(&mdev->bm_io_work.w.list)) {
				3834	set_bit(BITMAP_IO_QUEUED, &mdev->flags);
				3835	drbd_queue_work(&mdev->data.work, &mdev->bm_io_work.w);
				3836	} else
				3837	dev_err(DEV, "FIXME avoided double queuing bm_io_work\n");
				3838	}
				3839	}
				3840
				3841	/**
				3842	* drbd_bitmap_io() - Does an IO operation on the whole bitmap
				3843	* @mdev: DRBD device.
				3844	* @io_fn: IO callback to be called when bitmap IO is possible
				3845	* @why: Descriptive text of the reason for doing the IO
				3846	*
				3847	* freezes application IO while that the actual IO operations runs. This
				3848	* functions MAY NOT be called from worker context.
				3849	*/
				3850	int drbd_bitmap_io(struct drbd_conf mdev, int (io_fn)(struct drbd_conf ), char why)
				3851	{
				3852	int rv;
				3853
				3854	D_ASSERT(current != mdev->worker.task);
				3855
				3856	drbd_suspend_io(mdev);
				3857
				3858	drbd_bm_lock(mdev, why);
				3859	rv = io_fn(mdev);
				3860	drbd_bm_unlock(mdev);
				3861
				3862	drbd_resume_io(mdev);
				3863
				3864	return rv;
				3865	}
				3866
				3867	void drbd_md_set_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3868	{
				3869	if ((mdev->ldev->md.flags & flag) != flag) {
				3870	drbd_md_mark_dirty(mdev);
				3871	mdev->ldev->md.flags \|= flag;
				3872	}
				3873	}
				3874
				3875	void drbd_md_clear_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
				3876	{
				3877	if ((mdev->ldev->md.flags & flag) != 0) {
				3878	drbd_md_mark_dirty(mdev);
				3879	mdev->ldev->md.flags &= ~flag;
				3880	}
				3881	}
				3882	int drbd_md_test_flag(struct drbd_backing_dev *bdev, int flag)
				3883	{
				3884	return (bdev->md.flags & flag) != 0;
				3885	}
				3886
				3887	static void md_sync_timer_fn(unsigned long data)
				3888	{
				3889	struct drbd_conf mdev = (struct drbd_conf ) data;
				3890
				3891	drbd_queue_work_front(&mdev->data.work, &mdev->md_sync_work);
				3892	}
				3893
				3894	static int w_md_sync(struct drbd_conf mdev, struct drbd_work w, int unused)
				3895	{
				3896	dev_warn(DEV, "md_sync_timer expired! Worker calls drbd_md_sync().\n");
Lars Ellenberg	ee15b03	2010-09-03 10:00:09 +0200	[diff] [blame]	3897	#ifdef DEBUG
				3898	dev_warn(DEV, "last md_mark_dirty: %s:%u\n",
				3899	mdev->last_md_mark_dirty.func, mdev->last_md_mark_dirty.line);
				3900	#endif
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3901	drbd_md_sync(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3902	return 1;
				3903	}
				3904
				3905	#ifdef CONFIG_DRBD_FAULT_INJECTION
				3906	/* Fault insertion support including random number generator shamelessly
				3907	* stolen from kernel/rcutorture.c */
				3908	struct fault_random_state {
				3909	unsigned long state;
				3910	unsigned long count;
				3911	};
				3912
				3913	#define FAULT_RANDOM_MULT 39916801 /* prime */
				3914	#define FAULT_RANDOM_ADD 479001701 /* prime */
				3915	#define FAULT_RANDOM_REFRESH 10000
				3916
				3917	/*
				3918	* Crude but fast random-number generator. Uses a linear congruential
				3919	* generator, with occasional help from get_random_bytes().
				3920	*/
				3921	static unsigned long
				3922	_drbd_fault_random(struct fault_random_state *rsp)
				3923	{
				3924	long refresh;
				3925
Roel Kluin	49829ea	2009-12-15 22:55:44 +0100	[diff] [blame]	3926	if (!rsp->count--) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3927	get_random_bytes(&refresh, sizeof(refresh));
				3928	rsp->state += refresh;
				3929	rsp->count = FAULT_RANDOM_REFRESH;
				3930	}
				3931	rsp->state = rsp->state * FAULT_RANDOM_MULT + FAULT_RANDOM_ADD;
				3932	return swahw32(rsp->state);
				3933	}
				3934
				3935	static char *
				3936	_drbd_fault_str(unsigned int type) {
				3937	static char *_faults[] = {
				3938	[DRBD_FAULT_MD_WR] = "Meta-data write",
				3939	[DRBD_FAULT_MD_RD] = "Meta-data read",
				3940	[DRBD_FAULT_RS_WR] = "Resync write",
				3941	[DRBD_FAULT_RS_RD] = "Resync read",
				3942	[DRBD_FAULT_DT_WR] = "Data write",
				3943	[DRBD_FAULT_DT_RD] = "Data read",
				3944	[DRBD_FAULT_DT_RA] = "Data read ahead",
				3945	[DRBD_FAULT_BM_ALLOC] = "BM allocation",
Philipp Reisner	6b4388a	2010-04-26 14:11:45 +0200	[diff] [blame]	3946	[DRBD_FAULT_AL_EE] = "EE allocation",
				3947	[DRBD_FAULT_RECEIVE] = "receive data corruption",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3948	};
				3949
				3950	return (type < DRBD_FAULT_MAX) ? _faults[type] : "Unknown";
				3951	}
				3952
				3953	unsigned int
				3954	_drbd_insert_fault(struct drbd_conf *mdev, unsigned int type)
				3955	{
				3956	static struct fault_random_state rrs = {0, 0};
				3957
				3958	unsigned int ret = (
				3959	(fault_devs == 0 \|\|
				3960	((1 << mdev_to_minor(mdev)) & fault_devs) != 0) &&
				3961	(((_drbd_fault_random(&rrs) % 100) + 1) <= fault_rate));
				3962
				3963	if (ret) {
				3964	fault_count++;
				3965
Lars Ellenberg	7383506	2010-05-27 11:51:56 +0200	[diff] [blame]	3966	if (__ratelimit(&drbd_ratelimit_state))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3967	dev_warn(DEV, "***Simulating %s failure\n",
				3968	_drbd_fault_str(type));
				3969	}
				3970
				3971	return ret;
				3972	}
				3973	#endif
				3974
				3975	const char *drbd_buildtag(void)
				3976	{
				3977	/* DRBD built from external sources has here a reference to the
				3978	git hash of the source code. */
				3979
				3980	static char buildtag[38] = "\0uilt-in";
				3981
				3982	if (buildtag[0] == 0) {
				3983	#ifdef CONFIG_MODULES
				3984	if (THIS_MODULE != NULL)
				3985	sprintf(buildtag, "srcversion: %-24s", THIS_MODULE->srcversion);
				3986	else
				3987	#endif
				3988	buildtag[0] = 'b';
				3989	}
				3990
				3991	return buildtag;
				3992	}
				3993
				3994	module_init(drbd_init)
				3995	module_exit(drbd_cleanup)
				3996
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3997	EXPORT_SYMBOL(drbd_conn_str);
				3998	EXPORT_SYMBOL(drbd_role_str);
				3999	EXPORT_SYMBOL(drbd_disk_str);
				4000	EXPORT_SYMBOL(drbd_set_st_err_str);