Blame - drivers/block/drbd/drbd_worker.c - kernel/msm-4.9

blob: 982d68432a0f5bbe97c47fcac9e126ee4fcd6807 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd_worker.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	drbd is free software; you can redistribute it and/or modify
				11	it under the terms of the GNU General Public License as published by
				12	the Free Software Foundation; either version 2, or (at your option)
				13	any later version.
				14
				15	drbd is distributed in the hope that it will be useful,
				16	but WITHOUT ANY WARRANTY; without even the implied warranty of
				17	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				18	GNU General Public License for more details.
				19
				20	You should have received a copy of the GNU General Public License
				21	along with drbd; see the file COPYING. If not, write to
				22	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				23
				24	*/
				25
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	26	#include <linux/module.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	27	#include <linux/drbd.h>
				28	#include <linux/sched.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	29	#include <linux/wait.h>
				30	#include <linux/mm.h>
				31	#include <linux/memcontrol.h>
				32	#include <linux/mm_inline.h>
				33	#include <linux/slab.h>
				34	#include <linux/random.h>
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	35	#include <linux/string.h>
				36	#include <linux/scatterlist.h>
				37
				38	#include "drbd_int.h"
				39	#include "drbd_req.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	40
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	41	static int w_make_ov_request(struct drbd_conf mdev, struct drbd_work w, int cancel);
				42
				43
				44
				45	/* defined here:
				46	drbd_md_io_complete
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	47	drbd_endio_sec
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	48	drbd_endio_pri
				49
				50	* more endio handlers:
				51	atodb_endio in drbd_actlog.c
				52	drbd_bm_async_io_complete in drbd_bitmap.c
				53
				54	* For all these callbacks, note the following:
				55	* The callbacks will be called in irq context by the IDE drivers,
				56	* and in Softirqs/Tasklets/BH context by the SCSI drivers.
				57	* Try to get the locking right :)
				58	*
				59	*/
				60
				61
				62	/* About the global_state_lock
				63	Each state transition on an device holds a read lock. In case we have
				64	to evaluate the sync after dependencies, we grab a write lock, because
				65	we need stable states on all devices for that. */
				66	rwlock_t global_state_lock;
				67
				68	/* used for synchronous meta data and bitmap IO
				69	* submitted by drbd_md_sync_page_io()
				70	*/
				71	void drbd_md_io_complete(struct bio *bio, int error)
				72	{
				73	struct drbd_md_io *md_io;
				74
				75	md_io = (struct drbd_md_io *)bio->bi_private;
				76	md_io->error = error;
				77
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	78	complete(&md_io->event);
				79	}
				80
				81	/* reads on behalf of the partner,
				82	* "submitted" by the receiver
				83	*/
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	84	void drbd_endio_read_sec_final(struct drbd_epoch_entry *e) __releases(local)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	85	{
				86	unsigned long flags = 0;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	87	struct drbd_conf *mdev = e->mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	88
				89	D_ASSERT(e->block_id != ID_VACANT);
				90
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	91	spin_lock_irqsave(&mdev->req_lock, flags);
				92	mdev->read_cnt += e->size >> 9;
				93	list_del(&e->w.list);
				94	if (list_empty(&mdev->read_ee))
				95	wake_up(&mdev->ee_wait);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	96	if (test_bit(__EE_WAS_ERROR, &e->flags))
				97	__drbd_chk_io_error(mdev, FALSE);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	98	spin_unlock_irqrestore(&mdev->req_lock, flags);
				99
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	100	drbd_queue_work(&mdev->data.work, &e->w);
				101	put_ldev(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	102	}
				103
				104	/* writes on behalf of the partner, or resync writes,
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	105	* "submitted" by the receiver, final stage. */
				106	static void drbd_endio_write_sec_final(struct drbd_epoch_entry *e) __releases(local)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	107	{
				108	unsigned long flags = 0;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	109	struct drbd_conf *mdev = e->mdev;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	110	sector_t e_sector;
				111	int do_wake;
				112	int is_syncer_req;
				113	int do_al_complete_io;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	114
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	115	D_ASSERT(e->block_id != ID_VACANT);
				116
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	117	/* after we moved e to done_ee,
				118	* we may no longer access it,
				119	* it may be freed/reused already!
				120	* (as soon as we release the req_lock) */
				121	e_sector = e->sector;
				122	do_al_complete_io = e->flags & EE_CALL_AL_COMPLETE_IO;
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	123	is_syncer_req = is_syncer_block_id(e->block_id);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	124
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	125	spin_lock_irqsave(&mdev->req_lock, flags);
				126	mdev->writ_cnt += e->size >> 9;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	127	list_del(&e->w.list); /* has been on active_ee or sync_ee */
				128	list_add_tail(&e->w.list, &mdev->done_ee);
				129
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	130	/* No hlist_del_init(&e->colision) here, we did not send the Ack yet,
				131	* neither did we wake possibly waiting conflicting requests.
				132	* done from "drbd_process_done_ee" within the appropriate w.cb
				133	* (e_end_block/e_end_resync_block) or from _drbd_clear_done_ee */
				134
				135	do_wake = is_syncer_req
				136	? list_empty(&mdev->sync_ee)
				137	: list_empty(&mdev->active_ee);
				138
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	139	if (test_bit(__EE_WAS_ERROR, &e->flags))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	140	__drbd_chk_io_error(mdev, FALSE);
				141	spin_unlock_irqrestore(&mdev->req_lock, flags);
				142
				143	if (is_syncer_req)
				144	drbd_rs_complete_io(mdev, e_sector);
				145
				146	if (do_wake)
				147	wake_up(&mdev->ee_wait);
				148
				149	if (do_al_complete_io)
				150	drbd_al_complete_io(mdev, e_sector);
				151
				152	wake_asender(mdev);
				153	put_ldev(mdev);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	154	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	155
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	156	/* writes on behalf of the partner, or resync writes,
				157	* "submitted" by the receiver.
				158	*/
				159	void drbd_endio_sec(struct bio *bio, int error)
				160	{
				161	struct drbd_epoch_entry *e = bio->bi_private;
				162	struct drbd_conf *mdev = e->mdev;
				163	int uptodate = bio_flagged(bio, BIO_UPTODATE);
				164	int is_write = bio_data_dir(bio) == WRITE;
				165
				166	if (error)
				167	dev_warn(DEV, "%s: error=%d s=%llus\n",
				168	is_write ? "write" : "read", error,
				169	(unsigned long long)e->sector);
				170	if (!error && !uptodate) {
				171	dev_warn(DEV, "%s: setting error to -EIO s=%llus\n",
				172	is_write ? "write" : "read",
				173	(unsigned long long)e->sector);
				174	/* strange behavior of some lower level drivers...
				175	* fail the request by clearing the uptodate flag,
				176	* but do not return any error?! */
				177	error = -EIO;
				178	}
				179
				180	if (error)
				181	set_bit(__EE_WAS_ERROR, &e->flags);
				182
				183	bio_put(bio); /* no need for the bio anymore */
				184	if (atomic_dec_and_test(&e->pending_bios)) {
				185	if (is_write)
				186	drbd_endio_write_sec_final(e);
				187	else
				188	drbd_endio_read_sec_final(e);
				189	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	190	}
				191
				192	/* read, readA or write requests on R_PRIMARY coming from drbd_make_request
				193	*/
				194	void drbd_endio_pri(struct bio *bio, int error)
				195	{
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	196	unsigned long flags;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	197	struct drbd_request *req = bio->bi_private;
				198	struct drbd_conf *mdev = req->mdev;
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	199	struct bio_and_error m;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	200	enum drbd_req_event what;
				201	int uptodate = bio_flagged(bio, BIO_UPTODATE);
				202
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	203	if (!error && !uptodate) {
				204	dev_warn(DEV, "p %s: setting error to -EIO\n",
				205	bio_data_dir(bio) == WRITE ? "write" : "read");
				206	/* strange behavior of some lower level drivers...
				207	* fail the request by clearing the uptodate flag,
				208	* but do not return any error?! */
				209	error = -EIO;
				210	}
				211
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	212	/* to avoid recursion in __req_mod */
				213	if (unlikely(error)) {
				214	what = (bio_data_dir(bio) == WRITE)
				215	? write_completed_with_error
Lars Ellenberg	5c3c7e6	2010-04-10 02:10:09 +0200	[diff] [blame]	216	: (bio_rw(bio) == READ)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	217	? read_completed_with_error
				218	: read_ahead_completed_with_error;
				219	} else
				220	what = completed_ok;
				221
				222	bio_put(req->private_bio);
				223	req->private_bio = ERR_PTR(error);
				224
Lars Ellenberg	a115413	2010-11-13 20:42:29 +0100	[diff] [blame]	225	/* not req_mod(), we need irqsave here! */
				226	spin_lock_irqsave(&mdev->req_lock, flags);
				227	__req_mod(req, what, &m);
				228	spin_unlock_irqrestore(&mdev->req_lock, flags);
				229
				230	if (m.bio)
				231	complete_master_bio(mdev, &m);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	232	}
				233
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	234	int w_read_retry_remote(struct drbd_conf mdev, struct drbd_work w, int cancel)
				235	{
				236	struct drbd_request *req = container_of(w, struct drbd_request, w);
				237
				238	/* We should not detach for read io-error,
				239	* but try to WRITE the P_DATA_REPLY to the failed location,
				240	* to give the disk the chance to relocate that block */
				241
				242	spin_lock_irq(&mdev->req_lock);
Lars Ellenberg	d255e5f	2010-05-27 09:45:45 +0200	[diff] [blame]	243	if (cancel \|\| mdev->state.pdsk != D_UP_TO_DATE) {
				244	_req_mod(req, read_retry_remote_canceled);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	245	spin_unlock_irq(&mdev->req_lock);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	246	return 1;
				247	}
				248	spin_unlock_irq(&mdev->req_lock);
				249
				250	return w_send_read_req(mdev, w, 0);
				251	}
				252
				253	int w_resync_inactive(struct drbd_conf mdev, struct drbd_work w, int cancel)
				254	{
				255	ERR_IF(cancel) return 1;
				256	dev_err(DEV, "resync inactive, but callback triggered??\n");
				257	return 1; /* Simply ignore this! */
				258	}
				259
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	260	void drbd_csum_ee(struct drbd_conf mdev, struct crypto_hash tfm, struct drbd_epoch_entry e, void digest)
				261	{
				262	struct hash_desc desc;
				263	struct scatterlist sg;
				264	struct page *page = e->pages;
				265	struct page *tmp;
				266	unsigned len;
				267
				268	desc.tfm = tfm;
				269	desc.flags = 0;
				270
				271	sg_init_table(&sg, 1);
				272	crypto_hash_init(&desc);
				273
				274	while ((tmp = page_chain_next(page))) {
				275	/* all but the last page will be fully used */
				276	sg_set_page(&sg, page, PAGE_SIZE, 0);
				277	crypto_hash_update(&desc, &sg, sg.length);
				278	page = tmp;
				279	}
				280	/* and now the last, possibly only partially used page */
				281	len = e->size & (PAGE_SIZE - 1);
				282	sg_set_page(&sg, page, len ?: PAGE_SIZE, 0);
				283	crypto_hash_update(&desc, &sg, sg.length);
				284	crypto_hash_final(&desc, digest);
				285	}
				286
				287	void drbd_csum_bio(struct drbd_conf mdev, struct crypto_hash tfm, struct bio bio, void digest)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	288	{
				289	struct hash_desc desc;
				290	struct scatterlist sg;
				291	struct bio_vec *bvec;
				292	int i;
				293
				294	desc.tfm = tfm;
				295	desc.flags = 0;
				296
				297	sg_init_table(&sg, 1);
				298	crypto_hash_init(&desc);
				299
				300	__bio_for_each_segment(bvec, bio, i, 0) {
				301	sg_set_page(&sg, bvec->bv_page, bvec->bv_len, bvec->bv_offset);
				302	crypto_hash_update(&desc, &sg, sg.length);
				303	}
				304	crypto_hash_final(&desc, digest);
				305	}
				306
				307	static int w_e_send_csum(struct drbd_conf mdev, struct drbd_work w, int cancel)
				308	{
				309	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				310	int digest_size;
				311	void *digest;
				312	int ok;
				313
				314	D_ASSERT(e->block_id == DRBD_MAGIC + 0xbeef);
				315
				316	if (unlikely(cancel)) {
				317	drbd_free_ee(mdev, e);
				318	return 1;
				319	}
				320
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	321	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	322	digest_size = crypto_hash_digestsize(mdev->csums_tfm);
				323	digest = kmalloc(digest_size, GFP_NOIO);
				324	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	325	drbd_csum_ee(mdev, mdev->csums_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	326
				327	inc_rs_pending(mdev);
				328	ok = drbd_send_drequest_csum(mdev,
				329	e->sector,
				330	e->size,
				331	digest,
				332	digest_size,
				333	P_CSUM_RS_REQUEST);
				334	kfree(digest);
				335	} else {
				336	dev_err(DEV, "kmalloc() of digest failed.\n");
				337	ok = 0;
				338	}
				339	} else
				340	ok = 1;
				341
				342	drbd_free_ee(mdev, e);
				343
				344	if (unlikely(!ok))
				345	dev_err(DEV, "drbd_send_drequest(..., csum) failed\n");
				346	return ok;
				347	}
				348
				349	#define GFP_TRY (__GFP_HIGHMEM \| __GFP_NOWARN)
				350
				351	static int read_for_csum(struct drbd_conf *mdev, sector_t sector, int size)
				352	{
				353	struct drbd_epoch_entry *e;
				354
				355	if (!get_ldev(mdev))
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	356	return -EIO;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	357
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	358	if (drbd_rs_should_slow_down(mdev))
				359	goto defer;
				360
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	361	/* GFP_TRY, because if there is no memory available right now, this may
				362	* be rescheduled for later. It is "only" background resync, after all. */
				363	e = drbd_alloc_ee(mdev, DRBD_MAGIC+0xbeef, sector, size, GFP_TRY);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	364	if (!e)
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	365	goto defer;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	366
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	367	e->w.cb = w_e_send_csum;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	368	spin_lock_irq(&mdev->req_lock);
				369	list_add(&e->w.list, &mdev->read_ee);
				370	spin_unlock_irq(&mdev->req_lock);
				371
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	372	atomic_add(size >> 9, &mdev->rs_sect_ev);
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	373	if (drbd_submit_ee(mdev, e, READ, DRBD_FAULT_RS_RD) == 0)
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	374	return 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	375
Lars Ellenberg	22cc37a	2010-09-14 20:40:41 +0200	[diff] [blame]	376	/* drbd_submit_ee currently fails for one reason only:
				377	* not being able to allocate enough bios.
				378	* Is dropping the connection going to help? */
				379	spin_lock_irq(&mdev->req_lock);
				380	list_del(&e->w.list);
				381	spin_unlock_irq(&mdev->req_lock);
				382
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	383	drbd_free_ee(mdev, e);
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	384	defer:
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	385	put_ldev(mdev);
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	386	return -EAGAIN;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	387	}
				388
				389	void resync_timer_fn(unsigned long data)
				390	{
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	391	struct drbd_conf mdev = (struct drbd_conf ) data;
				392	int queue;
				393
Philipp Reisner	63106d3	2010-09-01 15:47:15 +0200	[diff] [blame]	394	queue = 1;
				395	switch (mdev->state.conn) {
				396	case C_VERIFY_S:
				397	mdev->resync_work.cb = w_make_ov_request;
				398	break;
				399	case C_SYNC_TARGET:
				400	mdev->resync_work.cb = w_make_resync_request;
				401	break;
				402	default:
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	403	queue = 0;
				404	mdev->resync_work.cb = w_resync_inactive;
				405	}
				406
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	407	/* harmless race: list_empty outside data.work.q_lock */
				408	if (list_empty(&mdev->resync_work.list) && queue)
				409	drbd_queue_work(&mdev->data.work, &mdev->resync_work);
				410	}
				411
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	412	static void fifo_set(struct fifo_buffer *fb, int value)
				413	{
				414	int i;
				415
				416	for (i = 0; i < fb->size; i++)
Philipp Reisner	f10f262	2010-10-05 16:50:17 +0200	[diff] [blame]	417	fb->values[i] = value;
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	418	}
				419
				420	static int fifo_push(struct fifo_buffer *fb, int value)
				421	{
				422	int ov;
				423
				424	ov = fb->values[fb->head_index];
				425	fb->values[fb->head_index++] = value;
				426
				427	if (fb->head_index >= fb->size)
				428	fb->head_index = 0;
				429
				430	return ov;
				431	}
				432
				433	static void fifo_add_val(struct fifo_buffer *fb, int value)
				434	{
				435	int i;
				436
				437	for (i = 0; i < fb->size; i++)
				438	fb->values[i] += value;
				439	}
				440
				441	int drbd_rs_controller(struct drbd_conf *mdev)
				442	{
				443	unsigned int sect_in; /* Number of sectors that came in since the last turn */
				444	unsigned int want; /* The number of sectors we want in the proxy */
				445	int req_sect; /* Number of sectors to request in this turn */
				446	int correction; /* Number of sectors more we need in the proxy*/
				447	int cps; /* correction per invocation of drbd_rs_controller() */
				448	int steps; /* Number of time steps to plan ahead */
				449	int curr_corr;
				450	int max_sect;
				451
				452	sect_in = atomic_xchg(&mdev->rs_sect_in, 0); /* Number of sectors that came in */
				453	mdev->rs_in_flight -= sect_in;
				454
				455	spin_lock(&mdev->peer_seq_lock); /* get an atomic view on mdev->rs_plan_s */
				456
				457	steps = mdev->rs_plan_s.size; /* (mdev->sync_conf.c_plan_ahead * 10 * SLEEP_TIME) / HZ; */
				458
				459	if (mdev->rs_in_flight + sect_in == 0) { /* At start of resync */
				460	want = ((mdev->sync_conf.rate * 2 * SLEEP_TIME) / HZ) * steps;
				461	} else { /* normal path */
				462	want = mdev->sync_conf.c_fill_target ? mdev->sync_conf.c_fill_target :
				463	sect_in * mdev->sync_conf.c_delay_target * HZ / (SLEEP_TIME * 10);
				464	}
				465
				466	correction = want - mdev->rs_in_flight - mdev->rs_planed;
				467
				468	/* Plan ahead */
				469	cps = correction / steps;
				470	fifo_add_val(&mdev->rs_plan_s, cps);
				471	mdev->rs_planed += cps * steps;
				472
				473	/* What we do in this step */
				474	curr_corr = fifo_push(&mdev->rs_plan_s, 0);
				475	spin_unlock(&mdev->peer_seq_lock);
				476	mdev->rs_planed -= curr_corr;
				477
				478	req_sect = sect_in + curr_corr;
				479	if (req_sect < 0)
				480	req_sect = 0;
				481
				482	max_sect = (mdev->sync_conf.c_max_rate * 2 * SLEEP_TIME) / HZ;
				483	if (req_sect > max_sect)
				484	req_sect = max_sect;
				485
				486	/*
				487	dev_warn(DEV, "si=%u if=%d wa=%u co=%d st=%d cps=%d pl=%d cc=%d rs=%d\n",
				488	sect_in, mdev->rs_in_flight, want, correction,
				489	steps, cps, mdev->rs_planed, curr_corr, req_sect);
				490	*/
				491
				492	return req_sect;
				493	}
				494
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	495	int drbd_rs_number_requests(struct drbd_conf *mdev)
				496	{
				497	int number;
				498	if (mdev->rs_plan_s.size) { /* mdev->sync_conf.c_plan_ahead */
				499	number = drbd_rs_controller(mdev) >> (BM_BLOCK_SHIFT - 9);
				500	mdev->c_sync_rate = number * HZ * (BM_BLOCK_SIZE / 1024) / SLEEP_TIME;
				501	} else {
				502	mdev->c_sync_rate = mdev->sync_conf.rate;
				503	number = SLEEP_TIME * mdev->c_sync_rate / ((BM_BLOCK_SIZE / 1024) * HZ);
				504	}
				505
				506	/* Throttle resync on lower level disk activity, which may also be
				507	* caused by application IO on Primary/SyncTarget.
				508	* Keep this after the call to drbd_rs_controller, as that assumes
				509	* to be called as precisely as possible every SLEEP_TIME,
				510	* and would be confused otherwise. */
				511	if (number && drbd_rs_should_slow_down(mdev)) {
				512	mdev->c_sync_rate = 1;
				513	number = 0;
				514	}
				515
				516	/* ignore the amount of pending requests, the resync controller should
				517	* throttle down to incoming reply rate soon enough anyways. */
				518	return number;
				519	}
				520
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	521	int w_make_resync_request(struct drbd_conf *mdev,
				522	struct drbd_work *w, int cancel)
				523	{
				524	unsigned long bit;
				525	sector_t sector;
				526	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	527	int max_bio_size;
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	528	int number, rollback_i, size;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	529	int align, queued, sndbuf;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	530	int i = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	531
				532	if (unlikely(cancel))
				533	return 1;
				534
				535	if (unlikely(mdev->state.conn < C_CONNECTED)) {
				536	dev_err(DEV, "Confused in w_make_resync_request()! cstate < Connected");
				537	return 0;
				538	}
				539
				540	if (mdev->state.conn != C_SYNC_TARGET)
				541	dev_err(DEV, "%s in w_make_resync_request\n",
				542	drbd_conn_str(mdev->state.conn));
				543
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	544	if (mdev->rs_total == 0) {
				545	/* empty resync? */
				546	drbd_resync_finished(mdev);
				547	return 1;
				548	}
				549
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	550	if (!get_ldev(mdev)) {
				551	/* Since we only need to access mdev->rsync a
				552	get_ldev_if_state(mdev,D_FAILED) would be sufficient, but
				553	to continue resync with a broken disk makes no sense at
				554	all */
				555	dev_err(DEV, "Disk broke down during resync!\n");
				556	mdev->resync_work.cb = w_resync_inactive;
				557	return 1;
				558	}
				559
Lars Ellenberg	bb3d000	2010-05-14 19:08:55 +0200	[diff] [blame]	560	/* starting with drbd 8.3.8, we can handle multi-bio EEs,
				561	* if it should be necessary */
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	562	max_bio_size =
				563	mdev->agreed_pro_version < 94 ? queue_max_hw_sectors(mdev->rq_queue) << 9 :
				564	mdev->agreed_pro_version < 95 ? DRBD_MAX_SIZE_H80_PACKET : DRBD_MAX_BIO_SIZE;
Lars Ellenberg	bb3d000	2010-05-14 19:08:55 +0200	[diff] [blame]	565
Lars Ellenberg	e65f440	2010-11-05 10:04:07 +0100	[diff] [blame]	566	number = drbd_rs_number_requests(mdev);
				567	if (number == 0)
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	568	goto requeue;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	569
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	570	for (i = 0; i < number; i++) {
				571	/* Stop generating RS requests, when half of the send buffer is filled */
				572	mutex_lock(&mdev->data.mutex);
				573	if (mdev->data.socket) {
				574	queued = mdev->data.socket->sk->sk_wmem_queued;
				575	sndbuf = mdev->data.socket->sk->sk_sndbuf;
				576	} else {
				577	queued = 1;
				578	sndbuf = 0;
				579	}
				580	mutex_unlock(&mdev->data.mutex);
				581	if (queued > sndbuf / 2)
				582	goto requeue;
				583
				584	next_sector:
				585	size = BM_BLOCK_SIZE;
				586	bit = drbd_bm_find_next(mdev, mdev->bm_resync_fo);
				587
				588	if (bit == -1UL) {
				589	mdev->bm_resync_fo = drbd_bm_bits(mdev);
				590	mdev->resync_work.cb = w_resync_inactive;
				591	put_ldev(mdev);
				592	return 1;
				593	}
				594
				595	sector = BM_BIT_TO_SECT(bit);
				596
				597	if (drbd_try_rs_begin_io(mdev, sector)) {
				598	mdev->bm_resync_fo = bit;
				599	goto requeue;
				600	}
				601	mdev->bm_resync_fo = bit + 1;
				602
				603	if (unlikely(drbd_bm_test_bit(mdev, bit) == 0)) {
				604	drbd_rs_complete_io(mdev, sector);
				605	goto next_sector;
				606	}
				607
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	608	#if DRBD_MAX_BIO_SIZE > BM_BLOCK_SIZE
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	609	/* try to find some adjacent bits.
				610	* we stop if we have already the maximum req size.
				611	*
				612	* Additionally always align bigger requests, in order to
				613	* be prepared for all stripe sizes of software RAIDs.
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	614	*/
				615	align = 1;
Philipp Reisner	d207450	2010-07-22 15:27:27 +0200	[diff] [blame]	616	rollback_i = i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	617	for (;;) {
Lars Ellenberg	1816a2b	2010-11-11 15:19:07 +0100	[diff] [blame]	618	if (size + BM_BLOCK_SIZE > max_bio_size)
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	619	break;
				620
				621	/* Be always aligned */
				622	if (sector & ((1<<(align+3))-1))
				623	break;
				624
				625	/* do not cross extent boundaries */
				626	if (((bit+1) & BM_BLOCKS_PER_BM_EXT_MASK) == 0)
				627	break;
				628	/* now, is it actually dirty, after all?
				629	* caution, drbd_bm_test_bit is tri-state for some
				630	* obscure reason; ( b == 0 ) would get the out-of-band
				631	* only accidentally right because of the "oddly sized"
				632	* adjustment below */
				633	if (drbd_bm_test_bit(mdev, bit+1) != 1)
				634	break;
				635	bit++;
				636	size += BM_BLOCK_SIZE;
				637	if ((BM_BLOCK_SIZE << align) <= size)
				638	align++;
				639	i++;
				640	}
				641	/* if we merged some,
				642	* reset the offset to start the next drbd_bm_find_next from */
				643	if (size > BM_BLOCK_SIZE)
				644	mdev->bm_resync_fo = bit + 1;
				645	#endif
				646
				647	/* adjust very last sectors, in case we are oddly sized */
				648	if (sector + (size>>9) > capacity)
				649	size = (capacity-sector)<<9;
				650	if (mdev->agreed_pro_version >= 89 && mdev->csums_tfm) {
				651	switch (read_for_csum(mdev, sector, size)) {
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	652	case -EIO: /* Disk failure */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	653	put_ldev(mdev);
				654	return 0;
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	655	case -EAGAIN: /* allocation failed, or ldev busy */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	656	drbd_rs_complete_io(mdev, sector);
				657	mdev->bm_resync_fo = BM_SECT_TO_BIT(sector);
Philipp Reisner	d207450	2010-07-22 15:27:27 +0200	[diff] [blame]	658	i = rollback_i;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	659	goto requeue;
Lars Ellenberg	80a40e4	2010-08-11 23:28:00 +0200	[diff] [blame]	660	case 0:
				661	/* everything ok */
				662	break;
				663	default:
				664	BUG();
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	665	}
				666	} else {
				667	inc_rs_pending(mdev);
				668	if (!drbd_send_drequest(mdev, P_RS_DATA_REQUEST,
				669	sector, size, ID_SYNCER)) {
				670	dev_err(DEV, "drbd_send_drequest() failed, aborting...\n");
				671	dec_rs_pending(mdev);
				672	put_ldev(mdev);
				673	return 0;
				674	}
				675	}
				676	}
				677
				678	if (mdev->bm_resync_fo >= drbd_bm_bits(mdev)) {
				679	/* last syncer _request_ was sent,
				680	* but the P_RS_DATA_REPLY not yet received. sync will end (and
				681	* next sync group will resume), as soon as we receive the last
				682	* resync data block, and the last bit is cleared.
				683	* until then resync "work" is "inactive" ...
				684	*/
				685	mdev->resync_work.cb = w_resync_inactive;
				686	put_ldev(mdev);
				687	return 1;
				688	}
				689
				690	requeue:
Philipp Reisner	778f271	2010-07-06 11:14:00 +0200	[diff] [blame]	691	mdev->rs_in_flight += (i << (BM_BLOCK_SHIFT - 9));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	692	mod_timer(&mdev->resync_timer, jiffies + SLEEP_TIME);
				693	put_ldev(mdev);
				694	return 1;
				695	}
				696
				697	static int w_make_ov_request(struct drbd_conf mdev, struct drbd_work w, int cancel)
				698	{
				699	int number, i, size;
				700	sector_t sector;
				701	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
				702
				703	if (unlikely(cancel))
				704	return 1;
				705
				706	if (unlikely(mdev->state.conn < C_CONNECTED)) {
				707	dev_err(DEV, "Confused in w_make_ov_request()! cstate < Connected");
				708	return 0;
				709	}
				710
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	711	number = drbd_rs_number_requests(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	712
				713	sector = mdev->ov_position;
				714	for (i = 0; i < number; i++) {
				715	if (sector >= capacity) {
				716	mdev->resync_work.cb = w_resync_inactive;
				717	return 1;
				718	}
				719
				720	size = BM_BLOCK_SIZE;
				721
				722	if (drbd_try_rs_begin_io(mdev, sector)) {
				723	mdev->ov_position = sector;
				724	goto requeue;
				725	}
				726
				727	if (sector + (size>>9) > capacity)
				728	size = (capacity-sector)<<9;
				729
				730	inc_rs_pending(mdev);
				731	if (!drbd_send_ov_request(mdev, sector, size)) {
				732	dec_rs_pending(mdev);
				733	return 0;
				734	}
				735	sector += BM_SECT_PER_BIT;
				736	}
				737	mdev->ov_position = sector;
				738
				739	requeue:
Lars Ellenberg	2649f08	2010-11-05 10:05:47 +0100	[diff] [blame]	740	mdev->rs_in_flight += (i << (BM_BLOCK_SHIFT - 9));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	741	mod_timer(&mdev->resync_timer, jiffies + SLEEP_TIME);
				742	return 1;
				743	}
				744
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	745
				746	int w_start_resync(struct drbd_conf mdev, struct drbd_work w, int cancel)
				747	{
				748	drbd_start_resync(mdev, C_SYNC_SOURCE);
				749
				750	return 1;
				751	}
				752
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	753	int w_ov_finished(struct drbd_conf mdev, struct drbd_work w, int cancel)
				754	{
				755	kfree(w);
				756	ov_oos_print(mdev);
				757	drbd_resync_finished(mdev);
				758
				759	return 1;
				760	}
				761
				762	static int w_resync_finished(struct drbd_conf mdev, struct drbd_work w, int cancel)
				763	{
				764	kfree(w);
				765
				766	drbd_resync_finished(mdev);
				767
				768	return 1;
				769	}
				770
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	771	static void ping_peer(struct drbd_conf *mdev)
				772	{
				773	clear_bit(GOT_PING_ACK, &mdev->flags);
				774	request_ping(mdev);
				775	wait_event(mdev->misc_wait,
				776	test_bit(GOT_PING_ACK, &mdev->flags) \|\| mdev->state.conn < C_CONNECTED);
				777	}
				778
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	779	int drbd_resync_finished(struct drbd_conf *mdev)
				780	{
				781	unsigned long db, dt, dbdt;
				782	unsigned long n_oos;
				783	union drbd_state os, ns;
				784	struct drbd_work *w;
				785	char *khelper_cmd = NULL;
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	786	int verify_done = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	787
				788	/* Remove all elements from the resync LRU. Since future actions
				789	* might set bits in the (main) bitmap, then the entries in the
				790	* resync LRU would be wrong. */
				791	if (drbd_rs_del_all(mdev)) {
				792	/* In case this is not possible now, most probably because
				793	* there are P_RS_DATA_REPLY Packets lingering on the worker's
				794	* queue (or even the read operations for those packets
				795	* is not finished by now). Retry in 100ms. */
				796
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	797	__set_current_state(TASK_INTERRUPTIBLE);
				798	schedule_timeout(HZ / 10);
				799	w = kmalloc(sizeof(struct drbd_work), GFP_ATOMIC);
				800	if (w) {
				801	w->cb = w_resync_finished;
				802	drbd_queue_work(&mdev->data.work, w);
				803	return 1;
				804	}
				805	dev_err(DEV, "Warn failed to drbd_rs_del_all() and to kmalloc(w).\n");
				806	}
				807
				808	dt = (jiffies - mdev->rs_start - mdev->rs_paused) / HZ;
				809	if (dt <= 0)
				810	dt = 1;
				811	db = mdev->rs_total;
				812	dbdt = Bit2KB(db/dt);
				813	mdev->rs_paused /= HZ;
				814
				815	if (!get_ldev(mdev))
				816	goto out;
				817
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	818	ping_peer(mdev);
				819
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	820	spin_lock_irq(&mdev->req_lock);
				821	os = mdev->state;
				822
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	823	verify_done = (os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T);
				824
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	825	/* This protects us against multiple calls (that can happen in the presence
				826	of application IO), and against connectivity loss just before we arrive here. */
				827	if (os.conn <= C_CONNECTED)
				828	goto out_unlock;
				829
				830	ns = os;
				831	ns.conn = C_CONNECTED;
				832
				833	dev_info(DEV, "%s done (total %lu sec; paused %lu sec; %lu K/sec)\n",
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	834	verify_done ? "Online verify " : "Resync",
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	835	dt + mdev->rs_paused, mdev->rs_paused, dbdt);
				836
				837	n_oos = drbd_bm_total_weight(mdev);
				838
				839	if (os.conn == C_VERIFY_S \|\| os.conn == C_VERIFY_T) {
				840	if (n_oos) {
				841	dev_alert(DEV, "Online verify found %lu %dk block out of sync!\n",
				842	n_oos, Bit2KB(1));
				843	khelper_cmd = "out-of-sync";
				844	}
				845	} else {
				846	D_ASSERT((n_oos - mdev->rs_failed) == 0);
				847
				848	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T)
				849	khelper_cmd = "after-resync-target";
				850
				851	if (mdev->csums_tfm && mdev->rs_total) {
				852	const unsigned long s = mdev->rs_same_csum;
				853	const unsigned long t = mdev->rs_total;
				854	const int ratio =
				855	(t == 0) ? 0 :
				856	(t < 100000) ? ((s*100)/t) : (s/(t/100));
				857	dev_info(DEV, "%u %% had equal check sums, eliminated: %luK; "
				858	"transferred %luK total %luK\n",
				859	ratio,
				860	Bit2KB(mdev->rs_same_csum),
				861	Bit2KB(mdev->rs_total - mdev->rs_same_csum),
				862	Bit2KB(mdev->rs_total));
				863	}
				864	}
				865
				866	if (mdev->rs_failed) {
				867	dev_info(DEV, " %lu failed blocks\n", mdev->rs_failed);
				868
				869	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T) {
				870	ns.disk = D_INCONSISTENT;
				871	ns.pdsk = D_UP_TO_DATE;
				872	} else {
				873	ns.disk = D_UP_TO_DATE;
				874	ns.pdsk = D_INCONSISTENT;
				875	}
				876	} else {
				877	ns.disk = D_UP_TO_DATE;
				878	ns.pdsk = D_UP_TO_DATE;
				879
				880	if (os.conn == C_SYNC_TARGET \|\| os.conn == C_PAUSED_SYNC_T) {
				881	if (mdev->p_uuid) {
				882	int i;
				883	for (i = UI_BITMAP ; i <= UI_HISTORY_END ; i++)
				884	_drbd_uuid_set(mdev, i, mdev->p_uuid[i]);
				885	drbd_uuid_set(mdev, UI_BITMAP, mdev->ldev->md.uuid[UI_CURRENT]);
				886	_drbd_uuid_set(mdev, UI_CURRENT, mdev->p_uuid[UI_CURRENT]);
				887	} else {
				888	dev_err(DEV, "mdev->p_uuid is NULL! BUG\n");
				889	}
				890	}
				891
				892	drbd_uuid_set_bm(mdev, 0UL);
				893
				894	if (mdev->p_uuid) {
				895	/* Now the two UUID sets are equal, update what we
				896	* know of the peer. */
				897	int i;
				898	for (i = UI_CURRENT ; i <= UI_HISTORY_END ; i++)
				899	mdev->p_uuid[i] = mdev->ldev->md.uuid[i];
				900	}
				901	}
				902
				903	_drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
				904	out_unlock:
				905	spin_unlock_irq(&mdev->req_lock);
				906	put_ldev(mdev);
				907	out:
				908	mdev->rs_total = 0;
				909	mdev->rs_failed = 0;
				910	mdev->rs_paused = 0;
Lars Ellenberg	2652561	2010-11-05 09:56:33 +0100	[diff] [blame]	911	if (verify_done)
				912	mdev->ov_start_sector = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	913
Lars Ellenberg	13d4268	2010-10-13 17:37:54 +0200	[diff] [blame]	914	drbd_md_sync(mdev);
				915
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	916	if (test_and_clear_bit(WRITE_BM_AFTER_RESYNC, &mdev->flags)) {
Lars Ellenberg	bc571b8	2010-10-21 18:07:31 +0200	[diff] [blame]	917	dev_info(DEV, "Writing the whole bitmap\n");
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	918	drbd_queue_bitmap_io(mdev, &drbd_bm_write, NULL, "write from resync_finished");
				919	}
				920
				921	if (khelper_cmd)
				922	drbd_khelper(mdev, khelper_cmd);
				923
				924	return 1;
				925	}
				926
				927	/* helper */
				928	static void move_to_net_ee_or_free(struct drbd_conf mdev, struct drbd_epoch_entry e)
				929	{
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	930	if (drbd_ee_has_active_page(e)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	931	/* This might happen if sendpage() has not finished */
Lars Ellenberg	78db892	2010-09-13 13:27:10 +0200	[diff] [blame]	932	int i = (e->size + PAGE_SIZE -1) >> PAGE_SHIFT;
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	933	atomic_add(i, &mdev->pp_in_use_by_net);
				934	atomic_sub(i, &mdev->pp_in_use);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	935	spin_lock_irq(&mdev->req_lock);
				936	list_add_tail(&e->w.list, &mdev->net_ee);
				937	spin_unlock_irq(&mdev->req_lock);
Lars Ellenberg	435f074	2010-09-06 12:30:25 +0200	[diff] [blame]	938	wake_up(&drbd_pp_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	939	} else
				940	drbd_free_ee(mdev, e);
				941	}
				942
				943	/**
				944	* w_e_end_data_req() - Worker callback, to send a P_DATA_REPLY packet in response to a P_DATA_REQUEST
				945	* @mdev: DRBD device.
				946	* @w: work object.
				947	* @cancel: The connection will be closed anyways
				948	*/
				949	int w_e_end_data_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				950	{
				951	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				952	int ok;
				953
				954	if (unlikely(cancel)) {
				955	drbd_free_ee(mdev, e);
				956	dec_unacked(mdev);
				957	return 1;
				958	}
				959
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	960	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	961	ok = drbd_send_block(mdev, P_DATA_REPLY, e);
				962	} else {
				963	if (__ratelimit(&drbd_ratelimit_state))
				964	dev_err(DEV, "Sending NegDReply. sector=%llus.\n",
				965	(unsigned long long)e->sector);
				966
				967	ok = drbd_send_ack(mdev, P_NEG_DREPLY, e);
				968	}
				969
				970	dec_unacked(mdev);
				971
				972	move_to_net_ee_or_free(mdev, e);
				973
				974	if (unlikely(!ok))
				975	dev_err(DEV, "drbd_send_block() failed\n");
				976	return ok;
				977	}
				978
				979	/**
				980	* w_e_end_rsdata_req() - Worker callback to send a P_RS_DATA_REPLY packet in response to a P_RS_DATA_REQUESTRS
				981	* @mdev: DRBD device.
				982	* @w: work object.
				983	* @cancel: The connection will be closed anyways
				984	*/
				985	int w_e_end_rsdata_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				986	{
				987	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				988	int ok;
				989
				990	if (unlikely(cancel)) {
				991	drbd_free_ee(mdev, e);
				992	dec_unacked(mdev);
				993	return 1;
				994	}
				995
				996	if (get_ldev_if_state(mdev, D_FAILED)) {
				997	drbd_rs_complete_io(mdev, e->sector);
				998	put_ldev(mdev);
				999	}
				1000
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1001	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1002	if (likely(mdev->state.pdsk >= D_INCONSISTENT)) {
				1003	inc_rs_pending(mdev);
				1004	ok = drbd_send_block(mdev, P_RS_DATA_REPLY, e);
				1005	} else {
				1006	if (__ratelimit(&drbd_ratelimit_state))
				1007	dev_err(DEV, "Not sending RSDataReply, "
				1008	"partner DISKLESS!\n");
				1009	ok = 1;
				1010	}
				1011	} else {
				1012	if (__ratelimit(&drbd_ratelimit_state))
				1013	dev_err(DEV, "Sending NegRSDReply. sector %llus.\n",
				1014	(unsigned long long)e->sector);
				1015
				1016	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				1017
				1018	/* update resync data with failure */
				1019	drbd_rs_failed_io(mdev, e->sector, e->size);
				1020	}
				1021
				1022	dec_unacked(mdev);
				1023
				1024	move_to_net_ee_or_free(mdev, e);
				1025
				1026	if (unlikely(!ok))
				1027	dev_err(DEV, "drbd_send_block() failed\n");
				1028	return ok;
				1029	}
				1030
				1031	int w_e_end_csum_rs_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1032	{
				1033	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1034	struct digest_info *di;
				1035	int digest_size;
				1036	void *digest = NULL;
				1037	int ok, eq = 0;
				1038
				1039	if (unlikely(cancel)) {
				1040	drbd_free_ee(mdev, e);
				1041	dec_unacked(mdev);
				1042	return 1;
				1043	}
				1044
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	1045	if (get_ldev(mdev)) {
				1046	drbd_rs_complete_io(mdev, e->sector);
				1047	put_ldev(mdev);
				1048	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1049
Philipp Reisner	8571957	2010-07-21 10:20:17 +0200	[diff] [blame]	1050	di = e->digest;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1051
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1052	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1053	/* quick hack to try to avoid a race against reconfiguration.
				1054	* a real fix would be much more involved,
				1055	* introducing more locking mechanisms */
				1056	if (mdev->csums_tfm) {
				1057	digest_size = crypto_hash_digestsize(mdev->csums_tfm);
				1058	D_ASSERT(digest_size == di->digest_size);
				1059	digest = kmalloc(digest_size, GFP_NOIO);
				1060	}
				1061	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1062	drbd_csum_ee(mdev, mdev->csums_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1063	eq = !memcmp(digest, di->digest, digest_size);
				1064	kfree(digest);
				1065	}
				1066
				1067	if (eq) {
				1068	drbd_set_in_sync(mdev, e->sector, e->size);
Lars Ellenberg	676396d	2010-03-03 02:08:22 +0100	[diff] [blame]	1069	/* rs_same_csums unit is BM_BLOCK_SIZE */
				1070	mdev->rs_same_csum += e->size >> BM_BLOCK_SHIFT;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1071	ok = drbd_send_ack(mdev, P_RS_IS_IN_SYNC, e);
				1072	} else {
				1073	inc_rs_pending(mdev);
Philipp Reisner	204bba9	2010-08-23 16:17:13 +0200	[diff] [blame]	1074	e->block_id = ID_SYNCER; /* By setting block_id, digest pointer becomes invalid! */
				1075	e->flags &= ~EE_HAS_DIGEST; /* This e no longer has a digest pointer */
				1076	kfree(di);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1077	ok = drbd_send_block(mdev, P_RS_DATA_REPLY, e);
				1078	}
				1079	} else {
				1080	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				1081	if (__ratelimit(&drbd_ratelimit_state))
				1082	dev_err(DEV, "Sending NegDReply. I guess it gets messy.\n");
				1083	}
				1084
				1085	dec_unacked(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1086	move_to_net_ee_or_free(mdev, e);
				1087
				1088	if (unlikely(!ok))
				1089	dev_err(DEV, "drbd_send_block/ack() failed\n");
				1090	return ok;
				1091	}
				1092
				1093	int w_e_end_ov_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1094	{
				1095	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1096	int digest_size;
				1097	void *digest;
				1098	int ok = 1;
				1099
				1100	if (unlikely(cancel))
				1101	goto out;
				1102
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1103	if (unlikely((e->flags & EE_WAS_ERROR) != 0))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1104	goto out;
				1105
				1106	digest_size = crypto_hash_digestsize(mdev->verify_tfm);
				1107	/* FIXME if this allocation fails, online verify will not terminate! */
				1108	digest = kmalloc(digest_size, GFP_NOIO);
				1109	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1110	drbd_csum_ee(mdev, mdev->verify_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1111	inc_rs_pending(mdev);
				1112	ok = drbd_send_drequest_csum(mdev, e->sector, e->size,
				1113	digest, digest_size, P_OV_REPLY);
				1114	if (!ok)
				1115	dec_rs_pending(mdev);
				1116	kfree(digest);
				1117	}
				1118
				1119	out:
				1120	drbd_free_ee(mdev, e);
				1121
				1122	dec_unacked(mdev);
				1123
				1124	return ok;
				1125	}
				1126
				1127	void drbd_ov_oos_found(struct drbd_conf *mdev, sector_t sector, int size)
				1128	{
				1129	if (mdev->ov_last_oos_start + mdev->ov_last_oos_size == sector) {
				1130	mdev->ov_last_oos_size += size>>9;
				1131	} else {
				1132	mdev->ov_last_oos_start = sector;
				1133	mdev->ov_last_oos_size = size>>9;
				1134	}
				1135	drbd_set_out_of_sync(mdev, sector, size);
				1136	set_bit(WRITE_BM_AFTER_RESYNC, &mdev->flags);
				1137	}
				1138
				1139	int w_e_end_ov_reply(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1140	{
				1141	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
				1142	struct digest_info *di;
				1143	int digest_size;
				1144	void *digest;
				1145	int ok, eq = 0;
				1146
				1147	if (unlikely(cancel)) {
				1148	drbd_free_ee(mdev, e);
				1149	dec_unacked(mdev);
				1150	return 1;
				1151	}
				1152
				1153	/* after "cancel", because after drbd_disconnect/drbd_rs_cancel_all
				1154	* the resync lru has been cleaned up already */
Lars Ellenberg	1d53f09	2010-09-05 01:13:24 +0200	[diff] [blame]	1155	if (get_ldev(mdev)) {
				1156	drbd_rs_complete_io(mdev, e->sector);
				1157	put_ldev(mdev);
				1158	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1159
Philipp Reisner	8571957	2010-07-21 10:20:17 +0200	[diff] [blame]	1160	di = e->digest;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1161
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1162	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1163	digest_size = crypto_hash_digestsize(mdev->verify_tfm);
				1164	digest = kmalloc(digest_size, GFP_NOIO);
				1165	if (digest) {
Lars Ellenberg	45bb912	2010-05-14 17:10:48 +0200	[diff] [blame]	1166	drbd_csum_ee(mdev, mdev->verify_tfm, e, digest);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1167
				1168	D_ASSERT(digest_size == di->digest_size);
				1169	eq = !memcmp(digest, di->digest, digest_size);
				1170	kfree(digest);
				1171	}
				1172	} else {
				1173	ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
				1174	if (__ratelimit(&drbd_ratelimit_state))
				1175	dev_err(DEV, "Sending NegDReply. I guess it gets messy.\n");
				1176	}
				1177
				1178	dec_unacked(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1179	if (!eq)
				1180	drbd_ov_oos_found(mdev, e->sector, e->size);
				1181	else
				1182	ov_oos_print(mdev);
				1183
				1184	ok = drbd_send_ack_ex(mdev, P_OV_RESULT, e->sector, e->size,
				1185	eq ? ID_IN_SYNC : ID_OUT_OF_SYNC);
				1186
				1187	drbd_free_ee(mdev, e);
				1188
Lars Ellenberg	ea5442a	2010-11-05 09:48:01 +0100	[diff] [blame]	1189	--mdev->ov_left;
				1190
				1191	/* let's advance progress step marks only for every other megabyte */
				1192	if ((mdev->ov_left & 0x200) == 0x200)
				1193	drbd_advance_rs_marks(mdev, mdev->ov_left);
				1194
				1195	if (mdev->ov_left == 0) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1196	ov_oos_print(mdev);
				1197	drbd_resync_finished(mdev);
				1198	}
				1199
				1200	return ok;
				1201	}
				1202
				1203	int w_prev_work_done(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1204	{
				1205	struct drbd_wq_barrier *b = container_of(w, struct drbd_wq_barrier, w);
				1206	complete(&b->done);
				1207	return 1;
				1208	}
				1209
				1210	int w_send_barrier(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1211	{
				1212	struct drbd_tl_epoch *b = container_of(w, struct drbd_tl_epoch, w);
				1213	struct p_barrier *p = &mdev->data.sbuf.barrier;
				1214	int ok = 1;
				1215
				1216	/* really avoid racing with tl_clear. w.cb may have been referenced
				1217	* just before it was reassigned and re-queued, so double check that.
				1218	* actually, this race was harmless, since we only try to send the
				1219	* barrier packet here, and otherwise do nothing with the object.
				1220	* but compare with the head of w_clear_epoch */
				1221	spin_lock_irq(&mdev->req_lock);
				1222	if (w->cb != w_send_barrier \|\| mdev->state.conn < C_CONNECTED)
				1223	cancel = 1;
				1224	spin_unlock_irq(&mdev->req_lock);
				1225	if (cancel)
				1226	return 1;
				1227
				1228	if (!drbd_get_data_sock(mdev))
				1229	return 0;
				1230	p->barrier = b->br_number;
				1231	/* inc_ap_pending was done where this was queued.
				1232	* dec_ap_pending will be done in got_BarrierAck
				1233	* or (on connection loss) in w_clear_epoch. */
				1234	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BARRIER,
Philipp Reisner	0b70a13	2010-08-20 13:36:10 +0200	[diff] [blame]	1235	(struct p_header80 )p, sizeof(p), 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1236	drbd_put_data_sock(mdev);
				1237
				1238	return ok;
				1239	}
				1240
				1241	int w_send_write_hint(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1242	{
				1243	if (cancel)
				1244	return 1;
				1245	return drbd_send_short_cmd(mdev, P_UNPLUG_REMOTE);
				1246	}
				1247
Philipp Reisner	73a01a1	2010-10-27 14:33:00 +0200	[diff] [blame]	1248	int w_send_oos(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1249	{
				1250	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1251	int ok;
				1252
				1253	if (unlikely(cancel)) {
				1254	req_mod(req, send_canceled);
				1255	return 1;
				1256	}
				1257
				1258	ok = drbd_send_oos(mdev, req);
				1259	req_mod(req, oos_handed_to_network);
				1260
				1261	return ok;
				1262	}
				1263
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1264	/**
				1265	* w_send_dblock() - Worker callback to send a P_DATA packet in order to mirror a write request
				1266	* @mdev: DRBD device.
				1267	* @w: work object.
				1268	* @cancel: The connection will be closed anyways
				1269	*/
				1270	int w_send_dblock(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1271	{
				1272	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1273	int ok;
				1274
				1275	if (unlikely(cancel)) {
				1276	req_mod(req, send_canceled);
				1277	return 1;
				1278	}
				1279
				1280	ok = drbd_send_dblock(mdev, req);
				1281	req_mod(req, ok ? handed_over_to_network : send_failed);
				1282
				1283	return ok;
				1284	}
				1285
				1286	/**
				1287	* w_send_read_req() - Worker callback to send a read request (P_DATA_REQUEST) packet
				1288	* @mdev: DRBD device.
				1289	* @w: work object.
				1290	* @cancel: The connection will be closed anyways
				1291	*/
				1292	int w_send_read_req(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1293	{
				1294	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1295	int ok;
				1296
				1297	if (unlikely(cancel)) {
				1298	req_mod(req, send_canceled);
				1299	return 1;
				1300	}
				1301
				1302	ok = drbd_send_drequest(mdev, P_DATA_REQUEST, req->sector, req->size,
				1303	(unsigned long)req);
				1304
				1305	if (!ok) {
				1306	/* ?? we set C_TIMEOUT or C_BROKEN_PIPE in drbd_send();
				1307	* so this is probably redundant */
				1308	if (mdev->state.conn >= C_CONNECTED)
				1309	drbd_force_state(mdev, NS(conn, C_NETWORK_FAILURE));
				1310	}
				1311	req_mod(req, ok ? handed_over_to_network : send_failed);
				1312
				1313	return ok;
				1314	}
				1315
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1316	int w_restart_disk_io(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1317	{
				1318	struct drbd_request *req = container_of(w, struct drbd_request, w);
				1319
Philipp Reisner	0778286	2010-08-31 12:00:50 +0200	[diff] [blame]	1320	if (bio_data_dir(req->master_bio) == WRITE && req->rq_state & RQ_IN_ACT_LOG)
Philipp Reisner	265be2d	2010-05-31 10:14:17 +0200	[diff] [blame]	1321	drbd_al_begin_io(mdev, req->sector);
				1322	/* Calling drbd_al_begin_io() out of the worker might deadlocks
				1323	theoretically. Practically it can not deadlock, since this is
				1324	only used when unfreezing IOs. All the extents of the requests
				1325	that made it into the TL are already active */
				1326
				1327	drbd_req_make_private_bio(req, req->master_bio);
				1328	req->private_bio->bi_bdev = mdev->ldev->backing_bdev;
				1329	generic_make_request(req->private_bio);
				1330
				1331	return 1;
				1332	}
				1333
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1334	static int _drbd_may_sync_now(struct drbd_conf *mdev)
				1335	{
				1336	struct drbd_conf *odev = mdev;
				1337
				1338	while (1) {
				1339	if (odev->sync_conf.after == -1)
				1340	return 1;
				1341	odev = minor_to_mdev(odev->sync_conf.after);
				1342	ERR_IF(!odev) return 1;
				1343	if ((odev->state.conn >= C_SYNC_SOURCE &&
				1344	odev->state.conn <= C_PAUSED_SYNC_T) \|\|
				1345	odev->state.aftr_isp \|\| odev->state.peer_isp \|\|
				1346	odev->state.user_isp)
				1347	return 0;
				1348	}
				1349	}
				1350
				1351	/**
				1352	* _drbd_pause_after() - Pause resync on all devices that may not resync now
				1353	* @mdev: DRBD device.
				1354	*
				1355	* Called from process context only (admin command and after_state_ch).
				1356	*/
				1357	static int _drbd_pause_after(struct drbd_conf *mdev)
				1358	{
				1359	struct drbd_conf *odev;
				1360	int i, rv = 0;
				1361
				1362	for (i = 0; i < minor_count; i++) {
				1363	odev = minor_to_mdev(i);
				1364	if (!odev)
				1365	continue;
				1366	if (odev->state.conn == C_STANDALONE && odev->state.disk == D_DISKLESS)
				1367	continue;
				1368	if (!_drbd_may_sync_now(odev))
				1369	rv \|= (__drbd_set_state(_NS(odev, aftr_isp, 1), CS_HARD, NULL)
				1370	!= SS_NOTHING_TO_DO);
				1371	}
				1372
				1373	return rv;
				1374	}
				1375
				1376	/**
				1377	* _drbd_resume_next() - Resume resync on all devices that may resync now
				1378	* @mdev: DRBD device.
				1379	*
				1380	* Called from process context only (admin command and worker).
				1381	*/
				1382	static int _drbd_resume_next(struct drbd_conf *mdev)
				1383	{
				1384	struct drbd_conf *odev;
				1385	int i, rv = 0;
				1386
				1387	for (i = 0; i < minor_count; i++) {
				1388	odev = minor_to_mdev(i);
				1389	if (!odev)
				1390	continue;
				1391	if (odev->state.conn == C_STANDALONE && odev->state.disk == D_DISKLESS)
				1392	continue;
				1393	if (odev->state.aftr_isp) {
				1394	if (_drbd_may_sync_now(odev))
				1395	rv \|= (__drbd_set_state(_NS(odev, aftr_isp, 0),
				1396	CS_HARD, NULL)
				1397	!= SS_NOTHING_TO_DO) ;
				1398	}
				1399	}
				1400	return rv;
				1401	}
				1402
				1403	void resume_next_sg(struct drbd_conf *mdev)
				1404	{
				1405	write_lock_irq(&global_state_lock);
				1406	_drbd_resume_next(mdev);
				1407	write_unlock_irq(&global_state_lock);
				1408	}
				1409
				1410	void suspend_other_sg(struct drbd_conf *mdev)
				1411	{
				1412	write_lock_irq(&global_state_lock);
				1413	_drbd_pause_after(mdev);
				1414	write_unlock_irq(&global_state_lock);
				1415	}
				1416
				1417	static int sync_after_error(struct drbd_conf *mdev, int o_minor)
				1418	{
				1419	struct drbd_conf *odev;
				1420
				1421	if (o_minor == -1)
				1422	return NO_ERROR;
				1423	if (o_minor < -1 \|\| minor_to_mdev(o_minor) == NULL)
				1424	return ERR_SYNC_AFTER;
				1425
				1426	/* check for loops */
				1427	odev = minor_to_mdev(o_minor);
				1428	while (1) {
				1429	if (odev == mdev)
				1430	return ERR_SYNC_AFTER_CYCLE;
				1431
				1432	/* dependency chain ends here, no cycles. */
				1433	if (odev->sync_conf.after == -1)
				1434	return NO_ERROR;
				1435
				1436	/* follow the dependency chain */
				1437	odev = minor_to_mdev(odev->sync_conf.after);
				1438	}
				1439	}
				1440
				1441	int drbd_alter_sa(struct drbd_conf *mdev, int na)
				1442	{
				1443	int changes;
				1444	int retcode;
				1445
				1446	write_lock_irq(&global_state_lock);
				1447	retcode = sync_after_error(mdev, na);
				1448	if (retcode == NO_ERROR) {
				1449	mdev->sync_conf.after = na;
				1450	do {
				1451	changes = _drbd_pause_after(mdev);
				1452	changes \|= _drbd_resume_next(mdev);
				1453	} while (changes);
				1454	}
				1455	write_unlock_irq(&global_state_lock);
				1456	return retcode;
				1457	}
				1458
Lars Ellenberg	9bd28d3	2010-11-05 09:55:18 +0100	[diff] [blame]	1459	void drbd_rs_controller_reset(struct drbd_conf *mdev)
				1460	{
				1461	atomic_set(&mdev->rs_sect_in, 0);
				1462	atomic_set(&mdev->rs_sect_ev, 0);
				1463	mdev->rs_in_flight = 0;
				1464	mdev->rs_planed = 0;
				1465	spin_lock(&mdev->peer_seq_lock);
				1466	fifo_set(&mdev->rs_plan_s, 0);
				1467	spin_unlock(&mdev->peer_seq_lock);
				1468	}
				1469
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1470	/**
				1471	* drbd_start_resync() - Start the resync process
				1472	* @mdev: DRBD device.
				1473	* @side: Either C_SYNC_SOURCE or C_SYNC_TARGET
				1474	*
				1475	* This function might bring you directly into one of the
				1476	* C_PAUSED_SYNC_* states.
				1477	*/
				1478	void drbd_start_resync(struct drbd_conf *mdev, enum drbd_conns side)
				1479	{
				1480	union drbd_state ns;
				1481	int r;
				1482
Philipp Reisner	c4752ef	2010-10-27 17:32:36 +0200	[diff] [blame]	1483	if (mdev->state.conn >= C_SYNC_SOURCE && mdev->state.conn < C_AHEAD) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1484	dev_err(DEV, "Resync already running!\n");
				1485	return;
				1486	}
				1487
Philipp Reisner	59817f4	2010-10-29 12:44:20 +0200	[diff] [blame^]	1488	if (mdev->state.conn < C_AHEAD) {
				1489	/* In case a previous resync run was aborted by an IO error/detach on the peer. */
				1490	drbd_rs_cancel_all(mdev);
				1491	/* This should be done when we abort the resync. We definitely do not
				1492	want to have this for connections going back and forth between
				1493	Ahead/Behind and SyncSource/SyncTarget */
				1494	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1495
				1496	if (side == C_SYNC_TARGET) {
				1497	/* Since application IO was locked out during C_WF_BITMAP_T and
				1498	C_WF_SYNC_UUID we are still unmodified. Before going to C_SYNC_TARGET
				1499	we check that we might make the data inconsistent. */
				1500	r = drbd_khelper(mdev, "before-resync-target");
				1501	r = (r >> 8) & 0xff;
				1502	if (r > 0) {
				1503	dev_info(DEV, "before-resync-target handler returned %d, "
				1504	"dropping connection.\n", r);
				1505	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				1506	return;
				1507	}
				1508	}
				1509
				1510	drbd_state_lock(mdev);
				1511
				1512	if (!get_ldev_if_state(mdev, D_NEGOTIATING)) {
				1513	drbd_state_unlock(mdev);
				1514	return;
				1515	}
				1516
				1517	if (side == C_SYNC_TARGET) {
				1518	mdev->bm_resync_fo = 0;
				1519	} else /* side == C_SYNC_SOURCE */ {
				1520	u64 uuid;
				1521
				1522	get_random_bytes(&uuid, sizeof(u64));
				1523	drbd_uuid_set(mdev, UI_BITMAP, uuid);
				1524	drbd_send_sync_uuid(mdev, uuid);
				1525
				1526	D_ASSERT(mdev->state.disk == D_UP_TO_DATE);
				1527	}
				1528
				1529	write_lock_irq(&global_state_lock);
				1530	ns = mdev->state;
				1531
				1532	ns.aftr_isp = !_drbd_may_sync_now(mdev);
				1533
				1534	ns.conn = side;
				1535
				1536	if (side == C_SYNC_TARGET)
				1537	ns.disk = D_INCONSISTENT;
				1538	else /* side == C_SYNC_SOURCE */
				1539	ns.pdsk = D_INCONSISTENT;
				1540
				1541	r = __drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
				1542	ns = mdev->state;
				1543
				1544	if (ns.conn < C_CONNECTED)
				1545	r = SS_UNKNOWN_ERROR;
				1546
				1547	if (r == SS_SUCCESS) {
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1548	unsigned long tw = drbd_bm_total_weight(mdev);
				1549	unsigned long now = jiffies;
				1550	int i;
				1551
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1552	mdev->rs_failed = 0;
				1553	mdev->rs_paused = 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1554	mdev->rs_same_csum = 0;
Lars Ellenberg	0f0601f	2010-08-11 23:40:24 +0200	[diff] [blame]	1555	mdev->rs_last_events = 0;
				1556	mdev->rs_last_sect_ev = 0;
Lars Ellenberg	1d7734a	2010-08-11 21:21:50 +0200	[diff] [blame]	1557	mdev->rs_total = tw;
				1558	mdev->rs_start = now;
				1559	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
				1560	mdev->rs_mark_left[i] = tw;
				1561	mdev->rs_mark_time[i] = now;
				1562	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1563	_drbd_pause_after(mdev);
				1564	}
				1565	write_unlock_irq(&global_state_lock);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1566	put_ldev(mdev);
				1567
				1568	if (r == SS_SUCCESS) {
				1569	dev_info(DEV, "Began resync as %s (will sync %lu KB [%lu bits set]).\n",
				1570	drbd_conn_str(ns.conn),
				1571	(unsigned long) mdev->rs_total << (BM_BLOCK_SHIFT-10),
				1572	(unsigned long) mdev->rs_total);
				1573
Lars Ellenberg	af85e8e	2010-10-07 16:07:55 +0200	[diff] [blame]	1574	if (mdev->agreed_pro_version < 95 && mdev->rs_total == 0) {
				1575	/* This still has a race (about when exactly the peers
				1576	* detect connection loss) that can lead to a full sync
				1577	* on next handshake. In 8.3.9 we fixed this with explicit
				1578	* resync-finished notifications, but the fix
				1579	* introduces a protocol change. Sleeping for some
				1580	* time longer than the ping interval + timeout on the
				1581	* SyncSource, to give the SyncTarget the chance to
				1582	* detect connection loss, then waiting for a ping
				1583	* response (implicit in drbd_resync_finished) reduces
				1584	* the race considerably, but does not solve it. */
				1585	if (side == C_SYNC_SOURCE)
				1586	schedule_timeout_interruptible(
				1587	mdev->net_conf->ping_int * HZ +
				1588	mdev->net_conf->ping_timeo*HZ/9);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1589	drbd_resync_finished(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1590	}
				1591
Lars Ellenberg	9bd28d3	2010-11-05 09:55:18 +0100	[diff] [blame]	1592	drbd_rs_controller_reset(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1593	/* ns.conn may already be != mdev->state.conn,
				1594	* we may have been paused in between, or become paused until
				1595	* the timer triggers.
				1596	* No matter, that is handled in resync_timer_fn() */
				1597	if (ns.conn == C_SYNC_TARGET)
				1598	mod_timer(&mdev->resync_timer, jiffies);
				1599
				1600	drbd_md_sync(mdev);
				1601	}
Philipp Reisner	d0c3f60	2010-03-02 15:06:45 +0100	[diff] [blame]	1602	drbd_state_unlock(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1603	}
				1604
				1605	int drbd_worker(struct drbd_thread *thi)
				1606	{
				1607	struct drbd_conf *mdev = thi->mdev;
				1608	struct drbd_work *w = NULL;
				1609	LIST_HEAD(work_list);
				1610	int intr = 0, i;
				1611
				1612	sprintf(current->comm, "drbd%d_worker", mdev_to_minor(mdev));
				1613
				1614	while (get_t_state(thi) == Running) {
				1615	drbd_thread_current_set_cpu(mdev);
				1616
				1617	if (down_trylock(&mdev->data.work.s)) {
				1618	mutex_lock(&mdev->data.mutex);
				1619	if (mdev->data.socket && !mdev->net_conf->no_cork)
				1620	drbd_tcp_uncork(mdev->data.socket);
				1621	mutex_unlock(&mdev->data.mutex);
				1622
				1623	intr = down_interruptible(&mdev->data.work.s);
				1624
				1625	mutex_lock(&mdev->data.mutex);
				1626	if (mdev->data.socket && !mdev->net_conf->no_cork)
				1627	drbd_tcp_cork(mdev->data.socket);
				1628	mutex_unlock(&mdev->data.mutex);
				1629	}
				1630
				1631	if (intr) {
				1632	D_ASSERT(intr == -EINTR);
				1633	flush_signals(current);
				1634	ERR_IF (get_t_state(thi) == Running)
				1635	continue;
				1636	break;
				1637	}
				1638
				1639	if (get_t_state(thi) != Running)
				1640	break;
				1641	/* With this break, we have done a down() but not consumed
				1642	the entry from the list. The cleanup code takes care of
				1643	this... */
				1644
				1645	w = NULL;
				1646	spin_lock_irq(&mdev->data.work.q_lock);
				1647	ERR_IF(list_empty(&mdev->data.work.q)) {
				1648	/* something terribly wrong in our logic.
				1649	* we were able to down() the semaphore,
				1650	* but the list is empty... doh.
				1651	*
				1652	* what is the best thing to do now?
				1653	* try again from scratch, restarting the receiver,
				1654	* asender, whatnot? could break even more ugly,
				1655	* e.g. when we are primary, but no good local data.
				1656	*
				1657	* I'll try to get away just starting over this loop.
				1658	*/
				1659	spin_unlock_irq(&mdev->data.work.q_lock);
				1660	continue;
				1661	}
				1662	w = list_entry(mdev->data.work.q.next, struct drbd_work, list);
				1663	list_del_init(&w->list);
				1664	spin_unlock_irq(&mdev->data.work.q_lock);
				1665
				1666	if (!w->cb(mdev, w, mdev->state.conn < C_CONNECTED)) {
				1667	/* dev_warn(DEV, "worker: a callback failed! \n"); */
				1668	if (mdev->state.conn >= C_CONNECTED)
				1669	drbd_force_state(mdev,
				1670	NS(conn, C_NETWORK_FAILURE));
				1671	}
				1672	}
				1673	D_ASSERT(test_bit(DEVICE_DYING, &mdev->flags));
				1674	D_ASSERT(test_bit(CONFIG_PENDING, &mdev->flags));
				1675
				1676	spin_lock_irq(&mdev->data.work.q_lock);
				1677	i = 0;
				1678	while (!list_empty(&mdev->data.work.q)) {
				1679	list_splice_init(&mdev->data.work.q, &work_list);
				1680	spin_unlock_irq(&mdev->data.work.q_lock);
				1681
				1682	while (!list_empty(&work_list)) {
				1683	w = list_entry(work_list.next, struct drbd_work, list);
				1684	list_del_init(&w->list);
				1685	w->cb(mdev, w, 1);
				1686	i++; /* dead debugging code */
				1687	}
				1688
				1689	spin_lock_irq(&mdev->data.work.q_lock);
				1690	}
				1691	sema_init(&mdev->data.work.s, 0);
				1692	/* DANGEROUS race: if someone did queue his work within the spinlock,
				1693	* but up() ed outside the spinlock, we could get an up() on the
				1694	* semaphore without corresponding list entry.
				1695	* So don't do that.
				1696	*/
				1697	spin_unlock_irq(&mdev->data.work.q_lock);
				1698
				1699	D_ASSERT(mdev->state.disk == D_DISKLESS && mdev->state.conn == C_STANDALONE);
				1700	/* _drbd_set_state only uses stop_nowait.
				1701	* wait here for the Exiting receiver. */
				1702	drbd_thread_stop(&mdev->receiver);
				1703	drbd_mdev_cleanup(mdev);
				1704
				1705	dev_info(DEV, "worker terminated\n");
				1706
				1707	clear_bit(DEVICE_DYING, &mdev->flags);
				1708	clear_bit(CONFIG_PENDING, &mdev->flags);
				1709	wake_up(&mdev->state_wait);
				1710
				1711	return 0;
				1712	}