Main.c 17.2 KB
Newer Older
1
2
3
#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>
iker_martin's avatar
iker_martin committed
4
5
#include <fcntl.h>
#include <sys/stat.h>
6
#include "../IOcodes/read_ini.h"
7
#include "../IOcodes/results.h"
iker_martin's avatar
iker_martin committed
8
9
#include "../malleability/ProcessDist.h"
#include "../malleability/CommDist.h"
10
11
12

#define ROOT 0

iker_martin's avatar
iker_martin committed
13
14
15
int work();
void Sons_init();

16
int checkpoint(int iter, int state, MPI_Request **comm_req);
iker_martin's avatar
iker_martin committed
17
void TC(int numS);
18
19
int start_redistribution(int numS, MPI_Request **comm_req);
int check_redistribution(int iter, MPI_Request **comm_req);
iker_martin's avatar
iker_martin committed
20

21
void iterate(double *matrix, int n, int async_comm);
22
23
24
void computeMatrix(double *matrix, int n);
void initMatrix(double **matrix, int n);

25
26
27
28
void init_group_struct(char *argv[], int myId, int numP);
void init_application();
void free_application_data();

29
void print_general_info(int myId, int grp, int numP);
30
int print_final_results();
iker_martin's avatar
iker_martin committed
31
int create_out_file(char *nombre, int *ptr, int newstdout);
32

iker_martin's avatar
iker_martin committed
33
34
35
36
typedef struct {
  int myId;
  int numP;
  int grp;
37
  int iter_start;
iker_martin's avatar
iker_martin committed
38
39
40

  MPI_Comm children, parents;
  char **argv;
41
  char *sync_array, *async_array;
iker_martin's avatar
iker_martin committed
42
43
44
45
} group_data;

configuration *config_file;
group_data *group;
46
results_data *results;
47
int run_id = 0; // Utilizado para diferenciar más fácilmente ejecuciones en el análisis
48

49
int main(int argc, char *argv[]) {
50
    int numP, myId, res;
iker_martin's avatar
iker_martin committed
51
    int req;
52

iker_martin's avatar
iker_martin committed
53
    MPI_Init_thread(&argc, &argv, MPI_THREAD_MULTIPLE, &req);
54
    MPI_Comm_size(MPI_COMM_WORLD, &numP);
iker_martin's avatar
iker_martin committed
55
56
    MPI_Comm_rank(MPI_COMM_WORLD, &myId);

57
58
59
60
61
62
63
    if(argc < 2) {
      printf("Falta el fichero de configuracion. Uso:\n./programa config.ini id\nEl argumento numerico id es opcional\n");
    }
    if(argc > 2) {
      run_id = atoi(argv[2]);
    }

64
65
    init_group_struct(argv, myId, numP);
    init_application();
iker_martin's avatar
iker_martin committed
66

67
68
69
    if(group->grp == 0) {
      MPI_Barrier(MPI_COMM_WORLD);
      results->exec_start = MPI_Wtime();
70
    }
71

72
    res = work();
73

74
75
76
    if(res) { // Se he llegado al final de la aplicacion
      MPI_Barrier(MPI_COMM_WORLD);
      results->exec_time = MPI_Wtime() - results->exec_start;
77
    }
78
79
80
    print_final_results();

    free_application_data();
81
82
83
84
85
    MPI_Finalize();
    return 0;
}

/*
86
87
88
89
90
91
92
93
94
 * Función de trabajo principal.
 *
 * Incializa los datos para realizar el computo y a continuacion
 * pasa a realizar "maxiter" iteraciones de computo.
 *
 * Terminadas las iteraciones realiza el redimensionado de procesos.
 * Si el redimensionado se realiza de forma asincrona se 
 * siguen realizando iteraciones de computo hasta que termine la 
 * comunicacion asincrona y realizar entonces la sincrona.
95
96
97
98
 *
 * Si el grupo de procesos es el ultimo que va a ejecutar, se devuelve
 * el valor 1 para indicar que no se va a seguir trabajando con nuevos grupos
 * de procesos. En caso contrario se devuelve 0.
99
 */
iker_martin's avatar
iker_martin committed
100
int work() {
101
  int iter, maxiter, state, res;
102
  double *matrix;
103
  MPI_Request *async_comm;
104

iker_martin's avatar
iker_martin committed
105
106
  maxiter = config_file->iters[group->grp];
  initMatrix(&matrix, config_file->matrix_tam);
107
  state = MAL_COMM_UNINITIALIZED;
iker_martin's avatar
iker_martin committed
108

109
  res = 0;
110
  for(iter=group->iter_start; iter < maxiter; iter++) {
111
    iterate(matrix, config_file->matrix_tam, state);
112
  }
113
  state = checkpoint(iter, state, &async_comm);
114
  
115
116
  iter = 0;
  while(state == MAL_ASYNC_PENDING) {
117
    iterate(matrix, config_file->matrix_tam, state);
118
    iter++;
119
    state = checkpoint(iter, state, &async_comm);
120
  }
121
  
122
123
  if(config_file->resizes - 1 == group->grp) res=1;
  return res;
124
125
}

126
127
128
129
130
131
132
133
/*
 * Se realiza el redimensionado de procesos por parte de los padres.
 *
 * Se crean los nuevos procesos con la distribucion fisica elegida y
 * a continuacion se transmite la informacion a los mismos.
 *
 * Si hay datos asincronos a transmitir, primero se comienza a
 * transmitir estos y se termina la funcion. Se tiene que comprobar con
134
 * llamando a la función de nuevo que se han terminado de enviar
135
136
137
138
139
140
 *
 * Si hay ademas datos sincronos a enviar, no se envian aun.
 *
 * Si solo hay datos sincronos se envian tras la creacion de los procesos
 * y finalmente se desconectan los dos grupos de procesos.
 */
141
142
143
144
145
146
147
int checkpoint(int iter, int state, MPI_Request **comm_req) {
  
  if(state == MAL_COMM_UNINITIALIZED) {
    // Comprobar si se tiene que realizar un redimensionado
    if(config_file->iters[group->grp] > iter || config_file->resizes == group->grp + 1) {return MAL_COMM_UNINITIALIZED;}

    int numS = config_file->procs[group->grp +1];
148
149

      results->spawn_start = MPI_Wtime();
150
    TC(numS);
151
      results->spawn_time[group->grp] = MPI_Wtime() - results->spawn_start;
152

153
154
155
156
157
    state = start_redistribution(numS, comm_req);

  } else if(MAL_ASYNC_PENDING) {
    state = check_redistribution(iter, comm_req);
  }
iker_martin's avatar
iker_martin committed
158

159
160
  return state;
}
iker_martin's avatar
iker_martin committed
161

162
163
164
165
166
167
168
/*
 * Se encarga de realizar la creacion de los procesos hijos.
 */
void TC(int numS){
  // Inicialización de la comunicación con SLURM
  int dist = config_file->phy_dist[group->grp +1];
  init_slurm_comm(group->argv, group->myId, numS, ROOT, dist, COMM_SPAWN_SERIAL);
iker_martin's avatar
iker_martin committed
169

170
171
172
173
174
175
176
  // Esperar a que la comunicación y creación de procesos
  // haya finalizado
  int test = -1;
  while(test != MPI_SUCCESS) {
    test = check_slurm_comm(group->myId, ROOT, MPI_COMM_WORLD, &(group->children));
  }
}
iker_martin's avatar
iker_martin committed
177

178
179
180
181
182
183
184
185
186
187
188
189
190
191
/*
 * Comienza la redistribucion de los datos con el nuevo grupo de procesos.
 *
 * Primero se envia la configuracion a utilizar al nuevo grupo de procesos y a continuacion
 * se realiza el envio asincrono y/o sincrono si lo hay.
 *
 * En caso de que haya comunicacion asincrona, se comienza y se termina la funcion 
 * indicando que se ha comenzado un envio asincrono.
 *
 * Si no hay comunicacion asincrono se pasa a realizar la sincrona si la hubiese.
 *
 * Finalmente se envian datos sobre los resultados a los hijos y se desconectan ambos
 * grupos de procesos.
 */
192
int start_redistribution(int numS, MPI_Request **comm_req) {
iker_martin's avatar
iker_martin committed
193
194
195
196
197
  int rootBcast = MPI_PROC_NULL;
  if(group->myId == ROOT) rootBcast = MPI_ROOT;

  // Enviar a los hijos que grupo de procesos son
  MPI_Bcast(&(group->grp), 1, MPI_INT, rootBcast, group->children);
198
  MPI_Bcast(&run_id, 1, MPI_INT, rootBcast, group->children);
iker_martin's avatar
iker_martin committed
199
200
  send_config_file(config_file, rootBcast, group->children);

201
  if(config_file->adr > 0) {
202
    results->async_start = MPI_Wtime();
203
204
205
    send_async(group->async_array, config_file->adr, group->myId, group->numP, ROOT, group->children, numS, comm_req, config_file->aib);
    return MAL_ASYNC_PENDING;
  } 
iker_martin's avatar
iker_martin committed
206
  if(config_file->sdr > 0) {
207
      results->sync_start = MPI_Wtime();
iker_martin's avatar
iker_martin committed
208
209
    send_sync(group->sync_array, config_file->sdr, group->myId, group->numP, ROOT, group->children, numS);
  }
210
211

  
212
  send_results(results, rootBcast, config_file->resizes, group->children);
iker_martin's avatar
iker_martin committed
213
214
215
  // Desconectar intercomunicador con los hijos
  MPI_Comm_disconnect(&(group->children));

216
  return MAL_COMM_COMPLETED;
iker_martin's avatar
iker_martin committed
217
218
}

219
220
221
222
223
224
225
226
227
228
229
230
231
/*
 * Comprueba si la redistribucion asincrona ha terminado. 
 * Si no ha terminado la funcion termina indicandolo, en caso contrario,
 * se continua con la comunicacion sincrona, el envio de resultados y
 * se desconectan los grupos de procesos.
 *
 * Esta funcion permite dos modos de funcionamiento al comprobar si la
 * comunicacion asincrona ha terminado.
 * Si se utiliza el modo "MAL_USE_NORMAL", se considera terminada cuando
 * los padres terminan de enviar.
 * Si se utiliza el modo "MAL_USE_IBARRIER", se considera terminada cuando
 * los hijos han terminado de recibir.
 */
232
233
234
235
236
237
int check_redistribution(int iter, MPI_Request **comm_req) {
  int completed, all_completed, test_err, iter_send;
  int numS = config_file->procs[group->grp +1];
  int rootBcast = MPI_PROC_NULL;
  MPI_Request *req_completed;
  if(group->myId == ROOT) rootBcast = MPI_ROOT;
iker_martin's avatar
iker_martin committed
238

239
240
  if(config_file->aib == MAL_USE_NORMAL) {
    req_completed = &(*comm_req)[0];
241
  } else { // MAL_USE_IBARRIER
242
    req_completed = &(*comm_req)[1];
iker_martin's avatar
iker_martin committed
243
  }
244
 
245
  
246
247
  test_err = MPI_Test(req_completed, &completed, MPI_STATUS_IGNORE);
  if (test_err != MPI_SUCCESS && test_err != MPI_ERR_PENDING) {
248
    printf("P%d aborting -- Test Async\n", group->myId);
249
250
251
252
    MPI_Abort(MPI_COMM_WORLD, test_err);
  }

  MPI_Allreduce(&completed, &all_completed, 1, MPI_INT, MPI_MIN, MPI_COMM_WORLD);
253
  if(!all_completed) return MAL_ASYNC_PENDING; // Continue only if asynchronous send has ended 
254
255
256
257
258

  //MPI_Wait(req_completed, MPI_STATUS_IGNORE);
  if(config_file->aib == MAL_USE_IBARRIER) {
    MPI_Wait(&(*comm_req)[0], MPI_STATUS_IGNORE); // Indicar como completado el envio asincrono
  }
259
  
260
261
  iter_send = iter;
  MPI_Bcast(&iter_send, 1, MPI_INT, rootBcast, group->children);
262
  if(config_file->sdr > 0) { // Realizar envio sincrono
263
      results->sync_start = MPI_Wtime();
264
265
    send_sync(group->sync_array, config_file->sdr, group->myId, group->numP, ROOT, group->children, numS);
  }
266
  send_results(results, rootBcast, config_file->resizes, group->children);
267
268
269

  // Desconectar intercomunicador con los hijos
  MPI_Comm_disconnect(&(group->children));
270
  free(*comm_req);
271
  return MAL_COMM_COMPLETED;
iker_martin's avatar
iker_martin committed
272
273
}

274
275
276
277
278
279
/*
 * Inicializacion de los datos de los hijos.
 * En la misma se reciben datos de los padres: La configuracion
 * de la ejecucion a realizar; y los datos a recibir de los padres
 * ya sea de forma sincrona, asincrona o ambas.
 */
iker_martin's avatar
iker_martin committed
280
281
282
283
void Sons_init() {

  // Enviar a los hijos que grupo de procesos son
  MPI_Bcast(&(group->grp), 1, MPI_INT, ROOT, group->parents);
284
  MPI_Bcast(&run_id, 1, MPI_INT, ROOT, group->parents);
iker_martin's avatar
iker_martin committed
285
286
287
288
  group->grp++;

  config_file = recv_config_file(ROOT, group->parents);
  int numP_parents = config_file->procs[group->grp -1];
289
  init_results_data(&results, config_file->resizes - 1, config_file->iters[group->grp]);
iker_martin's avatar
iker_martin committed
290

291
292
  if(config_file->adr > 0) { // Recibir datos asincronos
    recv_async(&(group->async_array), config_file->adr, group->myId, group->numP, ROOT, group->parents, numP_parents, config_file->aib);
293
      results->async_time[group->grp] = MPI_Wtime();
294
295
    MPI_Bcast(&(group->iter_start), 1, MPI_INT, ROOT, group->parents);
  }
296
  if(config_file->sdr > 0) { // Recibir datos sincronos
iker_martin's avatar
iker_martin committed
297
    recv_sync(&(group->sync_array), config_file->sdr, group->myId, group->numP, ROOT, group->parents, numP_parents);
298
    results->sync_time[group->grp] = MPI_Wtime();
iker_martin's avatar
iker_martin committed
299
  }
300
301
302
303
304
305
306
307
308
309
310
311
312

  // Guardar los resultados de esta transmision
  recv_results(results, ROOT, config_file->resizes, group->parents);
  if(config_file->sdr > 0) { // Si no hay datos sincronos, el tiempo es 0
    results->sync_time[group->grp]  = MPI_Wtime() - results->sync_start;
  } else {
    results->sync_time[group->grp]  = 0;
  }
  if(config_file->adr > 0) { // Si no hay datos asincronos, el tiempo es 0
    results->async_time[group->grp]  = MPI_Wtime() - results->async_start;
  } else {
    results->async_time[group->grp]  = 0;
  }
iker_martin's avatar
iker_martin committed
313
314
315
316
317
318
319
320
321
322
323
324
325

  // Desconectar intercomunicador con los hijos
  MPI_Comm_disconnect(&(group->parents));
}


/////////////////////////////////////////
/////////////////////////////////////////
//COMPUTE FUNCTIONS
/////////////////////////////////////////
/////////////////////////////////////////


326
327
/*
 * Simula la ejecucción de una iteración de computo en la aplicación
328
 * que dura al menos un tiempo de "time" segundos.
329
 */
330
void iterate(double *matrix, int n, int async_comm) {
331
  double start_time, actual_time;
iker_martin's avatar
iker_martin committed
332
  double time = config_file->general_time * config_file->factors[group->grp];
333
  int i, operations = 0;
334
335

  start_time = actual_time = MPI_Wtime();
336
337
  if(async_comm == MAL_ASYNC_PENDING) { // Se esta realizando una redistribucion de datos asincrona
    operations = results->iters_type[config_file->iters[group->grp] - 1];
338
339
340
    for (i=0; i<operations; i++) {
      computeMatrix(matrix, n);
    }
341
    actual_time = MPI_Wtime(); // Guardar tiempos
342
343
    operations = 0;

344
  } else { // No hay redistribucion de datos actualmente	  
345
346
347
348
349
    while (actual_time - start_time < time) {
      computeMatrix(matrix, n);
      operations++;
      actual_time = MPI_Wtime(); // Guardar tiempos
    }
350
  }
351

352
353
354
  results->iters_time[results->iter_index] = actual_time - start_time;
  results->iters_type[results->iter_index] = operations;
  results->iter_index = results->iter_index + 1;
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
}

/*
 * Realiza una multiplicación de matrices de tamaño n
 */
void computeMatrix(double *matrix, int n) {
  int row, col, i, aux;

  for(row=0; i<n; row++) {
    /* COMPUTE */
    for(col=0; col<n; col++) {
      aux=0;
      for(i=0; i<n; i++) {
        aux += matrix[row*n + i] * matrix[i*n + col];
      }
    }
  }
}

/*
 * Init matrix
 */
void initMatrix(double **matrix, int n) {
  int i, j;

  // Init matrix
  if(matrix != NULL) {
    *matrix = malloc(n * n * sizeof(double));
    if(*matrix == NULL) { MPI_Abort(MPI_COMM_WORLD, -1);}
    for(i=0; i < n; i++) {
      for(j=0; j < n; j++) {
        (*matrix)[i*n + j] = i+j;
      }
    }
  }
}
391
392
393

//======================================================||
//======================================================||
394
//=============INIT/FREE/PRINT FUNCTIONS================||
395
396
397
//======================================================||
//======================================================||

398
399
400
401
/*
 * Muestra datos generales sobre los procesos, su grupo,
 * en que nodo residen y la version de MPI utilizada.
 */
402
403
404
405
406
407
408
409
410
411
412
413
void print_general_info(int myId, int grp, int numP) {
  int len;
  char *name = malloc(MPI_MAX_PROCESSOR_NAME * sizeof(char));
  char *version = malloc(MPI_MAX_LIBRARY_VERSION_STRING * sizeof(char));
  MPI_Get_processor_name(name, &len);
  MPI_Get_library_version(version, &len);
  printf("P%d Nuevo GRUPO %d de %d procs en nodo %s con %s\n", myId, grp, numP, name, version);

  free(name);
  free(version);
}

414
415
416
417
418
419
/*
 * Pide al proceso raiz imprimir los datos sobre las iteraciones realizadas por el grupo de procesos.
 *
 * Si es el ultimo grupo de procesos, muestra los datos obtenidos de tiempo de ejecucion, creacion de procesos
 * y las comunicaciones.
 */
420
int print_final_results() {
iker_martin's avatar
iker_martin committed
421
422
423
  int ptr_local, ptr_global, err;
  char *file_name;

424
  if(group->myId == ROOT) {
iker_martin's avatar
iker_martin committed
425
426
    file_name = NULL;
    file_name = malloc(40 * sizeof(char));
427
    if(file_name == NULL) return -1; // No ha sido posible alojar la memoria
428
    err = snprintf(file_name, 40, "R%d_G%dNP%dID%d.out", run_id, group->grp, group->numP, group->myId);
429
    if(err < 0) return -2; // No ha sido posible obtener el nombre de fichero
iker_martin's avatar
iker_martin committed
430
431
    create_out_file(file_name, &ptr_local, 1);
  
432
433
    print_config_group(config_file, group->grp);
    print_iter_results(results, config_file->iters[group->grp] -1);
iker_martin's avatar
iker_martin committed
434
    free(file_name);
435
436

    if(group->grp == config_file->resizes -1) {
iker_martin's avatar
iker_martin committed
437
438
      file_name = NULL;
      file_name = malloc(20 * sizeof(char));
439
      if(file_name == NULL) return -1; // No ha sido posible alojar la memoria
440
      err = snprintf(file_name, 20, "R%d_Global.out", run_id);
441
      if(err < 0) return -2; // No ha sido posible obtener el nombre de fichero
iker_martin's avatar
iker_martin committed
442
443

      create_out_file(file_name, &ptr_global, 1);
444
445
      print_config(config_file, group->grp);
      print_global_results(results, config_file->resizes);
iker_martin's avatar
iker_martin committed
446
447
      free(file_name);
      
448
449
    }
  }
450
  return 0;
451
452
453
454
455
456
457
458
459
460
461
462
463
}

/*
 * Inicializa la estructura group
 */
void init_group_struct(char *argv[], int myId, int numP) {
  group = malloc(1 * sizeof(group_data));
  group->myId        = myId;
  group->numP        = numP;
  group->grp         = 0;
  group->iter_start  = 0;
  group->argv        = argv;
}
464

465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
/*
 * Inicializa los datos para este grupo de procesos.
 *
 * En caso de ser el primer grupo de procesos, lee el fichero de configuracion
 * e inicializa los vectores de comunicacion.
 *
 * En caso de ser otro grupo de procesos entra a la funcion "Sons_init()" donde
 * se comunican con los padres para inicializar sus datos.
 */
void init_application() {
  MPI_Comm_get_parent(&(group->parents));
  if(group->parents != MPI_COMM_NULL ) { // Si son procesos hijos deben comunicarse con las padres
    Sons_init();
  } else { // Si son el primer grupo de procesos, recogen la configuracion inicial
    config_file = read_ini_file(group->argv[1]);
    init_results_data(&results, config_file->resizes, config_file->iters[group->grp]);
    if(config_file->sdr > 0) {
      malloc_comm_array(&(group->sync_array), config_file->sdr , group->myId, group->numP);
    }
    if(config_file->adr > 0) {
      malloc_comm_array(&(group->async_array), config_file->adr , group->myId, group->numP);
    }
  }
}

/*
 * Libera toda la memoria asociada con la aplicacion
 */
void free_application_data() {
  if(config_file->sdr > 0) {
    free(group->sync_array);
  }
  if(config_file->adr > 0) {
    free(group->async_array);
  }
  free(group);
  free_config(config_file);
  free_results_data(&results);
}
iker_martin's avatar
iker_martin committed
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528


/* 
 * Función para crear un fichero con el nombre pasado como argumento.
 * Si el nombre ya existe, se escribe la informacion a continuacion.
 *
 * El proceso que llama a la función pasa a tener como salida estandar
 * dicho fichero si el valor "newstdout" es verdadero.
 *
 */
int create_out_file(char *nombre, int *ptr, int newstdout) {
  int err;

  *ptr = open(nombre, O_WRONLY | O_CREAT | O_APPEND, 0644);
  if(*ptr < 0) return -1; // No ha sido posible crear el fichero

  if(newstdout) {
    err = close(1);
    if(err < 0) return -2; // No es posible modificar la salida estandar
    err = dup(*ptr);
    if(err < 0) return -3; // No es posible modificar la salida estandar
  }

  return 0;
}