]> mj.ucw.cz Git - libucw.git/blob - sort-test.c
f103710070e9115e4b1544323b5b24ec2e725969
[libucw.git] / sort-test.c
1 /*
2  *      UCW Library -- Testing the Sorter
3  *
4  *      (c) 2007 Martin Mares <mj@ucw.cz>
5  *
6  *      This software may be freely distributed and used according to the terms
7  *      of the GNU Lesser General Public License.
8  */
9
10 #include "lib/lib.h"
11 #include "lib/getopt.h"
12 #include "lib/conf.h"
13 #include "lib/fastbuf.h"
14 #include "lib/ff-binary.h"
15 #include "lib/hashfunc.h"
16 #include "lib/md5.h"
17
18 #include <stdlib.h>
19 #include <stdio.h>
20 #include <string.h>
21 #include <fcntl.h>
22 #include <unistd.h>
23
24 /*** Time measurement ***/
25
26 static timestamp_t timer;
27
28 static void
29 start(void)
30 {
31   sync();
32   init_timer(&timer);
33 }
34
35 static void
36 stop(void)
37 {
38   sync();
39   log(L_INFO, "Test took %.3fs", get_timer(&timer) / 1000.);
40 }
41
42 /*** Simple 4-byte integer keys ***/
43
44 struct key1 {
45   u32 x;
46 };
47
48 #define SORT_KEY_REGULAR struct key1
49 #define SORT_PREFIX(x) s1_##x
50 #define SORT_INPUT_FB
51 #define SORT_OUTPUT_FB
52 #define SORT_UNIQUE
53 #define SORT_INT(k) (k).x
54 #define SORT_DELETE_INPUT 0
55
56 #include "lib/sorter/sorter.h"
57
58 static void
59 test_int(int mode, u64 size)
60 {
61   uns N = size ? nextprime(MIN(size/4, 0xffff0000)) : 0;
62   uns K = N/4*3;
63   log(L_INFO, ">>> Integers (%s, N=%u)", ((char *[]) { "increasing", "decreasing", "random" })[mode], N);
64
65   struct fastbuf *f = bopen_tmp(65536);
66   for (uns i=0; i<N; i++)
67     bputl(f, (mode==0) ? i : (mode==1) ? N-1-i : ((u64)i * K + 17) % N);
68   brewind(f);
69
70   start();
71   f = s1_sort(f, NULL, N-1);
72   stop();
73
74   SORT_XTRACE(2, "Verifying");
75   for (uns i=0; i<N; i++)
76     {
77       uns j = bgetl(f);
78       if (i != j)
79         die("Discrepancy: %u instead of %u", j, i);
80     }
81   bclose(f);
82 }
83
84 /*** Integers with merging, but no data ***/
85
86 struct key2 {
87   u32 x;
88   u32 cnt;
89 };
90
91 static inline void s2_write_merged(struct fastbuf *f, struct key2 **k, void **d UNUSED, uns n, void *buf UNUSED)
92 {
93   for (uns i=1; i<n; i++)
94     k[0]->cnt += k[i]->cnt;
95   bwrite(f, k[0], sizeof(struct key2));
96 }
97
98 #define SORT_KEY_REGULAR struct key2
99 #define SORT_PREFIX(x) s2_##x
100 #define SORT_INPUT_FB
101 #define SORT_OUTPUT_FB
102 #define SORT_UNIFY
103 #define SORT_INT(k) (k).x
104
105 #include "lib/sorter/sorter.h"
106
107 static void
108 test_counted(int mode, u64 size)
109 {
110   u64 items = size / sizeof(struct key2);
111   uns mult = 2;
112   while (items/(2*mult) > 0xffff0000)
113     mult++;
114   uns N = items ? nextprime(items/(2*mult)) : 0;
115   uns K = N/4*3;
116   log(L_INFO, ">>> Counted integers (%s, N=%u, mult=%u)", ((char *[]) { "increasing", "decreasing", "random" })[mode], N, mult);
117
118   struct fastbuf *f = bopen_tmp(65536);
119   for (uns m=0; m<mult; m++)
120     for (uns i=0; i<N; i++)
121       for (uns j=0; j<2; j++)
122         {
123           bputl(f, (mode==0) ? (i%N) : (mode==1) ? N-1-(i%N) : ((u64)i * K + 17) % N);
124           bputl(f, 1);
125         }
126   brewind(f);
127
128   start();
129   f = s2_sort(f, NULL, N-1);
130   stop();
131
132   SORT_XTRACE(2, "Verifying");
133   for (uns i=0; i<N; i++)
134     {
135       uns j = bgetl(f);
136       if (i != j)
137         die("Discrepancy: %u instead of %u", j, i);
138       uns k = bgetl(f);
139       if (k != 2*mult)
140         die("Discrepancy: %u has count %u instead of %u", j, k, mult);
141     }
142   bclose(f);
143 }
144
145 /*** Longer records with hashes (similar to Shepherd's index records) ***/
146
147 struct key3 {
148   u32 hash[4];
149   u32 i;
150   u32 payload[3];
151 };
152
153 static inline int s3_compare(struct key3 *x, struct key3 *y)
154 {
155   /* FIXME: Maybe unroll manually? */
156   for (uns i=0; i<4; i++)
157     COMPARE(x->hash[i], y->hash[i]);
158   return 0;
159 }
160
161 static inline uns s3_hash(struct key3 *x)
162 {
163   return x->hash[0];
164 }
165
166 #define SORT_KEY_REGULAR struct key3
167 #define SORT_PREFIX(x) s3_##x
168 #define SORT_INPUT_FB
169 #define SORT_OUTPUT_FB
170 #define SORT_HASH_BITS 32
171
172 #include "lib/sorter/sorter.h"
173
174 static void
175 gen_hash_key(int mode, struct key3 *k, uns i)
176 {
177   k->i = i;
178   k->payload[0] = 7*i + 13;
179   k->payload[1] = 13*i + 19;
180   k->payload[2] = 19*i + 7;
181   switch (mode)
182     {
183     case 0:
184       k->hash[0] = i;
185       k->hash[1] = k->payload[0];
186       k->hash[2] = k->payload[1];
187       k->hash[3] = k->payload[2];
188       break;
189     case 1:
190       k->hash[0] = ~i;
191       k->hash[1] = k->payload[0];
192       k->hash[2] = k->payload[1];
193       k->hash[3] = k->payload[2];
194       break;
195     default: ;
196       struct MD5Context ctx;
197       MD5Init(&ctx);
198       MD5Update(&ctx, (byte*) &k->i, 4);
199       MD5Final((byte*) &k->hash, &ctx);
200       break;
201     }
202 }
203
204 static void
205 test_hashes(int mode, u64 size)
206 {
207   uns N = MIN(size / sizeof(struct key3), 0xffffffff);
208   log(L_INFO, ">>> Hashes (%s, N=%u)", ((char *[]) { "increasing", "decreasing", "random" })[mode], N);
209   struct key3 k, lastk;
210
211   struct fastbuf *f = bopen_tmp(65536);
212   uns hash_sum = 0;
213   for (uns i=0; i<N; i++)
214     {
215       gen_hash_key(mode, &k, i);
216       hash_sum += k.hash[3];
217       bwrite(f, &k, sizeof(k));
218     }
219   brewind(f);
220
221   start();
222   f = s3_sort(f, NULL);
223   stop();
224
225   SORT_XTRACE(2, "Verifying");
226   for (uns i=0; i<N; i++)
227     {
228       int ok = breadb(f, &k, sizeof(k));
229       ASSERT(ok);
230       if (i && s3_compare(&k, &lastk) <= 0)
231         ASSERT(0);
232       gen_hash_key(mode, &lastk, k.i);
233       if (memcmp(&k, &lastk, sizeof(k)))
234         ASSERT(0);
235       hash_sum -= k.hash[3];
236     }
237   ASSERT(!hash_sum);
238   bclose(f);
239 }
240
241 /*** Variable-length records (strings) with and without var-length data ***/
242
243 #define KEY4_MAX 256
244
245 struct key4 {
246   uns len;
247   byte s[KEY4_MAX];
248 };
249
250 static inline int s4_compare(struct key4 *x, struct key4 *y)
251 {
252   uns l = MIN(x->len, y->len);
253   int c = memcmp(x->s, y->s, l);
254   if (c)
255     return c;
256   COMPARE(x->len, y->len);
257   return 0;
258 }
259
260 static inline int s4_read_key(struct fastbuf *f, struct key4 *x)
261 {
262   x->len = bgetl(f);
263   if (x->len == 0xffffffff)
264     return 0;
265   ASSERT(x->len < KEY4_MAX);
266   breadb(f, x->s, x->len);
267   return 1;
268 }
269
270 static inline void s4_write_key(struct fastbuf *f, struct key4 *x)
271 {
272   ASSERT(x->len < KEY4_MAX);
273   bputl(f, x->len);
274   bwrite(f, x->s, x->len);
275 }
276
277 #define SORT_KEY struct key4
278 #define SORT_PREFIX(x) s4_##x
279 #define SORT_KEY_SIZE(x) (sizeof(struct key4) - KEY4_MAX + (x).len)
280 #define SORT_INPUT_FB
281 #define SORT_OUTPUT_FB
282
283 #include "lib/sorter/sorter.h"
284
285 #define s4b_compare s4_compare
286 #define s4b_read_key s4_read_key
287 #define s4b_write_key s4_write_key
288
289 static inline uns s4_data_size(struct key4 *x)
290 {
291   return x->len ? (x->s[0] ^ 0xad) : 0;
292 }
293
294 #define SORT_KEY struct key4
295 #define SORT_PREFIX(x) s4b_##x
296 #define SORT_KEY_SIZE(x) (sizeof(struct key4) - KEY4_MAX + (x).len)
297 #define SORT_DATA_SIZE(x) s4_data_size(&(x))
298 #define SORT_INPUT_FB
299 #define SORT_OUTPUT_FB
300
301 #include "lib/sorter/sorter.h"
302
303 static void
304 gen_key4(struct key4 *k)
305 {
306   k->len = random_max(KEY4_MAX);
307   for (uns i=0; i<k->len; i++)
308     k->s[i] = random();
309 }
310
311 static void
312 gen_data4(byte *buf, uns len, uns h)
313 {
314   while (len--)
315     {
316       *buf++ = h >> 24;
317       h = h*259309 + 17;
318     }
319 }
320
321 static void
322 test_strings(uns mode, u64 size)
323 {
324   uns avg_item_size = KEY4_MAX/2 + 4 + (mode ? 128 : 0);
325   uns N = MIN(size / avg_item_size, 0xffffffff);
326   log(L_INFO, ">>> Strings %s(N=%u)", (mode ? "with data " : ""), N);
327   srand(1);
328
329   struct key4 k, lastk;
330   byte buf[256], buf2[256];
331   uns sum = 0;
332
333   struct fastbuf *f = bopen_tmp(65536);
334   for (uns i=0; i<N; i++)
335     {
336       gen_key4(&k);
337       s4_write_key(f, &k);
338       uns h = hash_block(k.s, k.len);
339       sum += h;
340       if (mode)
341         {
342           gen_data4(buf, s4_data_size(&k), h);
343           bwrite(f, buf, s4_data_size(&k));
344         }
345     }
346   brewind(f);
347
348   start();
349   f = (mode ? s4b_sort : s4_sort)(f, NULL);
350   stop();
351
352   SORT_XTRACE(2, "Verifying");
353   for (uns i=0; i<N; i++)
354     {
355       int ok = s4_read_key(f, &k);
356       ASSERT(ok);
357       uns h = hash_block(k.s, k.len);
358       if (mode && s4_data_size(&k))
359         {
360           ok = breadb(f, buf, s4_data_size(&k));
361           ASSERT(ok);
362           gen_data4(buf2, s4_data_size(&k), h);
363           ASSERT(!memcmp(buf, buf2, s4_data_size(&k)));
364         }
365       if (i && s4_compare(&k, &lastk) < 0)
366         ASSERT(0);
367       sum -= h;
368       lastk = k;
369     }
370   ASSERT(!sum);
371   bclose(f);
372 }
373
374 /*** Graph-like structure with custom presorting ***/
375
376 struct key5 {
377   u32 x;
378   u32 cnt;
379 };
380
381 static uns s5_N, s5_K, s5_L, s5_i, s5_j;
382
383 struct s5_pair {
384   uns x, y;
385 };
386
387 static int s5_gen(struct s5_pair *p)
388 {
389   if (s5_j >= s5_N)
390     {
391       if (s5_i >= s5_N-1)
392         return 0;
393       s5_j = 0;
394       s5_i++;
395     }
396   p->x = ((u64)s5_j * s5_K) % s5_N;
397   p->y = ((u64)(s5_i + s5_j) * s5_L) % s5_N;
398   s5_j++;
399   return 1;
400 }
401
402 #define ASORT_PREFIX(x) s5m_##x
403 #define ASORT_KEY_TYPE u32
404 #define ASORT_ELT(i) ary[i]
405 #define ASORT_EXTRA_ARGS , u32 *ary
406 #include "lib/arraysort.h"
407
408 static void s5_write_merged(struct fastbuf *f, struct key5 **keys, void **data, uns n, void *buf)
409 {
410   u32 *a = buf;
411   uns m = 0;
412   for (uns i=0; i<n; i++)
413     {
414       memcpy(&a[m], data[i], 4*keys[i]->cnt);
415       m += keys[i]->cnt;
416     }
417   s5m_sort(m, a);
418   keys[0]->cnt = m;
419   bwrite(f, keys[0], sizeof(struct key5));
420   bwrite(f, a, 4*m);                    /* FIXME: Might overflow here */
421 }
422
423 static void s5_copy_merged(struct key5 **keys, struct fastbuf **data, uns n, struct fastbuf *dest)
424 {
425   u32 k[n];
426   uns m = 0;
427   for (uns i=0; i<n; i++)
428     {
429       k[i] = bgetl(data[i]);
430       m += keys[i]->cnt;
431     }
432   struct key5 key = { .x = keys[0]->x, .cnt = m };
433   bwrite(dest, &key, sizeof(key));
434   while (key.cnt--)
435     {
436       uns b = 0;
437       for (uns i=1; i<n; i++)
438         if (k[i] < k[b])
439           b = i;
440       bputl(dest, k[b]);
441       if (--keys[b]->cnt)
442         k[b] = bgetl(data[b]);
443       else
444         k[b] = ~0U;
445     }
446 }
447
448 static inline int s5p_lt(struct s5_pair x, struct s5_pair y)
449 {
450   COMPARE_LT(x.x, y.x);
451   COMPARE_LT(x.y, y.y);
452   return 0;
453 }
454
455 /* FIXME: Use smarter internal sorter when it's available */
456 #define ASORT_PREFIX(x) s5p_##x
457 #define ASORT_KEY_TYPE struct s5_pair
458 #define ASORT_ELT(i) ary[i]
459 #define ASORT_LT(x,y) s5p_lt(x,y)
460 #define ASORT_EXTRA_ARGS , struct s5_pair *ary
461 #include "lib/arraysort.h"
462
463 static int s5_presort(struct fastbuf *dest, void *buf, size_t bufsize)
464 {
465   uns max = MIN(bufsize/sizeof(struct s5_pair), 0xffffffff);
466   struct s5_pair *a = buf;
467   uns n = 0;
468   while (n<max && s5_gen(&a[n]))
469     n++;
470   if (!n)
471     return 0;
472   s5p_sort(n, a);
473   uns i = 0;
474   while (i < n)
475     {
476       uns j = i;
477       while (i < n && a[i].x == a[j].x)
478         i++;
479       struct key5 k = { .x = a[j].x, .cnt = i-j };
480       bwrite(dest, &k, sizeof(k));
481       while (j < i)
482         bputl(dest, a[j++].y);
483     }
484   return 1;
485 }
486
487 #define SORT_KEY_REGULAR struct key5
488 #define SORT_PREFIX(x) s5_##x
489 #define SORT_DATA_SIZE(k) (4*(k).cnt)
490 #define SORT_UNIFY
491 #define SORT_UNIFY_WORKSPACE(k) SORT_DATA_SIZE(k)
492 #define SORT_INPUT_PRESORT
493 #define SORT_OUTPUT_THIS_FB
494 #define SORT_INT(k) (k).x
495
496 #include "lib/sorter/sorter.h"
497
498 #define SORT_KEY_REGULAR struct key5
499 #define SORT_PREFIX(x) s5b_##x
500 #define SORT_DATA_SIZE(k) (4*(k).cnt)
501 #define SORT_UNIFY
502 #define SORT_UNIFY_WORKSPACE(k) SORT_DATA_SIZE(k)
503 #define SORT_INPUT_FB
504 #define SORT_OUTPUT_THIS_FB
505 #define SORT_INT(k) (k).x
506 #define s5b_write_merged s5_write_merged
507 #define s5b_copy_merged s5_copy_merged
508
509 #include "lib/sorter/sorter.h"
510
511 static void
512 test_graph(uns mode, u64 size)
513 {
514   uns N = 3;
515   while ((u64)N*(N+2)*4 < size)
516     N = nextprime(N);
517   log(L_INFO, ">>> Graph%s (N=%u)", (mode ? "" : " with custom presorting"), N);
518   s5_N = N;
519   s5_K = N/4*3;
520   s5_L = N/3*2;
521   s5_i = s5_j = 0;
522
523   struct fastbuf *in = NULL;
524   if (mode)
525     {
526       struct s5_pair p;
527       in = bopen_tmp(65536);
528       while (s5_gen(&p))
529         {
530           struct key5 k = { .x = p.x, .cnt = 1 };
531           bwrite(in, &k, sizeof(k));
532           bputl(in, p.y);
533         }
534       brewind(in);
535     }
536
537   start();
538   struct fastbuf *f = bopen_tmp(65536);
539   bputl(f, 0xfeedcafe);
540   struct fastbuf *g = (mode ? s5b_sort(in, f, s5_N-1) : s5_sort(NULL, f, s5_N-1));
541   ASSERT(f == g);
542   stop();
543
544   SORT_XTRACE(2, "Verifying");
545   uns c = bgetl(f);
546   ASSERT(c == 0xfeedcafe);
547   for (uns i=0; i<N; i++)
548     {
549       struct key5 k;
550       int ok = breadb(f, &k, sizeof(k));
551       ASSERT(ok);
552       ASSERT(k.x == i);
553       ASSERT(k.cnt == N);
554       for (uns j=0; j<N; j++)
555         {
556           uns y = bgetl(f);
557           ASSERT(y == j);
558         }
559     }
560   bclose(f);
561 }
562
563 /*** Simple 8-byte integer keys ***/
564
565 struct key6 {
566   u64 x;
567 };
568
569 #define SORT_KEY_REGULAR struct key6
570 #define SORT_PREFIX(x) s6_##x
571 #define SORT_INPUT_FB
572 #define SORT_OUTPUT_FB
573 #define SORT_UNIQUE
574 #define SORT_INT64(k) (k).x
575
576 #include "lib/sorter/sorter.h"
577
578 static void
579 test_int64(int mode, u64 size)
580 {
581   u64 N = size ? nextprime(MIN(size/8, 0xffff0000)) : 0;
582   u64 K = N/4*3;
583   log(L_INFO, ">>> 64-bit integers (%s, N=%llu)", ((char *[]) { "increasing", "decreasing", "random" })[mode], (long long)N);
584
585   struct fastbuf *f = bopen_tmp(65536);
586   for (u64 i=0; i<N; i++)
587     bputq(f, 777777*((mode==0) ? i : (mode==1) ? N-1-i : ((u64)i * K + 17) % N));
588   brewind(f);
589
590   start();
591   f = s6_sort(f, NULL, 777777*(N-1));
592   stop();
593
594   SORT_XTRACE(2, "Verifying");
595   for (u64 i=0; i<N; i++)
596     {
597       u64 j = bgetq(f);
598       if (777777*i != j)
599         die("Discrepancy: %llu instead of %llu", (long long)j, 777777*(long long)i);
600     }
601   bclose(f);
602 }
603
604 /*** Main ***/
605
606 static void
607 run_test(uns i, u64 size)
608 {
609   switch (i)
610     {
611     case 0:
612       test_int(0, size); break;
613     case 1:
614       test_int(1, size); break;
615     case 2:
616       test_int(2, size); break;
617     case 3:
618       test_counted(0, size); break;
619     case 4:
620       test_counted(1, size); break;
621     case 5:
622       test_counted(2, size); break;
623     case 6:
624       test_hashes(0, size); break;
625     case 7:
626       test_hashes(1, size); break;
627     case 8:
628       test_hashes(2, size); break;
629     case 9:
630       test_strings(0, size); break;
631     case 10:
632       test_strings(1, size); break;
633     case 11:
634       test_graph(0, size); break;
635     case 12:
636       test_graph(1, size); break;
637     case 13:
638       test_int64(0, size); break;
639     case 14:
640       test_int64(1, size); break;
641     case 15:
642       test_int64(2, size); break;
643 #define TMAX 16
644     }
645 }
646
647 int
648 main(int argc, char **argv)
649 {
650   log_init(NULL);
651   int c;
652   u64 size = 10000000;
653   uns t = ~0;
654
655   while ((c = cf_getopt(argc, argv, CF_SHORT_OPTS "d:s:t:v", CF_NO_LONG_OPTS, NULL)) >= 0)
656     switch (c)
657       {
658       case 'd':
659         sorter_debug = atol(optarg);
660         break;
661       case 's':
662         if (cf_parse_u64(optarg, &size))
663           goto usage;
664         break;
665       case 't':
666         t = atol(optarg);
667         if (t >= TMAX)
668           goto usage;
669         break;
670       case 'v':
671         sorter_trace++;
672         break;
673       default:
674       usage:
675         fputs("Usage: sort-test [-v] [-d <debug>] [-s <size>] [-t <test>]\n", stderr);
676         exit(1);
677       }
678   if (optind != argc)
679     goto usage;
680
681   if (t != ~0U)
682     run_test(t, size);
683   else
684     for (uns i=0; i<TMAX; i++)
685       run_test(i, size);
686
687   return 0;
688 }