]> mj.ucw.cz Git - libucw.git/blob - lib/sorter/common.h
Added decision logic which switches between 2-way merges, n-way merges
[libucw.git] / lib / sorter / common.h
1 /*
2  *      UCW Library -- Universal Sorter: Common Declarations
3  *
4  *      (c) 2007 Martin Mares <mj@ucw.cz>
5  *
6  *      This software may be freely distributed and used according to the terms
7  *      of the GNU Lesser General Public License.
8  */
9
10 #ifndef _UCW_SORTER_COMMON_H
11 #define _UCW_SORTER_COMMON_H
12
13 #include "lib/clists.h"
14
15 /* Configuration, some of the variables are used by the old sorter, too. */
16 extern uns sorter_trace, sorter_presort_bufsize, sorter_stream_bufsize;
17 extern uns sorter_debug, sorter_min_radix_bits, sorter_max_radix_bits;
18 extern uns sorter_min_multiway_bits, sorter_max_multiway_bits;
19 extern u64 sorter_bufsize;
20 extern struct fb_params sorter_fb_params;
21
22 #define SORT_TRACE(x...) do { if (sorter_trace) msg(L_DEBUG, x); } while(0)
23 #define SORT_XTRACE(level, x...) do { if (sorter_trace >= level) msg(L_DEBUG, x); } while(0)
24
25 enum sort_debug {
26   SORT_DEBUG_NO_PRESORT = 1,
27   SORT_DEBUG_NO_JOIN = 2,
28   SORT_DEBUG_KEEP_BUCKETS = 4,
29   SORT_DEBUG_NO_RADIX = 8,
30   SORT_DEBUG_NO_MULTIWAY = 16,
31 };
32
33 struct sort_bucket;
34
35 struct sort_context {
36   struct fastbuf *in_fb;
37   struct fastbuf *out_fb;
38   uns hash_bits;
39   u64 in_size;
40
41   struct mempool *pool;
42   clist bucket_list;
43   void *big_buf;
44   size_t big_buf_size;
45
46   int (*custom_presort)(struct fastbuf *dest, void *buf, size_t bufsize);
47
48   // Take as much as possible from the source bucket, sort it in memory and dump to destination bucket.
49   // Return 1 if there is more data available in the source bucket.
50   int (*internal_sort)(struct sort_context *ctx, struct sort_bucket *in, struct sort_bucket *out, struct sort_bucket *out_only);
51
52   // Estimate how much input data from `b' will fit in the internal sorting buffer.
53   u64 (*internal_estimate)(struct sort_context *ctx, struct sort_bucket *b);
54
55   // Two-way split/merge: merge up to 2 source buckets to up to 2 destination buckets.
56   // Bucket arrays are NULL-terminated.
57   void (*twoway_merge)(struct sort_context *ctx, struct sort_bucket **ins, struct sort_bucket **outs);
58
59   // Multi-way merge: merge an arbitrary number of source buckets to a single destination bucket.
60   void (*multiway_merge)(struct sort_context *ctx, struct sort_bucket **ins, struct sort_bucket *out);
61
62   // Radix split according to hash function
63   void (*radix_split)(struct sort_context *ctx, struct sort_bucket *in, struct sort_bucket **outs, uns bitpos, uns numbits);
64
65   // State variables of internal_sort
66   void *key_buf;
67   int more_keys;
68
69   // Timing
70   timestamp_t start_time;
71   uns last_pass_time;
72   uns total_int_time, total_pre_time, total_ext_time;
73 };
74
75 void sorter_run(struct sort_context *ctx);
76
77 /* Buffers */
78
79 void *sorter_alloc(struct sort_context *ctx, uns size);
80 void sorter_prepare_buf(struct sort_context *ctx);
81 void sorter_alloc_buf(struct sort_context *ctx);
82 void sorter_free_buf(struct sort_context *ctx);
83
84 /* Buckets */
85
86 struct sort_bucket {
87   cnode n;
88   struct sort_context *ctx;
89   uns flags;
90   struct fastbuf *fb;
91   byte *filename;
92   u64 size;                             // Size in bytes (not valid when writing)
93   uns runs;                             // Number of runs, 0 if not sorted
94   uns hash_bits;                        // Remaining bits of the hash function
95   byte *ident;                          // Identifier used in debug messages
96 };
97
98 enum sort_bucket_flags {
99   SBF_FINAL = 1,                        // This bucket corresponds to the final output file (always 1 run)
100   SBF_SOURCE = 2,                       // Contains the source file (always 0 runs)
101   SBF_CUSTOM_PRESORT = 4,               // Contains source to read via custom presorter
102   SBF_OPEN_WRITE = 256,                 // We are currently writing to the fastbuf
103   SBF_OPEN_READ = 512,                  // We are reading from the fastbuf
104   SBF_DESTROYED = 1024,                 // Already done with, no further references allowed
105   SBF_SWAPPED_OUT = 2048,               // Swapped out to a named file
106 };
107
108 struct sort_bucket *sbuck_new(struct sort_context *ctx);
109 void sbuck_drop(struct sort_bucket *b);
110 int sbuck_have(struct sort_bucket *b);
111 int sbuck_has_file(struct sort_bucket *b);
112 sh_off_t sbuck_size(struct sort_bucket *b);
113 struct fastbuf *sbuck_read(struct sort_bucket *b);
114 struct fastbuf *sbuck_write(struct sort_bucket *b);
115 void sbuck_swap_out(struct sort_bucket *b);
116
117 #endif