]> mj.ucw.cz Git - libucw.git/blobdiff - lib/index.h
Started v2.5.
[libucw.git] / lib / index.h
index b17e9a62626440c342d1632086ffa94aa8bc7e1b..cb23ffd63a7b85b654432b8793cdf433e6613551 100644 (file)
@@ -1,7 +1,7 @@
 /*
  *     Sherlock: Data structures used in indices
  *
- *     (c) 2001--2002 Martin Mares <mj@ucw.cz>
+ *     (c) 2001--2003 Martin Mares <mj@ucw.cz>
  */
 
 #ifndef _SHERLOCK_INDEX_H
@@ -11,6 +11,8 @@
 #include SHERLOCK_CUSTOM
 #include "charset/unistream.h"
 
+#define INDEX_VERSION (0x32240100+sizeof(struct card_attr))    /* Increase with each incompatible change in index format */
+
 /*
  *  Words and word complexes
  *
 
 /* Word and string types are defined in lib/custom.h */
 
-/* Global index parameters */
-
-struct index_params {
-  sh_time_t ref_time;                  /* Reference time (for document ages etc.) */
-};
-
 /* Index card attributes */
 
 struct card_attr {
@@ -46,8 +42,12 @@ struct card_attr {
   CUSTOM_CARD_ATTRS                    /* Include all custom attributes */
   byte weight;
   byte flags;
+#ifdef CONFIG_LASTMOD
   byte age;                            /* Document age in pseudo-logarithmic units wrt. reference time */
-  // byte rfu[1];                      /* If no custom attributes are defined */
+#endif
+#ifdef CONFIG_FILETYPE
+  byte type_flags;                     /* File type flags (see below) */
+#endif
 };
 
 enum card_flag {
@@ -56,9 +56,42 @@ enum card_flag {
   CARD_FLAG_DUP = 4,                   /* Removed as a duplicate [merger] */
   CARD_FLAG_MERGED = 8,                        /* Destination of a merge [merger] */
   CARD_FLAG_IMAGE = 16,                        /* Is an image object [scanner] */
+  CARD_FLAG_FRAMESET = 32,             /* Contains a frameset to be ignored [scanner] */
+  CARD_FLAG_GIANT_CLASS = 64,          /* Belongs to a very large class, subject to penalties [merger] */
 };
 
-#define CARD_POS_SHIFT 5               /* Card positions are shifted this # of bytes to the right */
+#define CARD_POS_SHIFT 5               /* Card positions are shifted this # of bits to the right */
+
+/*
+ *  We store document type and several other properties in card_attr->type_flags.
+ *  Here we define only the basic structure, the details are defined in custom.h
+ *  (the list of type names custom_file_type_names[] and also setting of the file
+ *  types in custom_create_attrs()).
+ *
+ *  bits 7--5  file type: (0-3: text types, 4-7: other types, defined by custom.h)
+ *  bits 4--0  type-dependent information, for text types it's document language code
+ */
+
+#ifdef CONFIG_FILETYPE
+#define CA_GET_FILE_TYPE(a) ((a)->type_flags >> 5)
+#define CA_GET_FILE_INFO(a) ((a)->type_flags & 0x1f)
+#define CA_GET_FILE_LANG(a) ((a)->type_flags & 0x80 ? 0 : CA_GET_FILE_INFO(a))
+#define FILETYPE_ATTRS SMALL_SET_ATTR(ftype, FILETYPE, CA_GET_FILE_TYPE, ext_ft_parse)
+byte *ext_ft_parse(u32 *dest, byte *value, uns intval);
+extern byte *custom_file_type_names[8];
+#else
+#define FILETYPE_ATTRS
+#endif
+
+#ifdef CONFIG_LANG
+/* You can use language matching without CONFIG_FILETYPE, but you have to define CA_GET_FILE_LANG yourself. */
+#define LANG_ATTRS SMALL_SET_ATTR(lang, LANG, CA_GET_FILE_LANG, ext_lang_parse)
+byte *ext_lang_parse(u32 *dest, byte *value, uns intval);
+#else
+#define LANG_ATTRS
+#endif
+
+#define EXTENDED_ATTRS CUSTOM_ATTRS FILETYPE_ATTRS LANG_ATTRS
 
 /* String fingerprints */