SPDX: license tags (mostly by guesswork)
[exim.git] / src / src / malware.c
index 069a544833f95b55b8dd096fd6f1c7664c3229b9..96514e276cccf98a62528a8af33da8317469ec6c 100644 (file)
@@ -2,9 +2,11 @@
 *     Exim - an Internet mail transport agent    *
 *************************************************/
 
-/* Copyright (c) Tom Kistner <tom@duncanthrax.net> 2003 - 2015
+/*
+ * Copyright (c) The Exim Maintainers 2015 - 2022
+ * Copyright (c) Tom Kistner <tom@duncanthrax.net> 2003 - 2015
  * License: GPL
- * Copyright (c) The Exim Maintainers 2015 - 2018
+ * SPDX-License-Identifier: GPL-2.0-only
  */
 
 /* Code for calling virus (malware) scanners. Called from acl.c. */
@@ -49,6 +51,7 @@ typedef enum {
 #ifndef DISABLE_MAL_CMDLINE
        M_CMDL,
 #endif
+       M_DUMMY
        } scanner_t;
 typedef enum {MC_NONE, MC_TCP, MC_UNIX, MC_STRM} contype_t;
 static struct scan
@@ -106,16 +109,16 @@ static struct scan
 void
 features_malware(void)
 {
-const struct scan * sc;
 const uschar * s;
 uschar * t;
-uschar buf[64];
+uschar buf[EXIM_DRIVERNAME_MAX];
 
 spf(buf, sizeof(buf), US"_HAVE_MALWARE_");
 
-for (sc = m_scans; sc->scancode != -1; sc++)
+for (const struct scan * sc = m_scans; sc->scancode != -1; sc++)
   {
-  for(s = sc->name, t = buf+14; *s; s++) if (*s != '-') *t++ = toupper(*s);
+  for (s = sc->name, t = buf+14; *s; s++) if (*s != '-')
+    *t++ = toupper(*s);
   *t = '\0';
   builtin_macro_create(buf);
   }
@@ -128,8 +131,7 @@ for (sc = m_scans; sc->scancode != -1; sc++)
 #define MALWARE_TIMEOUT 120    /* default timeout, seconds */
 
 static const uschar * malware_regex_default = US ".+";
-static const pcre * malware_default_re = NULL;
-
+static const pcre2_code * malware_default_re = NULL;
 
 
 #ifndef DISABLE_MAL_CLAM
@@ -156,35 +158,35 @@ typedef struct clamd_address {
 # define DERR_BAD_CALL               (1<<15)  /* wrong command */
 
 static const uschar * drweb_re_str = US "infected\\swith\\s*(.+?)$";
-static const pcre * drweb_re = NULL;
+static const pcre2_code * drweb_re = NULL;
 #endif
 
 #ifndef DISABLE_MAL_FSECURE
 static const uschar * fsec_re_str = US "\\S{0,5}INFECTED\\t[^\\t]*\\t([^\\t]+)\\t\\S*$";
-static const pcre * fsec_re = NULL;
+static const pcre2_code * fsec_re = NULL;
 #endif
 
 #ifndef DISABLE_MAL_KAV
 static const uschar * kav_re_sus_str = US "suspicion:\\s*(.+?)\\s*$";
 static const uschar * kav_re_inf_str = US "infected:\\s*(.+?)\\s*$";
-static const pcre * kav_re_sus = NULL;
-static const pcre * kav_re_inf = NULL;
+static const pcre2_code * kav_re_sus = NULL;
+static const pcre2_code * kav_re_inf = NULL;
 #endif
 
 #ifndef DISABLE_MAL_AVAST
 static const uschar * ava_re_clean_str = US "(?!\\\\)\\t\\[\\+\\]";
 static const uschar * ava_re_virus_str = US "(?!\\\\)\\t\\[L\\]\\d+\\.0\\t0\\s(.*)";
 static const uschar * ava_re_error_str = US "(?!\\\\)\\t\\[E\\]\\d+\\.0\\tError\\s\\d+\\s(.*)";
-static const pcre * ava_re_clean = NULL;
-static const pcre * ava_re_virus = NULL;
-static const pcre * ava_re_error = NULL;
+static const pcre2_code * ava_re_clean = NULL;
+static const pcre2_code * ava_re_virus = NULL;
+static const pcre2_code * ava_re_error = NULL;
 #endif
 
 #ifndef DISABLE_MAL_FFROT6D
 static const uschar * fprot6d_re_error_str = US "^\\d+\\s<(.+?)>$";
 static const uschar * fprot6d_re_virus_str = US "^\\d+\\s<infected:\\s+(.+?)>\\s+.+$";
-static const pcre * fprot6d_re_error = NULL;
-static const pcre * fprot6d_re_virus = NULL;
+static const pcre2_code * fprot6d_re_error = NULL;
+static const pcre2_code * fprot6d_re_virus = NULL;
 #endif
 
 
@@ -219,6 +221,7 @@ extern uschar spooled_message_id[MESSAGE_ID_LENGTH+1];
 /* Some (currently avast only) use backslash escaped whitespace,
 this function undoes these escapes */
 
+#ifndef DISABLE_MAL_AVAST
 static inline void
 unescape(uschar *p)
 {
@@ -227,6 +230,7 @@ for (; *p; ++p)
   if (*p == '\\' && (isspace(p[1]) || p[1] == '\\'))
     for (p0 = p; *p0; ++p0) *p0 = p0[1];
 }
+#endif
 
 /* --- malware_*_defer --- */
 static inline int
@@ -249,18 +253,12 @@ m_panic_defer(struct scan * scanent, const uschar * hostport,
 return malware_panic_defer(string_sprintf("%s %s : %s",
   scanent->name, hostport ? hostport : CUS"", str));
 }
-static inline int
-m_log_defer(struct scan * scanent, const uschar * hostport,
-  const uschar * str)
-{
-return malware_log_defer(string_sprintf("%s %s : %s",
-  scanent->name, hostport ? hostport : CUS"", str));
-}
 /* --- m_*_defer_3 */
 static inline int
 m_panic_defer_3(struct scan * scanent, const uschar * hostport,
   const uschar * str, int fd_to_close)
 {
+DEBUG(D_acl) debug_print_socket(fd_to_close);
 (void) close(fd_to_close);
 return m_panic_defer(scanent, hostport, str);
 }
@@ -275,8 +273,15 @@ static inline int
 m_tcpsocket(const uschar * hostname, unsigned int port,
        host_item * host, uschar ** errstr, const blob * fastopen_blob)
 {
-return ip_connectedsocket(SOCK_STREAM, hostname, port, port, 5,
+int fd = ip_connectedsocket(SOCK_STREAM, hostname, port, port, 5,
                          host, errstr, fastopen_blob);
+#ifdef EXIM_TFO_FREEBSD
+/* Under some fault conditions, FreeBSD 12.2 seen to send a (non-TFO) SYN
+and, getting no response, wait for a long time.  Impose a 5s max. */
+if (fd >= 0)
+  (void) poll_one_fd(fd, POLLOUT, 5 * 1000);
+#endif
+return fd;
 }
 #endif
 
@@ -294,38 +299,36 @@ if (send(sock, buf, cnt, 0) < 0)
 return sock;
 }
 
-static const pcre *
-m_pcre_compile(const uschar * re, uschar ** errstr)
+static const pcre2_code *
+m_pcre_compile(const uschar * re, BOOL cacheable, uschar ** errstr)
 {
-const uschar * rerror;
-int roffset;
-const pcre * cre;
-
-cre = pcre_compile(CS re, PCRE_COPT, (const char **)&rerror, &roffset, NULL);
-if (!cre)
-  *errstr= string_sprintf("regular expression error in '%s': %s at offset %d",
-      re, rerror, roffset);
-return cre;
+return regex_compile(re, cacheable ? MCS_CACHEABLE : MCS_NOFLAGS, errstr,
+                     pcre_gen_cmp_ctx);
 }
 
 uschar *
-m_pcre_exec(const pcre * cre, uschar * text)
+m_pcre_exec(const pcre2_code * cre, uschar * text)
 {
-int ovector[10*3];
-int i = pcre_exec(cre, NULL, CS text, Ustrlen(text), 0, 0,
-             ovector, nelem(ovector));
+pcre2_match_data * md = pcre2_match_data_create(2, pcre_gen_ctx);
+int i = pcre2_match(cre, text, PCRE2_ZERO_TERMINATED, 0, 0, md, pcre_gen_mtc_ctx);
 uschar * substr = NULL;
+
 if (i >= 2)                            /* Got it */
-  pcre_get_substring(CS text, ovector, i, 1, (const char **) &substr);
+  {
+  PCRE2_SIZE * ovec = pcre2_get_ovector_pointer(md);
+  int len = ovec[3] - ovec[2];
+  substr = string_copyn(text + ovec[2], len);
+  }
+/* pcre2_match_data_free(md);  gen ctx needs no free */
 return substr;
 }
 
-static const pcre *
+static const pcre2_code *
 m_pcre_nextinlist(const uschar ** list, int * sep,
- char * listerr, uschar ** errstr)
BOOL cacheable, char * listerr, uschar ** errstr)
 {
 const uschar * list_ele;
-const pcre * cre = NULL;
+const pcre2_code * cre = NULL;
 
 if (!(list_ele = string_nextinlist(list, sep, NULL, 0)))
   *errstr = US listerr;
@@ -333,11 +336,12 @@ else
   {
   DEBUG(D_acl) debug_printf_indent("%15s%10s'%s'\n", "", "RE: ",
     string_printing(list_ele));
-  cre = m_pcre_compile(CUS list_ele, errstr);
+  cre = m_pcre_compile(CUS list_ele, cacheable, errstr);
   }
 return cre;
 }
 
+
 /*
  Simple though inefficient wrapper for reading a line.  Drop CRs and the
  trailing newline. Can return early on buffer full. Null-terminate.
@@ -348,13 +352,13 @@ return cre;
          -2 on timeout or error
 */
 static int
-recv_line(int fd, uschar * buffer, int bsize, int tmo)
+recv_line(int fd, uschar * buffer, int bsize, time_t tmo)
 {
 uschar * p = buffer;
 ssize_t rcv;
 BOOL ok = FALSE;
 
-if (!fd_ready(fd, tmo-time(NULL)))
+if (!fd_ready(fd, tmo))
   return -2;
 
 /*XXX tmo handling assumes we always get a whole line */
@@ -369,8 +373,12 @@ while ((rcv = read(fd, p, 1)) > 0)
   }
 if (!ok)
   {
-  DEBUG(D_acl) debug_printf_indent("Malware scan: read %s (%s)\n",
+  DEBUG(D_acl)
+    {
+    debug_printf_indent("Malware scan: read %s (%s)\n",
                rcv==0 ? "EOF" : "error", strerror(errno));
+    debug_print_socket(fd);
+    }
   return rcv==0 ? -1 : -2;
   }
 *p = '\0';
@@ -380,13 +388,15 @@ return p - buffer;
 }
 
 /* return TRUE iff size as requested */
+#ifndef DISABLE_MAL_DRWEB
 static BOOL
-recv_len(int sock, void * buf, int size, int tmo)
+recv_len(int sock, void * buf, int size, time_t tmo)
 {
-return fd_ready(sock, tmo-time(NULL))
+return fd_ready(sock, tmo)
   ? recv(sock, buf, size, 0) == size
   : FALSE;
 }
+#endif
 
 
 
@@ -429,7 +439,7 @@ for (;;)
 }
 
 static inline int
-mksd_read_lines (int sock, uschar *av_buffer, int av_buffer_size, int tmo)
+mksd_read_lines (int sock, uschar *av_buffer, int av_buffer_size, time_t tmo)
 {
 client_conn_ctx cctx = {.sock = sock};
 int offset = 0;
@@ -437,7 +447,7 @@ int i;
 
 do
   {
-  i = ip_recv(&cctx, av_buffer+offset, av_buffer_size-offset, tmo-time(NULL));
+  i = ip_recv(&cctx, av_buffer+offset, av_buffer_size-offset, tmo);
   if (i <= 0)
     {
     (void) malware_panic_defer(US"unable to read from mksd UNIX socket (/var/run/mksd/socket)");
@@ -496,7 +506,7 @@ switch (*line)
 
 static int
 mksd_scan_packed(struct scan * scanent, int sock, const uschar * scan_filename,
-  int tmo)
+  time_t tmo)
 {
 struct iovec iov[3];
 const char *cmd = "MSQ\n";
@@ -552,6 +562,7 @@ is via malware(), or there's malware_in_file() used for testing/debugging.
 
 Arguments:
   malware_re    match condition for "malware="
+  cacheable    the RE did not use any dynamic elements during expansion
   scan_filename  the file holding the email to be scanned, if we're faking
                this up for the -bmalware test, else NULL
   timeout      if nonzero, non-default timeoutl
@@ -560,15 +571,16 @@ Returns:        Exim message processing code (OK, FAIL, DEFER, ...)
                 where true means malware was found (condition applies)
 */
 static int
-malware_internal(const uschar * malware_re, const uschar * scan_filename,
-  int timeout)
+malware_internal(const uschar * malware_re, BOOL cacheable,
+  const uschar * scan_filename, int timeout)
 {
 int sep = 0;
 const uschar *av_scanner_work = av_scanner;
+BOOL av_scanner_textonly;
 uschar *scanner_name;
 unsigned long mbox_size;
 FILE *mbox_file;
-const pcre *re;
+const pcre2_code *re;
 uschar * errstr;
 struct scan * scanent;
 const uschar * scanner_options;
@@ -591,30 +603,30 @@ the name), so we can close it right away.  Get the directory too. */
 eml_dir = string_copyn(eml_filename, Ustrrchr(eml_filename, '/') - eml_filename);
 
 /* parse 1st option */
-if (strcmpic(malware_re, US"false") == 0  ||  Ustrcmp(malware_re,"0") == 0)
+if (strcmpic(malware_re, US"false") == 0  ||  Ustrcmp(malware_re, "0") == 0)
   return FAIL;         /* explicitly no matching */
 
 /* special cases (match anything except empty) */
-if (  strcmpic(malware_re,US"true") == 0
-   || Ustrcmp(malware_re,"*") == 0
-   || Ustrcmp(malware_re,"1") == 0
+if (  strcmpic(malware_re, US"true") == 0
+   || Ustrcmp(malware_re, "*") == 0
+   || Ustrcmp(malware_re, "1") == 0
    )
   {
   if (  !malware_default_re
-     && !(malware_default_re = m_pcre_compile(malware_regex_default, &errstr)))
+     && !(malware_default_re = m_pcre_compile(malware_regex_default, FALSE, &errstr)))
     return malware_panic_defer(errstr);
   malware_re = malware_regex_default;
   re = malware_default_re;
   }
 
 /* compile the regex, see if it works */
-else if (!(re = m_pcre_compile(malware_re, &errstr)))
+else if (!(re = m_pcre_compile(malware_re, cacheable, &errstr)))
   return malware_panic_defer(errstr);
 
 /* if av_scanner starts with a dollar, expand it first */
 if (*av_scanner == '$')
   {
-  if (!(av_scanner_work = expand_string(av_scanner)))
+  if (!(av_scanner_work = expand_string_2(av_scanner, &av_scanner_textonly)))
     return malware_panic_defer(
         string_sprintf("av_scanner starts with $, but expansion failed: %s",
         expand_string_message));
@@ -625,6 +637,8 @@ if (*av_scanner == '$')
   malware_name = NULL;
   malware_ok = FALSE;
   }
+else
+  av_scanner_textonly = TRUE;
 
 /* Do not scan twice (unless av_scanner is dynamic). */
 if (!malware_ok)
@@ -654,11 +668,11 @@ if (!malware_ok)
     switch(scanent->conn)
     {
     case MC_TCP:
-      malware_daemon_ctx.sock = ip_tcpsocket(scanner_options, &errstr, 5);     break;
+      malware_daemon_ctx.sock = ip_tcpsocket(scanner_options, &errstr, 5, NULL); break;
     case MC_UNIX:
       malware_daemon_ctx.sock = ip_unixsocket(scanner_options, &errstr);       break;
     case MC_STRM:
-      malware_daemon_ctx.sock = ip_streamsocket(scanner_options, &errstr, 5);  break;
+      malware_daemon_ctx.sock = ip_streamsocket(scanner_options, &errstr, 5, NULL); break;
     default:
       /* compiler quietening */ break;
     }
@@ -729,13 +743,11 @@ if (!malware_ok)
     case M_FPROT6D: /* "f-prot6d" scanner type ----------------------------------- */
       {
       int bread;
-      uschar * e;
-      uschar * linebuffer;
-      uschar * scanrequest;
+      uschar * e, * linebuffer, * scanrequest;
       uschar av_buffer[1024];
 
-      if ((!fprot6d_re_virus && !(fprot6d_re_virus = m_pcre_compile(fprot6d_re_virus_str, &errstr)))
-        || (!fprot6d_re_error && !(fprot6d_re_error = m_pcre_compile(fprot6d_re_error_str, &errstr))))
+      if ((!fprot6d_re_virus && !(fprot6d_re_virus = m_pcre_compile(fprot6d_re_virus_str, FALSE, &errstr)))
+        || (!fprot6d_re_error && !(fprot6d_re_error = m_pcre_compile(fprot6d_re_error_str, FALSE, &errstr))))
         return malware_panic_defer(errstr);
 
       scanrequest = string_sprintf("SCAN FILE %s\n", eml_filename);
@@ -745,7 +757,7 @@ if (!malware_ok)
       if (m_sock_send(malware_daemon_ctx.sock, scanrequest, Ustrlen(scanrequest), &errstr) < 0)
         return m_panic_defer(scanent, CUS callout_address, errstr);
 
-      bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo-time(NULL));
+      bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo);
 
       if (bread <= 0)
         return m_panic_defer_3(scanent, CUS callout_address,
@@ -791,7 +803,7 @@ if (!malware_ok)
       if (*scanner_options != '/')
        {
        /* calc file size */
-       if ((drweb_fd = open(CCS eml_filename, O_RDONLY)) == -1)
+       if ((drweb_fd = exim_open2(CCS eml_filename, O_RDONLY)) == -1)
          return m_panic_defer_3(scanent, NULL,
            string_sprintf("can't open spool file %s: %s",
              eml_filename, strerror(errno)),
@@ -835,7 +847,7 @@ badseek:  err = errno;
            malware_daemon_ctx.sock);
          }
 
-       if (!(drweb_fbuf = US malloc(fsize_uint)))
+       if (!(drweb_fbuf = store_malloc(fsize_uint)))
          {
          (void)close(drweb_fd);
          return m_panic_defer_3(scanent, NULL,
@@ -848,7 +860,7 @@ badseek:  err = errno;
          {
          int err = errno;
          (void)close(drweb_fd);
-         free(drweb_fbuf);
+         store_free(drweb_fbuf);
          return m_panic_defer_3(scanent, NULL,
            string_sprintf("can't read spool file %s: %s",
              eml_filename, strerror(err)),
@@ -859,11 +871,12 @@ badseek:  err = errno;
        /* send file body to socket */
        if (send(malware_daemon_ctx.sock, drweb_fbuf, fsize, 0) < 0)
          {
-         free(drweb_fbuf);
+         store_free(drweb_fbuf);
          return m_panic_defer_3(scanent, CUS callout_address, string_sprintf(
            "unable to send file body to socket (%s)", scanner_options),
            malware_daemon_ctx.sock);
          }
+       store_free(drweb_fbuf);
        }
       else
        {
@@ -897,7 +910,6 @@ badseek:  err = errno;
       /* "virus(es) found" if virus number is > 0 */
       if (drweb_vnum)
        {
-       int i;
        gstring * g = NULL;
 
        /* setup default virus name */
@@ -905,19 +917,21 @@ badseek:  err = errno;
 
        /* set up match regex */
        if (!drweb_re)
-         drweb_re = m_pcre_compile(drweb_re_str, &errstr);
+         drweb_re = m_pcre_compile(drweb_re_str, FALSE, &errstr);
 
        /* read and concatenate virus names into one string */
-       for (i = 0; i < drweb_vnum; i++)
+       for (int i = 0; i < drweb_vnum; i++)
          {
-         int ovector[10*3];
+         pcre2_match_data * md = pcre2_match_data_create(2, pcre_gen_ctx);
 
          /* read the size of report */
          if (!recv_len(malware_daemon_ctx.sock, &drweb_slen, sizeof(drweb_slen), tmo))
            return m_panic_defer_3(scanent, CUS callout_address,
                              US"cannot read report size", malware_daemon_ctx.sock);
          drweb_slen = ntohl(drweb_slen);
-         tmpbuf = store_get(drweb_slen);
+
+         /* assume tainted, since it is external input */
+         tmpbuf = store_get(drweb_slen, GET_TAINTED);
 
          /* read report body */
          if (!recv_len(malware_daemon_ctx.sock, tmpbuf, drweb_slen, tmo))
@@ -926,23 +940,22 @@ badseek:  err = errno;
          tmpbuf[drweb_slen] = '\0';
 
          /* try matcher on the line, grab substring */
-         result = pcre_exec(drweb_re, NULL, CS tmpbuf, Ustrlen(tmpbuf), 0, 0,
-                                 ovector, nelem(ovector));
+         result = pcre2_match(drweb_re, (PCRE2_SPTR)tmpbuf, PCRE2_ZERO_TERMINATED,
+                               0, 0, md, pcre_gen_mtc_ctx);
          if (result >= 2)
            {
-           const char * pre_malware_nb;
-
-           pcre_get_substring(CS tmpbuf, ovector, result, 1, &pre_malware_nb);
+           PCRE2_SIZE * ovec = pcre2_get_ovector_pointer(md);
 
            if (i==0)   /* the first name we just copy to malware_name */
-             g = string_cat(NULL, US pre_malware_nb);
+             g = string_catn(NULL, US ovec[2], ovec[3] - ovec[2]);
 
-           /*XXX could be string_append_listele? */
            else        /* concatenate each new virus name to previous */
-             g = string_append(g, 2, "/", pre_malware_nb);
-
-           pcre_free_substring(pre_malware_nb);
+             {
+             g = string_catn(g, US"/", 1);
+             g = string_catn(g, US ovec[2], ovec[3] - ovec[2]);
+             }
            }
+         /* pcre2_match_data_free(md); gen ctx needs no free */
          }
          malware_name = string_from_gstring(g);
        }
@@ -1043,7 +1056,7 @@ badseek:  err = errno;
 #ifndef DISABLE_MAL_FSECURE
     case M_FSEC: /* "fsecure" scanner type ---------------------------------- */
       {
-      int i, j, bread = 0;
+      int i, bread = 0;
       uschar * file_name;
       uschar av_buffer[1024];
       static uschar *cmdopt[] = { US"CONFIGURE\tARCHIVE\t1\n",
@@ -1063,13 +1076,13 @@ badseek:  err = errno;
        if (m_sock_send(malware_daemon_ctx.sock, cmdopt[i], Ustrlen(cmdopt[i]), &errstr) < 0)
          return m_panic_defer(scanent, CUS callout_address, errstr);
 
-       bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo-time(NULL));
+       bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo);
        if (bread > 0) av_buffer[bread]='\0';
        if (bread < 0)
          return m_panic_defer_3(scanent, CUS callout_address,
            string_sprintf("unable to read answer %d (%s)", i, strerror(errno)),
            malware_daemon_ctx.sock);
-       for (j = 0; j < bread; j++)
+       for (int j = 0; j < bread; j++)
          if (av_buffer[j] == '\r' || av_buffer[j] == '\n')
            av_buffer[j] ='@';
        }
@@ -1083,7 +1096,7 @@ badseek:  err = errno;
       /* set up match */
       /* todo also SUSPICION\t */
       if (!fsec_re)
-       fsec_re = m_pcre_compile(fsec_re_str, &errstr);
+       fsec_re = m_pcre_compile(fsec_re_str, FALSE, &errstr);
 
       /* read report, linewise. Apply a timeout as the Fsecure daemon
       sometimes wants an answer to "PING" but they won't tell us what */
@@ -1095,7 +1108,7 @@ badseek:  err = errno;
          {
          errno = ETIMEDOUT;
          i =  av_buffer+sizeof(av_buffer)-p;
-         if ((bread= ip_recv(&malware_daemon_ctx, p, i-1, tmo-time(NULL))) < 0)
+         if ((bread= ip_recv(&malware_daemon_ctx, p, i-1, tmo)) < 0)
            return m_panic_defer_3(scanent, CUS callout_address,
              string_sprintf("unable to read result (%s)", strerror(errno)),
              malware_daemon_ctx.sock);
@@ -1134,7 +1147,7 @@ badseek:  err = errno;
       int kav_rc;
       unsigned long kav_reportlen;
       int bread;
-      const pcre *kav_re;
+      const pcre2_code *kav_re;
       uschar *p;
 
       /* get current date and time, build scan request */
@@ -1207,12 +1220,12 @@ badseek:  err = errno;
            /* set up match regex, depends on retcode */
            if (kav_rc == 3)
              {
-             if (!kav_re_sus) kav_re_sus = m_pcre_compile(kav_re_sus_str, &errstr);
+             if (!kav_re_sus) kav_re_sus = m_pcre_compile(kav_re_sus_str, FALSE, &errstr);
              kav_re = kav_re_sus;
              }
            else
              {
-             if (!kav_re_inf) kav_re_inf = m_pcre_compile(kav_re_inf_str, &errstr);
+             if (!kav_re_inf) kav_re_inf = m_pcre_compile(kav_re_inf_str, FALSE, &errstr);
              kav_re = kav_re_inf;
              }
 
@@ -1243,8 +1256,8 @@ badseek:  err = errno;
     case M_CMDL: /* "cmdline" scanner type ---------------------------------- */
       {
       const uschar *cmdline_scanner = scanner_options;
-      const pcre *cmdline_trigger_re;
-      const pcre *cmdline_regex_re;
+      const pcre2_code *cmdline_trigger_re;
+      const pcre2_code *cmdline_regex_re;
       uschar * file_name;
       uschar * commandline;
       void (*eximsigchld)(int);
@@ -1261,13 +1274,13 @@ badseek:  err = errno;
        return m_panic_defer(scanent, NULL, errstr);
 
       /* find scanner output trigger */
-      cmdline_trigger_re = m_pcre_nextinlist(&av_scanner_work, &sep,
+      cmdline_trigger_re = m_pcre_nextinlist(&av_scanner_work, &sep, av_scanner_textonly,
                                "missing trigger specification", &errstr);
       if (!cmdline_trigger_re)
        return m_panic_defer(scanent, NULL, errstr);
 
       /* find scanner name regex */
-      cmdline_regex_re = m_pcre_nextinlist(&av_scanner_work, &sep,
+      cmdline_regex_re = m_pcre_nextinlist(&av_scanner_work, &sep, av_scanner_textonly,
                          "missing virus name regex specification", &errstr);
       if (!cmdline_regex_re)
        return m_panic_defer(scanent, NULL, errstr);
@@ -1360,13 +1373,10 @@ badseek:  err = errno;
        malware_name = US"unknown";
 
        /* re-open the scanner output file, look for name match */
-       scanner_record = fopen(CS file_name, "rb");
-       while (fgets(CS linebuffer, sizeof(linebuffer), scanner_record))
-         {
-         /* try match */
-         if ((s = m_pcre_exec(cmdline_regex_re, linebuffer)))
+       scanner_record = Ufopen(file_name, "rb");
+       while (Ufgets(linebuffer, sizeof(linebuffer), scanner_record))
+         if ((s = m_pcre_exec(cmdline_regex_re, linebuffer))) /* try match */
            malware_name = s;
-         }
        (void)fclose(scanner_record);
        }
       else /* no virus found */
@@ -1400,7 +1410,7 @@ badseek:  err = errno;
 
       /* wait for result */
       memset(av_buffer, 0, sizeof(av_buffer));
-      if ((bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo-time(NULL))) <= 0)
+      if ((bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo)) <= 0)
        return m_panic_defer_3(scanent, CUS callout_address,
          string_sprintf("unable to read from UNIX socket (%s)", scanner_options),
          malware_daemon_ctx.sock);
@@ -1441,9 +1451,7 @@ badseek:  err = errno;
       uschar av_buffer[1024];
       uschar *hostname = US"";
       host_item connhost;
-      uschar *clamav_fbuf;
-      int clam_fd, result;
-      off_t fsize;
+      int clam_fd;
       unsigned int fsize_uint;
       BOOL use_scan_command = FALSE;
       clamd_address * cv[MAX_CLAMD_SERVERS];
@@ -1461,9 +1469,9 @@ badseek:  err = errno;
        int subsep = ' ';
 
        /* Local file; so we def want to use_scan_command and don't want to try
-        * passing IP/port combinations */
+       passing IP/port combinations */
        use_scan_command = TRUE;
-       cd = (clamd_address *) store_get(sizeof(clamd_address));
+       cd = (clamd_address *) store_get(sizeof(clamd_address), GET_UNTAINTED);
 
        /* extract socket-path part */
        sublist = scanner_options;
@@ -1497,7 +1505,7 @@ badseek:  err = errno;
            continue;
            }
 
-         cd = (clamd_address *) store_get(sizeof(clamd_address));
+         cd = (clamd_address *) store_get(sizeof(clamd_address), GET_UNTAINTED);
 
          /* extract host and port part */
          sublist = scanner_options;
@@ -1550,16 +1558,17 @@ badseek:  err = errno;
        { cmd_str.data = US"zINSTREAM"; cmd_str.len = 10; }
       else
        {
-       cmd_str.data = string_sprintf("SCAN %s\n", eml_filename);
-       cmd_str.len = Ustrlen(cmd_str.data);
+       int n;
+       cmd_str.data = string_sprintf("SCAN %s\n%n", eml_filename, &n);
+       cmd_str.len = n;                /* .len is a size_t */
        }
 
       /* We have some network servers specified */
       if (num_servers)
        {
        /* Confirmed in ClamAV source (0.95.3) that the TCPAddr option of clamd
-        * only supports AF_INET, but we should probably be looking to the
-        * future and rewriting this to be protocol-independent anyway. */
+       only supports AF_INET, but we should probably be looking to the
+       future and rewriting this to be protocol-independent anyway. */
 
        while (num_servers > 0)
          {
@@ -1570,15 +1579,17 @@ badseek:  err = errno;
                         cd->hostspec, cd->tcp_port);
 
          /* Lookup the host. This is to ensure that we connect to the same IP
-          * on both connections (as one host could resolve to multiple ips) */
+         on both connections (as one host could resolve to multiple ips) */
          for (;;)
            {
+           /*XXX we trust that the cmd_str is idempotent */
            if ((malware_daemon_ctx.sock = m_tcpsocket(cd->hostspec, cd->tcp_port,
-                                   &connhost, &errstr, &cmd_str)) >= 0)
+                                   &connhost, &errstr,
+                                   use_scan_command ? &cmd_str : NULL)) >= 0)
              {
              /* Connection successfully established with a server */
              hostname = cd->hostspec;
-             cmd_str.len = 0;
+             if (use_scan_command) cmd_str.len = 0;
              break;
              }
            if (cd->retry <= 0) break;
@@ -1612,20 +1623,28 @@ badseek:  err = errno;
          }
 
       /* have socket in variable "sock"; command to use is semi-independent of
-       * the socket protocol.  We use SCAN if is local (either Unix/local
-       * domain socket, or explicitly told local) else we stream the data.
-       * How we stream the data depends upon how we were built.  */
+      the socket protocol.  We use SCAN if is local (either Unix/local
+      domain socket, or explicitly told local) else we stream the data.
+      How we stream the data depends upon how we were built.  */
 
       if (!use_scan_command)
        {
+       struct stat st;
+#if defined(EXIM_TCP_CORK) && !defined(OS_SENDFILE)
+       BOOL corked = TRUE;
+#endif
        /* New protocol: "zINSTREAM\n" followed by a sequence of <length><data>
        chunks, <n> a 4-byte number (network order), terminated by a zero-length
-       chunk. */
+       chunk. We only send one chunk. */
 
        DEBUG(D_acl) debug_printf_indent(
            "Malware scan: issuing %s new-style remote scan (zINSTREAM)\n",
            scanner_name);
 
+#if defined(EXIM_TCP_CORK)
+       (void) setsockopt(malware_daemon_ctx.sock, IPPROTO_TCP, EXIM_TCP_CORK,
+                         US &on, sizeof(on));
+#endif
        /* Pass the string to ClamAV (10 = "zINSTREAM\0"), if not already sent */
        if (cmd_str.len)
          if (send(malware_daemon_ctx.sock, cmd_str.data, cmd_str.len, 0) < 0)
@@ -1634,8 +1653,7 @@ badseek:  err = errno;
                strerror(errno)),
              malware_daemon_ctx.sock);
 
-       /* calc file size */
-       if ((clam_fd = open(CS eml_filename, O_RDONLY)) < 0)
+       if ((clam_fd = exim_open2(CS eml_filename, O_RDONLY)) < 0)
          {
          int err = errno;
          return m_panic_defer_3(scanent, NULL,
@@ -1643,67 +1661,79 @@ badseek:  err = errno;
              eml_filename, strerror(err)),
            malware_daemon_ctx.sock);
          }
-       if ((fsize = lseek(clam_fd, 0, SEEK_END)) < 0)
+       if (fstat(clam_fd, &st) < 0)
          {
-         int err;
-b_seek:   err = errno;
+         int err = errno;
          (void)close(clam_fd);
          return m_panic_defer_3(scanent, NULL,
-           string_sprintf("can't seek spool file %s: %s",
+           string_sprintf("can't stat spool file %s: %s",
              eml_filename, strerror(err)),
            malware_daemon_ctx.sock);
          }
-       fsize_uint = (unsigned int) fsize;
-       if ((off_t)fsize_uint != fsize)
+       fsize_uint = (unsigned int) st.st_size;
+       if ((off_t)fsize_uint != st.st_size)
          {
          (void)close(clam_fd);
          return m_panic_defer_3(scanent, NULL,
-           string_sprintf("seeking spool file %s, size overflow",
-             eml_filename),
+           string_sprintf("stat spool file %s, size overflow", eml_filename),
            malware_daemon_ctx.sock);
          }
-       if (lseek(clam_fd, 0, SEEK_SET) < 0)
-         goto b_seek;
 
-       if (!(clamav_fbuf = US malloc(fsize_uint)))
-         {
-         (void)close(clam_fd);
+       /* send file size */
+       send_size = htonl(fsize_uint);
+       if (send(malware_daemon_ctx.sock, &send_size, sizeof(send_size), 0) < 0)
          return m_panic_defer_3(scanent, NULL,
-           string_sprintf("unable to allocate memory %u for file (%s)",
-             fsize_uint, eml_filename),
+           string_sprintf("unable to send file size to socket (%s)", hostname),
            malware_daemon_ctx.sock);
-         }
 
-       if ((result = read(clam_fd, clamav_fbuf, fsize_uint)) < 0)
+       /* send file body */
+       while (fsize_uint)
          {
-         int err = errno;
-         free(clamav_fbuf); (void)close(clam_fd);
-         return m_panic_defer_3(scanent, NULL,
-           string_sprintf("can't read spool file %s: %s",
-             eml_filename, strerror(err)),
-           malware_daemon_ctx.sock);
+#ifdef OS_SENDFILE
+         int n = os_sendfile(malware_daemon_ctx.sock, clam_fd, NULL, (size_t)fsize_uint);
+         if (n < 0)
+           return m_panic_defer_3(scanent, NULL,
+             string_sprintf("unable to send file body to socket (%s): %s", hostname, strerror(errno)),
+             malware_daemon_ctx.sock);
+         fsize_uint -= n;
+#else
+         int n = MIN(fsize_uint, big_buffer_size);
+         if ((n = read(clam_fd, big_buffer, n)) < 0)
+           return m_panic_defer_3(scanent, NULL,
+             string_sprintf("can't read spool file %s: %s",
+               eml_filename, strerror(errno)),
+             malware_daemon_ctx.sock);
+         if (send(malware_daemon_ctx.sock, big_buffer, (size_t)n, 0) < 0)
+           return m_panic_defer_3(scanent, NULL,
+             string_sprintf("unable to send file body to socket (%s): %s", hostname, strerror(errno)),
+             malware_daemon_ctx.sock);
+         fsize_uint -= n;
+# ifdef EXIM_TCP_CORK
+         if (corked)
+           {
+           corked = FALSE;
+           (void) setsockopt(malware_daemon_ctx.sock, IPPROTO_TCP, EXIM_TCP_CORK,
+                             US &off, sizeof(off));
+           }
+# endif
+#endif /*!OS_SENDFILE*/
+
          }
-       (void)close(clam_fd);
 
-       /* send file body to socket */
-       send_size = htonl(fsize_uint);
        send_final_zeroblock = 0;
-       if ((send(malware_daemon_ctx.sock, &send_size, sizeof(send_size), 0) < 0) ||
-           (send(malware_daemon_ctx.sock, clamav_fbuf, fsize_uint, 0) < 0) ||
-           (send(malware_daemon_ctx.sock, &send_final_zeroblock, sizeof(send_final_zeroblock), 0) < 0))
-         {
-         free(clamav_fbuf);
+       if (send(malware_daemon_ctx.sock, &send_final_zeroblock, sizeof(send_final_zeroblock), 0) < 0)
          return m_panic_defer_3(scanent, NULL,
-           string_sprintf("unable to send file body to socket (%s)", hostname),
+           string_sprintf("unable to send file terminator to socket (%s)", hostname),
            malware_daemon_ctx.sock);
-         }
-
-       free(clamav_fbuf);
+#ifdef OS_SENDFILE
+       (void) setsockopt(malware_daemon_ctx.sock, IPPROTO_TCP, EXIM_TCP_CORK,
+                         US &off, sizeof(off));
+#endif
        }
       else
        { /* use scan command */
        /* Send a SCAN command pointing to a filename; then in the then in the
-        * scan-method-neutral part, read the response back */
+       scan-method-neutral part, read the response back */
 
 /* ================================================================= */
 
@@ -1728,14 +1758,14 @@ b_seek:   err = errno;
              malware_daemon_ctx.sock);
 
        /* Do not shut down the socket for writing; a user report noted that
-        * clamd 0.70 does not react well to this. */
+       clamd 0.70 does not react well to this. */
        }
       /* Commands have been sent, no matter which scan method or connection
-       * type we're using; now just read the result, independent of method. */
+      type we're using; now just read the result, independent of method. */
 
       /* Read the result */
       memset(av_buffer, 0, sizeof(av_buffer));
-      bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo-time(NULL));
+      bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo);
       (void)close(malware_daemon_ctx.sock);
       malware_daemon_ctx.sock = -1;
       malware_daemon_ctx.tls_ctx = NULL;
@@ -1777,6 +1807,7 @@ b_seek:   err = errno;
       /* strip newline at the end (won't be present for zINSTREAM)
       (also any trailing whitespace, which shouldn't exist, but we depend upon
       this below, so double-check) */
+
       p = av_buffer + Ustrlen(av_buffer) - 1;
       if (*p == '\n') *p = '\0';
 
@@ -1787,7 +1818,7 @@ b_seek:   err = errno;
       if (*p) ++p;
 
       /* colon in returned output? */
-      if(!(p = Ustrchr(av_buffer,':')))
+      if (!(p = Ustrchr(av_buffer,':')))
        return m_panic_defer(scanent, CUS callout_address, string_sprintf(
                  "ClamAV returned malformed result (missing colon): %s",
                  av_buffer));
@@ -1851,8 +1882,8 @@ b_seek:   err = errno;
       uschar * linebuffer;
       uschar * sockline_scanner;
       uschar sockline_scanner_default[] = "%s\n";
-      const pcre *sockline_trig_re;
-      const pcre *sockline_name_re;
+      const pcre2_code *sockline_trig_re;
+      const pcre2_code *sockline_name_re;
 
       /* find scanner command line */
       if (  (sockline_scanner = string_nextinlist(&av_scanner_work, &sep,
@@ -1872,13 +1903,13 @@ b_seek:   err = errno;
        string_printing(sockline_scanner));
 
       /* find scanner output trigger */
-      sockline_trig_re = m_pcre_nextinlist(&av_scanner_work, &sep,
+      sockline_trig_re = m_pcre_nextinlist(&av_scanner_work, &sep, av_scanner_textonly,
                                "missing trigger specification", &errstr);
       if (!sockline_trig_re)
        return m_panic_defer_3(scanent, NULL, errstr, malware_daemon_ctx.sock);
 
       /* find virus name regex */
-      sockline_name_re = m_pcre_nextinlist(&av_scanner_work, &sep,
+      sockline_name_re = m_pcre_nextinlist(&av_scanner_work, &sep, av_scanner_textonly,
                          "missing virus name regex specification", &errstr);
       if (!sockline_name_re)
        return m_panic_defer_3(scanent, NULL, errstr, malware_daemon_ctx.sock);
@@ -1893,7 +1924,7 @@ b_seek:   err = errno;
        return m_panic_defer(scanent, CUS callout_address, errstr);
 
       /* Read the result */
-      bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo-time(NULL));
+      bread = ip_recv(&malware_daemon_ctx, av_buffer, sizeof(av_buffer), tmo);
 
       if (bread <= 0)
        return m_panic_defer_3(scanent, CUS callout_address,
@@ -1975,7 +2006,7 @@ b_seek:   err = errno;
       and the [ ] marker.
       [+] - not infected
       [L] - infected
-      [E] - some error occured
+      [E] - some error occurred
       Such marker follows the first non-escaped TAB.  For more information
       see avast-protocol(5)
 
@@ -2009,11 +2040,11 @@ b_seek:   err = errno;
        */
 
       if (  (  !ava_re_clean
-            && !(ava_re_clean = m_pcre_compile(ava_re_clean_str, &errstr)))
+            && !(ava_re_clean = m_pcre_compile(ava_re_clean_str, FALSE, &errstr)))
         || (  !ava_re_virus
-           && !(ava_re_virus = m_pcre_compile(ava_re_virus_str, &errstr)))
+           && !(ava_re_virus = m_pcre_compile(ava_re_virus_str, FALSE, &errstr)))
         || (  !ava_re_error
-           && !(ava_re_error = m_pcre_compile(ava_re_error_str, &errstr)))
+           && !(ava_re_error = m_pcre_compile(ava_re_error_str, FALSE, &errstr)))
         )
        return malware_panic_defer(errstr);
 
@@ -2091,7 +2122,7 @@ b_seek:   err = errno;
               if (malware_name)     /* Nothing else matters, just read on */
                 break;
 
-             if (pcre_exec(ava_re_clean, NULL, CS buf, slen, 0, 0, NULL, 0) == 0)
+             if (regex_match(ava_re_clean, buf, slen, NULL))
                break;
 
               if ((malware_name = m_pcre_exec(ava_re_virus, buf)))
@@ -2112,7 +2143,7 @@ b_seek:   err = errno;
                   break;
                   }
                 }
-              else if (pcre_exec(ava_re_error, NULL, CS buf, slen, 0, 0, NULL, 0) == 0)
+              else if (regex_match(ava_re_error, buf, slen, NULL))
                 {
                 log_write(0, LOG_MAIN, "internal scanner error (ignored): %s", buf);
                 break;
@@ -2175,15 +2206,16 @@ filename; it's a wrapper around the malware_file function.
 
 Arguments:
   malware_re  match condition for "malware="
+  cacheable   the RE did not use any dynamic elements during expansion
   timeout     if nonzero, timeout in seconds
 
 Returns:      Exim message processing code (OK, FAIL, DEFER, ...)
               where true means malware was found (condition applies)
 */
 int
-malware(const uschar * malware_re, int timeout)
+malware(const uschar * malware_re, BOOL cacheable, int timeout)
 {
-int ret = malware_internal(malware_re, NULL, timeout);
+int ret = malware_internal(malware_re, cacheable, NULL, timeout);
 
 if (ret == DEFER) av_failed = TRUE;
 return ret;
@@ -2223,7 +2255,7 @@ recipients_list = NULL;
 receive_add_recipient(US"malware-victim@example.net", -1);
 f.enable_dollar_recipients = TRUE;
 
-ret = malware_internal(US"*", eml_filename, 0);
+ret = malware_internal(US"*", TRUE, eml_filename, 0);
 
 Ustrncpy(spooled_message_id, message_id, sizeof(spooled_message_id));
 spool_mbox_ok = 1;
@@ -2244,46 +2276,46 @@ void
 malware_init(void)
 {
 if (!malware_default_re)
-  malware_default_re = regex_must_compile(malware_regex_default, FALSE, TRUE);
+  malware_default_re = regex_must_compile(malware_regex_default, MCS_NOFLAGS, TRUE);
 
 #ifndef DISABLE_MAL_DRWEB
 if (!drweb_re)
-  drweb_re = regex_must_compile(drweb_re_str, FALSE, TRUE);
+  drweb_re = regex_must_compile(drweb_re_str, MCS_NOFLAGS, TRUE);
 #endif
 #ifndef DISABLE_MAL_FSECURE
 if (!fsec_re)
-  fsec_re = regex_must_compile(fsec_re_str, FALSE, TRUE);
+  fsec_re = regex_must_compile(fsec_re_str, MCS_NOFLAGS, TRUE);
 #endif
 #ifndef DISABLE_MAL_KAV
 if (!kav_re_sus)
-  kav_re_sus = regex_must_compile(kav_re_sus_str, FALSE, TRUE);
+  kav_re_sus = regex_must_compile(kav_re_sus_str, MCS_NOFLAGS, TRUE);
 if (!kav_re_inf)
-  kav_re_inf = regex_must_compile(kav_re_inf_str, FALSE, TRUE);
+  kav_re_inf = regex_must_compile(kav_re_inf_str, MCS_NOFLAGS, TRUE);
 #endif
 #ifndef DISABLE_MAL_AVAST
 if (!ava_re_clean)
-  ava_re_clean = regex_must_compile(ava_re_clean_str, FALSE, TRUE);
+  ava_re_clean = regex_must_compile(ava_re_clean_str, MCS_NOFLAGS, TRUE);
 if (!ava_re_virus)
-  ava_re_virus = regex_must_compile(ava_re_virus_str, FALSE, TRUE);
+  ava_re_virus = regex_must_compile(ava_re_virus_str, MCS_NOFLAGS, TRUE);
 if (!ava_re_error)
-  ava_re_error = regex_must_compile(ava_re_error_str, FALSE, TRUE);
+  ava_re_error = regex_must_compile(ava_re_error_str, MCS_NOFLAGS, TRUE);
 #endif
 #ifndef DISABLE_MAL_FFROT6D
 if (!fprot6d_re_error)
-  fprot6d_re_error = regex_must_compile(fprot6d_re_error_str, FALSE, TRUE);
+  fprot6d_re_error = regex_must_compile(fprot6d_re_error_str, MCS_NOFLAGS, TRUE);
 if (!fprot6d_re_virus)
-  fprot6d_re_virus = regex_must_compile(fprot6d_re_virus_str, FALSE, TRUE);
+  fprot6d_re_virus = regex_must_compile(fprot6d_re_virus_str, MCS_NOFLAGS, TRUE);
 #endif
 }
 
 
-void
-malware_show_supported(FILE * f)
+gstring *
+malware_show_supported(gstring * g)
 {
-struct scan * sc;
-fprintf(f, "Malware:");
-for (sc = m_scans; sc->scancode != (scanner_t)-1; sc++) fprintf(f, " %s", sc->name);
-fprintf(f, "\n");
+g = string_cat(g, US"Malware:");
+for (struct scan * sc = m_scans; sc->scancode != (scanner_t)-1; sc++)
+  g = string_fmt_append(g, " %s", sc->name);
+return string_cat(g, US"\n");
 }