wellcomecollection
diff --git a/‎.github/workflows/catalogue-graph-ci.yml
+1 b/‎.github/workflows/catalogue-graph-ci.yml
+1
diff --git a/‎catalogue_graph/scripts/build.sh
+17-4 b/‎catalogue_graph/scripts/build.sh
+17-4
diff --git a/‎catalogue_graph/scripts/deploy_ingestor_lambdas.sh
+29 b/‎catalogue_graph/scripts/deploy_ingestor_lambdas.sh
+29
diff --git a/‎catalogue_graph/scripts/deploy_lambda_zip.sh
-1 b/‎catalogue_graph/scripts/deploy_lambda_zip.sh
-1
diff --git a/‎catalogue_graph/src/ingestor_indexer.py
+1 b/‎catalogue_graph/src/ingestor_indexer.py
+1
diff --git a/‎catalogue_graph/src/ingestor_loader.py
+4-2 b/‎catalogue_graph/src/ingestor_loader.py
+4-2
diff --git a/‎catalogue_graph/src/ingestor_loader_monitor.py
+168 b/‎catalogue_graph/src/ingestor_loader_monitor.py
+168
diff --git a/‎catalogue_graph/src/ingestor_local.py
+24-8 b/‎catalogue_graph/src/ingestor_local.py
+24-8
@@ -55,6 +55,7 @@ jobs:
           catalogue-graph-ingestor-trigger-monitor,
           catalogue-graph-ingestor-indexer,
           catalogue-graph-ingestor-loader,
+          catalogue-graph-ingestor-loader-monitor,
         ]
     steps:
       - uses: actions/checkout@v3
 
@@ -18,19 +18,23 @@ S3_PREFIX="lambdas/catalogue_graph"
 ZIP_TARGET="${ROOT}/target/build.zip"
 TAG_DEFAULT="dev"
 PUSH=false
+SKIP_CONTAINER_BUILD=false
 
 # parse command line arguments
 while [[ $# -gt 0 ]]; do
   case "$1" in
     -t|--tag)
       TAG=${2:-$TAG_DEFAULT}
       echo "Using tag: $TAG"
-      shift
+      shift 
       ;;
     -p|--push)
       PUSH=true
       echo "Will push build artifacts to AWS"
-      shift
+      ;;
+    -s|--skip-container-build)
+      SKIP_CONTAINER_BUILD=true
+      echo "Will skip building the container"
       ;;
     *)
       echo "Unknown option: $1"
@@ -46,6 +50,10 @@ cd "$ROOT"
 
 function build_zip() {( set -e
     local ZIP_TARGET=$1
+    # Ensure the target directory is clean
+    rm -rf target/tmp
+    rm -f $ZIP_TARGET
+
     mkdir -p target/tmp
 
     cp -r src/* target/tmp
@@ -83,9 +91,14 @@ function docker_compose {( set -e
 )}
 
 build_zip "$ZIP_TARGET"
-docker_compose "build" "extractor"
+
+if [ "$SKIP_CONTAINER_BUILD" == false ]; then
+    docker_compose "build" "extractor"
+fi
 
 if [ "$PUSH" == true ]; then
     upload_zip "$ZIP_TARGET" 
-    docker_compose "push" "extractor" 
+    if [ "$SKIP_CONTAINER_BUILD" == false ]; then
+        docker_compose "push" "extractor"
+    fi
 fi
@@ -0,0 +1,29 @@
+#!/usr/bin/env bash
+
+# Convenience script to build and deploy all lambdas
+
+set -o errexit
+set -o nounset
+
+# set ROOT to the root of the project
+DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
+ROOT+="$(dirname "$DIR")"
+
+LAMBDAS=(
+  "catalogue-graph-ingestor-loader"
+  "catalogue-graph-ingestor-loader-monitor"
+  "catalogue-graph-ingestor-trigger-monitor"
+  "catalogue-graph-ingestor-indexer"
+  "catalogue-graph-ingestor-trigger"
+)
+
+export AWS_PROFILE=platform-developer
+
+pushd $ROOT/..
+
+$ROOT/scripts/build.sh  --push --skip-container-build
+
+for LAMBDA in "${LAMBDAS[@]}"; do
+  echo "Deploying $LAMBDA"
+  ./catalogue_graph/scripts/deploy_lambda_zip.sh $LAMBDA
+done
@@ -29,5 +29,4 @@ echo "Revision id: $REVISION_ID"
 echo "Awaiting function update"
 aws lambda wait function-updated \
     --function-name $LAMBDA_NAME
-
 echo "Done"
@@ -25,6 +25,7 @@ class IngestorIndexerObject(BaseModel):
 
 class IngestorIndexerLambdaEvent(BaseModel):
     pipeline_date: str | None = INGESTOR_PIPELINE_DATE
+    job_id: str | None = None
     object_to_index: IngestorIndexerObject
 
 
 
@@ -93,7 +93,7 @@ def handler(
     filename = (
         f"{str(event.start_offset).zfill(8)}-{str(event.end_index).zfill(8)}.parquet"
     )
-    s3_object_key = f"{event.pipeline_date}/{event.job_id}/{filename}"
+    s3_object_key = f"{event.pipeline_date or 'dev'}/{event.job_id}/{filename}"
     s3_uri = f"s3://{config.loader_s3_bucket}/{config.loader_s3_prefix}/{s3_object_key}"
 
     extracted_data = extract_data(
@@ -108,6 +108,7 @@ def handler(
 
     return IngestorIndexerLambdaEvent(
         pipeline_date=event.pipeline_date,
+        job_id=event.job_id,
         object_to_index=result,
     )
 
@@ -148,14 +149,15 @@ def local_handler() -> None:
         required=False,
         default="dev",
     )
+
     args = parser.parse_args()
 
     event = IngestorLoaderLambdaEvent(**args.__dict__)
     config = IngestorLoaderConfig(is_local=True)
 
     result = handler(event, config)
 
-    pprint.pprint(result)
+    pprint.pprint(result.model_dump())
 
 
 if __name__ == "__main__":
 
@@ -0,0 +1,168 @@
+import boto3
+import smart_open
+from pydantic import BaseModel, typing
+
+from clients.metric_reporter import MetricReporter
+from config import INGESTOR_S3_BUCKET, INGESTOR_S3_PREFIX
+from ingestor_indexer import IngestorIndexerLambdaEvent
+from models.step_events import IngestorMonitorStepEvent
+
+
+class IngestorLoaderMonitorLambdaEvent(IngestorMonitorStepEvent):
+    events: list[IngestorIndexerLambdaEvent]
+
+
+class IngestorLoaderMonitorConfig(IngestorMonitorStepEvent):
+    loader_s3_bucket: str = INGESTOR_S3_BUCKET
+    loader_s3_prefix: str = INGESTOR_S3_PREFIX
+    percentage_threshold: float = 0.1
+
+    is_local: bool = False
+
+
+class LoaderReport(BaseModel):
+    pipeline_date: str
+    job_id: str
+    record_count: int
+    total_file_size: int
+
+
+def run_check(
+    event: IngestorLoaderMonitorLambdaEvent, config: IngestorLoaderMonitorConfig
+) -> LoaderReport:
+    pipeline_date = event.events[0].pipeline_date or "dev"
+    assert all([(e.pipeline_date or "dev") == pipeline_date for e in event.events]), (
+        "pipeline_date mismatch! Stopping."
+    )
+    job_id = event.events[0].job_id
+    assert all([e.job_id == job_id for e in event.events]), "job_id mismatch! Stopping."
+    force_pass = config.force_pass or event.force_pass
+
+    print(
+        f"Checking loader events for pipeline_date: {pipeline_date}:{job_id}, force_pass: {force_pass} ..."
+    )
+
+    # assert there are no empty content lengths
+    assert all([e.object_to_index.content_length for e in event.events]), (
+        "Empty content length found! Stopping."
+    )
+    sum_file_size = sum([(e.object_to_index.content_length or 0) for e in event.events])
+
+    # assert there are no empty record counts
+    assert all([e.object_to_index.record_count for e in event.events]), (
+        "Empty record count found! Stopping."
+    )
+    sum_record_count = sum(
+        [(e.object_to_index.record_count or 0) for e in event.events]
+    )
+
+    current_report = LoaderReport(
+        pipeline_date=pipeline_date,
+        job_id=job_id or "dev",
+        record_count=sum_record_count,
+        total_file_size=sum_file_size,
+    )
+
+    s3_report_name = "report.loader.json"
+    s3_url_current_job = f"s3://{config.loader_s3_bucket}/{config.loader_s3_prefix}/{pipeline_date}/{job_id}/{s3_report_name}"
+    s3_url_latest = f"s3://{config.loader_s3_bucket}/{config.loader_s3_prefix}/{pipeline_date}/{s3_report_name}"
+
+    # open with smart_open, check for file existence
+    latest_report = None
+    try:
+        with smart_open.open(s3_url_latest, "r") as f:
+            latest_report = LoaderReport.model_validate_json(f.read())
+
+    # if file does not exist, ignore
+    except (OSError, KeyError) as e:
+        print(f"No latest report found: {e}")
+
+    if latest_report is not None:
+        # check if the sum file size has changed by more than the threshold,
+        # we are ignoring the record count for now, as this will be the same as the trigger step
+        delta = current_report.total_file_size - latest_report.total_file_size
+        percentage = abs(delta) / latest_report.total_file_size
+
+        if percentage > config.percentage_threshold:
+            error_message = f"Percentage change {percentage} exceeds threshold {config.percentage_threshold}!"
+            if force_pass:
+                print(f"Force pass enabled: {error_message}, but continuing.")
+            else:
+                raise ValueError(error_message)
+        else:
+            print(
+                f"Percentage change {percentage} ({delta}/{latest_report.total_file_size}) is within threshold {config.percentage_threshold}."
+            )
+
+    transport_params = {"client": boto3.client("s3")}
+
+    # write the current report to s3 as latest
+    with smart_open.open(s3_url_latest, "w", transport_params=transport_params) as f:
+        f.write(current_report.model_dump_json())
+
+    # write the current report to s3 as job_id
+    with smart_open.open(
+        s3_url_current_job, "w", transport_params=transport_params
+    ) as f:
+        f.write(current_report.model_dump_json())
+
+    return current_report
+
+
+def report_results(
+    report: LoaderReport,
+    send_report: bool,
+) -> None:
+    dimensions = {
+        "pipeline_date": report.pipeline_date,
+        "step": "ingestor_loader_monitor",
+        "job_id": report.job_id,
+    }
+
+    print(f"Reporting results {report}, {dimensions} ...")
+    if send_report:
+        reporter = MetricReporter("catalogue_graph_ingestor")
+        reporter.put_metric_data(
+            metric_name="total_file_size",
+            value=report.total_file_size,
+            dimensions=dimensions,
+        )
+    else:
+        print("Skipping sending report metrics.")
+
+    return
+
+
+def handler(
+    event: IngestorLoaderMonitorLambdaEvent, config: IngestorLoaderMonitorConfig
+) -> None:
+    print("Checking output of ingestor_loader ...")
+    send_report = event.report_results or config.report_results
+
+    try:
+        report = run_check(event, config)
+        report_results(report, send_report)
+    except ValueError as e:
+        print(f"Check failed: {e}")
+        raise e
+
+    print("Check complete.")
+    return
+
+
+def lambda_handler(
+    event: list[IngestorIndexerLambdaEvent] | IngestorLoaderMonitorLambdaEvent,
+    context: typing.Any,
+) -> list[dict]:
+    handler_event = None
+    if isinstance(event, list):
+        handler_event = IngestorLoaderMonitorLambdaEvent(events=event)
+    else:
+        handler_event = event
+
+    handler(
+        event=handler_event,
+        config=IngestorLoaderMonitorConfig(),
+    )
+
+    return [e.model_dump() for e in handler_event.events]
@@ -8,11 +8,14 @@
 from ingestor_indexer import (
     handler as indexer_handler,
 )
-from ingestor_loader import (
-    IngestorLoaderConfig,
+from ingestor_loader import IngestorLoaderConfig
+from ingestor_loader import handler as loader_handler
+from ingestor_loader_monitor import (
+    IngestorLoaderMonitorConfig,
+    IngestorLoaderMonitorLambdaEvent,
 )
-from ingestor_loader import (
-    handler as loader_handler,
+from ingestor_loader_monitor import (
+    handler as loader_monitor_handler,
 )
 from ingestor_trigger import (
     IngestorTriggerConfig,
@@ -25,7 +28,7 @@
     IngestorTriggerMonitorConfig,
 )
 from ingestor_trigger_monitor import (
-    handler as monitor_handler,
+    handler as trigger_monitor_handler,
 )
 
 
@@ -41,7 +44,7 @@ def main() -> None:
     parser.add_argument(
         "--pipeline-date",
         type=str,
-        help="The date to use for the pipeline, required.",
+        help='The pipeline that is being ingested to, will default to "None".',
         required=False,
     )
     parser.add_argument(
@@ -63,7 +66,12 @@ def main() -> None:
 
     args = parser.parse_args()
 
-    trigger_event = IngestorTriggerLambdaEvent(**args.__dict__)
+    trigger_event = IngestorTriggerLambdaEvent(
+        job_id=args.job_id,
+        pipeline_date=args.pipeline_date,
+    )
+    print(f"Processing pipeline for {trigger_event.pipeline_date}.")
+
     config = IngestorTriggerConfig(is_local=True)
     trigger_result = trigger_handler(trigger_event, config)
 
@@ -75,11 +83,19 @@ def main() -> None:
         trigger_monitor_config = IngestorTriggerMonitorConfig(
             is_local=True, force_pass=bool(args.force_pass)
         )
-        monitor_handler(trigger_result, trigger_monitor_config)
+        trigger_monitor_handler(trigger_result, trigger_monitor_config)
 
     loader_config = IngestorLoaderConfig(is_local=True)
     loader_results = [loader_handler(e, loader_config) for e in trigger_result_events]
 
+    if args.monitoring:
+        loader_monitor_config = IngestorLoaderMonitorConfig(is_local=True)
+        loader_monitor_event = IngestorLoaderMonitorLambdaEvent(
+            events=loader_results,
+            force_pass=bool(args.force_pass),
+        )
+        loader_monitor_handler(loader_monitor_event, loader_monitor_config)
+
     indexer_config = IngestorIndexerConfig(is_local=True)
     success_counts = [indexer_handler(e, indexer_config) for e in loader_results]
Original file line number	Diff line number	Diff line change
`@@ -55,6 +55,7 @@ jobs:`
`55`	`55`	`catalogue-graph-ingestor-trigger-monitor,`
`56`	`56`	`catalogue-graph-ingestor-indexer,`
`57`	`57`	`catalogue-graph-ingestor-loader,`
	`58`	`+ catalogue-graph-ingestor-loader-monitor,`
`58`	`59`	`]`
`59`	`60`	`steps:`
`60`	`61`	`- uses: actions/checkout@v3`