extract_pdf_pages.py

import argparse
from PyPDF2 import PdfReader, PdfWriter

def extract_pages(input_pdf, output_pdf, page_numbers):
    """
    Extracts specific pages from a PDF and saves them as a new PDF.
    
    Args:
        input_pdf (str): Path to the input PDF file.
        output_pdf (str): Path to save the extracted pages PDF.
        page_numbers (list): List of page numbers to extract (0-based index).
    """
    reader = PdfReader(input_pdf)
    writer = PdfWriter()

    for page_num in page_numbers:
        if page_num < len(reader.pages):
            writer.add_page(reader.pages[page_num])
        else:
            print(f"Warning: Page number {page_num} is out of range.")
    
    with open(output_pdf, "wb") as output_file:
        writer.write(output_file)
    print(f"Extracted pages saved to {output_pdf}")

def main():
    # Set up argument parser
    parser = argparse.ArgumentParser(description="Extract specific pages from a PDF.")
    parser.add_argument("input_pdf", help="Path to the input PDF file")
    parser.add_argument("output_pdf", help="Path to save the extracted pages PDF")
    parser.add_argument(
        "pages", 
        help="Comma-separated list of page numbers to extract (1-based index)", 
        type=str
    )

    args = parser.parse_args()

    # Convert 1-based page numbers to 0-based and handle input
    try:
        pages_to_extract = [int(p) - 1 for p in args.pages.split(",")]
    except ValueError:
        print("Error: Pages must be a comma-separated list of integers.")
        return

    # Extract the specified pages
    extract_pages(args.input_pdf, args.output_pdf, pages_to_extract)

if __name__ == "__main__":
    main()