refine the 40-load-data/04-transform/ (#2188)

BohuTANG · web-flow · commit bd7e5bf1d677 · 2025-05-21T14:31:07.000+08:00
diff --git a/docs/en/guides/40-load-data/04-transform/00-querying-parquet.md b/docs/en/guides/40-load-data/04-transform/00-querying-parquet.md
@@ -54,4 +54,19 @@ FROM @parquet_query_stage
     FILE_FORMAT => 'parquet_query_format',
     PATTERN => '.*[.]parquet'
 );
+```
+### Query with Metadata
+
+Query Parquet files directly from a stage, including metadata columns like `metadata$filename` and `metadata$file_row_number`:
+
+```sql
+SELECT
+    metadata$filename AS file,
+    metadata$file_row_number AS row,
+    *
+FROM @parquet_query_stage
+(
+    FILE_FORMAT => 'parquet_query_format',
+    PATTERN => '.*[.]parquet'
+);
 ```
diff --git a/docs/en/guides/40-load-data/04-transform/01-querying-csv.md b/docs/en/guides/40-load-data/04-transform/01-querying-csv.md
@@ -69,4 +69,19 @@ FROM @csv_query_stage
     FILE_FORMAT => 'csv_query_format',
     PATTERN => '.*[.]csv[.]gz'
 );
+```
+### Query with Metadata
+
+Query CSV files directly from a stage, including metadata columns like `metadata$filename` and `metadata$file_row_number`:
+
+```sql
+SELECT
+    metadata$filename AS file,
+    metadata$file_row_number AS row,
+    $1, $2, $3
+FROM @csv_query_stage
+(
+    FILE_FORMAT => 'csv_query_format',
+    PATTERN => '.*[.]csv'
+);
 ```
diff --git a/docs/en/guides/40-load-data/04-transform/02-querying-tsv.md b/docs/en/guides/40-load-data/04-transform/02-querying-tsv.md
@@ -68,4 +68,19 @@ FROM @tsv_query_stage
     FILE_FORMAT => 'tsv_query_format',
     PATTERN => '.*[.]tsv[.]gz'
 );
+```
+### Query with Metadata
+
+Query TSV files directly from a stage, including metadata columns like `metadata$filename` and `metadata$file_row_number`:
+
+```sql
+SELECT
+    metadata$filename AS file,
+    metadata$file_row_number AS row,
+    $1, $2, $3
+FROM @tsv_query_stage
+(
+    FILE_FORMAT => 'tsv_query_format',
+    PATTERN => '.*[.]tsv'
+);
 ```
diff --git a/docs/en/guides/40-load-data/04-transform/03-querying-ndjson.md b/docs/en/guides/40-load-data/04-transform/03-querying-ndjson.md
@@ -66,4 +66,19 @@ FROM @ndjson_query_stage
     FILE_FORMAT => 'ndjson_query_format',
     PATTERN => '.*[.]ndjson[.]gz'
 );
+```
+### Query with Metadata
+
+Query NDJSON files directly from a stage, including metadata columns like `metadata$filename` and `metadata$file_row_number`:
+
+```sql
+SELECT
+    metadata$filename AS file,
+    metadata$file_row_number AS row,
+    $1:title, $1:author
+FROM @ndjson_query_stage
+(
+    FILE_FORMAT => 'ndjson_query_format',
+    PATTERN => '.*[.]ndjson'
+);
 ```
diff --git a/docs/en/guides/40-load-data/04-transform/03-querying-orc.md b/docs/en/guides/40-load-data/04-transform/03-querying-orc.md
@@ -8,9 +8,9 @@ import StepContent from '@site/src/components/Steps/step-content';
 ## Syntax
 
 ```sql
-SELECT [<alias>.]<column> [, <column> ...] | [<alias>.]$<col_position> [, $<col_position> ...] 
-FROM {@<stage_name>[/<path>] [<table_alias>] | '<uri>' [<table_alias>]} 
-[( 
+SELECT [<alias>.]<column> [, <column> ...] | [<alias>.]$<col_position> [, $<col_position> ...]
+FROM {@<stage_name>[/<path>] [<table_alias>] | '<uri>' [<table_alias>]}
+[(
   [<connection_parameters>],
   [ PATTERN => '<regex_pattern>'],
   [ FILE_FORMAT => 'ORC | <custom_format_name>'],
@@ -39,7 +39,7 @@ The iris dataset contains 3 classes of 50 instances each, where each class refer
 Create an external stage with your Amazon S3 bucket where your iris dataset file is stored.
 
 ```sql
-CREATE STAGE orc_query_stage 
+CREATE STAGE orc_query_stage
     URL = 's3://databend-doc'
     CONNECTION = (
         AWS_KEY_ID = '<your-key-id>',
@@ -78,5 +78,24 @@ FROM
   'https://github.com/tensorflow/io/raw/master/tests/test_orc/iris.orc' (file_format = > 'orc');
 ```
 
+</StepContent>
+<StepContent number="4">
+
+### Query with Metadata
+
+Query ORC files directly from a stage, including metadata columns like `metadata$filename` and `metadata$file_row_number`:
+
+```sql
+SELECT
+    metadata$filename AS file,
+    metadata$file_row_number AS row,
+    *
+FROM @orc_query_stage
+(
+    FILE_FORMAT => 'orc',
+    PATTERN => '.*[.]orc'
+);
+```
+
 </StepContent>
 </StepsWrap>
diff --git a/docs/en/guides/40-load-data/04-transform/04-querying-avro.md b/docs/en/guides/40-load-data/04-transform/04-querying-avro.md
@@ -84,7 +84,7 @@ FROM @avro_query_stage
 );
 ```
 
-#### Query with Metadata
+### Query with Metadata
 
 Query Avro files directly from a stage, including metadata columns like `metadata$filename` and `metadata$file_row_number`:
 
diff --git a/docs/en/guides/40-load-data/04-transform/04-querying-metadata.md b/docs/en/guides/40-load-data/04-transform/04-querying-metadata.md
@@ -3,13 +3,6 @@ title: Working with File and Column Metadata
 sidebar_label: Metadata
 ---
 
-This guide explains how to query metadata from staged files. The supported file formats for metadata querying are summarized in the table below:
-
-| Metadata Type       | Supported File Formats                               |
-|---------------------|------------------------------------------------------|
-| File-level metadata | CSV, TSV, Parquet, NDJSON, Avro                      |
-| Column-level metadata (INFER_SCHEMA) | Parquet                                              |
-
 The following file-level metadata fields are available for the supported file formats:
 
 | File Metadata              | Type    | Description                                      |
@@ -22,68 +15,13 @@ These metadata fields are available in:
 - SELECT queries over stages (e.g., `SELECT FROM @stage`)
 - `COPY INTO <table>` statements
 
-### Examples
-
-1. Querying Metadata Fields
-
-You can directly select metadata fields when reading from a stage:
-
-```sql
-SELECT
-  metadata$filename,
-  metadata$file_row_number
-FROM @my_internal_stage
-LIMIT 1;
-```
-
-```sql
-│ metadata$filename │ metadata$file_row_number  │
-├───────────────────┼───────────────────────────┤
-│ iris.parquet      │                        10 │
-```
-
-2. Using Metadata in COPY INTO
-
-You can pass metadata fields into target table columns using COPY INTO:
-
-```sql
-COPY INTO iris_with_meta 
-FROM (SELECT metadata$filename, metadata$file_row_number, $1, $2, $3, $4, $5 FROM @my_internal_stage/iris.parquet) 
-FILE_FORMAT=(TYPE=parquet); 
-```
-
-## Inferring Column Metadata from Files
-
-Databend allows you to retrieve column-level metadata from your staged files using the [INFER_SCHEMA](/sql/sql-functions/table-functions/infer-schema) function. This is currently supported for **Parquet** files.
-
-| Column Metadata | Type    | Description                                      |
-|-----------------|---------|--------------------------------------------------|
-| `column_name`   | String  | Indicates the name of the column.                |
-| `type`          | String  | Indicates the data type of the column.           |
-| `nullable`      | Boolean | Indicates whether the column allows null values. |
-| `order_id`      | UInt64  | Represents the column's position in the table.   |
-
-### Examples
-
-The following example retrieves column metadata from a Parquet file staged in `@my_internal_stage`:
-
-```sql
-SELECT * FROM INFER_SCHEMA(location => '@my_internal_stage/iris.parquet');
-```
-
-```sql
-┌──────────────────────────────────────────────┐
-│  column_name │   type  │ nullable │ order_id │
-├──────────────┼─────────┼──────────┼──────────┤
-│ id           │ BIGINT  │ true     │        0 │
-│ sepal_length │ DOUBLE  │ true     │        1 │
-│ sepal_width  │ DOUBLE  │ true     │        2 │
-│ petal_length │ DOUBLE  │ true     │        3 │
-│ petal_width  │ DOUBLE  │ true     │        4 │
-│ species      │ VARCHAR │ true     │        5 │
-└──────────────────────────────────────────────┘
-```
-
-## Tutorials
+## Detailed Guides for Querying Metadata
 
-- [Querying Metadata](/tutorials/load/query-metadata)
+| File Format | Guide                                                                                             |
+|-------------|---------------------------------------------------------------------------------------------------|
+| Parquet     | [Querying Parquet Files with Metadata](/docs/en/guides/40-load-data/04-transform/00-querying-parquet.md#query-with-metadata) |
+| CSV         | [Querying CSV Files with Metadata](/docs/en/guides/40-load-data/04-transform/01-querying-csv.md#query-with-metadata)     |
+| TSV         | [Querying TSV Files with Metadata](/docs/en/guides/40-load-data/04-transform/02-querying-tsv.md#query-with-metadata)     |
+| NDJSON      | [Querying NDJSON Files with Metadata](/docs/en/guides/40-load-data/04-transform/03-querying-ndjson.md#query-with-metadata) |
+| ORC         | [Querying ORC Files with Metadata](/docs/en/guides/40-load-data/04-transform/03-querying-orc.md#query-with-metadata)     |
+| Avro        | [Querying Avro Files with Metadata](/docs/en/guides/40-load-data/04-transform/04-querying-avro.md#query-with-metadata)     |
diff --git a/docs/en/guides/40-load-data/04-transform/05-data-load-transform.md b/docs/en/guides/40-load-data/04-transform/05-data-load-transform.md
diff --git a/docs/en/guides/40-load-data/04-transform/index.md b/docs/en/guides/40-load-data/04-transform/index.md