fix: example of scifact llm embedding

LongxingTan · web-flow · commit aceef3a9fb19 · 2024-07-19T22:09:09.000+08:00
diff --git a/README.md b/README.md
@@ -43,7 +43,7 @@
 | Exp                           | Model                   | Original | Finetuned | Demo                                                                                                                                                                |
 |-------------------------------|-------------------------|----------|-----------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|
 | **embed** pairwise finetune   | bge-base-zh-v1.5        | 0.657    | **0.703** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/17KXe2lnNRID-HiVvMtzQnONiO74oGs91?usp=sharing) |
-| **embed** LLM finetune (LoRA) | Qwen2-1.5B-Instruct     | 0.546    | **0.694** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1jj1kBQWFcuQ3a7P9ttnl1hgX7H8WA_Za?usp=sharing) |
+| **embed** LLM finetune (LoRA) | Qwen2-1.5B-Instruct     | 0.546    | **0.695** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1jj1kBQWFcuQ3a7P9ttnl1hgX7H8WA_Za?usp=sharing) |
 | **rerank** cross encoder      | bge-reranker-base       | 0.666    | **0.706** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1QvbUkZtG56SXomGYidwI4RQzwODQrWNm?usp=sharing) |
 | **rerank** colbert            | chinese-roberta-wwm-ext | 0.643    | **0.687** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1QVtqhQ080ZMltXoJyODMmvEQYI6oo5kO?usp=sharing) |
 | **rerank** LLM (LoRA)         | Qwen2-1.5B-Instruct     | 0.531    | **0.699** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fzq1iV7-f8hNKFnjMmpVhVxadqPb9IXk?usp=sharing) |
diff --git a/README_ja-JP.md b/README_ja-JP.md
@@ -42,7 +42,7 @@
 | Exp                           | Model                   | Size | Original | Finetuned | Demo                                                                                                                                                                |
 |-------------------------------|-------------------------|------|----------|-----------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|
 | **embed** pairwise finetune   | bge-base-zh-v1.5        | -    | 0.657    | **0.703** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/17KXe2lnNRID-HiVvMtzQnONiO74oGs91?usp=sharing) |
-| **embed** LLM finetune (LoRA) | Qwen2-1.5B-Instruct     | -    | 0.546    | **0.694** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1jj1kBQWFcuQ3a7P9ttnl1hgX7H8WA_Za?usp=sharing) |
+| **embed** LLM finetune (LoRA) | Qwen2-1.5B-Instruct     | -    | 0.546    | **0.695** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1jj1kBQWFcuQ3a7P9ttnl1hgX7H8WA_Za?usp=sharing) |
 | **rerank** cross encoder      | bge-reranker-base       | -    | 0.666    | **0.706** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1QvbUkZtG56SXomGYidwI4RQzwODQrWNm?usp=sharing) |
 | **rerank** colbert            | chinese-roberta-wwm-ext | -    | 0.643    | **0.687** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1QVtqhQ080ZMltXoJyODMmvEQYI6oo5kO?usp=sharing) |
 | **rerank** LLM (LoRA)         | Qwen2-1.5B-Instruct     | -    | 0.531    | **0.699** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fzq1iV7-f8hNKFnjMmpVhVxadqPb9IXk?usp=sharing) |
diff --git a/README_zh-CN.md b/README_zh-CN.md
@@ -39,10 +39,10 @@
 - 支持全套重排微调，cross encoder、ColBERT、LLM
 - 支持定制化RAG，支持在Transformers、Langchain、LlamaIndex中便捷使用微调后的模型
 
-| 实验                  | 模型                      | 尺寸| 原分数 | 微调分数   | Demo代码                                                                                                                           |
-|-----------------------|-------------------------|----|-------|-----------|-------------------------------------------------------------------------------------------------------------------------------------|
+| 实验                  | 模型                      | 尺寸| 原分数 | 微调分数      | Demo代码                                                                                                                           |
+|----------------------|-------------------------|----|-------|-----------|-------------------------------------------------------------------------------------------------------------------------------------|
 | pairwise微调**向量**   | bge-base-zh-v1.5        | -  | 0.657 | **0.703** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/17KXe2lnNRID-HiVvMtzQnONiO74oGs91?usp=sharing) |
-| 大模型LoRA微调**向量**  | Qwen2-1.5B-Instruct     | -  | 0.546 | **0.694** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1jj1kBQWFcuQ3a7P9ttnl1hgX7H8WA_Za?usp=sharing) |
+| 大模型LoRA微调**向量**  | Qwen2-1.5B-Instruct     | -  | 0.546 | **0.695** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1jj1kBQWFcuQ3a7P9ttnl1hgX7H8WA_Za?usp=sharing) |
 | cross encoder**重排** | bge-reranker-base       | -  | 0.666 | **0.706** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1QvbUkZtG56SXomGYidwI4RQzwODQrWNm?usp=sharing) |
 | colbert**重排**       | chinese-roberta-wwm-ext | -  | 0.643 | **0.687** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1QVtqhQ080ZMltXoJyODMmvEQYI6oo5kO?usp=sharing) |
 | LLM**重排**           | Qwen2-1.5B-Instruct     | -  | 0.531 | **0.699** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fzq1iV7-f8hNKFnjMmpVhVxadqPb9IXk?usp=sharing) |
diff --git a/examples/README.md b/examples/README.md
@@ -1,14 +1,16 @@
 # Open-Retrievals examples
 
-## Basic Usage
-
 - [embedding-pairwise finetune](./embedding_pairwise_finetune.py)
 - [embedding-llm pairwise finetune](./embedding_llm_finetune.py)
 - [rerank-cross encoder](./rerank_cross_encoder.py)
 - [rerank-colbert](./rerank_colbert.py)
 - [rerank-llm finetune](rerank_llm_finetune.py)
 - [RAG with Langchain](./rag_langchain_demo.py)
 
+Check the whole pipeline
+- [t2-ranking dataset](./t2_ranking/README.md)
+- [scifact dataset](./scifact/README.md)
+
 
 ## Embedding
 
diff --git a/examples/scifact/README.md b/examples/scifact/README.md
@@ -1,19 +1,39 @@
 # scifact
+
+| Model                  | mrr@10 | recall@10 | ndcg@10 |
+|------------------------|--------|-----------|---------|
+| bge-base-en-v1.5       | 0.703  | 0.862     | 0.744   |
+| + **fine-tuning**      | 0.757  | 0.900     | 0.793   |
+| e5-mistral-7b-instruct | 0.589  | 0.748     | 0.630   |
+| + **fine-tuning**      | 0.763  | 0.940     | 0.806   |
+
+
+## Fine-tuning embedding
 - [scifact data](https://huggingface.co/datasets/Tevatron/scifact)
 - [scifact corpus](https://huggingface.co/datasets/Tevatron/scifact-corpus)
 
-## Fine-tuning Embedding
 ```shell
 sh embed_pairwuse_train.sh
 ```
 
+Optional: llm embedding
+```shell
+sh embed_llm_train.sh
+```
+
 ## Encoding corpus
 - save the pair of `(embedding vector, id)` for each corpus example, support for multiple files
+- for llm embed encoding, remember to use the same instruction
 
 ```shell
 sh encode_corpus.sh
 ```
 
+Optional: llm encoding
+```shell
+sh encode_llm_corpus.sh
+```
+
 ## Encoding query
 - save the pair of `(embedding vector, id)` for each query example
 - use `Tevatron/scifact/dev` or `Tevatron/scifact/test` so we can choose to encode the dev or test file
@@ -22,6 +42,11 @@ sh encode_corpus.sh
 sh encode_query.sh
 ```
 
+Optional: llm encoding
+```shell
+sh encode_llm_query.sh
+```
+
 ## Retrieval
 ```shell
 sh retrieve.sh
@@ -37,11 +62,3 @@ sh rerank.sh
 ```shell
 python evaluate.py
 ```
-
-```
-{
-    "mrr@10": 0.7567949735449735,
-    "recall@10": 0.9002222222222223,
-    "ndcg@10": 0.7927846698591741
-}
-```
diff --git a/examples/scifact/embed_llm_train.sh b/examples/scifact/embed_llm_train.sh
@@ -0,0 +1,31 @@
+MODEL_NAME="intfloat/e5-mistral-7b-instruct"
+TRAIN_DATA="Tevatron/scifact"
+OUTPUT_DIR="./scifact/ft_llm_out"
+
+torchrun --nproc_per_node 1 \
+  -m retrievals.pipelines.embed \
+  --output_dir $OUTPUT_DIR \
+  --overwrite_output_dir \
+  --model_name_or_path $MODEL_NAME \
+  --pooling_method last \
+  --do_train \
+  --data_name_or_path $TRAIN_DATA \
+  --positive_key positive_passages \
+  --negative_key negative_passages \
+  --use_lora True \
+  --query_instruction "Retrieve the possible answer for query.\nQuery: " \
+  --document_instruction 'Document: ' \
+  --learning_rate 3e-5 \
+  --bf16 \
+  --num_train_epochs 4 \
+  --per_device_train_batch_size 2 \
+  --gradient_accumulation_steps 16 \
+  --dataloader_drop_last True \
+  --query_max_length 64 \
+  --document_max_length 256 \
+  --train_group_size 2 \
+  --logging_strategy steps \
+  --logging_steps 100 \
+  --temperature 0.02 \
+  --use_inbatch_negative false \
+  --save_total_limit 1
diff --git a/examples/scifact/embed_pairwise_train.sh b/examples/scifact/embed_pairwise_train.sh
@@ -2,7 +2,6 @@ MODEL_NAME="BAAI/bge-base-en-v1.5"
 TRAIN_DATA="Tevatron/scifact"
 OUTPUT_DIR="./scifact/ft_out"
 
-
 torchrun --nproc_per_node 1 \
   -m retrievals.pipelines.embed \
   --output_dir $OUTPUT_DIR \
diff --git a/examples/scifact/encode_corpus.sh b/examples/scifact/encode_corpus.sh
@@ -3,11 +3,10 @@ MODEL_DIR="./scifact/ft_out"
 CORPUS=Tevatron/scifact-corpus
 mkdir $ENCODE_CORPUS_DIR
 
-
 python -m retrievals.pipelines.embed \
     --model_name_or_path $MODEL_DIR \
     --output_dir $ENCODE_CORPUS_DIR \
-    --encode_save_file corpus.pkl \
+    --encoding_save_file corpus.pkl \
     --do_encode \
     --fp16 \
     --per_device_eval_batch_size 256 \
diff --git a/examples/scifact/encode_llm_corpus.sh b/examples/scifact/encode_llm_corpus.sh
@@ -0,0 +1,20 @@
+ENCODE_CORPUS_DIR=./scifact/corpus-embeddings
+MODEL_NAME="intfloat/e5-mistral-7b-instruct"
+LORA_DIR=./ft_llm_out
+CORPUS=Tevatron/scifact-corpus
+mkdir -p $ENCODE_CORPUS_DIR
+
+python -m retrievals.pipelines.embed \
+    --model_name_or_path $MODEL_NAME \
+    --lora_path $LORA_DIR \
+    --pooling_method last \
+    --output_dir $ENCODE_CORPUS_DIR \
+    --encoding_save_file corpus.pkl \
+    --do_encode \
+    --bf16 \
+    --per_device_eval_batch_size 128 \
+    --data_name_or_path $CORPUS \
+    --query_key text \
+    --document_instruction "Document: " \
+    --document_max_length 256 \
+    --is_query false
diff --git a/examples/scifact/encode_llm_query.sh b/examples/scifact/encode_llm_query.sh
@@ -0,0 +1,20 @@
+ENCODE_QUERY_DIR=./query-embeddings
+MODEL_NAME="intfloat/e5-mistral-7b-instruct"
+LORA_DIR=./ft_llm_out
+QUERY=Tevatron/scifact/dev
+mkdir -p $ENCODE_QUERY_DIR
+
+python -m retrievals.pipelines.embed \
+    --model_name_or_path $MODEL_NAME \
+    --lora_path $LORA_DIR \
+    --pooling_method last \
+    --output_dir $ENCODE_QUERY_DIR \
+    --encoding_save_file query.pkl \
+    --do_encode \
+    --bf16 \
+    --per_device_eval_batch_size 256 \
+    --data_name_or_path $QUERY \
+    --query_key query \
+    --query_instruction "Retrieve the possible answer for query.\nQuery: " \
+    --query_max_length 64 \
+    --is_query true
diff --git a/examples/scifact/encode_query.sh b/examples/scifact/encode_query.sh
@@ -6,7 +6,7 @@ mkdir $ENCODE_QUERY_DIR
 python -m retrievals.pipelines.embed \
     --model_name_or_path $MODEL_DIR \
     --output_dir $ENCODE_QUERY_DIR \
-    --encode_save_file query.pkl \
+    --encoding_save_file query.pkl \
     --do_encode \
     --fp16 \
     --per_device_eval_batch_size 256 \
diff --git a/examples/t2_ranking/README.md b/examples/t2_ranking/README.md
@@ -1,19 +1,16 @@
 # T2_ranking
 
-An end-to-end example with [t2-reranking data](https://huggingface.co/datasets/C-MTEB/T2Reranking)
-
-## Experiment
-
-bge-base-zh-v1.5
-- "map": 0.6569549236524207, "mrr": 0.7683207806932297
-- embed/pairwise/infonce: "map": 0.7012381232799435, "mrr": 0.81575288845697
-
-bge-reranker-base
-- "map": 0.6660360850586858, "mrr": 0.76091472303207
-- rerank/cross-encoder: "map": 0.6906494118852755, "mrr": 0.8064902548320916
+| Model              | map   | mrr   |
+|--------------------|-------|-------|
+| bge-base-zh-v1.5   | 0.657 | 0.768 |
+| + **fine-tuning**  | 0.701 | 0.816 |
+| bge-reranker-base  | 0.666 | 0.761 |
+| + **fine-tuning**  | 0.691 | 0.806 |
 
 
 ## 1. Prepare dataset
+
+- [t2-reranking data](https://huggingface.co/datasets/C-MTEB/T2Reranking)
 ```shell
 python prepare_t2ranking_data.py
 ```
diff --git a/src/retrievals/data/dataset.py b/src/retrievals/data/dataset.py
@@ -293,6 +293,7 @@ def __init__(
             dataset_language = args.dataset_language
             dataset_split = args.dataset_split
             text_key = args.query_key
+            instruction = args.query_instruction or args.document_instruction or instruction
 
         if isinstance(data_name_or_path, datasets.Dataset):
             self.encode_data = data_name_or_path
@@ -310,14 +311,16 @@ def __init__(
         self.id_key = id_key
         self.text_key = text_key
         self.instruction = instruction
-        self.args = args
+        if len(instruction) > 0:
+            logger.info(f'Add prefix instruction: {self.instruction}')
 
     def __len__(self):
         return len(self.encode_data)
 
     def __getitem__(self, item) -> [str, BatchEncoding]:
         if self.id_key is not None:
             text_id, text = (self.encode_data[item][f] for f in [self.id_key, self.text_key])
+            text = self.instruction + text
             encoded_text = self.tokenizer.encode_plus(
                 text,
                 max_length=self.max_length,
@@ -328,6 +331,7 @@ def __getitem__(self, item) -> [str, BatchEncoding]:
             return text_id, encoded_text
         else:
             text = self.encode_data[item][self.text_key]
+            text = self.instruction + text
             encoded_text = self.tokenizer.encode_plus(
                 text,
                 max_length=self.max_length,
diff --git a/src/retrievals/models/embedding_auto.py b/src/retrievals/models/embedding_auto.py
@@ -510,7 +510,7 @@ def from_pretrained(
             model.print_trainable_parameters()
 
         if lora_path is not None:
-            logger.info('Load pretrained with LoRA adapter')
+            logger.info(f'Load pretrained with LoRA adapter {lora_path}')
             from peft import LoraConfig, PeftModel
 
             model = PeftModel.from_pretrained(model, lora_path)
@@ -689,9 +689,38 @@ def forward(
 
     def _unsorted_segment_mean(self, data: torch.Tensor, segment_ids: torch.Tensor, num_segments: int) -> torch.Tensor:
         result_shape = (num_segments, data.size(1))
-        segment_ids = segment_ids.unsqueeze(-1).expand(-1, data.size(1))
+        segment_ids = segment_ids.unsqueeze(-1).expand(-1, data.size(1))  # (batch, num_embedding)
         result = data.new_full(result_shape, 0)  # init empty result tensor
         count = data.new_full(result_shape, 0)
-        result.scatter_add_(0, segment_ids, data)
+        result.scatter_add_(0, segment_ids, data)  # fill the result from data to organized segment result
         count.scatter_add_(0, segment_ids, torch.ones_like(data))
         return result / count.clamp(min=1)
+
+    def _sorted_segment_mean(self, data: torch.Tensor, segment_ids: torch.Tensor, num_segments: int) -> torch.Tensor:
+        """
+        Compute the mean of each segment in data based on sorted segment_ids.
+
+        Args:
+            data (torch.Tensor): Input data tensor of shape (batch_size, num_embedding).
+            segment_ids (torch.Tensor): Sorted segment IDs tensor of shape (batch_size,).
+            num_segments (int): Number of unique segments.
+
+        Returns:
+            torch.Tensor: Tensor of shape (num_segments, num_embedding) containing the mean of each segment.
+        """
+        result = torch.zeros((num_segments, data.size(1)), dtype=data.dtype, device=data.device)
+        count = torch.zeros((num_segments,), dtype=torch.int32, device=data.device)
+
+        start_idx = 0
+        for i in range(num_segments):
+            # Find the range of indices corresponding to the current segment
+            while start_idx < segment_ids.size(0) and segment_ids[start_idx] == i:
+                start_idx += 1
+
+            if start_idx > 0 and segment_ids[start_idx - 1] == i:
+                segment_slice = slice(start_idx - (start_idx - segment_ids[start_idx:].tolist().count(i)), start_idx)
+                result[i] = data[segment_slice].sum(dim=0)
+                count[i] = segment_slice.stop - segment_slice.start
+
+        result /= count.clamp(min=1).unsqueeze(-1)
+        return result
diff --git a/src/retrievals/models/rerank.py b/src/retrievals/models/rerank.py
@@ -553,7 +553,7 @@ def save_pretrained(self, save_directory: Union[str, os.PathLike], safe_serializ
         self.model.save_pretrained(
             save_directory, state_dict=state_dict_fn(state_dict), safe_serialization=safe_serialization
         )
-        torch.save(state_dict_fn(self.linear.state_dict()), os.path.join(save_directory, 'colbert_linear.pt'))
+        torch.save(state_dict_fn(self.linear.state_dict()), os.path.join(save_directory, 'linear.pt'))
         self.tokenizer.save_pretrained(save_directory)
 
     @classmethod
@@ -570,9 +570,9 @@ def from_pretrained(
         model = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=trust_remote_code, **kwargs)
 
         linear_layer = nn.Linear(model.config.hidden_size, colbert_dim, dtype=torch.float32, bias=False)
-        if os.path.exists(path=os.path.join(model_name_or_path, 'colbert_linear.pt')):
+        if os.path.exists(path=os.path.join(model_name_or_path, 'linear.pt')):
             logger.info(f'Loading colbert_linear weight from {model_name_or_path}')
-            colbert_state_dict = torch.load(os.path.join(model_name_or_path, 'colbert_linear.pt'), map_location='cpu')
+            colbert_state_dict = torch.load(os.path.join(model_name_or_path, 'linear.pt'), map_location='cpu')
             linear_layer.load_state_dict(colbert_state_dict)
         else:
             logger.info('Xavier uniform random colbert linear layer')
diff --git a/src/retrievals/pipelines/embed.py b/src/retrievals/pipelines/embed.py
diff --git a/src/retrievals/pipelines/retrieve.py b/src/retrievals/pipelines/retrieve.py