openvinotoolkit
diff --git a/‎src/llm/io_processing/base_output_parser.hpp‎
Lines changed: 2 additions & 1 deletion b/‎src/llm/io_processing/base_output_parser.hpp‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/llm/io_processing/qwen3/tool_parser.cpp‎
Lines changed: 3 additions & 4 deletions b/‎src/llm/io_processing/qwen3/tool_parser.cpp‎
Lines changed: 3 additions & 4 deletions
diff --git a/‎src/llm/io_processing/qwen3/tool_parser.hpp‎
Lines changed: 1 addition & 0 deletions b/‎src/llm/io_processing/qwen3/tool_parser.hpp‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/test/llm/output_parsers/hermes3_output_parser_test.cpp‎
Lines changed: 8 additions & 7 deletions b/‎src/test/llm/output_parsers/hermes3_output_parser_test.cpp‎
Lines changed: 8 additions & 7 deletions
diff --git a/‎src/test/llm/output_parsers/llama3_output_parser_test.cpp‎
Lines changed: 8 additions & 7 deletions b/‎src/test/llm/output_parsers/llama3_output_parser_test.cpp‎
Lines changed: 8 additions & 7 deletions
@@ -17,6 +17,7 @@
 
 #include <openvino/genai/tokenizer.hpp>
 #include <openvino/genai/generation_handle.hpp>
+#include <unordered_map>
 #include <unordered_set>
 #include <string>
 #include <optional>
@@ -58,7 +59,7 @@ enum class ParameterType_t {
     OBJECT,
     UNKNOWN
 };
-using ParametersTypeMap_t = std::unordered_map<std::string, ParameterType_t>;       // param name -> param type
+using ParametersTypeMap_t = std::unordered_map<std::string, ParameterType_t>;          // param name -> param type
 using ToolsParameterTypeMap_t = std::unordered_map<std::string, ParametersTypeMap_t>;  // tool name -> (param name -> param type)
 
 class BaseOutputParser {
 
@@ -15,10 +15,10 @@
 //*****************************************************************************
 
 #include <openvino/genai/tokenizer.hpp>
+#include <algorithm>
 #include <string>
 #include <stack>
 #include <vector>
-#include <utility>
 
 #pragma warning(push)
 #pragma warning(disable : 6313)
@@ -308,7 +308,6 @@ bool Parser::step(ToolCalls& toolCalls) {
         auto pos = content.find(Qwen3CoderToolParser::tagEnd, currentPosition);
         CHECK_IF_FOUND2(pos, Qwen3CoderToolParser::tagEnd, State::ErrorEnd);
         this->currentParameterName = content.substr(currentPosition, pos - currentPosition);
-        ;
         currentPosition = pos + Qwen3CoderToolParser::tagEnd.length();
         currentState = State::InsideParameter;
         break;
@@ -387,8 +386,8 @@ void Qwen3CoderToolParser::parse(ParsedOutput& parsedOutput, const std::vector<i
     }
 
     Parser parser(parsedOutput.content, toolsParametersTypes);
-    while (parser.step(parsedOutput.toolCalls))
-        ;
+    while (parser.step(parsedOutput.toolCalls)) {
+    }
     if (parser.currentState != Parser::State::End) {
         SPDLOG_DEBUG("Parsing ended with error, leaving content as is");
         return;
 
@@ -20,6 +20,7 @@
 #include <stack>
 #include <string>
 #include <unordered_set>
+#include <utility>
 #include <vector>
 
 #pragma warning(push)
 
@@ -32,6 +32,7 @@ const std::string tokenizerPath = "/ovms/src/test/llm_testing/NousResearch/Herme
 #endif
 
 static std::unique_ptr<ov::genai::Tokenizer> hermes3Tokenizer;
+static ovms::ToolsSchemas_t toolsSchemas;  // can be empty for hermes
 
 class Hermes3OutputParserTest : public ::testing::Test {
 protected:
@@ -75,7 +76,7 @@ TEST_F(Hermes3OutputParserTest, ParseToolCallOutputWithSingleToolCall) {
             }
             auto generatedTensor = hermes3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
             std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
-            ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true) : outputParserWithRegularToolParsing->parse(generatedTokens, true);
+            ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
             EXPECT_EQ(parsedOutput.content, "");
             EXPECT_EQ(parsedOutput.reasoning, "");
 
@@ -104,7 +105,7 @@ TEST_F(Hermes3OutputParserTest, ParseToolCallOutputWithNoToolsInTheRequest) {
             }
             auto generatedTensor = hermes3Tokenizer->encode(testInput, ov::genai::add_special_tokens(false)).input_ids;
             std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
-            ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, false) : outputParserWithRegularToolParsing->parse(generatedTokens, false);
+            ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, false, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, false, toolsSchemas);
             EXPECT_EQ(parsedOutput.content, testInput);
             EXPECT_EQ(parsedOutput.reasoning, "");
 
@@ -131,7 +132,7 @@ TEST_F(Hermes3OutputParserTest, ParseToolCallOutputWithThreeToolCalls) {
             }
             auto generatedTensor = hermes3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
             std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
-            ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true) : outputParserWithRegularToolParsing->parse(generatedTokens, true);
+            ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
             EXPECT_EQ(parsedOutput.content, "");
             EXPECT_EQ(parsedOutput.reasoning, "");
 
@@ -178,7 +179,7 @@ TEST_F(Hermes3OutputParserTest, ParseToolCallOutputWithTwoValidToolCallsAndOneIn
             }
             auto generatedTensor = hermes3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
             std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
-            ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true) : outputParserWithRegularToolParsing->parse(generatedTokens, true);
+            ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
             EXPECT_EQ(parsedOutput.content, "");
             EXPECT_EQ(parsedOutput.reasoning, "");
 
@@ -204,13 +205,13 @@ TEST_F(Hermes3OutputParserTest, ParseToolCallOutputWithContentAndNoToolCalls) {
     std::string input = "This is a regular model response without tool calls.";
     auto generatedTensor = hermes3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
-    ParsedOutput parsedOutput = outputParserWithRegularToolParsing->parse(generatedTokens, true);
+    ParsedOutput parsedOutput = outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
     EXPECT_EQ(parsedOutput.content, "This is a regular model response without tool calls.");
     ASSERT_EQ(parsedOutput.toolCalls.size(), 0);
     EXPECT_EQ(parsedOutput.reasoning, "");
 
     // Immediate parsing expects tool call right away, so it fails yielding empty both content and tool calls
-    ParsedOutput parsedOutputImmediate = outputParserWithImmediateToolParsing->parse(generatedTokens, true);
+    ParsedOutput parsedOutputImmediate = outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas);
     EXPECT_EQ(parsedOutputImmediate.content, "");
     ASSERT_EQ(parsedOutputImmediate.toolCalls.size(), 0);
     EXPECT_EQ(parsedOutputImmediate.reasoning, "");
@@ -221,7 +222,7 @@ TEST_F(Hermes3OutputParserTest, ParseToolCallOutputWithContentAndSingleToolCall)
     auto generatedTensor = hermes3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
     // generatedTokens should now contain content followed by bot token ID and then tool call
-    ParsedOutput parsedOutput = outputParserWithRegularToolParsing->parse(generatedTokens, true);
+    ParsedOutput parsedOutput = outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
     EXPECT_EQ(parsedOutput.content, "This is a content part and next will be a tool call.\n\n");
     EXPECT_EQ(parsedOutput.reasoning, "");
 
 
@@ -31,6 +31,7 @@ const std::string tokenizerPath = getWindowsRepoRootPath() + "\\src\\test\\llm_t
 const std::string tokenizerPath = "/ovms/src/test/llm_testing/meta-llama/Llama-3.1-8B-Instruct";
 #endif
 
+static ovms::ToolsSchemas_t toolsSchemas;  // can be empty for llama3
 static std::unique_ptr<ov::genai::Tokenizer> llama3Tokenizer;
 
 // Id of the <|python_tag|> which is a special token used to indicate the start of a tool calls
@@ -68,7 +69,7 @@ TEST_F(Llama3OutputParserTest, ParseToolCallOutputWithSingleToolCall) {
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
     generatedTokens.insert(generatedTokens.begin(), botTokenId);
     for (bool immediateParsing : {false, true}) {
-        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true) : outputParserWithRegularToolParsing->parse(generatedTokens, true);
+        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
         EXPECT_EQ(parsedOutput.content, "");
         EXPECT_EQ(parsedOutput.reasoning, "");
         ASSERT_EQ(parsedOutput.toolCalls.size(), 1);
@@ -83,7 +84,7 @@ TEST_F(Llama3OutputParserTest, ParseToolCallOutputNoToolsInTheRequest) {
     auto generatedTensor = llama3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
     for (bool immediateParsing : {false, true}) {
-        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, false) : outputParserWithRegularToolParsing->parse(generatedTokens, false);
+        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, false, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, false, toolsSchemas);
         EXPECT_EQ(parsedOutput.content, input);
         EXPECT_EQ(parsedOutput.reasoning, "");
         ASSERT_EQ(parsedOutput.toolCalls.size(), 0);
@@ -96,7 +97,7 @@ TEST_F(Llama3OutputParserTest, ParseRegularJsonOutputToolsInTheRequest) {
     auto generatedTensor = llama3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
     for (bool immediateParsing : {false, true}) {
-        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true) : outputParserWithRegularToolParsing->parse(generatedTokens, true);
+        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
         EXPECT_EQ(parsedOutput.content, "");
         EXPECT_EQ(parsedOutput.reasoning, "");
         ASSERT_EQ(parsedOutput.toolCalls.size(), 0);
@@ -109,7 +110,7 @@ TEST_F(Llama3OutputParserTest, ParseRegularJsonOutputNoToolsInTheRequest) {
     auto generatedTensor = llama3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
     for (bool immediateParsing : {false, true}) {
-        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, false) : outputParserWithRegularToolParsing->parse(generatedTokens, false);
+        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, false, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, false, toolsSchemas);
         EXPECT_EQ(parsedOutput.content, input);
         EXPECT_EQ(parsedOutput.reasoning, "");
     }
@@ -122,7 +123,7 @@ TEST_F(Llama3OutputParserTest, ParseToolCallOutputWithThreeToolCalls) {
     auto generatedTensor = llama3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
     for (bool immediateParsing : {false, true}) {
-        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true) : outputParserWithRegularToolParsing->parse(generatedTokens, true);
+        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
         EXPECT_EQ(parsedOutput.content, "");
         EXPECT_EQ(parsedOutput.reasoning, "");
         ASSERT_EQ(parsedOutput.toolCalls.size(), 3);
@@ -149,7 +150,7 @@ TEST_F(Llama3OutputParserTest, ParseToolCallOutputWithContentAndNoToolCalls) {
     auto generatedTensor = llama3Tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
     for (bool immediateParsing : {false, true}) {
-        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true) : outputParserWithRegularToolParsing->parse(generatedTokens, true);
+        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
         EXPECT_EQ(parsedOutput.content, immediateParsing ? "" : "This is a regular model response without tool calls.");
         ASSERT_EQ(parsedOutput.toolCalls.size(), 0);
         EXPECT_EQ(parsedOutput.reasoning, "");
@@ -168,7 +169,7 @@ TEST_F(Llama3OutputParserTest, ParseToolCallOutputWithContentAndSingleToolCall)
     generatedTokens.insert(generatedTokens.end(), botTokenId);
     generatedTokens.insert(generatedTokens.end(), generatedToolCallTokens.begin(), generatedToolCallTokens.end());
     for (bool immediateParsing : {false, true}) {
-        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true) : outputParserWithRegularToolParsing->parse(generatedTokens, true);
+        ParsedOutput parsedOutput = immediateParsing ? outputParserWithImmediateToolParsing->parse(generatedTokens, true, toolsSchemas) : outputParserWithRegularToolParsing->parse(generatedTokens, true, toolsSchemas);
         EXPECT_EQ(parsedOutput.content, immediateParsing ? "" : "This is a content part and next will be a tool call.");
         EXPECT_EQ(parsedOutput.reasoning, "");
         ASSERT_EQ(parsedOutput.toolCalls.size(), immediateParsing ? 0 : 1);