LlmResponseParser.php 5.5 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133
  1. <?php
  2. namespace App\Helpers;
  3. use Illuminate\Support\Facades\Log;
  4. /**
  5. * Class LlmResponseParser
  6. * @package App\Helpers
  7. */
  8. class LlmResponseParser
  9. {
  10. /**
  11. * 解析LLM返回的可能包含Markdown格式(如```json...```)或额外文字说明的JSON字符串。
  12. *
  13. * @param string $input LLM返回的原始字符串。
  14. * @return array|null 解析成功的PHP数组,如果解析失败则返回空数组
  15. */
  16. public static function json(string $input): array
  17. {
  18. // 1. 预处理:查找并提取被 Markdown 代码块包裹的JSON字符串。
  19. // 匹配 ```json ... ``` 或 ``` ... ``` 格式的代码块。
  20. // S: dotall 模式,允许 . 匹配换行符。
  21. // ?: 非贪婪模式,匹配尽可能少的字符直到遇到下一个 ```。
  22. $pattern = '/```(?:json)?\s*(.*?)\s*```/s';
  23. if (preg_match($pattern, $input, $matches)) {
  24. // 情况 2 和 3:找到代码块,提取其内容。
  25. // $matches[1] 包含代码块内部的内容。
  26. $jsonString = trim($matches[1]);
  27. } else {
  28. // 情况 1:没有代码块包裹,认为整个输入就是纯 JSON 字符串。
  29. // 这种情况也包含了用户可能提供的、未被代码块包裹但带有文字说明的JSON。
  30. // 这种情况下,我们需要在后续尝试解析时,先尝试 trim() 整个输入。
  31. $jsonString = trim($input);
  32. }
  33. // 2. 尝试解析提取或预处理后的字符串。
  34. // json_decode 的第二个参数设为 true,将其解码为关联数组。
  35. $data = json_decode($jsonString, true);
  36. // 3. 检查解析结果。
  37. // json_last_error() 返回 JSON 解析的最后一个错误代码。
  38. if (json_last_error() === JSON_ERROR_NONE && is_array($data)) {
  39. // 解析成功且结果为数组。
  40. return $data;
  41. }
  42. // 4. 如果第一次尝试失败 (通常是针对情况 1 或包含文字说明的情况),
  43. // 并且提取的字符串与原始输入相同(即没有匹配到代码块),
  44. // 并且原始输入中包含可能干扰解析的文字,
  45. // 则可以考虑更复杂的清理步骤,但考虑到 LLM 返回的 JSON 通常比较规范,
  46. // 推荐的做法是如果第一次没有成功,就返回 null,以保持函数的健壮性。
  47. // 纯粹的 JSON 字符串(情况 1)在第一次尝试时应该已经成功。
  48. // 如果解析失败,则返回 空数据
  49. Log::error('JSON 解析失败', [
  50. 'error' => json_last_error_msg(),
  51. 'input_preview' => mb_substr($input, 0, 500),
  52. ]);
  53. return [];
  54. }
  55. /**
  56. * 解析LLM返回的JSONL(JSON Lines)格式字符串。
  57. * 支持Markdown代码块包裹、额外说明文字,以及处理截断的JSONL数据。
  58. * 每一行应为独立的JSON对象,解析时会跳过无效行并返回所有成功解析的数据。
  59. *
  60. * @param string $input LLM返回的原始JSONL字符串。
  61. * @return array 解析成功的PHP数组,每个元素对应一行有效的JSON对象。如果完全解析失败则返回空数组。
  62. */
  63. public static function jsonl(string $input): array
  64. {
  65. // 1. 预处理:查找并提取被 Markdown 代码块包裹的 JSONL 字符串。
  66. // 匹配 ```jsonl ... ``` 或 ``` ... ``` 格式的代码块。
  67. $pattern = '/```(?:jsonl?)?\s*(.*?)\s*```/s';
  68. if (preg_match($pattern, $input, $matches)) {
  69. // 情况 2 和 3:找到代码块,提取其内容。
  70. $jsonlString = trim($matches[1]);
  71. } else {
  72. // 情况 1:没有代码块包裹,认为整个输入就是纯 JSONL 字符串。
  73. $jsonlString = trim($input);
  74. }
  75. // 2. 按行分割 JSONL 字符串。
  76. // 使用 PHP_EOL 或 \n 作为分隔符,同时处理 Windows (\r\n) 和 Unix (\n) 换行符。
  77. $lines = preg_split('/\r\n|\r|\n/', $jsonlString);
  78. // 3. 逐行解析 JSON 对象。
  79. $result = [];
  80. foreach ($lines as $lineNumber => $line) {
  81. // 去除每行的首尾空白字符。
  82. $line = trim($line);
  83. // 跳过空行。
  84. if (empty($line)) {
  85. continue;
  86. }
  87. // 尝试解析当前行为 JSON。
  88. $decoded = json_decode($line, true);
  89. // 检查解析是否成功。
  90. if (json_last_error() === JSON_ERROR_NONE && is_array($decoded)) {
  91. // 解析成功,添加到结果数组。
  92. $result[] = $decoded;
  93. } else {
  94. // 解析失败,记录错误日志(可选)。
  95. // 这里处理了截断的情况:如果某行不是有效 JSON,则跳过它。
  96. // 通常最后一行可能因截断而无效,前面的有效行仍会被返回。
  97. Log::warning("JSONL解析失败 - 行 " . ($lineNumber + 1) . ": " . $line);
  98. }
  99. }
  100. // 4. 返回解析结果。
  101. // 即使没有成功解析任何行,也返回空数组而非 null,保持返回类型一致。
  102. if (empty($result)) {
  103. Log::error('JSONL解析失败,未能提取任何有效数据: ' . $input);
  104. }
  105. return $result;
  106. }
  107. public static function jsonl_encode(array $input): string
  108. {
  109. $rows = [];
  110. foreach ($input as $key => $value) {
  111. $rows[] = json_encode($value, JSON_UNESCAPED_UNICODE);
  112. }
  113. return implode("\n", $rows);
  114. }
  115. }