AITermService.php 17 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316
  1. <?php
  2. namespace App\Services\AIAssistant;
  3. use Illuminate\Support\Facades\Log;
  4. use App\Services\OpenSearchService;
  5. use App\Services\TermService;
  6. use App\Services\OpenAIService;
  7. use App\Services\AIModelService;
  8. use App\Services\AuthService;
  9. use App\Http\Resources\AiModelResource;
  10. use App\DTO\Search\SearchDataDTO;
  11. class AITermService
  12. {
  13. protected $pageSize = 50;
  14. protected AiModelResource $model;
  15. protected $modelToken;
  16. private $sysPrompt = <<<md
  17. 请根据提供的文献搜素结果,撰写一个巴利术语的简体中文百科词条。
  18. 搜素结果是json数组
  19. 字段
  20. - title:(标题)
  21. - content:(内容)
  22. - path:(章节路径)
  23. - link:(引用链接)
  24. link 是一个类似"{{para|id=202-1878|title=202-1878|style=reference}}" 的字符串,后面输出的时候请原样输出,不要做任何改变
  25. 要求:
  26. 1. 参考维基百科的形式和结构
  27. 2. 所有观点必须标明巴利文出处,使用我提供的link
  28. 3. 引用巴利文原文时使用引号并斜体
  29. 4. 提供完整的参考文献列表
  30. 5. 保持学术中立性和客观性
  31. 6. 请引用我提供的全部内容,不要有任何遗漏
  32. 7. 请在文档的开头输出一个模板 {{quality|pending}}
  33. **观点引用标准格式:**
  34. 《文献中文名》在《章节中文名》中指出/解释/说明:"巴利文原文"(中文翻译及必要说明)。[link]
  35. ### 引用标准与技术要求
  36. - **数据源绑定:** 请遍历我提供的 JSON 搜索结果。对于数组中的每一项,必须使用其对应的 `link` 字段值。
  37. - **硬性禁止:** 禁止在最终文档中出现 "link"、"引用链接" 或方括号占位符,必须替换为 JSON 中实际的链接文本。
  38. 如果某个观点有多个出处,请分别列出巴利文引用链接。范例
  39. 《文献中文名》在《章节中文名》中指出/解释/说明:"巴利文原文"(中文翻译及必要说明)。[link引用链接1][link引用链接2]
  40. 示例:
  41. 《疑惑度脱新注》在《染色学处注释》中指出:"*Kiriyākiriyanti nivāsanapārupanato, kappassa anādānato kiriyākiriyaṃ*"[9](穿着下衣、披上衣是作为,不采取如法措施是不作为,故为作为-不作为)。{{para|id=202-1878|title=202-1878|style=reference}}
  42. **引用处理规则(按优先级):**
  43. 1. 【有明确论断句】直接引用该句巴利文:
  44. 《X》在《Y》中指出:"巴利文原文"(译文)。[link]
  45. 2. 【叙事段落,无单一论断句】从段落中选取最能代表该段核心意思的
  46. 一个完整句子作为代表句引用,不得跳过巴利文:
  47. 《X》在《Y》中记载,[中文概述主要内容];原文云:"巴利文代表句"
  48. (该句译文)。(link)
  49. 3. 【段落过长】从原文中截取开头或核心句,以省略号表示省略:
  50. "巴利文开头...(省略)"(译文说明省略范围)。[link]
  51. **绝对禁止:** 任何观点陈述只有中文转述而没有对应巴利文引用。
  52. 如确实无法提取,须注明"(原文为纯叙事,节录如下)"并仍须给出
  53. 原文片段。
  54. **输出前自检:**
  55. 逐条检查每一个观点陈述,确认是否符合以下格式:
  56. [中文陈述] + "巴利文" + (译文) + [link]
  57. 若有不符合的条目,返回修改后再输出。
  58. 词条结构应包括:
  59. - 简短定义段落(不要标题直接输出段落内容)
  60. - 目录
  61. - 词源与定义
  62. - 其他的,文献中提及的内容分类
  63. - 参考文献
  64. - 相关条目
  65. - 分类标签
  66. 格式要求:
  67. - 使用Markdown格式
  68. - 标题层级清晰(#, ##, ###)
  69. - 直接输出百科正文,无需大标题
  70. - 引用格式:《文献中文名》在《章节中文名》中 + 动词 + "巴利文" + (巴利文的中文译文)[link]
  71. - 引用动词可用:指出、解释、说明、定义、描述、强调、阐述、论述等
  72. - 巴利文使用罗马转写
  73. - 关键术语首次出现时提供巴利文和中文对照
  74. 参考文献格式:
  75. [序号] 文献全称缩写, 具体章节, 标题, 段落编号
  76. 请在文档的底部输出分类标签
  77. 请根据以下分类体系,为给定的词条打上分类标签。
  78. **分类体系:**
  79. 一、经藏教义:1.1基本教义(苦、集、灭、道、缘起、十二缘起、三法印、无常、无我、五蕴、三宝、八正道、中道、善法、不善法)/1.2业与轮回(业、善业、不善业、无记业、业报、轮回、结生、再生、三界轮转)/1.3涅槃与解脱(涅槃、有余涅槃、无余涅槃、解脱、道、果、烦恼断除、结、漏)
  80. 二、阿毗达摩:2.1心路与心类(欲界心、色界心、无色界心、出世间心、善心、不善心、无记心、心路、五门心路、意门心路、速行、有分、结生心、死心、转向心)/2.2心所法(遍一切心心所、杂心所、不善心所、美心所、贪、嗔、痴、慢、邪见、掉举、信、念、慧、悲、喜、舍)/2.3色法(四大种、地界、水界、火界、风界、净色、所造色、色聚、业生色、心生色、时节生色、食生色、真实色、非真实色)/2.4缘起与发趣法(二十四缘、因缘、所缘缘、增上缘、俱生缘、亲依止缘、前生缘、后生缘、业缘、果报缘、根缘、禅缘、道缘、相应缘、不相应缘、有缘、无有缘)
  81. 三、禅修:3.1止禅(遍禅、不净观、随念、四梵住、入出息念、四界差别、禅相、取相、似相、近行定、安止定、禅那、禅支、无色定)/3.2观禅(名色分别、观智、生灭智、坏灭智、怖畏智、厌离智、行舍智、道智、果智、毘婆舍那、三相、无常随观、苦随观、无我随观、刹那定)
  82. 四、律学:4.1戒条罪类(波罗夷、僧残、不定、舍堕、单堕、悔过、众学、灭诤、比库戒、比库尼戒、学处、犯罪、无犯、违犯条件)/4.2僧团制度与羯磨(羯磨、白羯磨、白二羯磨、白四羯磨、结界、布萨、自恣、受具足、出家、僧团、四方僧、惩罚羯磨、和合)/4.3僧侣生活与器具(三衣、钵、住处、精舍、雨安居、迦提那衣、头陀行、乞食、日用器具、净食)
  83. 五、经典与文献:5.1经藏(长部、中部、相应部、增支部、小部、经名、品名、篇名)/5.2论藏与注疏(论藏、七论、义注、复注、清净道论、摄论、史书、藏外文献)/5.3本生与偈颂(本生、长老偈、长老尼偈、佛种姓、譬喻、天宫事、饿鬼事)
  84. 六、世界观:6.1三界与诸天(欲界、色界、无色界、欲界天、梵天界、净居天、人间、有情居、天界层次)/6.2地狱与恶趣(地狱、无间地狱、寒冰地狱、孤独地狱、饿鬼界、畜生界、阿修罗界、四恶趣)/6.3神灵与非人(天神、梵天、夜叉、龙族、乾达婆、非人、护法神)
  85. 七、人物:7.1佛(佛名、过去佛、二十八佛、独觉佛、菩萨)/7.2出家弟子(上首弟子、大弟子、比库弟子、比库尼弟子、沙弥、沙弥尼、在学尼)/7.3在家人(男居士、女居士、护法者、国王、婆罗门、施主、转轮圣王、王后、大长者)/7.4外道(外道名)
  86. 八、地理:8.1国家与城镇(十六大国、国家、村落、市镇、寺院名)/8.2水系(河流、湖泊、海洋)/8.3山岳(山名、山脉)
  87. 九、动植物:9.1动物(兽类、鸟类、爬行类、鱼类、昆虫、神话动物、龙族、金翅鸟、畜养动物、野生动物)/9.2植物(树木、花卉、草药、粮食作物、果实、圣树、菩提树类)
  88. 十、巴利语言与语法:10.1语法术语(名词、动词、形容词、副词、格、数、性、时态、语式、复合词类型、前缀、后缀)/10.2语法缩写与标注(词性标注、格标注、语态标注、使役态、引用标记、出处标注)
  89. **输出规则:**
  90. - 必须从以上分类体系中选取,不得自创分类
  91. - 一个词条可打多个标签,但通常不超过3个
  92. - 先输出一级分类,再输出二级分类,再输出具体标签
  93. - 格式严格为:{{category|一级分类}} {{category|二级分类}} {{category|标签}}
  94. - 一级分类去除编号,例如"人物"而非"七、人物"
  95. - 二级分类去除编号,例如"佛"而非"7.1佛"
  96. - 只输出标签,不输出任何解释
  97. ---
  98. 输出示例:
  99. # 分类标签
  100. {{category|经典与文献}} {{category|经藏}} {{category|中部}} {{category|义注}}
  101. md;
  102. private $sysPromptTags = <<<md
  103. 你是一个巴利语佛教百科词条分类专家。请根据以下分类体系,为给定的词条打上分类标签。
  104. 在分类标签的前面添加一个**词条概述**
  105. 分类标签
  106. 请根据以下分类体系,为给定的词条打上分类标签。
  107. **分类体系:**
  108. 一、经藏教义:1.1基本教义(苦、集、灭、道、缘起、十二缘起、三法印、无常、无我、五蕴、三宝、八正道、中道、善法、不善法)/1.2业与轮回(业、善业、不善业、无记业、业报、轮回、结生、再生、三界轮转)/1.3涅槃与解脱(涅槃、有余涅槃、无余涅槃、解脱、道、果、烦恼断除、结、漏)
  109. 二、阿毗达摩:2.1心路与心类(欲界心、色界心、无色界心、出世间心、善心、不善心、无记心、心路、五门心路、意门心路、速行、有分、结生心、死心、转向心)/2.2心所法(遍一切心心所、杂心所、不善心所、美心所、贪、嗔、痴、慢、邪见、掉举、信、念、慧、悲、喜、舍)/2.3色法(四大种、地界、水界、火界、风界、净色、所造色、色聚、业生色、心生色、时节生色、食生色、真实色、非真实色)/2.4缘起与发趣法(二十四缘、因缘、所缘缘、增上缘、俱生缘、亲依止缘、前生缘、后生缘、业缘、果报缘、根缘、禅缘、道缘、相应缘、不相应缘、有缘、无有缘)
  110. 三、禅修:3.1止禅(遍禅、不净观、随念、四梵住、慈、悲、喜、舍、入出息念、四界差别、禅相、取相、似相、近行定、安止定、禅那、禅支、无色定)/3.2观禅(名色分别、观智、生灭智、坏灭智、怖畏智、厌离智、行舍智、道智、果智、毘婆舍那、三相、无常随观、苦随观、无我随观、刹那定)
  111. 四、律学:4.1戒条罪类(波罗夷、僧残、不定、舍堕、单堕、悔过、众学、灭诤、比库戒、比库尼戒、学处、犯罪、无犯、违犯条件)/4.2僧团制度与羯磨(羯磨、白羯磨、白二羯磨、白四羯磨、结界、布萨、自恣、受具足、出家、僧团、四方僧、惩罚羯磨、和合)/4.3僧侣生活与器具(三衣、钵、住处、精舍、雨安居、迦提那衣、头陀行、乞食、日用器具、净食)
  112. 五、经典与文献:5.1经藏(长部、中部、相应部、增支部、小部、经名、品名、篇名)/5.2论藏与注疏(论藏、七论、义注、复注、清净道论、摄论、史书、藏外文献)/5.3本生与偈颂(本生、长老偈、长老尼偈、佛种姓、譬喻、天宫事、饿鬼事)
  113. 六、世界观:6.1三界与诸天(欲界、色界、无色界、欲界天、梵天界、净居天、人间、有情居、天界层次)/6.2地狱与恶趣(地狱、无间地狱、寒冰地狱、孤独地狱、饿鬼界、畜生界、阿修罗界、四恶趣)/6.3神灵与非人(天神、梵天、夜叉、龙族、乾达婆、非人、护法神)
  114. 七、人物:7.1佛(佛名、过去佛、二十八佛、独觉佛、菩萨)/7.2出家弟子(上首弟子、大弟子、比库弟子、比库尼弟子、沙弥、沙弥尼、在学尼)/7.3在家人(男居士、女居士、护法者、国王、婆罗门、施主、转轮圣王、王后、大长者)/7.4外道(外道名)
  115. 八、地理:8.1国家与城镇(十六大国、国家、村落、市镇、寺院名)/8.2水系(河流、湖泊、海洋)/8.3山岳(山名、山脉)
  116. 九、动植物:9.1动物(兽类、鸟类、爬行类、鱼类、昆虫、神话动物、龙族、金翅鸟、畜养动物、野生动物)/9.2植物(树木、花卉、草药、粮食作物、果实、圣树、菩提树类)
  117. 十、巴利语言与语法:10.1语法术语(名词、动词、形容词、副词、格、数、性、时态、语式、复合词类型、前缀、后缀)/10.2语法缩写与标注(词性标注、格标注、语态标注、使役态、引用标记、出处标注)
  118. **输出规则:**
  119. - 必须从以上分类体系中选取,不得自创分类
  120. - 一个词条可打多个标签,但通常不超过3个
  121. - 先输出一级分类,再输出二级分类,再输出具体标签
  122. - 格式严格为:`{{category|一级分类}}` `{{category|二级分类}}` `{{category|标签}}`
  123. - 一级分类去除编号,例如"人物"而非"七、人物"
  124. - 二级分类去除编号,例如"佛"而非"7.1佛"
  125. - 只输出标签,不输出任何解释
  126. ---
  127. 输出示例:
  128. (词条的概述)
  129. # 分类标签
  130. {{category|经典与文献}} {{category|经藏}} {{category|中部}} {{category|义注}}
  131. md;
  132. /**
  133. * Create a new command instance.
  134. *
  135. * @return void
  136. */
  137. public function __construct(
  138. protected AIModelService $modelService,
  139. protected OpenAIService $openAIService,
  140. protected TermService $termService
  141. ) {}
  142. public function setModel($id)
  143. {
  144. $this->model = $this->modelService->getModelById($id);
  145. $this->modelToken = AuthService::getUserToken($id);
  146. return $this;
  147. }
  148. private function query(string $word): array
  149. {
  150. $search = app(OpenSearchService::class);
  151. // 组装搜索参数
  152. $params = [
  153. 'query' => $word,
  154. 'resourceType' => 'tipitaka',
  155. 'granularity' => 'paragraph',
  156. 'pageSize' => $this->pageSize,
  157. ];
  158. $result = $search->search($params);
  159. $dto = SearchDataDTO::fromArray($result);
  160. $res = array();
  161. foreach ($dto->hits->items as $key => $item) {
  162. $res[] = [
  163. 'title' => $item->title,
  164. 'content' => $item->content,
  165. 'path' => $item->path,
  166. 'pid' => $item->getParaId(),
  167. 'link' => $item->getParaLink()
  168. ];
  169. }
  170. Log::debug('query ' . count($res));
  171. return $res;
  172. }
  173. public function update(string $id)
  174. {
  175. // 获取术语
  176. $term = $this->termService->getRaw($id);
  177. // 全文搜索
  178. $query = $this->query($term->word);
  179. $res = json_encode($query, JSON_UNESCAPED_UNICODE);
  180. $resText = "# 搜索结果\n```json\n{$res}\n```\n";
  181. $termText = "# 巴利术语\n\n{$term->word}\n\n";
  182. //LLM 生成
  183. $response = $this->openAIService->setApiUrl($this->model['url'])
  184. ->setModel($this->model['model'])
  185. ->setApiKey($this->model['key'])
  186. ->setSystemPrompt($this->sysPrompt)
  187. ->setTemperature(0.5)
  188. ->setStream(false)
  189. ->send($resText . $termText);
  190. $content = $response['choices'][0]['message']['content'] ?? '';
  191. //输出自检报告
  192. Log::debug('llm response', ['strlen' => $content]);
  193. $paraIds = $this->extractAllParaIds($content);
  194. Log::debug('has paragraph ref ', ['total' => count($paraIds), 'id' => $paraIds]);
  195. $searchPid = array_map(fn($item) => $item['pid'], $query);
  196. $diff = array_values(array_diff($paraIds, $searchPid));
  197. Log::debug('diff', ['total' => count($diff), 'data' => $diff]);
  198. $this->termService->update($id, ['note' => $content]);
  199. return $content;
  200. }
  201. public function create(string $word) {}
  202. /**
  203. * Extract all unique ID values from MediaWiki template parameter strings
  204. *
  205. * Parses a string that may contain multiple "{{para|...}}" templates
  206. * and returns an array of unique 'id' parameter values found.
  207. *
  208. * @param string $str The input string containing zero or more {{para|...}} templates
  209. * @return array<int, string> Array of unique extracted ID values (e.g., ['16-1376', 'ABC-123'])
  210. * Returns empty array if no IDs are found
  211. *
  212. * @example
  213. * // Single template
  214. * extractAllParaIds('{{para|id=16-1376|title=test}}')
  215. * // returns ['16-1376']
  216. *
  217. * // Multiple templates with duplicates
  218. * extractAllParaIds('{{para|id=16-1376}} and {{para|id=16-1376|style=ref}}')
  219. * // returns ['16-1376'] (duplicate removed)
  220. *
  221. * // Multiple unique IDs
  222. * extractAllParaIds('{{para|id=16-1376}} {{para|id=ABC-123}} {{para|id=16-1376}}')
  223. * // returns ['16-1376', 'ABC-123']
  224. */
  225. public function extractAllParaIds(string $str): array
  226. {
  227. $ids = [];
  228. // Find all {{para|...}} patterns
  229. if (preg_match_all('/{{para\|(.*?)}}/', $str, $matches)) {
  230. foreach ($matches[1] as $content) {
  231. // Extract id= value from each template content
  232. if (preg_match('/id=([^|&}]+)/', $content, $idMatch)) {
  233. $ids[] = $idMatch[1];
  234. }
  235. }
  236. }
  237. // Remove duplicates and preserve order of first occurrence
  238. return array_values(array_unique($ids));
  239. }
  240. }