ÓÃÓÚ¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï°µÄ LLM Ö¸µ¼¾ö²ß¹¤¾ß°ü - ²©Ê¿ÂÛÎÄ - Ò»ÆðÓ®ÂÛÎÄ¸¨µ¼Íø--×¨Òµ´úÐ´´ú·¢SCI¡¢EI¡¢ºËÐÄÆÚ¿¯¡¢´úÐ´MBA¡¢Ë¶²©±ÏÒµÂÛÎÄ¡£QQ910330594

»¶Ó·ÃÎÊÒ»ÆðÓ®ÂÛÎÄ¸¨µ¼Íø

¼ÓÈëÊÕ²Ø | ÉèÎªÖ÷Ò³ | ÁªÏµÎÒÃÇ

±¾Õ¾¶¯Ì¬

¸ü¶à

ÁªÏµÎÒÃÇ

¸ü¶à

QQ£º3949358033

Î¢ÐÅ£ºpaperwinner

¹¤×÷Ê±¼ä£º9:00-24:00

³É¹¦°¸Àý

¸ü¶à

²©Ê¿ÂÛÎÄ

µ±Ç°Î»ÖÃ£ºÊ×Ò³ > ²©Ê¿ÂÛÎÄ

ÓÃÓÚ¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï°µÄ LLM Ö¸µ¼¾ö²ß¹¤¾ß°ü

À´Ô´£ºÒ»ÆðÓ®ÂÛÎÄÍø ÈÕÆÚ£º2025-07-16 ä¯ÀÀÊý£º674 ¡¾ ×ÖÌå£º ´ó ÖÐ Ð¡ ¡¿

ÓÃÓÚ¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï°µÄ LLM Ö¸µ¼¾ö²ß¹¤¾ß°ü

1. ÒýÑÔ

½üÄêÀ´£¬¸´ÔÓµÄºÏ×÷ÓÎÏ·ÈÎÎñÒÑ³ÉÎª¶àÖÇÄÜÌåÏµÍ³µÄÖØÒª½¹µã [1]¡£ÕâÐ©ÈÎÎñÍ¨³£Éæ¼°¶¯Ì¬ºÍ²»È·¶¨µÄ»·¾³£¬ÐèÒª´úÀíÖ®¼äµÄÐµ÷ºÍ¾ö²ß [2]¡£¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï° £¨MARL£© ÒÑ³ÉÎªÒ»¸öÇ¿´óµÄ¿ò¼Ü£¬ÔÊÐíÖÇÄÜÌåÍ¨¹ýÓë»·¾³ºÍÆäËûÖÇÄÜÌåµÄ½»»¥À´Ñ§Ï°×î¼Ñ²ßÂÔ [3]¡£

¾¡¹Ü MARL È¡µÃÁËÏÔÖø½øÕ¹£¬µ«ÈÔ´æÔÚÒ»Ð©ÌôÕ½¡£Ò»¸ö¹Ø¼üÎÊÌâÊÇÀäÆô¶¯ÎÊÌâ [2]¡¢[4]¡£ÔÚÀäÆô¶¯½×¶Î£¬ÓÉÓÚÈ±·¦³õÊ¼¾Ñé£¬´úÀí´ÓÎ´Öª×´Ì¬Ì½Ë÷»·¾³£¬´Ó¶øµ¼ÖÂÔçÆÚÐÐÎªÐ§ÂÊµÍÏÂ¡£Ï¡ÊèµÄ½±ÀøÐÅºÅÊ¹Ñ§Ï°ÓÐÐ§²ßÂÔ¸´ÔÓ»¯ [5]£¬[6]£¬¶ø¸ßÎ¬×´Ì¬¿Õ¼ä·ÇÆ½ÎÈ»·¾³¼Ó¾çÁËÌôÕ½£¬ÒòÎª¹ýÈ¥µÄ¾ÑéºÜÄÑ×ªÒÆµ½ÐÂµÄÇé¾³ÖÐ [7]£¬[8]¡£ÓÉÓÚ´úÀíÖ®¼äµÄÏà»¥ÒÀÀµÐÔ£¬ÀäÆô¶¯ÎÊÌâÔÚ MARL ÖÐÌØ±ð¸´ÔÓ [2]¡¢[4]¡£ÓÉÓÚ´úÀíÏà»¥ÒÀÀµ£¬Ñ§Ï°¹ý³Ì±äµÃ²»ÎÈ¶¨£¬²¢ÇÒÈ±·¦³õÊ¼¾ÑéÊ¹ÆäÄÑÒÔ [2]¡£´ËÍâ£¬²ßÂÔµÄ·ÇÆ½ÎÈÐÔÒâÎ¶×ÅÒ»¸ö´úÀí²ßÂÔµÄ±ä»¯»áÓ°ÏìÕûÌå¶¯Ì¬£¬Òò´ËºÜÄÑ´ÓÕûÌåÉÏÆÀ¹À²©ÞÄÇé¿ö [7]¡£´ËÍâ£¬½±Àø·ÖÅäµÄÆçÒåÊ¹µÃ´úÀíºÜÄÑ±æ±ðËûÃÇ¶Ô½±ÀøµÄ¹±Ï× [4]¡¢[9]¡£ÕâÐ©ÒòËØ¹²Í¬¼Ó¾çÁË MARL µÄÀäÆô¶¯ÌôÕ½¡£

½â¾öÀäÆô¶¯ÎÊÌâµÄ´«Í³·½·¨Í¨³£Éæ¼°Ê¹ÓÃÔ¤ÑµÁ·Ä£ÐÍ¡¢Ä£·ÂÑ§Ï°ºÍÀûÓÃ×¨ÒµÖªÊ¶ [10]¡¢[11]¡¢[12]¡£ÕâÐ©·½·¨¿ÉÒÔ¿ìËÙÌá¹©Ò»Ð©»ùÏßÐÐÎªÄ£Ê½£¬¼õÉÙ´úÀíÃ¤Ä¿Ì½Ë÷»·¾³µÄÊ±¼ä [10]¡¢[11]¡£µ«ÊÇ£¬ËüÃÇÒ²ÓÐºÜ´óµÄ¾ÖÏÞÐÔ¡£Ô¤ÏÈÑµÁ·µÄÄ£ÐÍ¿ÉÄÜÎÞ·¨ºÜºÃµØÍÆ¹ãµ½ÌØ¶¨µÄÈÎÎñ»·¾³ [10]£¬Ä£·ÂÑ§Ï°ÒÀÀµÓÚ¸ßÖÊÁ¿µÄÑÝÊ¾Êý¾Ý [11]£¬¶ø×¨ÒµÖªÊ¶¿ÉÄÜ»áÒýÈëÖ÷¹ÛÆ«¼û£¬²¢ÇÒÍ¨³£ÄÑÒÔÀ©Õ¹ [12]¡£´ËÍâ£¬ÕâÐ©·½·¨Í¨³£ÐèÒª´óÁ¿µÄ±ê¼ÇÊý¾Ý£¬ÕâÔö¼ÓÁËÊµÏÖµÄ¸´ÔÓÐÔºÍ³É±¾ [10]¡¢[11]¡£

´óÐÍÓïÑÔÄ£ÐÍ £¨LLM£© Îª½â¾öÕâÐ©ÏÞÖÆÌá¹©ÁËÒ»ÖÖÓÐÐ§µÄ½â¾ö·½°¸ [13]¡¢[14]¡£Æ¾½èÅÓ´óµÄÖªÊ¶¿â¡¢¾ÑéºÍÇ¿´óµÄÍÆÀíÄÜÁ¦£¬LLM ¿ÉÒÔÔÚ²»ÒÀÀµ±ê¼ÇÊý¾ÝµÄÇé¿öÏÂÉú³ÉÉÏÏÂÎÄÏà¹ØµÄ²ßÂÔ½¨Òé [14]¡£ÕâÊ¹µÃ LLM ³ÉÎª»º½â MARL ÖÐÀäÆô¶¯ÎÊÌâµÄÀíÏë¹¤¾ß£¬ÌØ±ðÊÇÔÚ°ïÖú´úÀí¿ìËÙÊÊÓ¦¸´ÔÓµÄºÏ×÷ÓÎÏ·ÈÎÎñ·½Ãæ [13]¡£ÀûÓÃ LLM µÄÓÅÊÆ£¬ÔÚÈ±·¦³õÊ¼¾ÑéµÄÇé¿öÏÂ£¬¿ÉÒÔÏÔ×ÅÌá¸ßÑ§Ï°Ð§ÂÊºÍÐ×÷Ð§ÂÊ¡£µ«ÊÇ£¬½« LLM ¼¯³Éµ½ MARL ¿ò¼ÜÖÐ»á´øÀ´¶ÀÌØµÄÌôÕ½¡£ÔÚ¡¶ÐÇ¼ÊÕù°Ô¡·¶àÖÇÄÜÌåÌôÕ½Èü £¨SMAC£© [15]¡¢[16]¡¢[17] ÖÐ£¬Çé¿ö´ÓÖ¡µ½Ö¡Ñ¸ËÙ±ä»¯£¬Ã¿Ê±¿Ì¶¼»á´øÀ´ÐÂµÄ²»È·¶¨ÐÔºÍ¸´ÔÓÐÔ¡£¶àÖÇÄÜÌåÏµÍ³ÖÐ×´Ì¬ºÍ¶¯×÷¿Õ¼äµÄ¸ßÎ¬ÐÔÊ¹ÕâÖÖ¼¯³É½øÒ»²½¸´ÔÓ»¯£¬Ê¹µÃ LLM ÄÑÒÔÖ±½ÓÓë SMAC ½»»¥¡£

ÔÚ±¾ÎÄÖÐ£¬ÎÒÃÇÌ½ÌÖÁË½« LLM ¼¯³Éµ½ MARL ¿ò¼ÜÖÐ£¬ÒÔÔöÇ¿¶àÖÇÄÜÌåÏµÍ³Ì½Ë÷½×¶ÎµÄ¾ö²ß¡£Í¨¹ýÀûÓÃ LLM À´ÐÖú¾ö²ß£¬ÎÒÃÇµÄÄ¿±êÊÇÌá¸ß MARL Ëã·¨µÄÑµÁ·Ð§ÂÊ²¢Ó¦¶ÔÀäÆô¶¯ÌôÕ½¡£ÕâÖÖ·½·¨Í»³öÁË LLM ÔÚÌá¸ß MARL Ð§ÂÊ·½ÃæµÄÇ±Á¦£¬²¢Îª¶àÖÇÄÜÌåÏµÍ³¿ª±ÙÁËÐÂµÄÑÐ¾¿Í¾¾¶£¬ÓÈÆäÊÇÔÚ¼õÉÙ¶Ô±ê¼ÇÊý¾ÝµÄÒÀÀµÒÔ½øÐÐ¼à¶½Ñ§Ï°·½Ãæ¡£

´ËÍâ£¬ÎÒÃÇ»¹Ìá¹©ÁËÒ»¸öÈ«ÃæµÄ¹¤¾ß°ü£¬Ö§³ÖÔÚ SMAC ÖÐËæÊ±ÎªÈÎºÎµØÍ¼×Ô¶¯Éú³ÉÌáÊ¾¡¢Óë¶à¸ö LLM ¼¯³É¡¢×Ô¶¯²ßÂÔ×ª»»ºÍ LLM ¸¨Öú MARL Ëã·¨ÑµÁ·£¬´Ó¶ø´´½¨ÍêÕûµÄ¶Ëµ½¶Ë¹¤×÷Á÷³Ì¡£¼øÓÚ¶Ô MARL ÖÐÍ¨ÐÅµÄ¹ã·ºÑÐ¾¿£¬¸Ã¹¤¾ß°ü»¹Ìá¹©ÁËÔÚÊµ¼Ê¶àÖÇÄÜÌåÍ¨ÐÅºÍÐ×÷³¡¾°ÖÐÑµÁ·ºÍ²âÊÔÍ¨ÐÅËã·¨µÄ¹¦ÄÜ¡£Ëü°üÀ¨ÓÃÓÚ¿ÉÊÓ»¯Í¨ÐÅ¹ý³ÌÒÔ°ïÖúËã·¨·ÖÎöµÄ¹¦ÄÜ¡£

ÎÒÃÇµÄ¹±Ï×ÓÐÈý¸ö·½Ãæ£º

£¨1£© ÎªÁË½â¾ö¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï° £¨MARL£© ÖÐµÄÀäÆô¶¯ÌôÕ½£¬ÎÒÃÇÀûÓÃ´óÐÍÓïÑÔÄ£ÐÍ £¨LLM£© ÔÚ¸´ÔÓµÄºÏ×÷ÓÎÏ·»·¾³ÖÐÌá¹©Õ½ÂÔÖ¸µ¼£¬´Ó¶ø»º½âÀäÆô¶¯ÎÊÌâ¡£

£¨2£© ÎÒÃÇ¿ª·¢ÁËÒ»¸öÓë SMAC »·¾³ API ¼¯³ÉµÄ¶à¹¦ÄÜ¹¤¾ß°ü£¬Ö§³Ö¶¯Ì¬ÌáÊ¾Éú³É¡¢×Ô¶¯²ßÂÔ×ª»»¡¢LLMs ¼¯³ÉºÍ¿ÉÊÓ»¯£¬´Ó¶øÌá¸ßÁË MARL ÈÎÎñµÄÑÐ¾¿ÄÜÁ¦¡£

£¨3£© ¶ÔÓÚÏÖÊµÊÀ½çµÄ¶àÖÇÄÜÌåÍ¨ÐÅºÍÐ×÷³¡¾°£¬ÎÒÃÇÔÚ¹¤¾ß°üÖÐÇ¶ÈëÁËÇ¿´óµÄÍ¨ÐÅËã·¨ÑµÁ·ºÍ²âÊÔ¹¦ÄÜ£¬²¢Í¨¹ýÍ¨ÐÅ¿ÉÊÓ»¯¹¦ÄÜ´Ù½øËã·¨·ÖÎö¡£

2. Ïà¹Ø¹¤×÷

2.1. ¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï°

¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï° £¨MARL£© Éæ¼°¶à¸öÖÇÄÜÌåÍ¨¹ý¹²Ïí»·¾³ÖÐµÄ½»»¥½øÐÐÑ§Ï°£¬¸ù¾Ý½±ÀøºÍËûÈËµÄÐÐÎªÓÅ»¯ËûÃÇµÄ¾ö²ß¡£MARL µÄ×îÐÂ·¢Õ¹ÒýÈëÁË¼¸ÖÖËã·¨À´½â¾ö´úÀíÖ®¼äµÄºÏ×÷ºÍ¾ºÕùÎÊÌâ¡£

¼ÛÖµ·Ö½âÍøÂç £¨VDN£© [18] Í¨¹ý½«ÁªºÏ¼ÛÖµº¯Êý·Ö½âÎªµ¥¶ÀµÄ×é¼þÀ´¼ò»¯ºÏ×÷¡£·´ÊÂÊµ¶àÖÇÄÜÌå²ßÂÔÌÝ¶È £¨COMA£© [19] Ê¹ÓÃ·´ÊÂÊµÍÆÀíÔöÇ¿ºÏ×÷ÐÐÎª¡£¶àÖÇÄÜÌåÉî¶ÈÈ·¶¨ÐÔ²ßÂÔÌÝ¶È £¨MADDPG£© [2] ½«²ÎÓëÕß-ÅúÆÀÕß·½·¨À©Õ¹µ½»ìºÏ»·¾³¡£Òì²½ÓÅÊÆÑÝÔ±-ÆÀÂÛ¼Ò £¨A3C£© [20] Í¨¹ý²¢ÐÐÑµÁ·ÖÇÄÜÌåÀ´¸ÄÉÆÑ§Ï°¡£QTRAN [21] ºÍ Qatten [22] ÓÅ»¯ÁË Q Öµ·Ö½âÒÔ´¦Àí¸´ÔÓµÄÐµ÷¡£Dueling DQN [23] ½«×´Ì¬ÆÀ¹ÀÓë¶¯×÷ÆÀ¹À·Ö¿ª£¬BiCNet [24] Ê¹ÓÃÑ»·ÍøÂçÀ´¸üºÃµØ½øÐÐ´úÀíÍ¨ÐÅ¡£

QMIX [25] µÈËã·¨Ê¹ÓÃ·ÇÏßÐÔÍøÂçÀ´×éºÏ Q ÖµÒÔÊµÏÖÓÐÐ§Ð×÷£¬¶ø¶ÀÁ¢½ü¶Ë²ßÂÔÓÅ»¯ £¨IPPO£© [26] ÔÊÐí´úÀí¶ÀÁ¢ÓÅ»¯£¬Ê¹ÆäÄÜ¹»ÊÊÓ¦Ã»ÓÐÈ«¾Ö×´Ì¬ÐÅÏ¢µÄ»·¾³¡£ÕâÁ½ÖÖËã·¨ÒÔÆäÎÈ¶¨ÐÔ¶øÖø³Æ£¬Ê¹Æä³ÉÎªÆÀ¹ÀÈ«¾Ö×´Ì¬ÐÅÏ¢¶Ô MARL ÐÔÄÜÓ°ÏìµÄºÏÊÊ»ùÏß¡£

¾¡¹ÜÈ¡µÃÁË½ø²½£¬µ«Ò»¸ö¹²Í¬µÄÌôÕ½ÈÔÈ»´æÔÚ£ºÐí¶à·½·¨´ÓËæ»ú³õÊ¼»¯¿ªÊ¼£¬µ¼ÖÂ´úÀí±ØÐë´ÓÍ·¿ªÊ¼Ñ§Ï°µÄÀäÆô¶¯¡£Õâ»á¼õÂýÔçÆÚÑ§Ï°ºÍÕûÌåÓÅ»¯µÄËÙ¶È£¬Í¹ÏÔÁË¶ÔÄÜ¹»¿Ë·þ³õÊ¼Ì½Ë÷ÕÏ°µÄ²ßÂÔµÄÐèÇó¡£

2.2. ¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï°ÖÐµÄÀäÆô¶¯ÎÊÌâ

ÔÚ¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï° £¨MARL£© ÖÐ£¬µ±ÖÇÄÜÌåÓÉÓÚÈ±·¦ÏÈÇ°¾Ñé¶øÄÑÒÔÓÐÐ§µØ³õÊ¼»¯Æä²ßÂÔÊ±£¬¾Í»á³öÏÖÀäÆô¶¯ÎÊÌâ£¬´Ó¶øµ¼ÖÂÑ§Ï°»ºÂý»ò´ÎÓÅ¡£ÎªÁË½â¾öÕâ¸öÎÊÌâ£¬ÒÑ¾²ÉÓÃÁËÌåÑéÖØ·ÅµÈ¼¼Êõ£¬Í¨¹ýÑ§Ï°²»Í¬µÄ¹ýÈ¥¾ÑéÀ´Ìá¸ßÊý¾ÝÐ§ÂÊ¡£Ape-X ¿ò¼Ü [27] Í¨¹ý·Ö²¼Ê½Êý¾ÝÉú³ÉºÍÓÅÏÈ¿¼ÂÇÐÅÏ¢ÌåÑéÀ´ÊµÏÖ×îÏÈ½øµÄÐÔÄÜ¡£¾ÑéÖØ·ÅÓÉ [28] ÎÈ¶¨£¬ÒÔ¹ÜÀí¶ÀÁ¢ Q-learning ÒýÆðµÄ·ÇÆ½ÎÈÐÔ£¬ÔöÇ¿ÔçÆÚÑ§Ï°¡£

ÁíÒ»ÖÖ·½·¨Éæ¼°ÓÐÐ§µØ³õÊ¼»¯²ßÂÔ£¬Îª´úÀíÌá¹©Ò»¸öÇ¿´óµÄÆðµã£¬´Ó¶øËõ¶ÌÊÕÁ²Ê±¼ä¡£ºÃÆæÐÄÇý¶¯µÄÌ½Ë÷ [6] Ê¹ÓÃÄÚÔÚ½±ÀøÀ´¹ÄÀøÌ½Ë÷£¬¼´Ê¹ÔÚÏ¡ÊèµÄ½±Àø»·¾³ÖÐÒ²ÊÇÈç´Ë£¬¶ø rl-imgep ¿ò¼Ü [29] ÔÊÐí´úÀíÊ¹ÓÃÄÚÔÚ¶¯»ú×ÔÖ÷Ì½Ë÷£¬ÎÞÐèÔ¤¶¨ÒåÄ¿±ê£¬°ïÖúËûÃÇÔÚ×î³õÈ±·¦¾ÑéµÄÇé¿öÏÂÑ§Ï°¡£

MARL ÖÐµÄºÏ×÷²ßÂÔ»¹¿ÉÒÔ»º½âÀäÆô¶¯¡£¾ßÓÐ¼¯ÖÐÊ½ÅúÆÀÕß [2] µÄ¶àÖÇÄÜÌå²ßÂÔÌÝ¶ÈËã·¨ºÍÏñ SchedNet [30] ÕâÑùµÄÍ¨ÐÅµ÷¶È·½·¨Í¨¹ý¸ÄÉÆÍ¨ÐÅºÍ¼õÉÙÌÝ¶È¹À¼ÆµÄ·½²îÀ´ÊµÏÖ¸ßÐ§Ñ§Ï°¡£ATOC ¿ò¼Ü [31] ºÍ IC3Net Ä£ÐÍ [32] Í¨¹ýÔÊÐí´úÀíÑ¡ÔñÐÔµØ¹²ÏíÐÅÏ¢»ò¾ö¶¨ºÎÊ±Í¨ÐÅÀ´ÓÅ»¯Í¨ÐÅ£¬ÖØµã¹Ø×¢»ù±¾½»»¥¡£VBC [33] ÔÚ×ùÏ¯²»È·¶¨Ê±ÓÅÏÈ¿¼ÂÇ¹µÍ¨£¬´Ó¶øÌá¸ßÑ§Ï°Ð§ÂÊ¡£

ËäÈ»ÕâÐ©·½·¨ÔÚ²»Í¬³Ì¶ÈÉÏ½â¾öÁËÀäÆô¶¯ÎÊÌâ£¬µ«ËüÃÇÈÔÈ»ÒÀÀµÓÚËæ»ú³õÊ¼»¯£¬ÕâÏÞÖÆÁËÔçÆÚÐÔÄÜ£¬²¢¿ÉÄÜ×è°¸´ÔÓ»·¾³µÄ¿ÉÀ©Õ¹ÐÔ¡£Òò´Ë£¬ÈÔÈ»·Ç³£ÐèÒª¸üÇ¿´óºÍ¿ÉÀ©Õ¹µÄÀäÆô¶¯½â¾ö·½°¸£¬ÒÔÆ½ºâÓÐÐ§µÄ³õÊ¼»¯¡¢Ðµ÷ºÍ¶Ô²»Í¬ MARL ³¡¾°µÄÊÊÓ¦ÐÔ¡£

2.3. LLM ÔöÇ¿µÄ¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï°

´óÐÍÓïÑÔÄ£ÐÍ £¨LLM£© µÄ¼¯³ÉÔÚ NLP¡¢´úÂëÉú³É¡¢Ò½ÁÆ±£½¡ºÍ¶àÄ£Ì¬ÈÎÎñµÈÁìÓòÈ¡µÃÁËÏÔ×Å½ø²½¡£RadfordµÈ[34]½éÉÜÁËGPT-2£¬ËüÖ¤Ã÷ÁË´ó¹æÄ£ÎÞ¼à¶½Ô¤ÑµÁ·¶Ô·Òë¡¢×Ü½áºÍÎÊ´ðµÈÈÎÎñµÄÓÐÐ§ÐÔ£¬½«LLMÈ·Á¢Îª¶à¹¦ÄÜµÄ¶àÈÎÎñÑ§Ï°Õß¡£ÔÚ´úÂëÉú³É·½Ãæ£¬Chen et al. [35] ¿ª·¢ÁËµ¼ÖÂ GitHub Copilot µÄÄ£ÐÍ£¬Í¨¹ý´Ó×ÔÈ»ÓïÑÔÌáÊ¾Éú³É´úÂë£¬ÏÔÖøÌá¸ßÁË±à³ÌÐ§ÂÊ¡£WangµÈ[36]ÔÚÒ½ÁÆ±£½¡ÁìÓòÒýÈëÁËClinicalGPT£¬ÔöÇ¿ÁËÁÙ´²Êý¾Ý·ÖÎö²¢Ö§³ÖÒ½ÁÆ¾ö²ß¡£GaoµÈ[37]Õ¹Ê¾ÁËGPT-3ÔÚÎÊ´ðµÄÐ¡Ñù±¾Ñ§Ï°·½ÃæµÄÄÜÁ¦£¬¼õÉÙÁË¶Ô¹ã·ºµÄÈÎÎñÌØ¶¨ÑµÁ·µÄÒÀÀµ¡£

Í¬Ê±£¬LLM ÕýÔÚ¼¯³Éµ½ MARL ÏµÍ³ÖÐ£¬ÒÔ¼ÓÇ¿Ð×÷ºÍ¾ö²ß¡£Li et al. [38] ÔÚ¶àÖÇÄÜÌåºÏ×÷ÖÐÌ½ÌÖÁË Theory of Mind µÄ LLM£¬Õ¹Ê¾ÁË¸ß¼¶ÍÆÀí£¬µ«Ö¸³öÁË³¤ÆÚ¹æ»®ÖÐµÄÌôÕ½¡£Yao et al. [39] ½éÉÜÁË VELO ¿ò¼Ü£¬Í¨¹ý½« LLM Óë MARL Ëã·¨¼¯³ÉÀ´ÓÅ»¯ÔÆ±ßÔµÏµÍ³ÖÐµÄ·þÎñÖÊÁ¿¡£SunµÈ[40]»Ø¹ËÁË»ùÓÚLLMsµÄMARL¿ò¼Ü£¬Ç¿µ÷ÁËËüÃÇÔÚÐèÒª¹µÍ¨ºÍ¹²Í¬Ä¿±êµÄÈÎÎñÖÐµÄÇ±Á¦£¬²¢Ìá³öÁËÎ´À´µÄÑÐ¾¿·½Ïò¡£D. MoradµÈ[41]Ìá³öÁËÒ»ÖÖÓÃÓÚ¶à»úÆ÷ÈËµ¼º½µÄÓïÑÔÌõ¼þÀëÏßÇ¿»¯Ñ§Ï°·½·¨£¬ÆäÖÐLLM°ïÖú»úÆ÷ÈËÓÐÐ§µØ½âÊÍºÍ·º»¯×ÔÈ»ÓïÑÔÖ¸Áî¡£

¾¡¹Ü LLM ÔÚ MARL ÁìÓò¾ßÓÐ¹ãÀ«µÄÇ±Á¦£¬µ«ÏÖÓÐÑÐ¾¿ÍùÍùÎÞ·¨ÔÚ SMAC »·¾³ÖÐ½« LLM Óë MARL Ëã·¨ÍêÈ«¼¯³É£¬ÌØ±ðÊÇÈ±·¦´¦ÀíËæ»úÓ³ÉäÉèÖÃµÄÁé»îÐÔ¡£ÕâÏÞÖÆÁËËüÃÇÔÚ²»Í¬³¡¾°ÖÐµÄÓ¦ÓÃ¡£´ËÍâ£¬Í¨ÐÅÊÇ¶àÖÇÄÜÌåÏµÍ³ÖÐµÄ¹Ø¼ü×é¼þ£¬µ« SMAC »·¾³ÖÐ¶ÔÍ¨ÐÅËã·¨ºÍ¿ÉÊÓ»¯¹¤¾ßµÄÖ§³ÖÓÐÏÞ¡£ÕâÖÖÈ±ÏÝ×è°ÁË×ùÏ¯Ö®¼ä¶Ô¹µÍ¨²ßÂÔµÄ¸üÉîÈë¶´²ìºÍÓÅ»¯¡£

Ó¦¶ÔÕâÐ©ÌôÕ½¶ÔÓÚÍÆ¶¯¸ÃÁìÓòµÄ·¢Õ¹ÖÁ¹ØÖØÒª¡£¸Ä½øÓë MARL ¹¤×÷Á÷³ÌµÄ¼¯³É£¬È·±£¶ÔÈÎºÎÍ¼Æ×ÅäÖÃµÄÊÊÓ¦ÐÔ£¬²¢Ìá¹©Ç¿´óµÄÍ¨ÐÅËã·¨ºÍ¿ÉÊÓ»¯¹¤¾ß£¬¿ÉÒÔÏÔÖøÌá¸ßÊµÑéµÄÁé»îÐÔºÍÐ§ÂÊ¡£ÕâÐ©¸Ä½ø¶ÔÓÚ¸üºÃµØÀí½â¶àÖÇÄÜÌåÏµÍ³ÖÐµÄ¸´ÔÓ½»»¥ºÍÓÅ»¯ÕûÌåÐÔÄÜÖÁ¹ØÖØÒª¡£

3. »ùÓÚ LLM ¸¨Öú¾ö²ßµÄ¶àÖÇÄÜÌåÇ¿»¯Ñ§Ï°

ÔÚ±¾½ÚÖÐ£¬ÎÒÃÇÌá³öÁËÒ»ÖÖÔÚ LLM µÄ°ïÖúÏÂ¸Ä½ø MARL µÄËã·¨¡£LLM ÔÚÔçÆÚÑµÁ·ÆÚ¼äÌá¹©Õ½ÂÔ½¨Òé£¬¼õÉÙ¶Ô´¿Ëæ»úÌ½Ë÷µÄÒÀÀµ¡£Section 3.1 ¸ÅÊöÁËÎÊÌâ²¢ÉèÖÃÁË·ûºÅ¡£µÚ 3.2 ½Ú½âÊÍÁËÎª LLM Éú³ÉÌáÊ¾²¢½«ÆäÊä³ö×ª»»ÎªÐÇ¼ÊÕù°Ô¶àÖÇÄÜÌåÌôÕ½ £¨SMAC£© »·¾³ÖÐÖÇÄÜÌåµÄ¿É×÷²ßÂÔµÄ¹ý³Ì¡£È»ºó£¬µÚ 3.3 ½ÚÏêÏ¸½éÉÜÁËÈçºÎ½« LLM Éú³ÉµÄ½¨ÒéÕûºÏµ½ MARL Á÷³ÌÖÐ£¬ÒÔËæ×ÅÊ±¼äµÄÍÆÒÆ¸Ä½ø¿±Ì½ºÍ²ßÂÔ¿ª·¢¡£

3.1. ÎÊÌâ¶¨Òå

ÔÚÐ×÷Õ½¶·ÉèÖÃÖÐ£¬ÎÒÃÇÒýÈëÁËÒ»¸ö MARL ÌôÕ½£¬ÆäÖÐ

Allied Agents Ãæ¶Ô

µÐ·½ÌØ¹¤¡£´úÀíµÄ×÷ÓÉËã·¨±àÅÅ£¬¸ÃËã·¨ÔÚÃ¿´Î×÷ºóÒÔ½±ÀøµÄÐÎÊ½´Ó»·¾³ÖÐ½ÓÊÕ·´À¡¡£Õâ¸ö·´À¡Ñ»·ÔÊÐí´úÀí²»¶Ï¸Ä½øËûÃÇµÄ²ßÂÔ£¬×îÖÕÄ¿±êÊÇÏûÃðµÐÈËÒÔÓ®µÃ±ÈÈü¡£ÎÒÃÇµÄÄ¿±êÊÇÓÅ»¯ÑµÁ·½×¶Î£¬ÒÔ±ã¿ìËÙÈ·¶¨×îÓÐÐ§µÄ²ßÂÔ£¬´Ó¶ø×î´óÏÞ¶ÈµØ¼õÉÙÀË·ÑÔÚ·ÇÉú²úÐÔÌ½Ë÷ÉÏµÄÊ±¼ä¡£

ÎÒÃÇÊ¹ÓÃ·ÖÉ¢µÄ²¿·Ö¿É¹Û²ìÂí¶û¿É·ò¾ö²ß¹ý³Ì £¨Dec-POMDP£© ×÷Îª¶àÖÇÄÜÌå¾ö²ßµÄ½¨Ä£¿ò¼Ü¡£Dec-POMDP ÕýÊ½±íÊ¾Îª Tuples

ÄÄÀï

±íÊ¾ÓÐÏÞµÄ´úÀí¼¯£¬

×´Ì¬¼¯ /

Agent µÄ×÷¼¯

ºÍ

×´Ì¬×ª»»º¯Êý¡£´ËÍâ

ÊÇ agent µÄ¹Û²ì¼¯

ÊÇ½±Àøº¯Êý£¬¶ø

ÊÇÕÛ¿ÛÏµÊý¡£

ÔÚÃ¿¸öÊ±¼ä²½

¡¢Ã¿¸ö´úÀí

Ñ¡Ôñ×÷

¸ù¾Ý×Ô¼ºµÄ¹Û²ì

.ËùÓÐ´úÀíµÄ¼¯ÌåÐÐ¶¯£¬

È·¶¨»·¾³µÄÏÂÒ»¸ö×´Ì¬

ºÍ¼´Ê±»Ø±¨

¶ÔÓÚÃ¿¸ö´úÀí£¬ÓÉ reward º¯ÊýÈ·¶¨

.´úÀíÈË¹²Í¬Å¬Á¦Íê³ÉºÏ×÷ÈÎÎñ£¬Ö¼ÔÚÑ°ÕÒÕþ²ß

×î´óÏÞ¶ÈµØÌá¸ßËûÃÇµÄÕûÌåÍÅ¶ÓÐ§ÓÃ¡£

ÓÉÓÚÎÒÃÇµÄÄ¿±êÊÇÔÚÑµÁ·Ëã·¨µÄÔçÆÚ½×¶ÎÀûÓÃ LLM Éú³ÉÊµÖ¤µÄ³õÊ¼²©ÞÄ²ßÂÔ£¬Òò´ËÎÒÃÇ²ÉÓÃË«ÖØÊÓ½Ç½øÐÐ¾ö²ß£¬°üÀ¨Õë¶Ô²»Í¬³¡¾°Á¿Éí¶¨ÖÆµÄÈ¥ÖÐÐÄ»¯ºÍ¼¯ÖÐÊ½ÊÓ½Ç¡£

ÔÚÈ¥ÖÐÐÄ»¯ÊÓ½ÇÖÐ£¬Ã¿¸ö´úÀí¶ÀÁ¢À¡ËÍÆä±¾µØ¹Û²ì

ÍÏ¶¯µ½Ã¿¸öÊ±¼ä²½µÄ LLM

.È»ºó£¬LLM »áÉú³ÉÒ»¸ö×÷

½ö»ùÓÚ´úÀíÈËµÄ¸öÈË¹Û²ì¡£ÕâÖÖ·ÖÉ¢µÄ·½·¨ÔÊÐí´úÀíÖÆ¶¨±¾µØ»¯²ßÂÔ£¬ÕâÔÚ´úÀí¶ÔÈ«¾Ö×´Ì¬µÄÐÅÏ¢ÓÐÏÞ»ò²¿·ÖµÄ»·¾³ÖÐÌØ±ðÓÐÐ§¡£ËüÊÊÓÃÓÚ¸öÈË×ÔÖ÷ÐÔºÍÊÊÓ¦ÐÔÖÁ¹ØÖØÒªµÄ³¡¾°¡£

ÔÚÃ¿¸öÊ±¼ä²½

.ÔÚÕâÖÖ·½·¨ÖÐ£¬LLM ÎªËùÓÐ´úÀíÖÆ¶¨Ò»¸öÐµ÷µÄÐÐ¶¯¼Æ»®¡£´Ë·½·¨ÓÐÖúÓÚÖÆ¶¨¸ü¾ßÕ½ÂÔÐÔºÍÐ×÷ÐÔµÄÐÐÎª£¬ÓÈÆäÊÇÔÚÐèÒªÔÚ¶à¸ö´úÀíÖ®¼äÍ¬²½×÷µÄÇé¿öÏÂ¡£Ëü·Ç³£ÊÊºÏÐèÒªÈ«¾ÖÐµ÷ºÍ¼¯ÖÐ¿ØÖÆµÄ»·¾³¡£

ÔÚÕâÁ½ÖÖÇé¿öÏÂ£¬LLM ºÍ´úÀíÖ®¼äµÄ½»»¥¶¼ÊÇË«ÏòµÄ¡£ÔÚÃ¿¸öÊ±¼ä²½

£¬ÎÒÃÇÊäÈëÈ«¾Ö×´Ì¬

ºÍÏÂÒ»¸ö×´Ì¬

²¢´æ´¢ÔÚÖØ·Å»º³åÇøÖÐ¡£

3.2. LLM Óë SMAC »·¾³Ö®¼äµÄË«Ïò½»»¥

ÔÚ±¾½ÚÖÐ£¬ÎÒÃÇ½«Ì½ÌÖ¶àÖÇÄÜÌåÏµÍ³ÖÐµÄË«Ïò½»»¥ LLM ºÍ SMAC »·¾³£¬°üÀ¨Éú³ÉÌáÊ¾ºÍ½âÊÍ½á¹û²ßÂÔÒÔÖ¸µ¼ÖÇÄÜÌåÐÐÎªµÄ»úÖÆ¡£

3.2.1. ÌáÊ¾×ª»»

ÔÚÃ¿¸öÊ±¼ä²½

¡¢×´Ì¬

ÒÔ¼°Ã¿¸ö´úÀíµÄ¹Û²ì

±»±íÊöÎª×ÔÈ»ÓïÑÔÃèÊö¡£ÌáÊ¾×ª»»¹ý³ÌÓÉËÄ¸ö²¿·Ö×é³É£º

ÌáÊ¾Éú³ÉÖ§³ÖÐÅÏ¢´æ´¢¿â£ºÔÚÉú³ÉÌáÊ¾Ö®Ç°£¬ÎÒÃÇ»á´´½¨Ò»¸öÐÅÏ¢´æ´¢¿âÀ´Ö§³ÖÌáÊ¾Éú³É¹ý³Ì£¬¸Ã¹ý³Ì°üº¬ÔÚ SMAC °üÖÐ¡£È·¶¨ÑµÁ·µØÍ¼£¨°üÀ¨×Ô¶¨ÒåµØÍ¼£©ºó£¬´Ë´æ´¢¿â½«°ïÖúÉú³ÉÌØ¶¨µÄÌáÊ¾ÐÅÏ¢¡£´æ´¢¿â°üº¬µØÍ¼ÉÏÁ½²àµÄ´úÀíÅäÖÃ£¬ÏêÏ¸ËµÃ÷ÁË´úÀíÊôÐÔ£¬ÀýÈçÉúÃüÖµ¡¢·ÀÓù¡¢ÊÓÒ°ºÍÉä»÷·¶Î§¡£ÕâÊ¹ LLM ÄÜ¹»È«ÃæÁË½â»·¾³ºÍ´úÀíµÄ¾ßÌåÌØÕ÷¡£

ÏµÍ³ÌáÊ¾·û¿ª·¢£ºÏµÍ³ÌáÊ¾·û°üº¬ÔÚÕû¸öÑµÁ·¹ý³ÌÖÐ±£³Ö²»±äµÄ¾²Ì¬ÐÅÏ¢¡£ËüÊÇ¸ù¾Ýµ±Ç°ÑµÁ·µØÍ¼ºÍËùÉæ¼°´úÀíµÄÊôÐÔÉú³ÉµÄ¡£Õâ°üÀ¨»ù±¾Ï¸½Ú£¬ÀýÈç»·¾³×´Ì¬ºÍ´úÀíµÄ¹Ì¶¨ÊôÐÔ£¬ÀýÈçÉúÃüÖµ¡¢»¤¶Ü¡¢ÀäÈ´Ê±¼äºÍ½ø¹¥ÄÜÁ¦¡£ÏµÍ³ÌáÊ¾·ûÎª LLM Ìá¹©ÁËÎÈ¶¨¶øÈ«ÃæµÄÉÏÏÂÎÄ£¬È·±£ËûÃÇ¶Ô»·¾³ºÍ´úÀíÅäÖÃÓÐÒ»ÖÂµÄÀí½â¡£¿¼ÂÇÐÇ¼ÊÕù°Ô¶àÖÇÄÜÌåÌôÕ½Èü £¨SMAC£© ÖÐÌØ¶¨µØÍ¼ÉÏÌØ¶¨Ê±¼ä²½µÄÌáÊ¾×ª»»¡£¼¯ÖÐÊ½ÏµÍ³ÌáÊ¾ÈçÍ¼ 1£¨a£© ËùÊ¾£¬¶ø·ÖÉ¢Ê½ÏµÍ³ÌáÊ¾ÈçÍ¼ 2£¨a£© ËùÊ¾¡£

ÔÚÊ±¼ä²½³¤ÖÐ

.Ëü°üÀ¨ÓÐ¹ØËùÓÐ Allied ºÍ TµÐ·½ Agent µÄÏêÏ¸ÐÅÏ¢£¬ÎÞÂÛµ¥¸ö Agent µÄ¿É¼ûÐÔÈçºÎ¡£Õâ¿ÉÈ·±£ LLM ¾ßÓÐÍêÕûµÄ»·¾³ÊÓÍ¼¡£Ïà±ÈÖ®ÏÂ£¬ÔÚ·ÖÉ¢Ê½·½·¨ÖÐ£¬ÈçÍ¼ 2£¨b£© ËùÊ¾£¬ÓÃ»§ÌáÊ¾ÊÇ¸ù¾ÝÃ¿¸ö´úÀíµÄ±¾µØ¹Û²ìÉú³ÉµÄ

.Ëü°üÀ¨ÓÐ¹Ø´úÀí×ÔÉíÐÅÏ¢µÄÐÅÏ¢£¬ÒÔ¼°ÓÐ¹ØÆäÊÓ¾õ·¶Î§ÄÚÈÎºÎÃË¾üºÍµÐ·½´úÀíµÄÏêÏ¸ÐÅÏ¢¡£ÕâÖÖ±¾µØ»¯µÄÊÓ½ÇÔÊÐíÃ¿¸ö´úÀí¸ù¾ÝÆäÖÜÎ§»·¾³×ö³ö¾ö²ß¡£ÔÚÕâÁ½ÖÖ·½·¨ÖÐ£¬Ã¿¸ö´úÀíµÄ¿ÉÓÃ×÷±£³ÖÒ»ÖÂ£¬´Ó¶øÈ·±£¾ö²ß¹ý³ÌµÄÒ»ÖÂÐÔ¡£

Final Prompt Synthesis£ºÏµÍ³ÌáÊ¾·ûºÍÓÃ»§ÌáÊ¾·û¹²Í¬¹¹³ÉÁË LLM µÄÍêÕûÊäÈë¡£´Ë¼¯³É¿ÉÈ·±£Éú³ÉµÄ²ßÂÔÍ¬Ê±·´Ó³ÕûÌåÉÏÏÂÎÄ £¨À´×ÔÏµÍ³ÌáÊ¾·û£© ºÍµ±Ç°Çé¿ö £¨À´×ÔÓÃ»§ÌáÊ¾·û£©¡£Í¨¹ý×éºÏÕâÐ©ÔªËØ£¬LLM ¿ÉÒÔÉú³É¸ü×¼È·ºÍÊÊÓÃµÄ²ßÂÔ£¬´Ó¶øÌá¸ß¶àÖÇÄÜÌåÏµÍ³µÄÐÔÄÜ¡£

[·µ»Ø]

ÉÏÒ»Æª£ºWhat large language models know and what people think they know
ÏÂÒ»Æª£º»ùÓÚÉî¶ÈÑ§Ï°Ä£ÐÍµÄÓ¡¶ÈÊÐ³¡Å©×÷Îï¼Û¸ñÔ¤²â·½·¨