AI+Äþ¾² > È˹¤ÖÇÄܸ³ÄÜÄþ¾²¼¼Êõ½éÉÜ
´óÄ£ÐÍÔÚÏÂÓÎÄþ¾²ÁìÓòÈÎÎñÖÐÌåÏÖÍùÍùÇ·¼Ñ£¬Í¨³£±»ÈÏΪÊǼÈȱ·¦ÁìÓò֪ʶ£¬Ò²È±·¦Ó¦ÓÃÁìÓò֪ʶµÄ·½Ê½¡£
ÉÏͼÖУ¬ÎÒÃÇÁоÙÁËÏÖÔÚÖ÷Á÷µÄ´óÄ£Ð͵÷Óż¼Êõ¡£¶ÔÓÚL1Äþ¾²ÐÐÒµ´óÄ£ÐÍ£¬ÎÒÃÇʹÓÃÓÒ°ëͼµÄ¼¼Êõ£¬Í¨¹ý¸üÐÂÄ£ÐͲÎÊýÀ´»ñµÃÒ»¸ö¾ß±¸¸üÇ¿Äþ¾²ÖªÊ¶µÄ´óÄ£ÐÍ¡£¶ø¶ÔÓÚL2µÄÓ¦Óó¡¾°²ã£¬ÎÒÃÇÔò»áʹÓÃ×ó°ëͼµÄ¼¼Êõ£¬Ê¹´óÄ£ÐÍÔÚʵ¼Ê³¡¾°ÖÐÎÞÐè²ÎÊý¸üм´¿É¿ìËÙÂäµØ¡£
ÎÒÃǽ«ÕâЩ¼¼ÊõÇø·ÖΪ¡°×¢Èë֪ʶ¡±ºÍ¡°×¢ÈëÓ¦ÓÃ֪ʶµÄ·½Ê½¡±Á½ÖÖ¡£Ö±¹ÛÀ´½²£¬Ç°Õߣ¨ÉÏ°ëͼ£©µÄÖ÷ҪĿµÄÊÇÈôóÄ£ÐÍ»ñµÃÄþ¾²ÁìÓò֪ʶ£¬Äܹ»ÔڻشðʱÓÐÀíÓоݶø²»ÊÇƾ¿ÕÄóÔì¡£¶ûºóÕߣ¨Ï°ëͼ£©µÄÖ÷ҪĿµÄÔòÊǽ̻á´óÄ£ÐÍÓ¦ÓÃ֪ʶ£¬Ï£Íû´óÄ£Ð͵ĻشðÄܹ»ÒÀÑÌض¨¸ñʽ»òÌض¨Ë¼Â·£»ÌØ´ËÍ⣬ÈËÀà·´À¡Ç¿»¯Ñ§Ï°ÊÇÏ£Íû´óÄ£ÐÍÄܹ»¶ÔÆëÈËÀàÈÏÖª£¬ÔÚºÏÀíÓ¦ÓÃ֪ʶµÄͬʱ£¬ÌáÉý»Ø´ðµÄ¿ÉÓÃÐÔºÍÄþ¾²ÐÔ¡£
ÏÂÃæÎÒÃǽ«·Ö±ð½éÉÜÕâЩ¼¼ÊõµÄÓ¦Ó÷½Ê½ºÍÓÅȱµã¡£
ÔöÁ¿Ô¤ÑµÁ·
ÔöÁ¿Ô¤ÑµÁ·£¨Continuous Pre-train£¬CPT£©ÊÇÒ»ÖÖ³£¼ûµÄ֪ʶעÈ뷽ʽ¡£ËüµÄ˼·ÊÇ£¬´óÄ£ÐÍÊÇͨ¹ýѧϰ´óÁ¿Í¨ÓÃ֪ʶµÃµ½µÄ£¬ÄÇôÎÒ½«ÁìÓò֪ʶºÍͨÓÃ֪ʶ»ìºÏµ½Ò»Æð£¬È»ºóʹÓÃÕâЩÊý¾Ý¼ÌÐøѵÁ·ÔÓÐL0»ù´¡´óÄ£ÐÍ¡£»»¶øÑÔÖ®£¬Ôö¼ÓÁËÁìÓò֪ʶÔÚѵÁ·Êý¾ÝÖеıÈÖØ£¬¼´Ôö¼ÓÁËÔÓÐÄ£Ð͵ÄÁìÓò֪ʶ¡£
ÕâÖÖ˼·ÏÔÈ»ÊǺÏÀíÇÒÓÐЧµÄ¡£ÔöÁ¿Ô¤ÑµÁ·µÄȱµãͨ³£ÔÚÓÚÊý¾ÝºÍËãÁ¦³É±¾¡£Ëü²»½ö¶ÔËãÁ¦µÄÒªÇóÏà¶ÔÆ«¸ß£¬Ò²ÐèÒª´óÁ¿¾«ÐÄÇåÏ´µÄÁìÓò֪ʶÊý¾Ý¡£²»Í⣬ËüµÄÓŵãÊÇ×¢ÈëÄ£Ð͵ÄÊý¾Ý²»ÐèÒªÈ˹¤´ò±ê£¬Ò²¾ÍÊÇ˵£¬Ëã·¨ÈËÔ±Ö»ÐèÒª¶ÔÊý¾Ý×öÈ¥ÖØ¡¢È¥¹ã¸æµÈÇåÏ´ÊÂÇ飬²»ÐèÒªÖðÌõ¶ÔÊý¾Ý×ö¾«Ï¸´¦Öá£Òò´Ë£¬ÔöÁ¿Ô¤Ñ·üçù»ñÈ¡µÄÊý¾Ýͨ³£¿ÉÒÔÓнϴóÁ¿¼¶£¬×¢ÈëµÄ֪ʶҲ½ÏΪȫÃæ¡£
Óмල΢µ÷
Óмල΢µ÷£¨Supervised Fine-tuning£¬SFT£©ÊÇÖ¸»ùÓÚÒÑÓеĴóÄ£ÐÍ£¬ÔÚÓбê×¢Êý¾ÝÉϽøÐÐÄ£ÐÍѵÁ·¡£ÏÖÓеÄSFT¼¼Êõͨ³£ÎÞÐè΢µ÷Ä£Ð͵ÄËùÓвÎÊý£¬½ö΢µ÷ÉÙÁ¿£¨»òÌرð£©Ä£ÐͲÎÊý£¬´Ó¶øÏÔÖø½µµÍ¼ÆËãºÍ²¿Êð³É±¾£¬Í¬Ê±·¢ÉúÓëÈ«Á¿Î¢µ÷Ä£ÐÍÏ൱µÄÐÔÄÜ¡£Í¨¹ýÕâÖÖ·½Ê½£¬¿ÉÒÔÔÚÏû·Ñ¼¶Ó²¼þÉÏѵÁ·ºÍ´æ´¢´óÄ£ÐÍ£¬ÈôóÄ£ÐÍÊÊÓ¦ÖÖÖÖÏÂÓÎÓ¦Óá£
Óмල΢µ÷µÄȱµãÔÚÓÚ£¬ÓÃÓÚ΢µ÷´óÄ£Ð͵ÄÊý¾Ýͨ³£ÐèÒª¼«Æ侫ϸ»¯µÄÇåÏ´ºÍÖðÌõµÄÈ˹¤´ò±ê£¬ºÃÔÚÐèÇóµÄÊý¾ÝÁ¿²¢²»´ó£¬Ê¹ÓÃ×îµÍ°ÙÌõÊý¾Ý΢µ÷ÍùÍù¾ÍÄÜÈôóÄ£ÐÍѧ»áһЩ¼òµ¥µÄ˼·Óë¸ñʽ¡£
µ½ÕâÀÎÒÃÇÏ£Íûͨ¹ýÒ»¸öÀý×ÓÀ´¸üºÃµÄ½²ÊöÉÏÎÄÌá¼°µÄ¼¼Êõ¿´·¨¡£ÔÚÄþ¾²ÔËÓª³¡¾°ÖУ¬Óû§Ï£Íû´óÄ£ÐͶÔÒÑÖªµÄÄþ¾²Ê¼þ½øÐнâ¶Á£¬°üÂ޸澯ÄÚÈÝ¡¢Ê¼þÀàÐÍ¡¢¹¥»÷ÊÖ·¨¡¢×ʲúÊôÐԵȡ£ÕâÑùµÄÓ¦Óó¡¾°ÐèÒªÕâÑùÍê³É£º
1.Ê×ÏÈ£¬ÎÒÃÇʹÓôóÁ¿¹ûÈ»µÄÍøÂçÄþ¾²ÓëÖ÷»úÄþ¾²Ïà¹Ø֪ʶ¶Ô´óÄ£ÐÍ×öÔöÁ¿Ô¤ÑµÁ·
2.Æä´Î£¬ÎÒÃÇʹÓÃÄþ¾²×¨¼Ò±ê×¢ºóµÄÈçÏÂÎÊ´ð¶Ô£¬¶ÔÎÒÃǵÄÄþ¾²´óÄ£ÐͽøÐÐÓмල΢µ÷
{
"ÎÊÌâ"£ºÓû§Ìá³öµÄÎÊÌâ + ÒÑ֪ʼþÐÅÏ¢ + ÆÚÍû·µ»Ø½á¹û,
"»Ø´ð"£ºÊ¼þÀàÐÍ + ¹¥»÷ÊÖ·¨ ...
}
3.×îºó£¬¾ÍµÃµ½ÁËÎÒÃÇ¿ÉÒÔÔÚʵ¼Ê³¡¾°ÖÐʹÓõÄÄ£ÐÍ¡£
µ«ÊÇ£¬¶Ôÿһ¸öÏÂÓÎÈÎÎñ½øÐÐ΢µ÷ÏԵùýÓÚÅÓ´óºÍÈßÓàÁË¡£ÓÚÊÇ£¬ÎÒÃÇÒýÈëÁËһЩ²»ÐèÒª¸üÐÂÄ£ÐͲÎÊýµÄ¼¼Êõ£¬ËüÃÇͬÑùÄÜÓÐÓÅÐãµÄʹÓÃЧ¹û¡£
¼ìË÷ÔöÇ¿Éú³É
¼ìË÷ÔöÇ¿Éú³É£¨Retrieval Augmented Generation£¬RAG£©ÊÇʱÏÂÈÈÃŵĴóÄ£ÐÍÓ¦Óýâ¾ö·½°¸¡£ËüµÄÖ÷ÒªÔÀíÊÇ£¬Óû§Ìá³öÎÊÌ⣬ͨ¹ýÀàËÆËÑË÷ÒýÇæµÄ·½Ê½´Ó֪ʶ¿âÖÐÕÒµ½Ïà¹ØµÄ֪ʶƬ¶Î£¬Ëæºó½«Óû§µÄÎÊÌâÓëËÑË÷µÄ½á¹ûһͬÊäÈë¸ø´óÄ£ÐÍ£¬ÈôóÄ£ÐͶÔךο½å¼´ð°¸¡±Éú³É»Ø´ð¡£
ËüµÄÓŵã·Ç³£Ã÷ÏÔ£¬Ïà±ÈÓÚÔöÁ¿Ô¤ÑµÁ·£¬¼ìË÷ÔöÇ¿Éú³ÉµÄ³É±¾¸üµÍ£¬¶øÇÒ֪ʶ¸üиü¿ì¡£È±µãÔòÊÇ£¬¼ìË÷ÔöÇ¿Éú³É¶Ô֪ʶ¿âµÄÖÊÁ¿ÒªÇó½Ï¸ß£¬ÒªÇó×îºóµÃµ½µÄÏà¹Ø֪ʶƬ¶ÎȷʵÌṩÁ˻شðÓû§ÎÊÌâËùÐèÒªµÄ֪ʶ£¬ÇÒÄܹ»±»´óÄ£ÐÍ˳ÀûÀí½â¡£ÐÒÔ˵ÄÊÇ£¬Ê¹ÓÃÔöÁ¿Ô¤ÑµÁ·»¹ÊǼìË÷ÔöÇ¿Éú³É²¢²»ÊÇÒ»¸öµ¥Ñ¡Ì⣬ʵ¼ùÖÐÎÒÃÇ¿ÉÒÔÑ¡Ôñ¡°ÎÒÈ«¶¼Òª¡±£¬¼´¿ÉͬʱÏíÊÜÁ½ÖÖ¼¼ÊõµÄÓŵ㡣
ÉÏÏÂÎÄѧϰ
ÉÏÏÂÎÄѧϰ£¨In-context Learning£¬ICL£©ÊÇÒ»Öַdz£±ãÀûµÄÒªÁì¡£ËüÖ»ÐèÒªÎÒÃÇÔÚ¸ø´óÄ£ÐÍÊäÈëÎÊÌâʱ£¬¶ÔËü¸ø³öһЩ¡°Ê¾·¶¡±ÐÔÖʵÄÌáʾ£¬¼´¿ÉÈôóÄ£ÐÍƾ¾Ýʾ·¶À´Éú³É»Ø´ð¡£Í¨³£Ê¹ÓÃÉÏÏÂÎÄѧϰµÄÓû§ÎÊÌâ¸ñʽÈçÏÂËùʾ¡£
ÉÏÏÂÎÄѧϰµÄÓŵãÊÇËüµÄ±ãÀûÐÔ£¬¶øȱµãÔòÊÇ£¬¶ÔÓÚÅÓ´óµÄÎÊÌ⣬¼òµ¥µÄÌáʾÍùÍùºÜÄÑÆðµ½Á¼ºÃµÄЧ¹û¡£
ÄÇôµ½ÕâÀÎÒÃÇËƺõ¿ÉÒÔ²»ÔÙ¶Ôÿһ¸öÏÂÓÎÈÎÎñ¶¼½øÐÐÓмල΢µ÷£¬¶øÊÇÓÃÔ½·¢Áé»îµÄ·½Ê½Íê³ÉÉÏÃæµÄÄþ¾²ÔËÓª³¡¾°£¨¶ÔÓÚºÍ֮ǰ²½Öè²îÒìµÄµØ·½£¬ÎÒÃÇ×öÁ˼Ӵֱê×¢£©£º
1.Ê×ÏÈ£¬ÎÒÃÇʹÓôóÁ¿¹ûÈ»µÄÍøÂçÄþ¾²ÓëÖ÷»úÄþ¾²Ïà¹Ø֪ʶ¶Ô´óÄ£ÐÍ×öÔöÁ¿Ô¤ÑµÁ·
2.Æä´Î£¬ÎÒÃÇʹÓÃÄþ¾²×¨¼Ò±ê×¢ºóµÄ¶à¸ö²îÒìÄþ¾²ÈÎÎñ³¡¾°ÏµÄÎÊ´ð¶Ô£¬¶ÔÎÒÃǵÄÄþ¾²´óÄ£ÐͽøÐÐÓмල΢µ÷
3.ÔٴΣ¬ÎÒÃǶÔÿ¸öµ¥¶ÀµÄÏÂÓÎÈÎÎñ£¬Ê¹ÓüìË÷ÔöÇ¿Éú³ÉºÍÉÏÏÂÎÄѧϰÀ´½øÐе¥¶ÀµÄÈÎÎñÌáʾ
4.µÃµ½×îÖÕÉú³ÉµÄ½á¹û
ʵ¼ÊÓ¦Óó¡¾°ÖУ¬´óÄ£ÐÍ»¹ÐèҪͨ¹ýÈËÀà·´À¡Ç¿»¯Ñ§Ï°»ñµÃ¸üºÃµÄÄþ¾²ÐԺͿÉÓÃÐÔ£¬ÎÒÃǽ«¼ÌÐø½éÉÜÕâÒ»¼¼Êõ¡£
ÈËÀà·´À¡Ç¿»¯Ñ§Ï°
ÈËÀà·´À¡Ç¿»¯Ñ§Ï°£¨Reinforcement Learning from Human Feedback£¬RLHF£©¼¼ÊõµÄÖ÷ҪĿµÄÊÇͨ¹ý½«ÈËÀàµÄ·´À¡ÄÉÈëѵÁ·¹ý³Ì£¬Îª»úÆ÷ÌṩÁËÒ»ÖÖ×ÔÈ»µÄ¡¢ÈËÐÔ»¯µÄ»¥¶¯Ñ§Ï°¹ý³Ì¡£Êµ¼ùÖУ¬ÈËÀà·´À¡Ç¿»¯Ñ§Ï°ÍùÍù±»ÓÃÓÚÌáÉý´óÄ£Ð͵ÄÄþ¾²ÐԺͿÉÓÃÐÔ£¬Ç°ÕßÒ»°ãÖ¸Óû§Ñ¯Îʲ»ºÏ·¨ÄÚÈÝʱ´óÄ£ÐÍ¿ÉÒÔ¸ø³ö¾Ü¾ø»Ø´ð£¬ºóÕßÔòÖ¸´óÄ£Ð͸ø³öµÄ»Ø´ðÄܹ»ÇÐʵ×ÊÖúµ½Óû§¡£
ÖµµÃ×¢ÒâµÄÊÇ£¬Äþ¾²ÐԺͿÉÓÃÐÔÖ®¼ä´æÔÚ×Å΢ÃîµÄ¹Øϵ¡£Ò»·½Ã棬¹ýÓÚÑϸñµÄÄþ¾²´ëÊ©¿ÉÄÜ»áÏÞÖÆÄ£Ð͵ıí´ï×ÔÓɶȣ¬µ¼ÖÂËü²»Äܳäʵչʾ×Ô¼ºµÄ֪ʶ¿âÀ´×ÊÖúÓû§£»ÁíÒ»·½Ã棬Èô¹ý·Ö×·ÇóÓû§ÌåÑé¶øµô±Û¼°ÄÚÈÝÉó²é£¬Ôò¿ÉÄÜʹģÐÍ̻¶ÓÚ·¢Éú²»Í×Êä³öµÄ·çÏÕÖ®ÖС£Òò´Ë£¬ÔÚRLHFµÄÓ¦Óùý³ÌÖУ¬±ØÐëÕÒµ½Á½ÕßÖ®¼äµÄƽºâµã£¬ÒÔÖÆÖ¹·ºÆ𡰹˴Ëʧ±Ë¡±µÄÇé¿ö¡£ÕâÒªÇ󿪷¢ÕßÃǾ«ÐÄÉè¼Æ½±Àø»úÖÆ£¬²¢Á¬Ðø¼à¿ØÄ£Ð͵ÄÌåÏÖ£¬È·±£Ã¿Ò»´Îµü´ú¶¼Äܳ¯×żȶ¨µÄÄ¿±êÇ°½ø£¬¼´Í¬Ê±Ìá¸ßϵͳµÄÄþ¾²ÐÔºÍÓû§ÌåÑéÖÊÁ¿¡£
×ÜÖ®£¬Í¨¹ý½«ÈËÀà·´À¡ÈÚÈ뵽ǿ»¯Ñ§Ï°µÄ¹ý³ÌÖУ¬RLHF²»½ö´Ù½øÁËAIϵͳµÄ×ÔÎÒÓÅ»¯£¬»¹Ê¹µÃÕâЩϵͳÄܹ»¸üºÃµØ·þÎñÓÚÈËÀàÉç»á£¬³ÉΪÈËÃÇÈÕ³£Éú»îºÍÊÂÇéÖÐÖµµÃÐÅÀµµÄ»ï°é¡£
×ܽá
±¾ÎĽéÉÜÁ˼¸ÖÖ´óÄ£Ðͼ¼ÊõÔÚÍøÂçÄþ¾²ÁìÓòµÄÓ¦Ó㬰üÂÞÔöÁ¿Ô¤ÑµÁ·¡¢Óмල΢µ÷¡¢ÈËÀà·´À¡Ç¿»¯Ñ§Ï°¡¢ÉÏÏÂÎÄѧϰºÍ¼ìË÷ÔöÇ¿Éú³É¡£ÕâЩ¼¼Êõͨ¹ý²îÒìµÄ·½Ê½Îª´óÄ£ÐÍ×¢Èë֪ʶ£¬ÏÔÖøÌáÉýÁËÍøÂçÄþ¾²ÏµÍ³µÄÐÔÄÜ¡£
Õ¹ÍûδÀ´£¬ÕâЩ´óÄ£Ðͼ¼Êõ½«ÎªÍøÂçÄþ¾²ÁìÓò×¢ÈëеĻîÁ¦¡£ËüÃDz»½öÄܹ»Ìá¸ßϵͳµÄ¼ì²âºÍÏìÓ¦ÄÜÁ¦£¬»¹ÄÜÖ÷¶¯Ô¤¼ûºÍ·ÀÓùÐÂÐÍÍþв¡£Í¨¹ýÁ¬ÐøѧϰºÍÓÅ»¯£¬ÕâЩ¼¼Êõ½«Ê¹ÍøÂçÄþ¾²ÏµÍ³Ô½·¢ÖÇÄÜ¡¢¸ßЧ£¬³ÉΪÆóÒµºÍ¸öÈËÔÚÊý×ÖÊÀ½çÖеļáʵºó¶Ü¡£
Copyright ? ¶«Éƽ̨ °æȨËùÓÐ ¾©ICP±¸05032414ºÅ ¾©¹«Íø°²±¸11010802024551ºÅ