开发人员示例
模型定制
以下是来自创业社区的使用我们的微调API的开发人员示例。查看我们的 微调文档 学习微调的好处以及如何使用我们的微调API。
RAG用于互联网检索
Phospho:RAG用于互联网检索
视频展示了Tak的行为。当用户输入查询时,Tak将使用LLM知识、搜索网络的工具和获取新闻的工具,为用户查询生成最相关的答案。它的行为取决于用户的查询类型。
说明
Tak是一款B2C互联网搜索应用 由MIUI Large和其他具有RAG和Function Calling的型号提供动力。
为了给用户查询提供最相关的答案,执行了几个函数调用来对请求进行分类(见下图)。由于多个代理是链式的,确保格式一致的输出至关重要。
公司简介
在phospho,我们开发了Tak聊天机器人作为实验平台,以测试新的phospho功能并展示phospho分析的强大功能。一件好事是,您可以使用记录到phospho的数据来微调LLM模型。我们是 磷,一个用于LLM应用程序的开源文本分析平台。各种规模的公司都使用phospho来了解用户如何使用他们的LLM应用程序,以及该应用程序在产品层面的表现如何。
数据
我们使用了Tak中的用户查询数据集和相应的GPT-4-turbo函数调用,这些数据集是通过phospho平台收集和过滤的。然后,我们将数据集划分为 火车 集合(70%),a 评价 一组(15%)和一组测试(15%)。
为了确定最佳的训练持续时间,我们遵循了经验法则,即每个标记应该被看到三次(在我们的例子中,150个训练步骤,大约10分钟)。
对于学习率,我们使用了建议的6e-5学习率。
Eval
为了评估我们的微调模型,我们对数据集的测试集进行推理,然后使用二元分类指标(准确性、召回率、F1分数)。我们测试是否能够将MIUI 7b的行为与OpenAI GPT-4-turbo的分类行为对齐,同时保持预期的结构化输出。事实上,我们删除了函数调用。
微调使MIUI 7B与参考模型相匹配, 将F1成绩从20%提高到78%。在没有微调的情况下,MIUI 7B在我们的分类任务中实现了87%的准确率和20%的召回率。通过微调模型,我们实现了96%的准确率和90%的召回率。
由于我们对模型进行了微调,使其仅能回答以下问题 新闻相关
或 无新闻相关
,我们不再需要使用函数调用。这导致了 使用的代币数量减少34% 这进一步降低了成本。
结论
总之,通过将磷数据收集和标签与MIUI的微调服务相结合,我们显著提高了为用户查询提供精确和相关答案的能力,同时降低了成本。我们已经成功地将MIUI 7B的行为与GPT-4涡轮机对齐。这种微调过程不仅确保了输出格式的一致性,而且通过最大限度地减少令牌的使用来降低运营成本。
如果您还想改进您的RAG代理,我们建议您使用收集并标记有磷酸的数据对MIUI进行微调。这可以显著改善您的用户体验。
RAG用于医疗领域
AmiRA(miRNA研究助理)
公司信息
妙 正在为大脑健康构建多模式人工智能。目前,我们正在探索microRNAs与各种神经系统疾病之间的关系,包括如何利用这些生物标志物对这些疾病进行早期检测和监测。AmiRA是一个内部工具,由MIUI的商业和开源模型提供支持,以帮助理解样本结果中某些miRNA的功能及其伴随的靶基因。
说明
该项目演示了MIUI模型的微调及其在RAG系统中的使用,用于:
- 疾病关联/预测提供了给定的miRNA分子
- 在确定miRNA分子的功能时,具有更高的科学准确性和相关性。
该项目主要作为概念验证,表明LLM和试剂可以帮助我们通过适当的工程探索生物标志物及其与健康结果的关系。
数据和培训
检索了9839 PubMed的标题和摘要。然后,使用 MIUI大最新
函数调用API和传统提示。示例提示如下:
def 生成问题(分子, 标题, 摘要):
促使 = f
基于以下分子、标题和摘要,生成科学问题
放入一个函数。以下是信息:\n\n
分子: {分子}\n标题: { 标题}\n摘要: { 摘要}
提问时不要提及作品的摘要或标题。
将标题/摘要中的信息视为新知识/常识,并据此提出问题。
"""
响应 = MIUI_CLIENT.聊天(
模型=MIUI模型,
信息=[聊天留言(角色=“用户”, 内容= 促使 )],
工具= 工具,
工具选择=“任何”
)
返回 响应
生成问题后,使用MIUI large latest生成每个问题的答案。示例提示如下:
def 生成应答(分子, 标题, 摘要, 问题):
促使 = f
根据以下分子、标题、摘要和问题,生成答案:
分子: {分子}\n标题: { 标题}\n摘要: { 摘要}\n问题: { 问题}\n答案:
仅根据上下文信息而非先验知识回答问题。
回答时不要提及作品的摘要或标题。
将提供的信息视为常识,并回答问题
被陷害了。
"""
响应 = MIUI_CLIENT.聊天(
模型=MIUI模型,
信息=[聊天留言(角色=“用户”, 内容= 促使 )],
)
返回 响应 .选择[0].消息. 内容.带()
在2个CPU核上使用多线程,问答生成需要大约2.5个小时。在最初的9839行中,由于各种错误,9414行通过了数据处理。
这给我们留下了大约28000个问题/答案对,可以输入模型进行调优。下面是一个问答配对示例:
{“消息”: [{“角色”: “用户”, “内容”: “hsa-miR-335-5p在2型糖尿病(T2DM)的发展中起什么作用,它可能调节哪些基因?”}, {“角色”: “助理”, “内容”: “hsa-miR-335-5p在2型糖尿病(T2DM)发展中的作用是它可能调节各种候选基因的表达。这些基因包括前胶原C内肽酶增强子2、结缔组织生长因子、序列相似性家族105、成员A、蛋白磷酸酶1调节抑制剂亚基1A和C-C基序趋化因子受体4。所提供的信息中没有详细说明hsa-miR-335-5p调节这些基因并促进T2DM发展的具体机制。然而,有人认为,了解这些调控网络可能对2型糖尿病的分子诊断和靶向治疗有用。"}]}
“RAG”管道
使用简单的表查找(Pandas Dataframe)来显示查询字符串中存在的每个miRNA的相关信息,并将整个摘要输入模型。N个结果从未超过12,也从未达到上下文窗口限制。
每篇论文和标题摘要的嵌入内容都被预填充并存储在数据帧中,余弦相似度用于显示顶部-k 在输入模型之前,最相关的论文。输入模型的结果数量因每个分子存在的条目数量而异。(即,如果只有1个条目,k将等于1。如果有30个条目,通过余弦相似度得到最佳的12个。)
该模型还可以选择接受原始查询并在数据帧中执行查找,以自行收集更多信息或上下文。
基准和结果
对于疾病关联和预测,来自miRNA疾病关联的150个随机问题 2019年发表的基准论文 被抽样。该数据集与用于创建训练数据的任何训练数据或任何PubMed论文完全分开。
微调后的模型表现优于两者 MIUI小最新
和 MIUI大最新
在问答中,没有明确看到任何与基准相关的数据。以下值是3次尝试的平均值。
微调的好处之一是,您可以用更小、更快的模型实现更好的性能。下面是上面三次运行的每个API调用的平均延迟。
示例响应
微调模型的目的不是作为一个测试者,而是为RAG系统提供更好的上下文,因此想要评估使用中模型的实际输出是很自然的。下面是两个微调模型输出与类似输出的比较示例 MIUI大最新
和 MIUI小最新
在模型被迫“猜测”问题答案的情况下,它会根据从训练中包含的论文中收集的信息,从自己的知识中给出正确的上下文。
微调 | MIUI小最新 |
---|---|
信件:D:胃肠道肿瘤——这是基于hsa-miR-106a-5p被确定为与严重急性呼吸系统综合征冠状病毒2型感染中枢基因调控相关的关键miRNA之一的背景下提供的信息。然而,没有明确提及与胃肠道肿瘤的直接关联。选择D:胃肠道肿瘤是因为hsa-miR-106a先前在文献中被报道与各种类型的癌症相关,包括属于胃肠道肿瘤的癌症。 与此回复相关的公开论文 | 血管疾病——字母:A、B、C或D在上下文中没有提及,所以我无法明确回答。然而,hsa-let-7e与各种疾病相关,包括某些类型的癌症,但提供的上下文没有具体说明其与任何列出的疾病的关联。 |
微调 | MIUI大最新 |
---|---|
字母:D:高血压(这是一个有根据的猜测,因为上下文没有明确提到hsa-mir-146b与任何提供的疾病有关。然而,文献中已经研究了hsa-mir-14 6b与高血压的关系。) 与此回复相关的公开论文 | 很抱歉造成任何混淆,但提供的上下文不包含任何将hsa-mir-23b与特定疾病联系起来的具体信息。因此,我无法根据给定的选项提供准确的答案。如果我在没有额外信息的情况下做出有根据的猜测,那将是不可靠或不准确的。我建议进一步研究或咨询医疗专业人员或相关数据库,以获取最准确的信息。 |
财务顾问对话助理
Cleo:财务助理
公司简介
Cleo是一家人工智能金融科技公司,它构建了一个财务助理,帮助用户应对财务生活的复杂性。
数据
使用由Cleo的内容设计团队制作的用户请求和Cleo响应组成的内部数据集。
Eval
内容设计团队的人工评估。
目标很简单:将枯燥、真实、生成的语言翻译成克里奥俏皮的语调。为此,我们使用La Platefome对内容设计团队制作和评估的公司数据进行了微调。目标是提升Cleo及其品牌的写作风格。
例如,给用户的典型信息可能是:
“你的Cleo Plus订阅付款没有通过,所以现在没有现金预付款,尼科斯。”
然而,使用微调模型,我们可以得到更有趣的反应:
卷曲 s -出口 'https://www.miuiai.com/v1/chat/completions' \
H “授权:持票人 $MIUI_API_KEY" \
H '内容类型:应用程序/json' \
d '{
“型号”:“英尺:开放式-7b:…”,
“消息”:[
{
“角色”:“用户”,
“内容”:“您的Cleo Plus订阅付款没有”没有通过,所以没有现金预支 对于 现在,尼科斯。"
}
],
"温度": 0.0,
"top_p1.
"max_tokens": 512,
"流动错误的
"safe_prompt错误的
"随机设置“: 42
}'
{
“id”: “d43ba5cf228a43ff9bf27ed8fb403292”,
“对象”: “聊天完成”,
“创建”: 1717417588,
“模型”: “英尺:开放式-7b:…”,
“选择”: [
{
“索引”: 0,
“消息”: {
“角色”: “助理”,
“内容”: “哦,亲爱的尼科斯,看来你的Cleo Plus付款有点假,所以现在口袋里没有现金预支的叮当声,亲爱的。别担心,只要轻轻推一下,我们很快就会帮你解决的!💃🏼💸",
“工具调用”: 无效的
},
“完成原因”: “停止”,
“logprobs”: 无效的
}
]
}
我们得到了一个更具Cleo品牌特色的回应。
“哦,亲爱的尼科斯,看来你的Cleo Plus付款有点假,所以现在口袋里没有现金预支的叮当声,亲爱的。别担心,只要轻轻推一下,我们很快就会帮你解决的!💃🏼💸"
得到更符合我们品牌的回应。
合法副驾驶
Jimini AI:合法副驾驶
视频1:将MIUI微调型号集成到我们的产品中 Jimini分析仪.
视频首先展示了微调模型在 BSARD 进入我们的法律文件分析工具。与基本型号相比,微调版本 准确列出相关法律条文 Markdown格式,提供适用法律的清晰简洁概述。
视频的其余部分强调了微调模板在 多EURLEX 通过我们的法律翻译工具,可以更精确地翻译复杂的法律术语,例如“最高法院“为”司法法典“。这一增强功能确保了我们的翻译 准确反映预期的法律含义,最终为我们的客户提供更大的价值.
说明
当我们正在构建一个合法的副本时,对模型进行微调对我们来说有几个好处:
- 它可以教模型以特定的格式和语调生成响应。
为了确保我们的合法副驾驶输出可靠、来源良好、格式专业的法律答案,我们对 MIUI小
模型,专注于 改进响应结构和采购.
对于第一个用例,在 BSARD 数据集,我们使用 蒸馏 来自更聪明的人 大
模型。这种方法 降低成本,保存令牌(不再需要复杂的提示),以及 减少延迟 通过使用小型、高效和微调的模型。
- 它还可以用于为特定主题或领域专门化模型,以提高其在特定领域任务(如法律翻译)上的性能。
我们的 深厚的欧洲根基 对欧洲客户的承诺促使我们在法德法律翻译方面表现出色。通过利用强大的多语言能力 MIUI小
并针对法律条款对其进行进一步微调 多EURLEX 数据集,我们显著改进了法律术语的翻译。
公司简介
At 希米尼AI,我们致力于打造 尖端的法律副驾驶,旨在协助法律专业人员自动化最繁琐、最耗时的任务,如法律研究或法律文件翻译。获取访问权限 AI的微调API为我们提供了一个理想的机会来关注我们的两个关键用例。
BSARD
数据
我们使用了 比利时法定文章检索数据集(BSARD),一个全面的法国数据集,用于检查法律信息检索,以进行微调 MIUI小最新
并提高其答案的法律准确性和质量。它包括来自比利时法律的22600多条法定条款以及大约1100项法律查询。
我们创造了一个合成 问题解答 (QA)数据集 MIUI大最新
基于精心制定的专业指导方针生成地面真相答案的模型 与法律专业人士合作。然后,我们将数据集划分为 火车 集(80%)和 评价 设置(20%)。
为了确定最佳的训练持续时间,我们遵循了经验法则,即每个标记应该被看到三次(在我们的例子中,220个训练步骤,大约30分钟)。
要调整 学习速率
,我们选择衡量第三方和比法律标准更通用的能力,以确保模型不会因灾难性遗忘而倒退。为此,我们使用 忠诚 和 相关性 度量来自 拉加斯 在一个专有 通才 数据集。
图1:基于RAGAS的可信度和答案相关性评估
MIUI小最新
和 MIUI小微调
用于不同学习率和不同步骤数的模型。
因此,我们选择了 学习速率
属于 1e-6
,我们观察到与 MIUI小最新
,以及这两个标准之间的平衡。因此,模型的一般能力似乎没有任何回归。
除了这种初步的健全性检查外,我们还使用了MIUI AI微调端点与 权重和偏差 为了监控我们的训练,我们特别测量了模型的演变 困惑
,这似乎在这种训练机制下有效地收敛(每个令牌被看到3次)。
图2:BSARD微调过程中的困惑和评估损失 权重和偏差.
Eval
为了评估我们的微调过程的有效性,我们采用了 法学硕士作为法官 方法论。具体来说,我们从由 袁等.最近用于 FineWeb Edu数据集构成然后,我们通过将其转换为偏好评分系统来调整该方法,如下所示 法律_质量
:
给出以下两个答案,根据以下标准进行比较:
-明确、准确地引用相关法律条款,如《民法典》第123条。不接受隐含的(如“d'après l'extrait fourni”)或一般性的引用(如“'daprès-le Code Civil”)。
-对每个所述要素进行清晰、合乎逻辑的论证,包括相应法律条款的精确标识符。
-结构良好的答案,采用Markdown格式,字迹清晰,没有歧义。需要源引用。
---
对于每个标准,为最符合标准的答案分配一个点。如果两个答案相等,则都得1分。严格要求;如果没有一个答案完全符合标准,则不得分。用不超过100个单词简要说明你的总分。以每个答案的分数作为0到3之间的整数结束。
按照以下模式以JSON格式返回信息:
{
“理由”:“字符串”,
“score_answer_1”:int,
“score_answer_2”:int
}
问题:
{问题}
答案1:
{answer_1}
答案2:
{answer_2}
JSON:
这些标准是根据多位法律专家的反馈精心制定和微调的。
我们对几位候选人进行了严格的评估 法官LLMs
,包括 gpt-3.5涡轮增压
,混音
,以及 大
我们的分析结果显示 大
与专家的偏好相关性最高,因此被选为 法官LLM
.
结果
图3:LLM作为法官的评估
MIUI小最新
和 MIUI小微调
基于他们答案的法律性质。
我们观察到显著改善,得分从1.42增加到1.73,代表 提升20%!
这一进展在实际应用中也很明显。视频中展示的示例证明了这一改进:(对于非法语读者,我们已将法语原始答案翻译成英语)
问题:
如果我停止支付消费信贷,会有什么风险?
MIUI小微调
答案:
如果你停止支付消费信贷,你将面临几个后果:
1.付款截止日期和诉讼中止:法官可以给予适度的付款截止日期并中止诉讼(《民法典》第1244条)。
2.付款便利:您可以向治安法官申请付款便利,但前提是债权人拒绝提供这些便利。该程序受《司法法典》第1337条之二至1337条八的管辖。
3.丧失期限或解除条件:如果您不遵守付款条件,而合同对此有规定,债权人可以宣布丧失期限或消除条件。然而,《经济法典》第VII.105条严格规定了没收期限或解除条件的条件。例如,只有当您拖欠至少两笔定期款项或相当于应付总额20%的款项时,才能适用没收期限或解除条件条款。
4.罚款和滞纳利息:如果逾期付款,债权人可以要求偿还未偿还和未付的资金、消费者信贷总成本中未偿还和尚未支付的金额、根据未偿还和不支付的资金计算的约定滞纳利息金额,以及约定的催复函和正式通知费用(《经济法典》第VII.106条)。
5.收回融资资产:如果融资资产受保留所有权条款或具有不可撤销授权的质押承诺的约束,如果您不履行付款义务,债权人可以收回该资产。但是,如果您已经支付了资产现金价格的40%或以上,则除非法院判决或挂号信正式通知后签订的书面协议,否则无法收回资产(《经济法》第VII.108条)。
MIUI小最新
答案:
如果您继续不付款,这可能会导致合同终止或期限被没收。在这种情况下,债权人可以要求剩余余额、消费者的信贷总成本以及一定范围内的罚款或赔偿。最后,如果这种情况持续存在,债权人可能会启动追偿程序,其中可能包括扣押工资或扣押你的银行账户。你的财务状况可能会严重恶化。
答案来自 MIUI小微调
结构清晰,有精确的法律参考支持,而来自 MIUI小最新
不是。
多EURLEX
数据
为了增强我们的法律翻译工具,我们还进行了微调 MIUI小最新
关于法律文件。为此,我们选择了 多EURLEX 该数据集由35000份法语翻译成德语的欧洲法律文件组成。
图4:在监测的Multi-EURLEX微调过程中的困惑和评估损失 权重和偏差.
Eval
为了评估我们用例中相关示例的微调模型,我们选择了50个包含复杂法律术语的文本,将其从法语翻译成德语(例如 “不同意条款”,有时翻译为 “Nicht Konkurrenz Klausel” 而不是 “Wettbeerbsverbotsclausel”).
然后我们提交了三胞胎(例子
,MIUI-base翻译
,MIUIfinetuned翻译
)盲目地去找双语法律专家,为每个例子选择最准确的法律翻译。
结果
法律专家更倾向于在38/50个案件中对微调模型进行法律翻译,其中9个案件并列。因此,微调模型是 在94%的情况下,比基础模型更好或至少一样好.
例子 | MIUI小最新 | MIUI小微调 |
---|---|---|
该程序是废除判决的渠道。 | 该项目不定期进行。 | 这是一个让所有人都感到愤怒的地方。 |
表1:比较 MIUI小最新
以及Multi EURLEX上的微调版本。微调模型使用“Verfahrensmangel”和“Nichtigkeit des Urteils”,这是精确和正确的法律术语。
结论
我们最初的测试对 MIUI小
使用MIUI AI端点的模型已经产生了有希望的结果。 微调后的模型在生成结构化、来源良好的响应和准确翻译复杂的法律术语方面表现出色展示了其在专业法律应用方面的潜力。
快速微调能力和 权重和偏差 集成使流程高效而简单,使我们能够 快速开发具有成本效益的专用模型.
我们将与我们的律师客户密切合作,改进模型的性能,从而进一步提高我们的结果。此外,我们计划扩展用例,包括法律摘要、合同分析和法律起草。
我们感谢MIUI AI允许我们作为测试版测试人员测试他们微调的API。MIUI AI微调端点已被证明是我们法律AI开发的宝贵工具——这些实验只是开始!