跳到主要内容

视力

我们最新的Pixtral 12B引入了视觉功能,使其能够分析图像,并根据文本和视觉内容提供见解。这种多模式方法为需要文本和视觉理解的应用程序开辟了新的可能性。

传递图像URL

如果图像是在线托管的,您只需在请求中提供图像的URL即可。这种方法很简单,不需要任何编码。

进口 os
米斯特拉伊 进口

#从环境变量中检索API键
api_key = os.环境[“MIUI_API_KEY”]

#指定型号
模型 = “pixtral-12b-2409”

#初始化MIUI客户端
客户 = (api_key =api_key )

#定义聊天消息
信息 = [
{
“角色”: “用户”,
“内容”: [
{
“类型”: “文本”,
“文本”: “这张照片里有什么?”
},
{
“类型”: “image_url”,
“image_url”: “/static/picture/eiffel塔与雪.jpeg”
}
]
}
]

#获取聊天响应
聊天响应 =客户 .聊天.完成(
模型 =模型 ,
信息 =信息
)

#打印响应内容
打印(聊天响应 .选择[0].消息.内容)

传递Base64编码图像

如果您在本地存储了一个或一组图像,则可以将它们以base64编码格式传递给模型。Base64编码是一种将二进制数据转换为易于在互联网上传输的文本格式的常用方法。当您需要在API请求中包含图像时,这尤其有用。

进口 base64
进口 请求:
进口 os
米斯特拉伊 进口

def encode_image(图像路径):
“”“将图像编码为base64。”“”
尝试:
具有 打开(图像路径, “rb”) 作为 图像文件:
返回 base64.b64编码( 图像文件.阅读()).解码('utf-8')
除了 FileNotFound错误:
打印(f“错误:文件 {图像路径} 未找到。")
返回 没有
除了 例外情况 作为 e: #增加了一般异常处理
打印(f“错误: { e}")
返回 没有

#图像路径
图像路径= “path_to_your_image.jpg”

#获取base64字符串
base64图像 =encode_image(图像路径)

#从环境变量中检索API键
api_key = os.环境[“MIUI_API_KEY”]

#指定型号
模型 = “pixtral-12b-2409”

#初始化MIUI客户端
客户 = (api_key =api_key )

#定义聊天消息
信息 = [
{
“角色”: “用户”,
“内容”: [
{
“类型”: “文本”,
“文本”: “这张照片里有什么?”
},
{
“类型”: “image_url”,
“image_url”: f“数据:图像/jpeg;base64,{base64图像 }"
}
]
}
]

#获取聊天响应
聊天响应 =客户 .聊天.完成(
模型 =模型 ,
信息 =信息
)

#打印响应内容
打印(聊天响应 .选择[0].消息.内容)

使用案例

了解图表

卷曲 https://www.miuiai.com/v1/chat/completions \
H “内容类型:应用程序/json” \
H “授权:持票人 $MIUI_API_KEY" \
d '{
“型号”:“pixtral-12b-2409”,
“消息”:[
{
“角色”:“用户”,
“内容”:[
{
“类型”:“文本”,
“text”:“这张图片里有什么?”
},
{
“type”:“image_url”,
“image_url”:“/static/picture/30322.jpeg”
}
]
}
],
“max_tokens”:300
}'

型号输出:

该图表是一个名为“法国社会鸿沟”的条形图,比较了弱势地区和整个法国的社会经济指标。它由两部分组成:第一部分包括三个律师团体,代表工人阶级的百分比、失业率以及16-25岁未上学和失业的百分比。第二部分包括三个酒吧组,分别代表月收入中位数、贫困率和居住在过度拥挤住房中的家庭。每个酒吧组包含两个酒吧:一个为弱势地区(红色),一个为整个法国(蓝色)。数据显示,贫困地区的工人阶级个人比例较高(33.5%对14.5%),失业率较高(18.1%对7.3%),未上学和失业的年轻人比例较高(25.2%对12.9%)。他们还显示,月收入中位数较低(1168欧元对1822欧元),贫困率较高(43.3%对15.5%),居住在过度拥挤住房中的家庭比例较高(22.0%对8.7%)。该图表突出了弱势地区和法国其他地区之间社会经济状况的显著差异,强调了这些社区面临的挑战。
比较图像

\
H “内容类型:应用程序/json” \
H “授权:持票人 $MIUI_API_KEY" \
d '{
“型号”:“pixtral-12b-2409”,
“消息”:[
{
“角色”:“用户”,
“内容”:[
{
“类型”:“文本”,
“text”:“两个图像之间有什么区别?”
},
{
“type”:“image_url”,
“image_url”:“/static/picture/eiffel雪塔.jpeg”
},
{
“type”:“image_url”,
“image_url”:{
“url”:“https://assets.visitorscoverage.com/production/wp-content/uploads/2024/04/AdobeStock_626542468-min-1024x683.jpeg"
}
}
]
}
],
“max_tokens”:300
}'

型号输出:

第一张图片展示了埃菲尔铁塔被白雪覆盖的树木和小径环绕,可以清楚地看到铁塔复杂的铁格子结构。第二张图片展示了埃菲尔铁塔,背景是一个挤满观众的大型户外体育场,中心有一个红色网球场。最显著的区别是场景——一个是冬天下雪的场景,另一个是夏天体育赛事上人群的场景。第一张图片的情绪是宁静的,而第二张图片传达了一种活泼而充满活力的氛围。这些差异突显了埃菲尔铁塔作为地标的多功能性,可以在各种环境和季节中欣赏。
转录收据

卷曲 https://www.miuiai.com/v1/chat/completions \
H “内容类型:应用程序/json” \
H “授权:持票人 $MIUI_API_KEY" \
d '{
“型号”:“pixtral-12b-2409”,
“消息”:[
{
“角色”:“用户”,
“内容”:[
{
“类型”:“文本”,
“text”:“转录此收据”
},
{
“type”:“image_url”,
“image_url”:“/静态/图片/兴趣回执-102-6364c8d181c6a_700.jpg”
}
]
}
]
}'

型号输出:

\n收件日期\n\n收件详情\n日期:2022年4月2日\n时间:下午5:01:56 \n店主:Raul \n\n购买商品:\n1 Empanada-牛肉$3.00 \n1 Empana-奶酪$3.00 \n 1 Empanada-鸡肉$3.00 \n2 Tallarin Huancaina Lomo Saltado$19.99 \n1 1/2 Pisco Sour$15.00 \n小计$43.99\n地方税(5.5%)$2.42\n总计$46.41\n信息:移民让美国变得伟大,他们也为你做饭和上菜今天的你上帝保佑你\n\n订单ID:D0BQZ3R656MDC\n链接:\n-在线订购:https://clover.com/r/D0BQZ3R656MDC\n-Clover隐私政策:https://clover.com/privacyn
转录旧文件

卷曲 https://www.miuiai.com/v1/chat/completions \
H “内容类型:应用程序/json” \
H “授权:持票人 $MIUI_API_KEY" \
d '{
“型号”:“pixtral-12b-2409”,
“消息”:[
{
“角色”:“用户”,
“内容”:[
{
“类型”:“文本”,
“text”:“转录这个”
},
{
“type”:“image_url”,
“image_url”:“/static/picture/page_example.jpg”
}
]
}
]
}'

型号输出:

#1855年12月的信件、订单和指示\n\n**霍格公司,如果有机会的话。**\n\n在这些工作中,你要特别准确和小心,在申报表和你的工资单之间,或者在以后严格审查的人之间,不要有任何不光彩的事。\n\n我是上午3点左右。\n\n*[签名]*\n结束。
具有结构化输出的OCR

\
H “内容类型:应用程序/json” \
H “授权:持票人 $MIUI_API_KEY" \
d '{
“型号”:“pixtral-12b-2409”,
“消息”:[
{
“角色”:“系统”,
“内容”:[
{“类型”:“文本”,
“text”:“从图片中提取用户描述的文本元素,并返回以下格式的json格式的结果:{name_of_element:[value]}”
}
]
},
{
“角色”:“用户”,
“内容”:[
{
“类型”:“文本”,
“text”:“从该餐厅账单中提取账单编号、商品名称和相关价格以及总价,并将其作为字符串返回到Json对象中”
},
{
“type”:“image_url”,
“image_url”:https://i.imghippo.com/files/kgXi81726851246.jpg"
}
]
}
],
“response_format”:
{
“type”:“json_object”
}
}'

型号输出:

{'bill_number': '566548 ',
'项目': [{'项目名称': “汉堡MED稀有”, '价格': 10},
{'项目名称': 'WH/subpoutine', '价格': 2.},
{'项目名称': “汉堡MED稀有”, '价格': 10},
{'项目名称': 'WH/SUB-BSL-MUSH', '价格': 4.},
{'项目名称': “汉堡很好吃”, '价格': 10},
{'项目名称': “什么面包/没有洋葱”, '价格': 2.},
{'项目名称': “亚布丁-糊状物”, '价格': 2.},
{'项目名称': 'CHK香蒜酱/BR', '价格': 9},
{'项目名称': “潜水艇”, '价格': 2.},
{'项目名称': '特制煎蛋卷/BR', '价格': 9},
{'项目名称': “潜水艇”, '价格': 2.},
{'项目名称': 'BSL', '价格': 8}],
'总计_价格': 68}

常见问题

  • 每张图片的价格是多少?

    价格是使用与输入代币相同的定价计算的。每张图像将被分为16x16像素的批次,每批都转换为一个标记。根据经验,分辨率为“resolution x”x“resolution Y”的图像将消耗大约 (第X/16号决议)*(第Y/16号决议) 代币。
    例如,720x512图像将消耗大约 (720/16) * (512/16) ≈1440个代币。
    请注意,所有分辨率高于1024x1024的图像都将被缩小,同时保持相同的纵横比。例如,一张1436x962的图像将缩小到大约1024x686,消耗大约 (1024/16) * (686/16) ≈2600个代币。

  • 我可以微调Pixtral 12B的图像功能吗?

    不,我们目前不支持对Pixtral 12B的图像功能进行微调。

  • 我可以使用Pixtral 12B生成图像吗?

    不,Pixtral 12B旨在理解和分析图像,而不是生成图像。

  • 支持哪些类型的图像文件?

    我们目前支持以下图像格式:

    • PNG(.PNG)
    • JPEG(.JPEG和.jpg)
    • WEBP(.WEBP)
    • 只有一帧的非动画GIF(.GIF)
  • 图像的大小有限制吗?

    当前文件大小限制为10Mb。

  • 每个请求的最大图像数量是多少?

    每次通过API请求的最大图像数为8。

  • Pixtral 12B的速率限制是多少?

    有关费率限制的信息,请访问

    下一个
    代码生成