钱多多-全链路API聚合
首页钱多多首页
首页钱多多首页
  1. Python配置方式
  • 发出请求
  • 完成对象
  • 模型接口
    • OpenAI
      • 基础文本对话
      • 流式响应
      • 图片理解
      • 函数调用
      • Logprobs 请求
      • 内容补全接口
      • 创建内容审核
      • 联网搜索
      • PDF文件分析
      • Codex
      • response_format
      • N测试
      • gpt-4-all(分析图片)
      • 令牌用量查询(Token Usage)
      • 列出模型
    • OpenAI(Responses)
      • 基础文本响应
      • 图像分析响应
      • 网络搜索工具
      • 文件搜索工具
      • 流式响应
      • deep-research / 深度研究
      • 函数调用
      • 推理能力
    • Anthropic Claude
      • Messages接口(推荐)
        • 文本生成
        • 图片理解
        • 文本生成 / 强制返回思考
        • 函数调用
        • 多轮函数调用
        • Web search / 联网搜索
      • OpenAI Chat接口
        • 文本生成
        • 图片理解
        • 文本生成 / 强制返回思考
        • 函数调用
        • 多轮函数调用
        • Web search / 联网搜索
    • Google Gemini
      • OpenAI 兼容接口(推荐)
        • 文本生成
        • 文本生成 / 强制返回思考
        • 图片理解
        • 函数调用
        • 全能多模态版本
        • 联网搜索
        • 文本转语音 / TTS
        • 音频理解
        • 视频理解
      • Google Gemini 接口
        • 文本生成
    • Midjourney
      • 1.文生图(Imagine)接口
      • 2.按钮点击(Action)接口
      • 3.图片融合(Blend)接口
      • 4.窗口执行(Modal)接口
      • 5.图生文(Describe)接口
      • 6.缩短提示词(Shorten)接口
      • 7.换脸(FaceSwap)接口
      • 8.上传(upload)接口
      • 9.查询接口
      • 10.批量查询接口
      • 11.获取种子(Seed)接口
      • 13.编辑图片(Edit)接口
      • 14.生成视频(Video)接口
      • 文生图 / OpenAI兼容接口
    • 图像(Image)
      • OpenAI
        • 图片生成 / gpt-image-1
        • 图片生成 / dall-e-3
        • 图片编辑 / edits接口
        • 图片编辑 / 网页版
        • 图片变体生成
        • gpt-4-all(生成图片)
      • Gemini
        • 图片生成(Nano-banana)
        • 图片生成 / Imagen 4
        • 图片编辑(Nano-banana)
        • 图片生成
        • 图片编辑
      • 豆包(doubao)
        • 文生图(纯文本输入单图输出)
        • 图文生图(单图输入单图输出)
        • 多图融合(多图输入单图输出)
        • 组图输出(多图输出)
      • xAI / OpenAI兼容接口
      • 通义千问 / OpenAI兼容接口
      • flux / OpenAI兼容接口
      • flux-kontext-pro / OpenAI兼容接口
      • stable-diffusion / OpenAI兼容接口
      • ideogram / OpenAI兼容接口
      • recraftv3 / OpenAI兼容接口
      • flux携带参考图 / OpenAI兼容接口
    • 视频(Video)
      • Sora-2
        • Sora-2(创建视频)
        • Sora-2(创建视频-带 Character)
        • 查询视频1(异步任务)
        • 查询视频2(异步任务)
        • Sora2官方接口(Chat格式)
      • 豆包(Doubao)
        • 豆包-文生视频
        • 查询视频
      • 即梦(Jimeng)
        • 即梦AI-文生视频S2.0Pro
        • 查询视频
      • 可灵AI(Kling)
        • 可灵AI-文生视频
        • 查询视频
      • Veo 3
        • Veo 3
        • 查询视频
      • Vidu
        • Vidu-文生视频
        • 查询视频
      • OpenAI兼容接口
        • veo3
        • luma
        • runway
        • 智谱清言GLM
        • 可灵
    • 音频(Audio)
      • 文本转语音 / TTS
      • 语音转文本 / whisper-1
      • 语音转文本 / gpt-4o-transcribe
      • 音频翻译
      • Audio接口 / 输出
      • Audio接口 / 输入
      • MiniMax语音合成TTS
      • 豆包语音2.0
    • 音乐(Music)
      • Suno
        • 生成歌曲
        • 生成歌词
        • 上传音乐
        • 歌曲拼接
        • 单个查询任务
        • 批量查询任务
      • Udio
        • Udio(Chat格式)
    • 嵌入(Embeddings)
      • 创建文本嵌入(OpeniAI)
      • 批量创建嵌入(OpeniAI)
      • 创建文本嵌入(Gemini)
    • 重排序 (Rerank)
      • Jina AI 重排序格式
      • Cohere 重排序格式
      • Xinference 重排序格式
    • xAI
      • 联网搜索
      • 图片生成
    • 实时对话(Realtime)
      • Realtime API
    • GPTs 相关
      • GPTs对话
      • 搜索相关 GPTs
      • 查询 GPTs 详情
      • 批量查询 GPTs 详情
  • Python配置方式
    • Python基础对话
    • Python使用gpt-4o识别图片
    • Python使用Claude识别图片
  1. Python配置方式

Python使用gpt-4o识别图片

识别链接格式图片
from openai import OpenAI

client = OpenAI(
    base_url="https://api2.aigcbest.top/v1",
    api_key="sk-xxxx"
)

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "What’s in this image?"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])
识别Base64格式图片
import base64
import time
from openai import OpenAI
import openai

key = 'sk-xxxx' 

client = OpenAI(
    base_url="https://api2.aigcbest.top/v1",
    api_key=key
)


def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')


image_path = "图片.jpg"

base64_image = encode_image(image_path)

while True:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": "这张图片里有什么?请详细描述。"},
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": f"data:image/jpeg;base64,{base64_image}"
                        }
                    }
                ]
            }
        ],
        temperature=1
    )
    print(response)
    print(response.choices[0].message.content)
    time.sleep(1)
修改于 2024-10-30 06:09:35
上一页
Python基础对话
下一页
Python使用Claude识别图片
Built with