钱多多-全链路API聚合
首页
钱多多首页
首页
钱多多首页
  1. Python配置方式
  • 发出请求
  • 完成对象
  • 模型接口
    • 列出模型
      • 原生OpenAI格式
      • 原生Gemini格式
    • 聊天(Chat)
      • OpenAI
        • ChatCompletions格式
          • 基础文本对话
          • 流式响应
          • 图片理解
          • 函数调用
          • Logprobs 请求
          • 内容补全接口
          • 联网搜索
          • PDF文件分析
          • Codex
          • response_format
          • N测试
          • gpt-4-all(分析图片)
          • xAI联网搜索
          • 令牌用量查询(Token Usage)
        • Responses格式
          • 基础文本响应
          • 图像分析响应
          • 网络搜索工具
          • 文件搜索工具
          • Computer use
          • 流式响应
          • deep-research / 深度研究
          • 函数调用
          • 推理能力
          • 推理总结
      • Anthropic Claude
        • 原生Claude格式(推荐)
          • 文本生成
          • 图片理解
          • 文本生成 / 强制返回思考
          • 函数调用
          • 多轮函数调用
          • Web search / 联网搜索
        • OpenAI兼容格式
          • 文本生成
          • 图片理解
          • 文本生成 / 强制返回思考
          • 函数调用
          • 多轮函数调用
          • Web search / 联网搜索
      • Google Gemini
        • 原生Gemini格式
          • Gemini文本聊天
          • Gemini媒体识别
        • OpenAI兼容格式
          • 文本生成
          • 文本生成 / 强制返回思考
          • 文本生成 / 自定义思考预算
          • 图片理解
          • 函数调用
          • 全能多模态版本
          • 联网搜索
          • 文本转语音 / TTS
          • 音频理解
          • 视频理解
    • Midjourney
      • 1.文生图(Imagine)接口
      • 2.按钮点击(Action)接口
      • 3.图片融合(Blend)接口
      • 4.窗口执行(Modal)接口
      • 5.图生文(Describe)接口
      • 6.缩短提示词(Shorten)接口
      • 7.换脸(FaceSwap)接口
      • 8.上传(upload)接口
      • 9.查询接口
      • 10.批量查询接口
      • 11.获取种子(Seed)接口
      • 13.编辑图片(Edit)接口
      • 14.生成视频(Video)接口
      • 文生图 / OpenAI兼容接口
    • 图像(Images)
      • OpenAI格式
        • 图片生成 / gpt-image-1.5
        • 图片生成 / dall-e-3
        • 图片编辑 / edits接口
        • 图片编辑 / 网页版
        • 图片变体生成
        • gpt-4-all(生成图片)
        • xAI
      • Google Gemini
        • OpenAI聊天格式
          • 图片生成(Nano-banana2)
          • 图片生成(Nano-banana2-4K)
          • 图片生成 / Imagen 4
          • 图片编辑(Nano-banana)
          • 图片生成
          • 图片编辑
        • Gemini原生格式
          • 图像生成
      • 豆包(Doubao)
        • 文生图(纯文本输入单图输出)
        • 图文生图(单图输入单图输出)
        • 多图融合(多图输入单图输出)
        • 组图输出(多图输出)
      • 阿里通义千问
        • 文生图-Z-Image
        • 文生图
        • 文生图V2版
        • 文生图V1
        • 图像生成与编辑2.6
        • 通用图像编辑2.5
      • xAI / OpenAI兼容接口
      • flux / OpenAI兼容接口
      • flux-kontext-pro / OpenAI兼容接口
      • stable-diffusion / OpenAI兼容接口
      • ideogram / OpenAI兼容接口
      • recraftv3 / OpenAI兼容接口
      • flux携带参考图 / OpenAI兼容接口
    • 视频(Videos)
      • Sora-2
        • Sora-2(创建视频)
        • Sora-2(创建视频-带 Character)
        • Sora-2(编辑视频remix)
        • Sora2官方接口(Chat格式)
        • 查询视频1(异步任务)
        • 查询视频2(异步任务)
        • 获取视频内容
      • 豆包(Doubao)
        • 豆包-文生视频
        • 查询视频
      • 即梦(Jimeng)
        • 即梦AI-文生视频S2.0Pro
        • 查询视频
      • 可灵AI(Kling)
        • 可灵AI-文生视频
        • 可灵AI-文生视频kling-video-o1
        • 可灵AI-带参考视频kling-video-o1
        • 可灵AI-图生视频
        • 查询视频
      • 阿里通义千问
        • 通义万相2.6(创建视频)
        • 通义万相2.5(创建视频)
        • 查询视频(异步任务)
      • Veo 3
        • Veo 3
        • Veo 3(官方格式)
        • 查询视频
        • 查询视频(官方格式)
      • Vidu
        • Vidu-文生视频
        • 查询视频
      • OpenAI兼容接口
        • veo3
        • luma
        • runway
        • 智谱清言GLM
        • 可灵
    • 音频(Audio)
      • 原生OpenAI格式
        • 文本转语音 / TTS
        • 语音转文本 / whisper-1
        • 语音转文本 / gpt-4o-transcribe
        • 音频翻译
        • Audio接口 / 输出
        • Audio接口 / 输入
        • MiniMax语音合成TTS
        • 豆包语音2.0
      • 原生Gemini格式
    • 音乐(Music)
      • Suno
        • 生成歌曲
        • 生成歌词
        • 上传音乐
        • 歌曲拼接
        • 单个查询任务
        • 批量查询任务
      • Udio
        • Udio(Chat格式)
    • 嵌入(Embeddings)
      • 创建文本嵌入(OpenAI)
      • 批量创建嵌入(OpenAI)
      • 创建文本嵌入(Gemini)
    • 重排序 (Rerank)
      • Jina AI 重排序格式
      • Cohere 重排序格式
      • Xinference 重排序格式
    • 审查(Moderations)
      • 创建内容审核
    • 实时对话(Realtime)
      • Realtime API
    • GPTs 相关
      • GPTs对话
      • 搜索相关 GPTs
      • 查询 GPTs 详情
      • 批量查询 GPTs 详情
  • Python配置方式
    • Python基础对话
    • Python使用gpt-4o识别图片
    • Python使用Claude识别图片
首页
钱多多首页
首页
钱多多首页
  1. Python配置方式

Python使用Claude识别图片

识别链接格式图片
from openai import OpenAI

client = OpenAI(
    base_url="https://api2.aigcbest.top/v1",
    api_key="sk-xxxx"
)

response = client.chat.completions.create(
  model="claude-3-5-sonnet-20240620",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "What’s in this image?"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])
识别本地图片
import base64
import time
from openai import OpenAI
import openai

key = 'sk-xxxx' 

client = OpenAI(
    base_url="https://api2.aigcbes.top/v1",
    api_key=key
)


def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')


image_path = "图片.jpg"

base64_image = encode_image(image_path)

while True:
    response = client.chat.completions.create(
        model="claude-3-5-sonnet-20240620",
        messages=[
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": "这张图片里有什么?请详细描述。"},
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": f"data:image/jpeg;base64,{base64_image}"
                        }
                    }
                ]
            }
        ],
        temperature=1
    )
    print(response)
    print(response.choices[0].message.content)
    time.sleep(1)
修改于 2024-10-30 06:09:09
上一页
Python使用gpt-4o识别图片
Built with