【原】AI炒股：用硅基流動SiliconCloud批量總結研報

AIGC部落 2024-09-25 發布于廣東

展開全文

在deepseek中輸入提示詞：

你現在是一個Python編程專家，要調用siliconflow平臺的Qwen2.5-7B-Instruct模型來總結文檔，具體步驟如下：

打開文件夾：F:\AI自媒體內容\AI炒股\已經閱讀\已經上傳

讀取里面所有的pdf文檔；

用Qwen2.5-7B-Instruct模型總結pdf文檔；

總結完后保存為一個docx文檔，文件名在原pdf文檔名后面加上“_總結”

siliconflow平臺的基礎URL: https://api./v1

API密鑰為：XXX

模型為：Qwen/Qwen2.5-7B-Instruct，上下文長度32K；

提示詞為：總結下面這篇券商研究報告的核心內容，不需要總結“投資建議”、“風險提示”、“投資評級”、“免責聲明”這些。輸出部分包括：報告標題、報告發布日期、證券分析師姓名、研報所用的研究方法、數據來源、研報的核心邏輯和要點（這部分要不少于500字）、具體的股票投資標的（股票名稱和股票代碼）。

代碼示例：

from openai import OpenAI

client = OpenAI(api_key="YOUR_API_KEY", base_url="https://api./v1")

response = client.chat.completions.create(

model='alibaba/Qwen1.5-110B-Chat',

messages=[

{'role': 'user', 'content': "拋磚引玉是什么意思呀"}

stream=True

)

for chunk in response:

print(chunk.choices[0].delta.content, end='')

注意：模型有限速，RPM=1K TPM=50K, 為了解決這個問題，我們可以采取以下措施：增加請求間隔：在每次請求之間增加一定的延遲，以避免短時間內發送過多的請求。批量處理：將多個文檔的總結任務分成多個批次，每個批次之間增加一定的延遲。錯誤重試：在遇到錯誤時，等待一段時間后重試請求。

如果pdf文檔的內容超過模型的上下文長度（32K 字符），模型將無法處理整個文檔。為了解決這個問題，我們可以將文檔分塊處理，確保每個塊的長度不超過模型的上下文長度限制。

如果分塊處理不當，可能會導致某些內容在多個塊中重復出現，從而導致總結內容重復。

為了解決這個問題，我們可以采取以下措施：優化分塊處理：確保每個塊的內容盡可能獨立，避免重疊。去重處理：在拼接總結內容時，進行去重處理，避免重復內容。檢查模型輸出：在調用模型時，檢查輸出內容，確保沒有重復。

在把總結內容寫入word時，要把### 、**等這些markdown符號轉換成對應的word文檔符號;

每一步都要輸出信息到屏幕上

Deepseek生成的代碼：

# -*- coding: utf-8 -*-

import os

import warnings

import re

from openai import OpenAI

from PyPDF2 import PdfReader

from docx import Document

from docx.shared import Pt

from docx.enum.text import WD_PARAGRAPH_ALIGNMENT

# 忽略PyPDF2的警告

warnings.filterwarnings("ignore", category=UserWarning, module="PyPDF2")

# 設置API密鑰和基礎URL

api_key = XXX

base_url = "https://api./v1"

# 初始化OpenAI客戶端

client = OpenAI(api_key=api_key, base_url=base_url)

# 定義文件夾路徑

folder_path = r"F:\AI自媒體內容\AI炒股\已經閱讀\已經上傳"

# 定義模型的上下文長度限制

MAX_CONTEXT_LENGTH = 32000 # 32K characters

def split_text_into_chunks(text, max_length):

"""將文本分割成不超過指定長度的塊"""

chunks = []

current_chunk = ""

current_length = 0

for line in text.splitlines():

if current_length + len(line) + 1 > max_length:

chunks.append(current_chunk.strip())

current_chunk = line

current_length = len(line)

else:

if current_chunk:

current_chunk += "\n" + line

else:

current_chunk = line

current_length += len(line) + 1

if current_chunk:

chunks.append(current_chunk.strip())

return chunks

def remove_duplicates(text):

"""去除文本中的重復內容"""

lines = text.splitlines()

seen = set()

unique_lines = []

for line in lines:

if line not in seen:

seen.add(line)

unique_lines.append(line)

return "\n".join(unique_lines)

def markdown_to_word(text):

"""將Markdown格式的文本轉換成Word文檔格式"""

# 替換標題

text = re.sub(r'^### (.*)', r'\1', text, flags=re.MULTILINE)

text = re.sub(r'^## (.*)', r'\1', text, flags=re.MULTILINE)

text = re.sub(r'^# (.*)', r'\1', text, flags=re.MULTILINE)

# 替換加粗

text = re.sub(r'\*\*(.*?)\*\*', r'\1', text)

# 替換列表

text = re.sub(r'^- (.*)', r'\1', text, flags=re.MULTILINE)

return text

# 遍歷文件夾中的所有pdf文件

for filename in os.listdir(folder_path):

if filename.endswith(".pdf"):

# 讀取PDF文檔

pdf_path = os.path.join(folder_path, filename)

print(f"正在讀取PDF文檔: {pdf_path}")

try:

reader = PdfReader(pdf_path)

text = ""

for page in reader.pages:

text += page.extract_text()

except Exception as e:

print(f"讀取PDF文檔時出錯: {e}")

continue

# 分塊處理

chunks = split_text_into_chunks(text, MAX_CONTEXT_LENGTH)

# 總結每個塊

summary_chunks = []

for i, chunk in enumerate(chunks):

print(f"正在總結文檔: {filename} 的第 {i+1}/{len(chunks)} 塊")

try:

response = client.chat.completions.create(

model='Qwen/Qwen2.5-7B-Instruct',

messages=[

{'role': 'user', 'content': f"總結下面這篇券商研究報告的核心內容，不需要總結“投資建議”、“風險提示”、“投資評級”、“免責聲明”這些。輸出部分包括：報告標題、報告發布日期、證券分析師姓名、研報所用的研究方法、數據來源、研報的核心邏輯和要點（這部分要不少于500字）、具體的股票投資標的（股票名稱和股票代碼）。\n{chunk}"}

stream=False

)

summary_chunks.append(response.choices[0].message.content)

except Exception as e:

print(f"總結文檔時出錯: {e}")

continue

# 拼接總結后的內容并去除重復

summary_content = "\n".join(summary_chunks)

summary_content = remove_duplicates(summary_content)

# 將Markdown格式的文本轉換成Word文檔格式

summary_content = markdown_to_word(summary_content)

# 創建新的文檔并寫入總結后的內容