在deepseek中輸入提示詞: 你現在是一個Python編程專家,要調用siliconflow平臺的Qwen2.5-7B-Instruct模型來總結文檔,具體步驟如下: 打開文件夾:F:\AI自媒體內容\AI炒股\已經閱讀\已經上傳 讀取里面所有的pdf文檔; 用Qwen2.5-7B-Instruct模型總結pdf文檔; 總結完后保存為一個docx文檔,文件名在原pdf文檔名后面加上“_總結” siliconflow平臺的基礎URL: https://api./v1 API密鑰為:XXX 模型為:Qwen/Qwen2.5-7B-Instruct,上下文長度32K; 提示詞為:總結下面這篇券商研究報告的核心內容,不需要總結“投資建議”、“風險提示”、“投資評級”、“免責聲明”這些。輸出部分包括:報告標題、報告發布日期、證券分析師姓名、研報所用的研究方法、數據來源、研報的核心邏輯和要點(這部分要不少于500字)、具體的股票投資標的(股票名稱和股票代碼)。 代碼示例: from openai import OpenAI client = OpenAI(api_key="YOUR_API_KEY", base_url="https://api./v1") response = client.chat.completions.create( model='alibaba/Qwen1.5-110B-Chat', messages=[ {'role': 'user', 'content': "拋磚引玉是什么意思呀"} ], stream=True ) for chunk in response: print(chunk.choices[0].delta.content, end='') 注意:模型有限速,RPM=1K TPM=50K, 為了解決這個問題,我們可以采取以下措施:增加請求間隔:在每次請求之間增加一定的延遲,以避免短時間內發送過多的請求。批量處理:將多個文檔的總結任務分成多個批次,每個批次之間增加一定的延遲。錯誤重試:在遇到錯誤時,等待一段時間后重試請求。 如果pdf文檔的內容超過模型的上下文長度(32K 字符),模型將無法處理整個文檔。為了解決這個問題,我們可以將文檔分塊處理,確保每個塊的長度不超過模型的上下文長度限制。 如果分塊處理不當,可能會導致某些內容在多個塊中重復出現,從而導致總結內容重復。 為了解決這個問題,我們可以采取以下措施:優化分塊處理:確保每個塊的內容盡可能獨立,避免重疊。去重處理:在拼接總結內容時,進行去重處理,避免重復內容。檢查模型輸出:在調用模型時,檢查輸出內容,確保沒有重復。 在把總結內容寫入word時,要把### 、**等這些markdown符號轉換成對應的word文檔符號; 每一步都要輸出信息到屏幕上 Deepseek生成的代碼: # -*- coding: utf-8 -*- import os import warnings import re from openai import OpenAI from PyPDF2 import PdfReader from docx import Document from docx.shared import Pt from docx.enum.text import WD_PARAGRAPH_ALIGNMENT # 忽略PyPDF2的警告 warnings.filterwarnings("ignore", category=UserWarning, module="PyPDF2") # 設置API密鑰和基礎URL api_key = XXX base_url = "https://api./v1" # 初始化OpenAI客戶端 client = OpenAI(api_key=api_key, base_url=base_url) # 定義文件夾路徑 folder_path = r"F:\AI自媒體內容\AI炒股\已經閱讀\已經上傳" # 定義模型的上下文長度限制 MAX_CONTEXT_LENGTH = 32000 # 32K characters def split_text_into_chunks(text, max_length): """將文本分割成不超過指定長度的塊""" chunks = [] current_chunk = "" current_length = 0 for line in text.splitlines(): if current_length + len(line) + 1 > max_length: chunks.append(current_chunk.strip()) current_chunk = line current_length = len(line) else: if current_chunk: current_chunk += "\n" + line else: current_chunk = line current_length += len(line) + 1 if current_chunk: chunks.append(current_chunk.strip()) return chunks def remove_duplicates(text): """去除文本中的重復內容""" lines = text.splitlines() seen = set() unique_lines = [] for line in lines: if line not in seen: seen.add(line) unique_lines.append(line) return "\n".join(unique_lines) def markdown_to_word(text): """將Markdown格式的文本轉換成Word文檔格式""" # 替換標題 text = re.sub(r'^### (.*)', r'\1', text, flags=re.MULTILINE) text = re.sub(r'^## (.*)', r'\1', text, flags=re.MULTILINE) text = re.sub(r'^# (.*)', r'\1', text, flags=re.MULTILINE) # 替換加粗 text = re.sub(r'\*\*(.*?)\*\*', r'\1', text) # 替換列表 text = re.sub(r'^- (.*)', r'\1', text, flags=re.MULTILINE) return text # 遍歷文件夾中的所有pdf文件 for filename in os.listdir(folder_path): if filename.endswith(".pdf"): # 讀取PDF文檔 pdf_path = os.path.join(folder_path, filename) print(f"正在讀取PDF文檔: {pdf_path}") try: reader = PdfReader(pdf_path) text = "" for page in reader.pages: text += page.extract_text() except Exception as e: print(f"讀取PDF文檔時出錯: {e}") continue # 分塊處理 chunks = split_text_into_chunks(text, MAX_CONTEXT_LENGTH) # 總結每個塊 summary_chunks = [] for i, chunk in enumerate(chunks): print(f"正在總結文檔: {filename} 的第 {i+1}/{len(chunks)} 塊") try: response = client.chat.completions.create( model='Qwen/Qwen2.5-7B-Instruct', messages=[ {'role': 'user', 'content': f"總結下面這篇券商研究報告的核心內容,不需要總結“投資建議”、“風險提示”、“投資評級”、“免責聲明”這些。輸出部分包括:報告標題、報告發布日期、證券分析師姓名、研報所用的研究方法、數據來源、研報的核心邏輯和要點(這部分要不少于500字)、具體的股票投資標的(股票名稱和股票代碼)。\n{chunk}"} ], stream=False ) summary_chunks.append(response.choices[0].message.content) except Exception as e: print(f"總結文檔時出錯: {e}") continue # 拼接總結后的內容并去除重復 summary_content = "\n".join(summary_chunks) summary_content = remove_duplicates(summary_content) # 將Markdown格式的文本轉換成Word文檔格式 summary_content = markdown_to_word(summary_content) # 創建新的文檔并寫入總結后的內容 new_doc = Document() for line in summary_content.split("\n"): if line.startswith("報告標題"): p = new_doc.add_paragraph() p.add_run(line).bold = True p.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER elif line.startswith("報告發布日期"): p = new_doc.add_paragraph() p.add_run(line).bold = True elif line.startswith("證券分析師"): p = new_doc.add_paragraph() p.add_run(line).bold = True elif line.startswith("研究方法和數據來源"): p = new_doc.add_paragraph() p.add_run(line).bold = True elif line.startswith("核心邏輯和要點"): p = new_doc.add_paragraph() p.add_run(line).bold = True elif line.startswith("具體的股票投資標的"): p = new_doc.add_paragraph() p.add_run(line).bold = True else: new_doc.add_paragraph(line) # 保存總結后的文檔 new_filename = filename.replace(".pdf", "_總結.docx") new_doc_path = os.path.join(folder_path, new_filename) new_doc.save(new_doc_path) print(f"總結完成,保存為: {new_doc_path}") print("所有文檔總結完成!") ![]() 程序運行結果: ![]() 其中一個總結: ![]() 現在在硅基流動SiliconCloud網站注冊,不僅可以免費使用各種大模型,還可以通過以下地址注冊獲得免費的2000萬Tokens: https://cloud./i/Do9fPK0j |
|