久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    AI炒股:用硅基流動SiliconCloud批量總結研報

     AIGC部落 2024-09-25 發布于廣東

    在deepseek中輸入提示詞:

    你現在是一個Python編程專家,要調用siliconflow平臺的Qwen2.5-7B-Instruct模型來總結文檔,具體步驟如下:

    打開文件夾:F:\AI自媒體內容\AI炒股\已經閱讀\已經上傳

    讀取里面所有的pdf文檔;

    用Qwen2.5-7B-Instruct模型總結pdf文檔;

    總結完后保存為一個docx文檔,文件名在原pdf文檔名后面加上“_總結”

    siliconflow平臺的基礎URL: https://api./v1

    API密鑰為:XXX

    模型為:Qwen/Qwen2.5-7B-Instruct,上下文長度32K;

    提示詞為:總結下面這篇券商研究報告的核心內容,不需要總結“投資建議”、“風險提示”、“投資評級”、“免責聲明”這些。輸出部分包括:報告標題、報告發布日期、證券分析師姓名、研報所用的研究方法、數據來源、研報的核心邏輯和要點(這部分要不少于500字)、具體的股票投資標的(股票名稱和股票代碼)。

    代碼示例:

    from openai import OpenAI

    client = OpenAI(api_key="YOUR_API_KEY", base_url="https://api./v1")

    response = client.chat.completions.create(

    model='alibaba/Qwen1.5-110B-Chat',

    messages=[

    {'role': 'user', 'content': "拋磚引玉是什么意思呀"}

    ],

    stream=True

    )

    for chunk in response:

    print(chunk.choices[0].delta.content, end='')

    注意:模型有限速,RPM=1K TPM=50K, 為了解決這個問題,我們可以采取以下措施:增加請求間隔:在每次請求之間增加一定的延遲,以避免短時間內發送過多的請求。批量處理:將多個文檔的總結任務分成多個批次,每個批次之間增加一定的延遲。錯誤重試:在遇到錯誤時,等待一段時間后重試請求。

    如果pdf文檔的內容超過模型的上下文長度(32K 字符),模型將無法處理整個文檔。為了解決這個問題,我們可以將文檔分塊處理,確保每個塊的長度不超過模型的上下文長度限制。

    如果分塊處理不當,可能會導致某些內容在多個塊中重復出現,從而導致總結內容重復。

    為了解決這個問題,我們可以采取以下措施:優化分塊處理:確保每個塊的內容盡可能獨立,避免重疊。去重處理:在拼接總結內容時,進行去重處理,避免重復內容。檢查模型輸出:在調用模型時,檢查輸出內容,確保沒有重復。

    在把總結內容寫入word時,要把### 、**等這些markdown符號轉換成對應的word文檔符號;

    每一步都要輸出信息到屏幕上

    Deepseek生成的代碼:

    # -*- coding: utf-8 -*-

    import os

    import warnings

    import re

    from openai import OpenAI

    from PyPDF2 import PdfReader

    from docx import Document

    from docx.shared import Pt

    from docx.enum.text import WD_PARAGRAPH_ALIGNMENT

    # 忽略PyPDF2的警告

    warnings.filterwarnings("ignore", category=UserWarning, module="PyPDF2")

    # 設置API密鑰和基礎URL

    api_key = XXX

    base_url = "https://api./v1"

    # 初始化OpenAI客戶端

    client = OpenAI(api_key=api_key, base_url=base_url)

    # 定義文件夾路徑

    folder_path = r"F:\AI自媒體內容\AI炒股\已經閱讀\已經上傳"

    # 定義模型的上下文長度限制

    MAX_CONTEXT_LENGTH = 32000 # 32K characters

    def split_text_into_chunks(text, max_length):

    """將文本分割成不超過指定長度的塊"""

    chunks = []

    current_chunk = ""

    current_length = 0

    for line in text.splitlines():

    if current_length + len(line) + 1 > max_length:

    chunks.append(current_chunk.strip())

    current_chunk = line

    current_length = len(line)

    else:

    if current_chunk:

    current_chunk += "\n" + line

    else:

    current_chunk = line

    current_length += len(line) + 1

    if current_chunk:

    chunks.append(current_chunk.strip())

    return chunks

    def remove_duplicates(text):

    """去除文本中的重復內容"""

    lines = text.splitlines()

    seen = set()

    unique_lines = []

    for line in lines:

    if line not in seen:

    seen.add(line)

    unique_lines.append(line)

    return "\n".join(unique_lines)

    def markdown_to_word(text):

    """將Markdown格式的文本轉換成Word文檔格式"""

    # 替換標題

    text = re.sub(r'^### (.*)', r'\1', text, flags=re.MULTILINE)

    text = re.sub(r'^## (.*)', r'\1', text, flags=re.MULTILINE)

    text = re.sub(r'^# (.*)', r'\1', text, flags=re.MULTILINE)

    # 替換加粗

    text = re.sub(r'\*\*(.*?)\*\*', r'\1', text)

    # 替換列表

    text = re.sub(r'^- (.*)', r'\1', text, flags=re.MULTILINE)

    return text

    # 遍歷文件夾中的所有pdf文件

    for filename in os.listdir(folder_path):

    if filename.endswith(".pdf"):

    # 讀取PDF文檔

    pdf_path = os.path.join(folder_path, filename)

    print(f"正在讀取PDF文檔: {pdf_path}")

    try:

    reader = PdfReader(pdf_path)

    text = ""

    for page in reader.pages:

    text += page.extract_text()

    except Exception as e:

    print(f"讀取PDF文檔時出錯: {e}")

    continue

    # 分塊處理

    chunks = split_text_into_chunks(text, MAX_CONTEXT_LENGTH)

    # 總結每個塊

    summary_chunks = []

    for i, chunk in enumerate(chunks):

    print(f"正在總結文檔: {filename} 的第 {i+1}/{len(chunks)} 塊")

    try:

    response = client.chat.completions.create(

    model='Qwen/Qwen2.5-7B-Instruct',

    messages=[

    {'role': 'user', 'content': f"總結下面這篇券商研究報告的核心內容,不需要總結“投資建議”、“風險提示”、“投資評級”、“免責聲明”這些。輸出部分包括:報告標題、報告發布日期、證券分析師姓名、研報所用的研究方法、數據來源、研報的核心邏輯和要點(這部分要不少于500字)、具體的股票投資標的(股票名稱和股票代碼)。\n{chunk}"}

    ],

    stream=False

    )

    summary_chunks.append(response.choices[0].message.content)

    except Exception as e:

    print(f"總結文檔時出錯: {e}")

    continue

    # 拼接總結后的內容并去除重復

    summary_content = "\n".join(summary_chunks)

    summary_content = remove_duplicates(summary_content)

    # 將Markdown格式的文本轉換成Word文檔格式

    summary_content = markdown_to_word(summary_content)

    # 創建新的文檔并寫入總結后的內容

    new_doc = Document()

    for line in summary_content.split("\n"):

    if line.startswith("報告標題"):

    p = new_doc.add_paragraph()

    p.add_run(line).bold = True

    p.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER

    elif line.startswith("報告發布日期"):

    p = new_doc.add_paragraph()

    p.add_run(line).bold = True

    elif line.startswith("證券分析師"):

    p = new_doc.add_paragraph()

    p.add_run(line).bold = True

    elif line.startswith("研究方法和數據來源"):

    p = new_doc.add_paragraph()

    p.add_run(line).bold = True

    elif line.startswith("核心邏輯和要點"):

    p = new_doc.add_paragraph()

    p.add_run(line).bold = True

    elif line.startswith("具體的股票投資標的"):

    p = new_doc.add_paragraph()

    p.add_run(line).bold = True

    else:

    new_doc.add_paragraph(line)

    # 保存總結后的文檔

    new_filename = filename.replace(".pdf", "_總結.docx")

    new_doc_path = os.path.join(folder_path, new_filename)

    new_doc.save(new_doc_path)

    print(f"總結完成,保存為: {new_doc_path}")

    print("所有文檔總結完成!")

    程序運行結果:

    其中一個總結:

    現在在硅基流動SiliconCloud網站注冊,不僅可以免費使用各種大模型,還可以通過以下地址注冊獲得免費的2000萬Tokens:  

    https://cloud./i/Do9fPK0j  

      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      主站蜘蛛池模板: 高清无码爆乳潮喷在线观看| 天天爽夜夜爱| 国产精品自拍中文字幕| 成人无码潮喷在线观看| 狠狠色噜噜狠狠狠狠AV| 国产四虎永久免费观看| 三级网站视频在在线播放| 黑森林福利视频导航| 精品 日韩 国产 欧美 视频| 性一交一乱一伦| 亚洲AV旡码高清在线观看| 国产精品无码免费播放| 好满射太多了装不下了真人| 99久久精品国产一区二区蜜芽| 又大又粗又硬放不进去了| 精品无码国产日韩制服丝袜| 亚洲综合色成在线观看| 国产精品一码在线播放| 宅男666在线永久免费观看| 国产成人精品亚洲资源| 无码国产精品一区二区免费式影视 | 果冻传媒MV国产推荐视频| 国产成人无码免费视频在线| 在线精品国产成人综合| av深夜免费在线观看| 狠狠色丁香婷婷综合潮喷| 国产69精品久久久久99尤物| 国产对白老熟女正在播放| 国产精品久久久天天影视香蕉| 免费人成网站免费看视频| 国产成人亚洲精品无码青APP | 亚洲色最新高清AV网站| 国产精品欧美一区二区三区不卡| 无码日韩做暖暖大全免费不卡 | 好吊妞国产欧美日韩免费观看| 国产成人8X人网站视频| 国产色秀视频在线播放| AV免费播放一区二区三区| 2019国产精品青青草原| 巨爆乳中文字幕爆乳区| 午夜无码区在线观看亚洲|