如何让Claude-100k读取PDF文档?

Claude 100kGPT

PDFClaude 100k

python

1. 获取文本

import re
import textract
# Extract the raw text from each PDF using textract
text = textract.process('data/cannot_hurt_me.pdf'method='pdfminer').decode('utf-8')
# Replace all consecutive spaces with a single space
clean_text = re.sub(r'\s+'' ', text)
# Replace all newline characters with a space
clean_text = clean_text.replace('\n'' ')
Python

2. 获取文本长度

len(clean_text)
Python

3. 5

如果你需要提取前5万字,可以用下面的代码:

first_50k = clean_text[:50000]
Python

如果你需要提取后8万字,可以用下面的代码:

last_80k = clean_text[-80000:]
Python

100k tokenClaude85

4. 保存为txt文件

<>
with open('last_80k.txt', 'w', encoding='utf-8') as f:
    f.write(last_80k)
f.close()
Python

txtClaude100k

Claude100kCANT HURT ME

,

,,

,,,,,

,

!


【关注我】

微信公众号:凡学子   ID:weixinerzuo

推特账号:凡学子 https://twitter.com/lamhiuzhong

个人网站:www.linxiaozhong.club

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注