句子分割器
将文本按句子、段落或自定义分隔符分割。显示段落数量和长度统计。
关于此工具
句子分割器(Sentence Splitter)是一个实用工具,可以将文本分解为逻辑段落—句子、段落或自定义分隔符。无论是用于研究文本分析、处理NLP任务中的内容,还是整理冗长的段落,这个工具都能自动计算每个段落并提供长度统计,节省了繁琐的手动解析工作。
只需将文本粘贴到输入字段,选择分割方式(按句子、段落或自定义分隔符),然后点击分割按钮即可。该工具会立即显示编号的段落列表以及相应的字符和单词计数,使您轻松识别模式、比较段落长度或导出结果以供进一步处理。
这个工具对编辑长文档的作家、准备文本模型训练数据的开发人员、管理文章结构的内容创建者,以及任何需要快速文本分析而不想打开笨重文字处理器或数据库工具的人都非常有价值。
常见问题
代码实现
import re
def split_sentences(text):
# Split on .!? followed by space+uppercase (basic sentence detection)
sentences = re.split(r'(?<=[.!?])\s+(?=[A-Z"'])', text.strip())
return [s.strip() for s in sentences if s.strip()]
def split_paragraphs(text):
return [p.strip() for p in re.split(r'\n{2,}', text) if p.strip()]
def split_custom(text, delimiter):
return [p.strip() for p in text.split(delimiter) if p.strip()]
def stats(segments):
if not segments:
return {}
lengths = [len(s) for s in segments]
return {
"total": len(segments),
"avg_length": sum(lengths) // len(lengths),
"longest": max(lengths),
"shortest": min(lengths),
}
text = """Hello world. How are you today? I am doing well!
This is a second group of sentences. They continue here."""
sentences = split_sentences(text)
for i, s in enumerate(sentences, 1):
print(f"{i}. {s}")
print(stats(sentences))Comments & Feedback
Comments are powered by Giscus. Sign in with GitHub to leave a comment.