문장 분리기
텍스트를 문장, 단락 또는 사용자 지정 구분자로 분리합니다. 세그먼트 수와 길이 통계를 표시합니다.
이 도구 소개
문장 분할기(Sentence Splitter)는 텍스트를 논리적인 단위—문장, 단락 또는 사용자 정의 구분자로 분해하는 실용적인 도구입니다. 연구 목적의 텍스트 분석, NLP 작업용 콘텐츠 처리, 또는 긴 문단의 정리가 필요할 때, 이 도구는 각 세그먼트를 자동으로 계산하고 길이 통계를 제공하여 수동 파싱의 번거로움을 덜어줍니다.
텍스트를 입력 필드에 붙여넣고, 분할 방법(문장, 단락 또는 사용자 정의 구분자)을 선택한 후 분할 버튼을 클릭하면 됩니다. 도구는 즉시 각 세그먼트를 번호가 매겨진 목록으로 표시하고 문자 수와 단어 수를 함께 보여주므로, 패턴을 파악하거나 세그먼트 길이를 비교하거나 추가 처리를 위해 결과를 내보내기가 쉬워집니다.
이 도구는 긴 문서를 편집하는 작가, 텍스트 모델용 학습 데이터를 준비하는 개발자, 기사 구조를 관리하는 콘텐츠 제작자, 그리고 무거운 워드 프로세서나 데이터베이스 도구 없이 빠른 텍스트 분석이 필요한 모든 사람에게 매우 유용합니다.
자주 묻는 질문
코드 구현
import re
def split_sentences(text):
# Split on .!? followed by space+uppercase (basic sentence detection)
sentences = re.split(r'(?<=[.!?])\s+(?=[A-Z"'])', text.strip())
return [s.strip() for s in sentences if s.strip()]
def split_paragraphs(text):
return [p.strip() for p in re.split(r'\n{2,}', text) if p.strip()]
def split_custom(text, delimiter):
return [p.strip() for p in text.split(delimiter) if p.strip()]
def stats(segments):
if not segments:
return {}
lengths = [len(s) for s in segments]
return {
"total": len(segments),
"avg_length": sum(lengths) // len(lengths),
"longest": max(lengths),
"shortest": min(lengths),
}
text = """Hello world. How are you today? I am doing well!
This is a second group of sentences. They continue here."""
sentences = split_sentences(text)
for i, s in enumerate(sentences, 1):
print(f"{i}. {s}")
print(stats(sentences))Comments & Feedback
Comments are powered by Giscus. Sign in with GitHub to leave a comment.